異なるRGB-Dスキャンを用いたデータセット横断3D言語接地
書誌事項
- タイトル別名
-
- Baseline and Dataset for Cross-Dataset 3D Visual Grounding on Different RGB-D Scans
抄録
<p>本研究では異なるRGB-Dスキャンを用いたデータセット横断3D言語接地課題(Cross3DVG)について紹介する.Cross3DVGのため,我々は3RScanデータセットの1,380のRGB-Dスキャン中の3D物体に対して63,000件以上の多様な言語記述を人手で付与し,新規の大規模3D言語接地データセットRIOReferを作成した.これはScanNetをもとにした3D言語接地データセットScanReferの52,000件の言語記述に匹敵する.我々は,RIOReferとScanReferを用いて,1方の3D言語接地データセットでモデルを訓練し,もう片方の3D言語接地データセットで評価を行った.従来の言語接地モデルとCLIPベースの2D-3D統合手法を用いた広範な実験により(i)データセットを横断した3D言語接地は単一のデータで学習した場合と比べて性能が著しく低下すること(ⅱ)より良い3D物体検出器とTransformerを用いた物体選択が有用であること(ⅲ)CLIPがCross3DVGに有効であることがわかった.</p>
収録刊行物
-
- 人工知能学会全国大会論文集
-
人工知能学会全国大会論文集 JSAI2023 (0), 2A5GS204-2A5GS204, 2023
一般社団法人 人工知能学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390859758174559232
-
- ISSN
- 27587347
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
-
- 抄録ライセンスフラグ
- 使用不可