異なるRGB-Dスキャンを用いたデータセット横断3D言語接地

宮西 大樹, 東 大地, 栗田 修平, 川鍋 一晃

doi:10.11517/pjsai.jsai2023.0_2a5gs204

書誌事項

タイトル別名

Baseline and Dataset for Cross-Dataset 3D Visual Grounding on Different RGB-D Scans

抄録

<p>本研究では異なるRGB-Dスキャンを用いたデータセット横断3D言語接地課題（Cross3DVG）について紹介する．Cross3DVGのため,我々は3RScanデータセットの1,380のRGB-Dスキャン中の3D物体に対して63,000件以上の多様な言語記述を人手で付与し,新規の大規模3D言語接地データセットRIOReferを作成した．これはScanNetをもとにした3D言語接地データセットScanReferの52,000件の言語記述に匹敵する．我々は,RIOReferとScanReferを用いて,１方の3D言語接地データセットでモデルを訓練し,もう片方の3D言語接地データセットで評価を行った．従来の言語接地モデルとCLIPベースの2D-3D統合手法を用いた広範な実験により（i）データセットを横断した3D言語接地は単一のデータで学習した場合と比べて性能が著しく低下すること（ⅱ）より良い3D物体検出器とTransformerを用いた物体選択が有用であること（ⅲ）CLIPがCross3DVGに有効であることがわかった．</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2023 (0), 2A5GS204-2A5GS204, 2023

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390859758174559232

DOI: 10.11517/pjsai.jsai2023.0_2a5gs204

ISSN: 27587347

本文言語コード: ja

データソース種別

JaLC

抄録ライセンスフラグ: 使用不可

異なるRGB-Dスキャンを用いたデータセット横断3D言語接地

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

異なるRGB-Dスキャンを用いたデータセット横断3D言語接地

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について