異なるRGB-Dスキャンを用いたデータセット横断3D言語接地

DOI

書誌事項

タイトル別名
  • Baseline and Dataset for Cross-Dataset 3D Visual Grounding on Different RGB-D Scans

抄録

<p>本研究では異なるRGB-Dスキャンを用いたデータセット横断3D言語接地課題(Cross3DVG)について紹介する.Cross3DVGのため,我々は3RScanデータセットの1,380のRGB-Dスキャン中の3D物体に対して63,000件以上の多様な言語記述を人手で付与し,新規の大規模3D言語接地データセットRIOReferを作成した.これはScanNetをもとにした3D言語接地データセットScanReferの52,000件の言語記述に匹敵する.我々は,RIOReferとScanReferを用いて,1方の3D言語接地データセットでモデルを訓練し,もう片方の3D言語接地データセットで評価を行った.従来の言語接地モデルとCLIPベースの2D-3D統合手法を用いた広範な実験により(i)データセットを横断した3D言語接地は単一のデータで学習した場合と比べて性能が著しく低下すること(ⅱ)より良い3D物体検出器とTransformerを用いた物体選択が有用であること(ⅲ)CLIPがCross3DVGに有効であることがわかった.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390859758174559232
  • DOI
    10.11517/pjsai.jsai2023.0_2a5gs204
  • ISSN
    27587347
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ