音声ドキュメント検索における種々の検討および線形補間係数を自動決定する検索質問拡張

書誌事項

タイトル別名
  • Investigation of Spoken Document Retrieval and Calculation Method of Weight Parameter for Query Expansion

この論文をさがす

抄録

近年,音声を含むマルチメディアコンテンツが身近な存在となり,それらを検索する音声ドキュメント検索に関する研究がさかんに行われるようになってきている.本論文では,2011年に開催されたNTCIR-9ワークショップのコアタスクSpokenDoc内のSDRサブタスクに参加した際に行った音声ドキュメント検索に対する種々の検討を報告する.検討内容はベクトル空間モデルによるテキスト検索において,索引語の単位,索引語重みづけ方法,ベクトル空間に射影する音声認識候補数,検索質問拡張方法などの比較である.これらの種々の検討結果に基づきNTCIR-9ワークショップのSpokenDocタスク内のSDRサブタスクに提出した検索結果は,NTCIR-9ワークショップから提供された音声認識結果を用いSDRサブタスクに参加した3機関(9結果)の中で最も高い検索精度を示した.本論文では,各ベクトル空間で計算される類似度を統合して音声ドキュメント検索を行うことを提案した.さらに,検索質問拡張における検索質問ベクトルと拡張ベクトルを結合する線形補間係数の自動決定手法を検討した.提案手法の有効性の検証および種々の検討ため,NTCIR-9のSpokenDocタスク内のSDRサブタスクを用いた音声ドキュメント検索実験を行った.実験結果より,音節を索引語とした場合,単語を索引語とした場合の両方において,索引語重みづけ手法TF-IDFが高い検索精度を示した.また,検索質問拡張に用いる文書は,収集範囲に制限を行わずインターネット上のWebページ全体を検索し,収集した場合に検索精度が高くなることが分かった.さらに,提案手法により各ベクトル空間で計算される類似度を統合して音声ドキュメント検索を行うことは,各ベクトル空間の検索結果を向上させることが分かった.

Recently, there are many other kinds of media data, such as pictures, movies, music, speech, and so on, on the Internet. We focus on retrieval of speech data in the form of “spoken documents” from among these multimedia data. This paper describes investigations of the spoken document retrieval performed when we attended the SpokenDoc task in NTCIR-9 meeting. We investigated the kind of index terms, the weighting method of index terms, the query expansion method, and so on. In addition, we propose a distance combination method for the spoken document retrieval and investigate a weight parameter determination method for query expansion. We conducted spoken document retrieval experiments on the SpokenDoc task of the NTCIR-9 workshop for investigations and for evaluation of the proposed method. Experimental results show that the TF-IDF is useful for the term weighting method. In addition, experimental result shows that the distance combination improves the retrieval performance of individual method.

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

  • CRID
    1050001337904502272
  • NII論文ID
    110009795217
  • NII書誌ID
    AN00116647
  • ISSN
    18827764
  • Web Site
    http://id.nii.ac.jp/1001/00101713/
  • 本文言語コード
    ja
  • 資料種別
    journal article
  • データソース種別
    • IRDB
    • CiNii Articles
    • KAKEN

問題の指摘

ページトップへ