重複レシピの検出における単語の分散表現と文字N-gramの分散表現の比較

DOI

抄録

<p>投稿型レシピサイトには,調理手順テキストなどの料理レシピの構成要素が他のレシピと同一のレシピ(重複レシピ)が存在する.本研究では,単語の分散表現間の距離に基づいて文書間の距離を算出する手法であるWord Mover's Distanceを文字3-gramの分散表現へと応用した手法を提案する.評価実験では,約121万件のレシピから単語の分散表現と文字3-gramの分散表現をSkip-gram Model with Negative Sampling, fastTextの2手法を用いて学習し,重複レシピペア候補を抽出する.そして,重複レシピペア候補へのアノテーションを行い,重複レシピ検出手法の評価を行う.実験の結果、単語の分散表現を用いた際には検出できなかった重複レシピが,文字3-gramの分散表現を用いることによって検出できることを確認した.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390575495615175040
  • DOI
    10.57413/wii.14.0_29
  • ISSN
    27582922
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用可

問題の指摘

ページトップへ