重複レシピの検出における単語の分散表現と文字N-gramの分散表現の比較
Abstract
<p>投稿型レシピサイトには,調理手順テキストなどの料理レシピの構成要素が他のレシピと同一のレシピ(重複レシピ)が存在する.本研究では,単語の分散表現間の距離に基づいて文書間の距離を算出する手法であるWord Mover's Distanceを文字3-gramの分散表現へと応用した手法を提案する.評価実験では,約121万件のレシピから単語の分散表現と文字3-gramの分散表現をSkip-gram Model with Negative Sampling, fastTextの2手法を用いて学習し,重複レシピペア候補を抽出する.そして,重複レシピペア候補へのアノテーションを行い,重複レシピ検出手法の評価を行う.実験の結果、単語の分散表現を用いた際には検出できなかった重複レシピが,文字3-gramの分散表現を用いることによって検出できることを確認した.</p>
Journal
-
- Special Interest Group on Web Intelligence and Interaction
-
Special Interest Group on Web Intelligence and Interaction 14 (0), 29-32, 2019
Special Interest Group on Web Intelligence and Interaction
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1390575495615175040
-
- ISSN
- 27582922
-
- Text Lang
- ja
-
- Data Source
-
- JaLC
-
- Abstract License Flag
- Allowed