人名のかな表記のゆれに基づく近似文字列照合法

書誌事項

タイトル別名
  • Approximate String Matching Based on Kana Variants of Names
  • 情報検索

この論文をさがす

説明

日本人名のかな表記にゆれとよばれる変形が存在し、日本語情報検索システムの問題となっている。本論文では人名のかな表記にゆれが存在してももれのない検索を可能とする近似文字列照合法を提案する。ゆれの問題に対処するためには表記を統一して検索を行うことが一般的であるが、現在かな表記を統一する墓準は明らかではなく、そのため統一すべきゆれが多種になった場合の対策も明らかになっていない。本文では日本人名約3 000万件を解析し、姓のゆれのデータを収集分析する。その結果、娃は9万種の姓のゆれ単位に分類できること、実データ上で58%の姓に何らかのゆれが存在すること、ゆれの原因は連濁などの接続部の変化が大部分を占めることを明らかにする。さらにこのゆれの関係に墓づいた正規化による照合を提案する。すなわち、実際にすべてのゆれを21 276組の文字列の等式関係で記述し、そこから自動的に15 841の正規化規則を作成して照合する方法を提案する。この正規化規則を使った照合法を人名の分布にしたがった検索に適用し、再現率と適合率の観点から評価を行った。その結果、93%の適合率を達成したうえで、完全一致検索では1検索あたり15%存在していたゆれによる検索もれを解消した。人名についてかな表記のゆれが荏在してももれのない検索が可能となった。

収録刊行物

被引用文献 (2)*注記

もっと見る

参考文献 (24)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ