- 【Updated on May 12, 2025】 Integration of CiNii Dissertations and CiNii Books into CiNii Research
- Trial version of CiNii Research Knowledge Graph Search feature is available on CiNii Labs
- 【Updated on June 30, 2025】Suspension and deletion of data provided by Nikkei BP
- Regarding the recording of “Research Data” and “Evidence Data”
Approximate String Matching Based on Kana Variants of Names
Bibliographic Information
- Other Title
-
- 人名のかな表記のゆれに基づく近似文字列照合法
- 情報検索
Search this article
Description
日本人名のかな表記にゆれとよばれる変形が存在し、日本語情報検索システムの問題となっている。本論文では人名のかな表記にゆれが存在してももれのない検索を可能とする近似文字列照合法を提案する。ゆれの問題に対処するためには表記を統一して検索を行うことが一般的であるが、現在かな表記を統一する墓準は明らかではなく、そのため統一すべきゆれが多種になった場合の対策も明らかになっていない。本文では日本人名約3 000万件を解析し、姓のゆれのデータを収集分析する。その結果、娃は9万種の姓のゆれ単位に分類できること、実データ上で58%の姓に何らかのゆれが存在すること、ゆれの原因は連濁などの接続部の変化が大部分を占めることを明らかにする。さらにこのゆれの関係に墓づいた正規化による照合を提案する。すなわち、実際にすべてのゆれを21 276組の文字列の等式関係で記述し、そこから自動的に15 841の正規化規則を作成して照合する方法を提案する。この正規化規則を使った照合法を人名の分布にしたがった検索に適用し、再現率と適合率の観点から評価を行った。その結果、93%の適合率を達成したうえで、完全一致検索では1検索あたり15%存在していたゆれによる検索もれを解消した。人名についてかな表記のゆれが荏在してももれのない検索が可能となった。
Journal
-
- 情報処理学会論文誌
-
情報処理学会論文誌 36 (8), 1906-1915, 1995-08-15
Information Processing Society of Japan (IPSJ)
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1050564287841082880
-
- NII Article ID
- 110002722023
-
- NII Book ID
- AN00116647
-
- ISSN
- 18827764
-
- Text Lang
- ja
-
- Article Type
- journal article
-
- Data Source
-
- IRDB
- CiNii Articles