カタカナ外来語の表記の揺れの解消
この論文をさがす
説明
日本語はカタカナ書きにすることによって、外国語を容易に取り入れることが可能である。そのために、日常の文書においてもカタカナ語が氾濫している。しかしカタカナ外来語のこの性質は、計算機で文書処理を行う際非常に大きな負担となる。形態素解析においては、字種の違いによって語境界を識別できるという利点があるが、構文的,意味的あるいは対訳付けなどのより深い解析を行なおうとすると、様々な問題が生じる。まず、カタカナ外来語においては表記の揺れが多い。これらすべてを辞書に登録するにしても、表記の基準が明確でなく問題がある。さらに、力タカナ外来語には、単に外国語を取り入れるため一時的に用いられ、それがまだ日本語の単語として定着していないものが存在する。このようなカタカナ外来語は、ライフ・サイクルが短く、それらすべてを日本語辞書にのせることは単に辞書保守のコストの増大を招くのみで、辞書に登録した結果大きな効果が得られることは期待できない。そのため、日本語として定着しているもののみ日本語辞書に記述し、他のカタカナ外来語は原語辞書を直接参照するようにすれば辞書システム全体の記述のモジュラリティは向上する。力タカナ外来語と原語を対応付けるための基本的なアプローチは、カタカナの音韻的性質に基づく。しかし単純に変換規則を適用すると生成される候補の数がべき乗的に増えてしまう。本論文で提案する手法は、基本的にはカタカナの音韻的性質に基づいて原語を推定するものであるが、生成される対象を原語辞書の語に制限する。これによって探索空間を狭め、効率的な探索を可能にする。本手法は変換規則の最も生成力の強い解釈を行う。このような方法だと、単純に生成を進めていけば、べき乗の候補が生成されてしまう。このような生成単語の増大を防ぐために2つの手順を考える。1つは、単語の生成過程で、原語辞書を用いて可能性のない探索経路を途中でカットすること。もう1つは、規則の適応を最も条件が尤度順に行ない、より確からしいものから生成されるようにし、ある基準を満足するだけの候補が出揃ったら、そこで探索を止めて、全探索空間を探索しないことである。本手法においては変換規則を表記レベルで記述する。音素レベルで変換規則を記述するシステムもあるが、規則の記述に音素を用いなければならない。本手法では、表記レベルで記述するこどにより、変換規則が容易に開発できるように配慮している。
収録刊行物
-
- 全国大会講演論文集
-
全国大会講演論文集 第41回 (人工知能及び認知科学), 191-192, 1990-09-04
情報処理学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1050855522106141952
-
- NII書誌ID
- AN00349328
-
- 本文言語コード
- ja
-
- 資料種別
- conference paper
-
- データソース種別
-
- IRDB