Large Scale Dictionary Development for Sudachi

Bibliographic Information

Other Title
  • 形態素解析器『Sudachi』のための大規模辞書開発

Description

WAP Tokushima Laboratory of AI and NLP

WAP Tokushima Laboratory of AI and NLP

WAP Tokushima Laboratory of AI and NLP

WAP Tokushima Laboratory of AI and NLP

WAP Tokushima Laboratory of AI and NLP

会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター

我々は,汎用的な日本語形態素解析器『Sudachi』とその辞書を開発した。本稿では,Sudachiの辞書開発内容について述べる。我々は,まず,UniDicをベースとして,見出し表記,品詞,各種パラメータ等,形態素解析をするための辞書情報を整えた。次に,実用上UniDicに不足している語句を見出しとして追加した。これには,NEologdから取り込んだ膨大な固有名称も含まれる。さらに,登録見出しについて,アプリケーションが利用しやすい形態素単位の整備,表記のゆれを同一視するための正規化表記の整備等を行い,辞書内容を充実させた。また,形態素解析精度の向上のため,UniDic由来の見出しについても,弊害となる見出しの抑制や間違いの修正,形態素単位の調整を行った。我々のこれまでの成果は,最新版の辞書ソースに反映しOSSとして公開している。

source:https://pj.ninjal.ac.jp/corpus_center/lrw2018.html

identifier:株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所

identifier:株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所

identifier:株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所

identifier:株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所

identifier:株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所

Journal

References(1)*help

See more

Details 詳細情報について

Report a problem

Back to top