Large Scale Dictionary Development for Sudachi
Bibliographic Information
- Other Title
-
- 形態素解析器『Sudachi』のための大規模辞書開発
Description
WAP Tokushima Laboratory of AI and NLP
WAP Tokushima Laboratory of AI and NLP
WAP Tokushima Laboratory of AI and NLP
WAP Tokushima Laboratory of AI and NLP
WAP Tokushima Laboratory of AI and NLP
会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター
我々は,汎用的な日本語形態素解析器『Sudachi』とその辞書を開発した。本稿では,Sudachiの辞書開発内容について述べる。我々は,まず,UniDicをベースとして,見出し表記,品詞,各種パラメータ等,形態素解析をするための辞書情報を整えた。次に,実用上UniDicに不足している語句を見出しとして追加した。これには,NEologdから取り込んだ膨大な固有名称も含まれる。さらに,登録見出しについて,アプリケーションが利用しやすい形態素単位の整備,表記のゆれを同一視するための正規化表記の整備等を行い,辞書内容を充実させた。また,形態素解析精度の向上のため,UniDic由来の見出しについても,弊害となる見出しの抑制や間違いの修正,形態素単位の調整を行った。我々のこれまでの成果は,最新版の辞書ソースに反映しOSSとして公開している。
source:https://pj.ninjal.ac.jp/corpus_center/lrw2018.html
identifier:株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所
identifier:株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所
identifier:株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所
identifier:株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所
identifier:株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所
Journal
-
- 言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop
-
言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop 3 118-129, 2018
国立国語研究所
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1390290699745031808
-
- NII Article ID
- 120006698065
-
- Web Site
- http://id.nii.ac.jp/1328/00001644/
-
- Text Lang
- ja
-
- Article Type
- conference paper
-
- Data Source
-
- JaLC
- IRDB
- CiNii Articles
- NINJAL