〈共同研究プロジェクト紹介〉萌芽・発掘型 : 統計と機械学習による日本語史研究 歴史的日本語資料のアノテーションと自動濁点付与

小木曽 智信, Toshinobu OGISO

doi:10.15084/00000743

書誌事項

タイトル別名

Analysis of Historical Japanese Texts and Automatic dakuten Annotation
共同研究プロジェクト紹介萌芽・発掘型 : 統計と機械学習による日本語史研究歴史的日本語資料のアノテーションと自動濁点付与
キョウドウケンキュウプロジェクトショウカイホウガ・ハックツガタ : トウケイトキカイガクシュウニヨルニホンゴシケンキュウレキシテキニホンゴシリョウノアノテーショントジドウダクテンフヨ

この論文をさがす

説明

通時コーパスの構築に必要とされる歴史的日本語資料のアノテーションの全体について俯瞰した上で,アノテーション作業の自動化の試みの一つとして濁点の自動付与に関する研究成果を紹介する。歴史的資料では,濁点が十分に付与されていないものが少なくないが,そのままでは読みにくく検索や形態素解析にとって不都合である。そこで統計的機械学習に基づく自動濁点付与の手法を開発し,適合率約96%,再現率約98%での濁点付与を可能にした。これにより通時コーパス構築の作業負担の軽減が期待できる。最後に,今後の歴史コーパスに期待される高度なアノテーションについて展望する。

収録刊行物

国語研プロジェクトレビュー = NINJAL Project Review

国語研プロジェクトレビュー = NINJAL Project Review 4 (2), 144-150, 2013-10

国立国語研究所

詳細情報詳細情報について

CRID: 1390853649698032128

NII論文ID: http://ci.nii.ac.jp/naid/KJ00008708727; 110009614252

NII書誌ID: AA12480598

ISSN: 21850100; 21850119

DOI: 10.15084/00000743

NDL書誌ID: 025943484

Web Site: https://repository.ninjal.ac.jp/records/752; http://id.ndl.go.jp/bib/025943484; https://ndlsearch.ndl.go.jp/books/R000000004-I025943484

本文言語コード: ja

資料種別: departmental bulletin paper

データソース種別

JaLC
IRDB
NDLサーチ
CiNii Articles

書き出し

問題の指摘