Analysis of Historical Japanese Texts and Automatic dakuten Annotation

Bibliographic Information

Other Title
  • 〈共同研究プロジェクト紹介〉萌芽・発掘型 : 統計と機械学習による日本語史研究 歴史的日本語資料のアノテーションと自動濁点付与
  • 共同研究プロジェクト紹介 萌芽・発掘型 : 統計と機械学習による日本語史研究 歴史的日本語資料のアノテーションと自動濁点付与
  • キョウドウ ケンキュウ プロジェクト ショウカイ ホウガ ・ ハックツガタ : トウケイ ト キカイ ガクシュウ ニ ヨル ニホンゴシ ケンキュウ レキシテキ ニホンゴ シリョウ ノ アノテーション ト ジドウ ダクテン フヨ

Search this article

Description

通時コーパスの構築に必要とされる歴史的日本語資料のアノテーションの全体について俯瞰した上で,アノテーション作業の自動化の試みの一つとして濁点の自動付与に関する研究成果を紹介する。歴史的資料では,濁点が十分に付与されていないものが少なくないが,そのままでは読みにくく検索や形態素解析にとって不都合である。そこで統計的機械学習に基づく自動濁点付与の手法を開発し,適合率約96%,再現率約98%での濁点付与を可能にした。これにより通時コーパス構築の作業負担の軽減が期待できる。最後に,今後の歴史コーパスに期待される高度なアノテーションについて展望する。

Journal

Details 詳細情報について

Report a problem

Back to top