『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用

書誌事項

タイトル別名
  • Design, Implementation, and Operation of Annotation Support System for Morphological Information of BCCWJ
  • 『 ゲンダイ ニホンゴ カキコトバ キンコウ コーパス 』 ケイタイロン ジョウホウ アノテーション シエン システム ノ セッケイ ・ ジッソウ ・ ウンヨウ

この論文をさがす

抄録

『現代日本語書き言葉均衡コーパス』は1億語を超える大規模なコーパスであり,17 万ファイル以上の XML 文書に短単位・長単位の形態論情報アノテーションが施されている.このコーパスの構築を目的としてアノテーションのためのシステムが開発された.このシステムは,辞書見出しデータベースと,タグ付けされたコーパスとを関連付けて,整合性を保ちつつ多くの作業者が編集していくことを可能にするものである.このシステムは,関係データベースで構築されたサーバ「形態論情報データベース」と,辞書を参照しながらコーパスの修正作業を可能にするコーパス修正用のクライアントツール「大納言」,形態素解析辞書 UniDic の見出し語の管理ツール「UniDic Explorer」から成る.本稿はこのデータベースシステムの設計・実装・運用について論ずる.

収録刊行物

  • 自然言語処理

    自然言語処理 21 (2), 301-332, 2014

    一般社団法人 言語処理学会

参考文献 (2)*注記

もっと見る

詳細情報

問題の指摘

ページトップへ