Construction and Analysis of Information-Structure Annotation of the "Balanced Corpus of Contemporary Written Japanese"

Bibliographic Information

Other Title
  • 『現代日本語書き言葉均衡コーパス』への情報構造アノテーションとその分析
  • 『 ゲンダイ ニホンゴ カキコトバ キンコウ コーパス 』 エ ノ ジョウホウ コウゾウ アノテーション ト ソノ ブンセキ

Search this article

Description

本稿では,『現代日本語書き言葉均衡コーパス』のテキスト(新聞(PN)コアデータ16サンプル)内の名詞句に対し,情報構造に関係する文法情報のラベル(情報状態,共有性,定性,特定性,有生性,有情性,動作主性)をアノテーションした結果を報告する。特に,本稿ではアノテーションの概要と基礎統計について述べる。ラベル間の対応をKappa値で評価した結果,先行研究で既にアノテーションされていた共参照情報を基にした情報状態と定性・特定性の間には中程度の一致(0.41以上)が見られたのに対し,今回新たに付与した共有性と定性・特定性の間にはほとんど完璧な一致(0.81以上)が見られた。冠詞選択に大きな影響を与える定性・特定性のアノテーションは,定性・特定性が話し手側により踏み込んだ概念であることから複雑で難度が高いため,他の文法情報で定性・特定性を推定する方がより容易であると考えられる。評価の結果は,定性・特定性の推定には,共参照情報を基にした情報状態だけでは十分でなく,聞き手/読み手の観点を考慮した共有性が重要であることを意味している。また,日本語では助詞「は」と「が」の使い分けについて,情報構造との関連が指摘されているが,付属語主辞とのラベルの関係を見ると,「が」「を」「に」は新情報が多く,「は」は若干旧情報が多いこと,「は」「の」に定性・特定のものが多く,「を」に不定・不特定のものが多いことがわかった。

Journal

References(1)*help

See more

Related Projects

See more

Details 詳細情報について

Report a problem

Back to top