Construction and Analysis of Information-Structure Annotation of the "Balanced Corpus of Contemporary Written Japanese"

Bibliographic Information

Other Title
  • 『現代日本語書き言葉均衡コーパス』への情報構造アノテーションとその分析
  • 『 ゲンダイ ニホンゴ カキコトバ キンコウ コーパス 』 エ ノ ジョウホウ コウゾウ アノテーション ト ソノ ブンセキ

Search this article

Abstract

東京外国語大学大学院 博士後期課程

国立国語研究所 コーパス開発センター

千葉大学人文科学研究院 特任研究員

国立国語研究所 コーパス開発センター 非常勤研究員

Ph.D. Student, Tokyo University of Foreign Studies

Center for Corpus Development, NINJAL

Research Fellow, Graduate School of Humanities, Chiba University

Adjunct Researcher, Center for Corpus Development, NINJAL

本稿では,『現代日本語書き言葉均衡コーパス』のテキスト(新聞(PN)コアデータ16サンプル)内の名詞句に対し,情報構造に関係する文法情報のラベル(情報状態,共有性,定性,特定性,有生性,有情性,動作主性)をアノテーションした結果を報告する。特に,本稿ではアノテーションの概要と基礎統計について述べる。ラベル間の対応をKappa値で評価した結果,先行研究で既にアノテーションされていた共参照情報を基にした情報状態と定性・特定性の間には中程度の一致(0.41以上)が見られたのに対し,今回新たに付与した共有性と定性・特定性の間にはほとんど完璧な一致(0.81以上)が見られた。冠詞選択に大きな影響を与える定性・特定性のアノテーションは,定性・特定性が話し手側により踏み込んだ概念であることから複雑で難度が高いため,他の文法情報で定性・特定性を推定する方がより容易であると考えられる。評価の結果は,定性・特定性の推定には,共参照情報を基にした情報状態だけでは十分でなく,聞き手/読み手の観点を考慮した共有性が重要であることを意味している。また,日本語では助詞「は」と「が」の使い分けについて,情報構造との関連が指摘されているが,付属語主辞とのラベルの関係を見ると,「が」「を」「に」は新情報が多く,「は」は若干旧情報が多いこと,「は」「の」に定性・特定のものが多く,「を」に不定・不特定のものが多いことがわかった。

This paper presents the information structure's annotation data (information status, commonness, definiteness, specificity, animacy, sentience, and agentivity) of the "Balanced Corpus of Contemporary Written Japanese." The annotation schema and statistics are displayed. Evaluation utilizing Kappa value indicates a moderate agreement (0.41≤) between the information status that is based on the already annotated co-reference information and definiteness/specificity. In addition, there is an almost perfect agreement (0.81≤) between commonness, which is recently annotated in this research, and definiteness/specificity. Thus, we conclude that commonness is more significant than information status to estimate definiteness and specificity, significantly affecting article selection in languages with articles. We investigate the relation between some particles and labels explained in this research since some researchers report that information structure is related to the distinction between the particles wa and ga in Japanese. Hence, the particles ga, o, and ni are usually employed with discourse-new noun phrases and wa with discourse-old ones. The particle wa is generally employed with definite and specific noun phrases, while o is employed with indefinite and unspecific ones.

application/pdf

Journal

References(1)*help

See more

Related Projects

See more

Details 詳細情報について

Report a problem

Back to top