TEI:P5に基づく近世口語資料の構造化とその問題点

書誌事項

タイトル別名
  • Problems in TEI P5 Encoding on\nColloquial Japanese Documents of the Early Modern Period

抄録

国立国語研究所では,「日本語歴史コーパス設計」プロジェクトの一環として古典資料の形態素解析を実施している.形態素解析を行うためには,基礎資料となる古典テキストの電子化が必須である.これまでに様々な時代のテキストコーパスを電子化し,公開している.しかし,これらのテキストコーパスは,国立国語研究所が独自に考案したタグセットに基づくXML を用いてマークアップが行われているため,各コーパスを規定する要素は,基本的に統一されていない.そのため,複数のコーパス間の構造比較や計量分析を機械的に実施することが現状では難しいという問題を抱えている.したがって,複数のコーパスの構造を高次の視点から統一的に記述することが求められている.本稿では,この問題を解決するために,洒落本の一冊『傾城買二筋道』の版本を事例に,TEI P5 準拠のXML 形式による文書構造化を検討する.

The National Institute for Japanese Language and Linguistics (NINJAL) is conducting morphological analysis on Japanese classics. Digitization has been done thus far on the literature of several ages and various text corpora are published. However, each element (tag) of the text corpora is marked up under NINJAL’s Document Type Definition, which is basically neither unified nor standardized. Under this circumstance causes problem with structural analysis and numerical analyses between several corpora. Thus it is necessary to design and mark up a unified definition from a higher level in order to conduct analyses concurrently. In this study, we examine the possibilities to convert documents of classical Japanese, an old block book from Sharebon’s “Keisei-kai futasuji-no-michi” (published in 1798) as a model case, with TEI-compliant XML and discuss its issues.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1050292572154442240
  • NII論文ID
    170000079268
  • Web Site
    http://id.nii.ac.jp/1001/00096389/
  • 本文言語コード
    ja
  • 資料種別
    conference paper
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ