[Updated on Apr. 18] Integration of CiNii Articles into CiNii Research


Bibliographic Information

Other Title
  • Problems in TEI P5 Encoding on\nColloquial Japanese Documents of the Early Modern Period


国立国語研究所では,「日本語歴史コーパス設計」プロジェクトの一環として古典資料の形態素解析を実施している.形態素解析を行うためには,基礎資料となる古典テキストの電子化が必須である.これまでに様々な時代のテキストコーパスを電子化し,公開している.しかし,これらのテキストコーパスは,国立国語研究所が独自に考案したタグセットに基づくXML を用いてマークアップが行われているため,各コーパスを規定する要素は,基本的に統一されていない.そのため,複数のコーパス間の構造比較や計量分析を機械的に実施することが現状では難しいという問題を抱えている.したがって,複数のコーパスの構造を高次の視点から統一的に記述することが求められている.本稿では,この問題を解決するために,洒落本の一冊『傾城買二筋道』の版本を事例に,TEI P5 準拠のXML 形式による文書構造化を検討する.

The National Institute for Japanese Language and Linguistics (NINJAL) is conducting morphological analysis on Japanese classics. Digitization has been done thus far on the literature of several ages and various text corpora are published. However, each element (tag) of the text corpora is marked up under NINJAL’s Document Type Definition, which is basically neither unified nor standardized. Under this circumstance causes problem with structural analysis and numerical analyses between several corpora. Thus it is necessary to design and mark up a unified definition from a higher level in order to conduct analyses concurrently. In this study, we examine the possibilities to convert documents of classical Japanese, an old block book from Sharebon’s “Keisei-kai futasuji-no-michi” (published in 1798) as a model case, with TEI-compliant XML and discuss its issues.


Citations (0)*help

See more


See more

Related Articles

See more

Related Data

See more

Related Books

See more

Related Dissertations

See more

Related Projects

See more

Related Products

See more


  • CRID
  • NII Article ID
  • Web Site
  • Text Lang
  • Article Type
    conference paper
  • Data Source
    • IRDB
    • CiNii Articles

Report a problem

Back to top