横山詔一・笹原宏之・野崎浩成・エリク=ロング『新聞電子メディアの漢字-朝日新聞CD-ROMによる漢字頻度表-』

書誌事項

タイトル別名
  • YOKOYAMA Shoichi, SASAHARA Hiroyuki, NOZAKI Hironari, Eric LONG "A Study of the Use of Kanji in Electronic Newspaper Media"
  • 横山詔一・笹原宏之・野崎浩成・エリク=ロング編著『新聞電子メディアの漢字--朝日新聞CD-ROMによる漢字頻度表』
  • ヨコヤマ ショウイチ ササハラ ヒロユキ ノザキ ヒロナリ エリク ロング ヘン チョ シンブン デンシ メディア ノ カンジ アサヒ シンブン CD-ROM ニ ヨル カンジ ヒンドヒョウ

この論文をさがす

抄録

東京外国語大学アジア・アフリカ言語文化研究所

Institute for the Study of Languages and Cultures of Asia and Africa, Tokyo University of Foreign Studies

本書は,「朝日新聞」原紙とそのCD-ROM版テキストファイルとを照合する事によって,成立過程から既にコード化されているテキストが,別のコード化規準の下でどの様に変容するかを克明に追究したものであり,その意味で,初の「電子メディア文献学的研究」と呼ぶべきものである。本書は,「朝日文字」を含む電子化テキストという特異な例を扱ってはいるが,文献学的な手法は,本書の扱う文字全般に徹底している。本書の方法論が,それ以前の文字計量研究との対比に於て示唆するのは,明示的で操作可能な文字の同定規準が無い限り,文字適量研究の結果は扱い難い事である。本書が紙面照合を通じて文宇同定に費やした労力は,本書の文字統計の将来の価値に大きく貢献している。これに比して,従来の文字統計研究は,本書が努力した様な文字同定の手続きが不分明で,他との統計的比較が無効になり兼ねないという問題を持つものもある。

The authors' study, based on an exhaustive listing of the kanji in the articles of Asahi Shinbun, one of the major newspapers of Japan, suggests that for valid analyses of character statistics, an explicit and stable procedure for character identification is crucial. The most typical case of this is the problem of the so-called "Asahi characters" (simplified versions of kanji used in Asahi Shinbun which are not sanctioned by government decree). There are numerous discrepancies between the CD-ROM text of the newspaper and the printed one, especially because the character identification principles used in production of the CD-ROM version were sometimes inconsistent. The authors dedicated a great deal of work to the verification of the CD-ROM text based on the printed text, which justifies characterizing this work as the first philological study of machinereadable Japanese texts.

application/pdf

収録刊行物

被引用文献 (2)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ