コンピュータリーダブルな化学文献データ中の誤りチェック

DOI

書誌事項

タイトル別名
  • Error Check of Computer Readable Chemical Bibliographic Data

抄録

われわれは,大量情報の計算機処理の基礎研究として,データベースの作製と利用の研究を行なっている。分析化学会会誌の英文抄録1年分(294編)をオンライン・ディスクファイルデータベースとしたものについて,ファイル中の抄録データのエラーを解析した。このようなエラーは,コンピュータによる自然語検索を行なう際に致命的な影響を及ぼす。抄録文データを使われているすべての単語に分解し,出現回数1の単語(2111種)をリストアップし,これを人間か判読してエラー単語(397語)をひろい,これらについてエラーの発生場所とその分類の解析を行なった。発生場所は「雑誌上ですでに存在していた(オリジナル)」「計算機リーダブルなデータベース作成時(コーディング・パンチ)に生じた」の2か所である。エラーは(1)書きおとし(例.ABSTRCT),(2)書きちがえ(AVSTRACT),(3)書きすぎ(ABSTTRACT),(4)英語のエラーに分類される。(1)のエラーはエラー全体の約53%,(2)は27%,(3)は15%,(4)は5%であった。雑誌作成の際生じるエラーも,これをコンピュータリーダブル化する作業(コーディング・パンチ)の際生じるエラーも上の分類では同じ傾向を示す。しかしアルファベット1文字ずつについてみると,誤り文字の頻度順位は発生場所によりかなり異なる。

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390282679116325120
  • NII論文ID
    110006626188
  • DOI
    10.18919/dokumen.25.3_95
  • ISSN
    2189826X
    00125180
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ