特許抄録に出現する多字種複合語に対する字種に基づく解析part.1- 多字種複合語の抽出と構成字種の解析 -

書誌事項

タイトル別名
  • Quantitative Analysis to Japanese Compound Terms with Multi Character Types Appeared in Patent Texts Part.1

この論文をさがす

説明

日本語の科学技術文献のテキストにおいて,主要な概念,テーマは多字種複合語で表現されることが多い.特に学術論文,特許明細書などの専門性の高い文書では,複合語表現が文章中に多々出現する.1993年度の公開特許データベースの抄録から、著者らにより開発された抽出プログラムにより約16万語の多字種複合語を抽出した。さらに人手により非名詞を除去し、約13万語の多字種複合語を得た。Part1では、これらの多字種複合語について字種構成の観点から分析し、さらに辞書見出し語のそれと対比した.結果として,構成字種数2~4で累積98%に達する,先頭字種が日本語である場合,英数字や記号よりも構成数は少なくなる,対象となる文書によって出現頻度は大きく異なる,といった特性が明らかになった.Japanese compound terms or noun phrase are used to explain key concepts or themes in Japanese academic or technical texts. Lots of long compound terms are consisted with multi character types, not with singe character type. This paper reports the extraction method to these terms appeared in the abstract texts of Japanese patent database, and the results of quantitative analyses to the terms from the aspects to structure of character types. Moreover, the comparison was done with the results and our previous research to the terms contained in lots of entry terms in the several dictionaries.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1570291227088446464
  • NII論文ID
    110008712228
  • NII書誌ID
    AN10115061
  • 本文言語コード
    ja
  • データソース種別
    • CiNii Articles

問題の指摘

ページトップへ