Program Integrated Information の文字列の単語数とBrown Corpus の文の単語数の比較

書誌事項

タイトル別名
  • Program Integrated Information ノ モジレツ ノ タンゴスウ ト Brown Corpus ノ ブン ノ タンゴスウ ノ ヒカク
  • The Number of Words Comparison between the Strings of the Program Integrated Information and the Sentences of the Brown Corpus
  • 自然言語

この論文をさがす

抄録

プログラムが人間と意思疎通するために出力する文字列をProgram Integrated Information(PII)文字列とよぶ.本研究では,PII 文字列の単語数にはどのような統計的な特徴があるかを調べた.その結果,PII 文字列の単語数の分布は,log-linearの目盛りで直線に回帰することが分かった.そして,その分布をBrown Corpus の文の単語数の分布と比較した.その結果,単語数がlog-linear の目盛りで直線に回帰するパターンは,PII 文字列の単語数だけでなく,文の単語数にも存在することが分かった.文の場合は,単語数が多いとこのlog-linear のパターンに従うが,単語数が少ないとこのパターンには従わない.PII 文字列は,PII 文字列の単語間内の「つながり」だけではなく,PII 文字列とGUI 上のオブジェクトとの「つながり」を持つので,全単語数の領域で,このlog-linear のパターンに従う.

Programs use Program Integrated Information (PII) as output strings to communicate with users. This paper describes the analyses of the numbers of words in many sets of PII strings to get their statistical characteristics. We found that the distribution patterns of the numbers of words in the PII strings follow a loglinear regression pattern. Then, we compared the distribution patterns with the sentence length distribution in whole Brown Corpus. The log-linear regression pattern of PII strings was also found in the pattern of the whole Brown Corpus, as long as the number of words in each sentence is 12 or more. A PII string has associations not only within the PII string, but also with the objects in the GUI that the PII string belongs to. The associations with the objects in the GUI allow the distribution patterns of PII strings to be a log-linear regression pattern for almost all numbers of words, whereas the sentences in the Brown Corpus do not show this pattern for sentences with less than 12 words.

収録刊行物

被引用文献 (1)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ