文字列の頻度分布による共通パタン発見

書誌事項

タイトル別名
  • Pattern Discovery from Distributions of String Frequency
  • モジレツ ノ ヒンド ブンプ ニ ヨル キョウツウ パタン ハッケン

この論文をさがす

抄録

パタンを定数と変数からなる文字列とする。パタン中の変数を定数文字列で置きかえて得られる文 字列をそのパタンから生成される語とする。本稿では、未知のパタンから生成された語の有限集合が 与えられた時に、そのパタンの定数部分を見つける問題(テンプレート発見問題) を考察する。未知 パタンの定数部分が適当な長さを持ち、変数へ代入される定数文字列が自然な確率分布に従っている ならば、パタンから生成される語において、定数部分と変数に代入された文字列の部分文字列の出現 頻度の差を利用してテンプレートを効率よく発見できることを示す。さらに、Web 上のHTML ファ イルでの予備的な実験結果を紹介する。

第72回情報学基礎研究会、第157回自然言語処理研究会(合同開催), September, 2003

収録刊行物

被引用文献 (1)*注記

もっと見る

参考文献 (23)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ