WEB文書を対象にしたKWICシステム

  • 関根 聡
    ニューヨーク大学コンピュータサイエンス学科 株式会社ランゲージ・クラフト研究所
  • 武田 善行
    豊橋技術科学大学情報工学系
  • 吉平 健治
    NECラボラトリースアメリカ

書誌事項

タイトル別名
  • KWIC System on WEB Documents

この論文をさがす

説明

A KWIC (KeyWord In Context) system is a useful tool to investigate the usage oflanguage.We developed a KWIC system for a huge WEB text.The text data isextracted from about 350 giga byte WEB pages and contains more than 10 billioncharacters.It was done by a crawler for about 2month period.The amount of thetext data exceeds 4 giga bytes which can be expressed in 32 bits.We developed asuffix array indexer which can handle 40 bits and the system searches sentences withdesired keywords in it.In order to show the usefulness of the system for Japaneselearners as a second language, we collect KWIC data for “TO-ITAMU (painful like)” and analyzed onomatopoeia appear before the expression.

収録刊行物

  • 自然言語処理

    自然言語処理 12 (4), 245-252, 2005

    一般社団法人 言語処理学会

詳細情報 詳細情報について

問題の指摘

ページトップへ