書誌事項
- タイトル別名
-
- Efficient Compression of Inverted Files and Suffix Arrays
- テンチ ファイル オヨビ セツビジ ハイレツ ノ コウリツテキ アッシュクホウ
この論文をさがす
説明
単語ブロックソート圧縮法を提案する.これは文書と全文検索のための索引を圧縮する方法であり 圧縮データから転置ファイルを高速に生成できる.文書は圧縮時に単語に区切られるため 復号時には形態素解析などの時間のかかる処理は必要ない.これにより 全文検索のための索引を保存する際のディスク容量やネットワークを介して転送する際の負荷を減らすことができる.htmlに対する実験から 圧縮率はgzipよりも良く 圧縮データから転置ファイルを生成する時間は転置ファイルを0から作るよりも短く 形態素解析にかかる時間を含めると5倍以上速いことを確認した.また 単語ブロックソート圧縮法よりも圧縮率の良い通常のブロックソート圧縮法で圧縮された文書から単語を切り出し転置ファイルを生成するアルゴリズムも提案する.
We propose word-based block sorting, which is used for compressing both texts and their full-text indexes, inverted files. Since texts are separated into words, morphological analysis, which is time consuming, is not necessary in the decoder. By using the proposed compression scheme, we can reduce space for storing full-text indexes and a load for transferring them via network. We confirmed by experiments that our compression scheme has better compression ratio than gzip and creating the inverted file from compressed data is faster than creating it from scratch. Furthermore, this is more than five times faster if time for morphological analysis is included. We also propose an algorithm for creating an inverted file from a compressed file by the ordinary block sorting which has better compression ratio than the word-based block sorting
収録刊行物
-
- 情報処理学会論文誌データベース(TOD)
-
情報処理学会論文誌データベース(TOD) 40 (SIG08(TOD4)), 85-94, 1999-11-15
情報処理学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1050282812868681472
-
- NII論文ID
- 10010357113
- 110002931111
- 110003188895
- 10006088316
-
- NII書誌ID
- AA11464847
-
- ISSN
- 18827799
- 09135685
- 03875806
- 09196072
-
- Web Site
- https://ipsj.ixsq.nii.ac.jp/records/17759
- http://id.ndl.go.jp/bib/4828781
- https://ndlsearch.ndl.go.jp/books/R000000004-I4828781
- http://id.ndl.go.jp/bib/5695916
- https://ndlsearch.ndl.go.jp/books/R000000004-I5695916
- http://id.ndl.go.jp/bib/5337996
- https://ndlsearch.ndl.go.jp/books/R000000004-I5337996
-
- 本文言語コード
- ja
-
- 資料種別
- journal article
-
- データソース種別
-
- IRDB
- NDLサーチ
- CiNii Articles