日本語資料の全文テキストデータ分析ツールNDL Ngram Viewerの開発について

書誌事項

タイトル別名
  • Development of NDL Ngram Viewer, a tool for full-text data analysis of Japanese materials

抄録

国立国会図書館 (NDL) は2021年度に実施した OCR テキスト化事業の成果である OCR テキス トデータを活用して, Google Books Ngram Viewer から着想を得た日本語版 ngram viewer を開発し, NDL Ngram Viewer と称して実験サービスとして 2022 年 5 月 31 日に一般公開した (https://lab.ndl.go.jp/ngramviewer/).本実験サービスは,日本語のフレーズが検索可能である点と,正 規表現をサポートした検索を行える点の2点において, 先行する類似サービスにない特色を備えてお り高い新規性を有する. 一般的な性能の計算資源のみで各種機能を実現するために, 大規模テキスト データの処理方法に多くの工夫を講じた. 本論文では, 検討の過程で実施した調査, 採用した実装の詳 細及びNDL Ngram Viewer を実際に利用した分析例について報告する.

The National Diet Library (NDL) developed a Japanese version of ngram viewer called NDL Ngram Viewer inspired by Google Books Ngram Viewer using OCR text data from the result of the OCR text conversion project conducted in FY2021. It was released to the public on May 31, 2022 (https://lab.ndl.go.jp/ngramviewer/). This service is highly innovative in two respects: it can search Japanese phrases, and it supports regular expressions. In order to realize this service using only general-performance computing resources, many innovations were made to the method of processing large-scale text data. In this paper, we report on the research conducted in the course of the study, details of the implementation adopted, and examples of actual analysis using the NDL Ngram Viewer.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ