IPAにおけるテキストコーパスの作成

書誌事項

タイトル別名
  • Building a Corpus at IPA

この論文をさがす

説明

IPA技術センターでは、動詞・形容詞・名詞辞書を作成する過程で見出し語の分析のために新聞、教科書、文芸作品などの実例をデータベース化してきた。けれども単語分割や品詞情報付加などの手を加えていないため、検索効率が悪い。そこで今回、一部のテキストに対し、単語分割と品詞情報付加を行なうことにした。欧米に比べ、日本ではコーパスと呼ばれるような電子化された言語データの作成および共有化が遅れている。IPAのような公共機関が、電子化データを公開することが望ましい。そこで、単語に分割し、品詞情報を付加したデータベースを、「IPAコーパス」と名付け、一般公開することにした。当稿では、IPAコーパスに収録するテキストや、付加する品詞情報について報告する。

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ