『日本語日常会話コーパス』設計と構築

DOI NINJAL オープンアクセス

書誌事項

タイトル別名
  • Design and Construction of the Corpus of Everyday Japanese Conversation

この論文をさがす

説明

国立国語研究所共同研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」では,『日本語日常会話コーパス』(CEJC)の構築を進め,2022年3月に最終公開した。CEJCは,(1)日常生活で実際に交わされる会話を対象とすること,(2)多様な場面における多様な話者による会話をバランスよく格納すること,(3)映像まで含めて公開することを特徴とする。日常会話を対象とする映像付き大規模コーパスの構築は世界的に見ても新しい取り組みである。コーパスの規模は,200時間,577会話,240万語,延べ話者数1675人である。本稿では,コーパスの設計・構築について,会話の収録法や収録機器,コーパスの基本構成,公開する音声・映像データのフォーマット,転記テキスト,各種アノテーション等などの観点から概観した上で,収録データのバランスについて検証する。

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ