日中対訳コーパスの構築と公開に向けて

書誌事項

タイトル別名
  • Toward the Construction and Publication of a Japanese-Chinese Bilingual Corpus

抄録

昨今、公開された日中対訳コーパスには,北京日本学研究センターの『中日対訳コーパス』,情報通信研究機構の『NICT多言語対訳コーパス』,JST・NICT共同で構築された『アジア学術論文抜粋コーパス(ASPEC)』,そして,先日公開された『GSK通訳データベース(JNPCコーパス)日中・日西サブコーパス』などがあげられる.しかし,『中日対訳コーパス』に関しては2021年以降,個人・機関問わず対訳コーパスの入手はできなくなっている.そして,『NICT多言語対訳コーパス』は機械翻訳の研究またはシステム開発の一環として構築されたものでデータは非公開となっており,『ASPEC』コーパスは,専門用語が多く含まれ,広く一般的に用いられる言語使用とは言えない。同様に『JNPCコーパス』に関しては,記者会見における登壇者の発話とその同時通訳8件,逐次通訳2件,1件平均1時間半の対訳データが収録されているが,これもレジスターの偏りが問題となる。即ち,日中対照研究を行う研究者が利用できるコーパスは,極めて限定的で,言語資源が乏しい状況であることが読み取れる.発表者は個人利用を目的に2009年から対訳文の収集を始めていたが,この成果物を個人利用に留めるのではなく,オープンにすべきであると考えている。収集済みデータには,雑誌『Taiwan Panorama』約45万字,『聞く中国語』2018年~2021年(48冊)のデータ約176万字,『人民網』ニュース対訳文2014年7月~現在のデータ約272万字が含まれる。今回の発表では,重点的に次の三つ:1)収集済みデータの紹介 2)実用に向けた事例紹介 3)著作権問題についての示唆が含まれる。

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ