Sentiment Analysis That Does Not Require Training Data in the Target Language Using Billingual BERT
Bibliographic Information
- Other Title
-
- 二言語BERTを利用したターゲット言語の教師データを必要としない感情分析
Description
Ibaraki University
Ibaraki University
Ibaraki University
Ibaraki University
Ibaraki University
会議名: 言語資源活用ワークショップ2020, 開催地: オンライン, 会期: 2020年9月8日−9日, 主催: 国立国語研究所 コーパス開発センター
文書分類のタスクを教師あり学習で解く場合、大量のラベル付きデータ(教師データ)が必要であり、このデータの構築コストが高いという問題がある。ただし、英語などのメジャーな言語に対しては、ラベル付けされたデータが既に存在していることも多い。この場合、英語側では分類器を学習できるため、その学習できた知識を、タスクの対象となっている言語側へ転移できれば、ターゲット言語での教師データを利用せずに、分類器を構築することができる。本論文ではそのような転移を行うためにBERTを用いる。具体的には、英語BERTを用いて英語の訓練文書をベクトル化し、それをもとに分類器を学習する。次に、ターゲット領域の文書となる日本語の文書を、日本語BERTを用いてベクトル化する。あらかじめ学習しておいた2言語間のBERTの変換器を用いて日本語の文書ベクトルを英語のベクトル空間に埋め込み、先の分類器によって識別する。これによって、ターゲット言語である日本語の訓練文書を利用せずに、日本語の文書の感情分析が可能となる。
source:https://pj.ninjal.ac.jp/corpus_center/lrw2020.html
identifier:茨城大学
identifier:茨城大学
identifier:茨城大学
identifier:茨城大学
identifier:茨城大学
Journal
-
- 言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop
-
言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop 5 189-195, 2020
国立国語研究所
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1390290699745259776
-
- NII Article ID
- 120006978796
-
- Web Site
- http://id.nii.ac.jp/1328/00003159/
-
- Text Lang
- ja
-
- Article Type
- conference paper
-
- Data Source
-
- JaLC
- IRDB
- CiNii Articles