文脈情報を用いた分割表記文字の判別
書誌事項
- タイトル別名
-
- Interpreting Split-Characters with Contextual Information
抄録
<p>SNSの投稿は様々な情報を持つため有効な情報資源である.しかしSNS上の投稿は「おいしー」や「イ牛」など新聞等で用いられる表記とは異なる崩れた表記が含まれている.そのため自然言語処理による解析が難しく,特別な処理をする必要がある.本研究では崩れた表記の中でも分割表記文字に着目する.分割表記文字とは「動」を「重力」と表記するような,1つの文字を複数の文字に分割する文字を指す.先行研究ではOCRを用いて視覚的に分割表記文字の処理を行った.しかしOCRは文字認識による分割表記文字の判別手法であるため,文脈情報を用いておらず,訂正後の文の妥当性を考慮していない.そこで本研究では文脈情報を用いた分割表記文字の判別手法を提案する.文脈情報を持つモデルとしてN-gram,RNN,BERTの3つを利用する.これらを用いた分割表記文字の判別手法を提案し,正しい文字へ変換することができるか検証する.</p>
収録刊行物
-
- 人工知能学会研究会資料 言語・音声理解と対話処理研究会
-
人工知能学会研究会資料 言語・音声理解と対話処理研究会 97 (0), 38-43, 2023-02-27
一般社団法人 人工知能学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390576734221297024
-
- ISSN
- 24364576
- 09185682
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
-
- 抄録ライセンスフラグ
- 使用可