文脈情報を用いた分割表記文字の判別

DOI

書誌事項

タイトル別名
  • Interpreting Split-Characters with Contextual Information

抄録

<p>SNSの投稿は様々な情報を持つため有効な情報資源である.しかしSNS上の投稿は「おいしー」や「イ牛」など新聞等で用いられる表記とは異なる崩れた表記が含まれている.そのため自然言語処理による解析が難しく,特別な処理をする必要がある.本研究では崩れた表記の中でも分割表記文字に着目する.分割表記文字とは「動」を「重力」と表記するような,1つの文字を複数の文字に分割する文字を指す.先行研究ではOCRを用いて視覚的に分割表記文字の処理を行った.しかしOCRは文字認識による分割表記文字の判別手法であるため,文脈情報を用いておらず,訂正後の文の妥当性を考慮していない.そこで本研究では文脈情報を用いた分割表記文字の判別手法を提案する.文脈情報を持つモデルとしてN-gram,RNN,BERTの3つを利用する.これらを用いた分割表記文字の判別手法を提案し,正しい文字へ変換することができるか検証する.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390576734221297024
  • DOI
    10.11517/jsaislud.97.0_38
  • ISSN
    24364576
    09185682
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用可

問題の指摘

ページトップへ