機械学習を用いた著者の年齢層推定 : 犯罪者プロファイリング実現に向けて

書誌事項

タイトル別名
  • Estimating an author's age group by machine learning for offender profiling
  • キカイ ガクシュウ オ モチイタ チョシャ ノ ネンレイソウ スイテイ : ハンザイシャ プロファイリング ジツゲン ニ ムケテ

この論文をさがす

説明

本研究では,ランダムフォレストならびにサポートベクターマシンを用いて,文章情報から著者の年齢層を推定する手法の開発を試みた.なお,本研究は,ブログを対象としたが,その目的から,分析結果が内容に依存しないように,文法機能を有する機能語などに着目して分析を行った.まず,100名のブログについて,年齢層グループ別で特徴量を検討したところ,(1)名詞,(2)読点前の「は(係助詞)」,(3)「ずっと(副詞)」,(4)品詞のbigram(「名詞+名詞」や「記号+名詞」,「助動詞+形容詞」など)の使用頻度で有意差がみられた.これらの文体的特徴を含め,新たな100名のブログを用いて,1個抜き交差確認法による検証を行ったところ,ランダムフォレストの正解率が最高で80.0%(適合率:「20代から40代」と推定した場合の的中率81.3%,「50・60代」と推定した場合の的中率79.4%),サポートベクターマシンの正解率が最高で81.0%(適合率:「20代から40代」と推定した場合の的中率78.4%,「50・60代」と推定した場合の的中率82.5%)であった.両分類器で推定精度に大きな相違はみられなかったものの,実務へ応用が可能な程度の推定精度が得られた.

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ