ルールベース手法と機械学習による自由回答の分類

書誌事項

タイトル別名
  • Classification of Responses to Open-ended Questions with Machine Learning and Hand-Crafted Rules :
  • ルールベース手法と機械学習による自由回答の分類--職業コーディング自動化の方法
  • ルールベース シュホウ ト キカイ ガクシュウ ニ ヨル ジユウ カイトウ ノ ブンルイ ショクギョウ コーディング ジドウカ ノ ホウホウ
  • ―職業コーディング自動化の方法―
  • Automatic Occupation Coding Methods

この論文をさがす

抄録

社会調査において基本的な属性である職業は、通常、調査票に選択肢として職業コードを提示せず、自由回答法を含む複数の質問により収集したものを分析者が総合的に判断しコードを付ける。これは職業コーディングとよばれ、データを統計処理するためには必須の作業である。しかし、判断の中心となるデータが自由回答であることや職業のカテゴリ数が多い(約200)ことなどから、自由回答の分類と同様に多大な労力と時間を要するという問題が存在する。また、コーディングの結果に一貫性が欠けやすいという問題がある点も同様である。これらの問題を解決するために、自然言語処理技術の適用により職業の定義を格フレームの形式によるルールとして記述し、自動的に職業コードを決定するシステムが開発された。ルールに基づくこのシステムは、ルールにマッチしない回答をうまく処理することができないという欠点をもつが、職業コーディングで用いられる知識のすべてをルールにするのは困難である。また、ルールセットやシソーラスの継続的なメンテナンスも手間がかかる。そこで、ルールを必要としない機械学習に注目し、特に文書分類の分野で最も分類性能が高いとされるサポートベクターマシン(SVM)を職業コーディングに適用した。JGSS(日本版General Social Surveys)データを用いた実験の結果、SVMによる方法はルールベース手法より正解率が高かった。本稿の目的は、職業コーディングの自動化に対して、ルールベース手法を適用する方法およびSVMを適用する方法を提案し、その有効性を示すことである。これら2つの方法は、職業データと類似する性質をもつ自由回答の分類にも拡張が可能である。

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ