順序学習に基づく逆強化学習による対話制御

杉山 弘晃, 目黒 豊美, 南 泰浩

doi:10.11517/pjsai.jsai2012.0_1o2os1810

書誌事項

タイトル別名

ジュンジョガクシュウニモトズクギャクキョウカガクシュウニヨルタイワセイギョ

この論文をさがす

抄録

<p>強化学習において，適切な報酬関数の設定は難しい問題である．この問題に対し，エキスパートの行動列を入力とし，この行動列を再現する報酬関数を推定する逆強化学習が注目されている．従来の逆強化学習では，訓練行動列は全て同一の報酬関数に基づくことを仮定していた．本研究では，異なる報酬関数に基づく行動列から報酬関数を推定する，順序学習に基づく逆強化学習を提案し，シミュレーション実験を通してその有効性を示す．</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2012 (0), 1O2OS1810-1O2OS1810, 2012

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390282763025381376

NII論文ID: 130007423672; 40020270054

NII書誌ID: AA11578981

ISSN: 13479881

DOI: 10.11517/pjsai.jsai2012.0_1o2os1810

NDL書誌ID: 025922709

Web Site: http://id.ndl.go.jp/bib/025922709; https://ndlsearch.ndl.go.jp/books/R000000004-I025922709

本文言語コード: ja

データソース種別

JaLC
NDL
CiNii Articles

抄録ライセンスフラグ: 使用不可

順序学習に基づく逆強化学習による対話制御

書誌事項

この論文をさがす

抄録

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

順序学習に基づく逆強化学習による対話制御

書誌事項

この論文をさがす

抄録

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について