強化学習アルゴリズム研究者の開発作業を支援するPSEシステムの構築
書誌事項
- タイトル別名
-
- Construction of PSE System for Supporting Researchers in Developing Reinforcement Learning Algorithms
この論文をさがす
説明
強化学習アルゴリズムは,演繹的知識を必要とせずエージェントの置かれた環境から報酬を受け取ることでエージェントの行動を決定できるひとつの手法である.これを用いることで,制御対象に目標を設定しておくだけで,目標までの過程を意識することなく目標を達成することが可能となる.このため,目標を到達するまでの過程を事前にルール化することが困難なロボットの行動獲得で用いられている.強化学習アルゴリズムには,開発を進める上でいくつかの問題があり,本論文では,アルゴリズムの確認を行うために,複数回の計算の実行,複数回のシミュレーションの結果の比較作業の2つの問題に着目した.1つ目の問題は,以下の要因によって発生する.強化学習アルゴリズムは,入力パラメータによって学習効率が異なる.アルゴリズムを変更した際,それに対しても入力パラメータを調整する.また,アルゴリズムを検証するために,異なる乱数系列を用いて統計的なシミュレーションを行う必要がある.これらによって,入力パラメータ,異なるアルゴリズム,乱数系列,それぞれの組み合わせで複数回の計算を実行しなければならない.2つ目の問題は,計算によって得られたシミュレーション結果から時間ステップごとの細かい推移を確認する必要があるために発生する.単に数値データの比較だけではアルゴリズムの検証を行うことは困難であり,多くのシミュレーション結果の比較によって,アルゴリズムの検証を行わなければならない.そこで,これらの解決方法として次の3つの支援を行った.それは,複数回の計算実行を効率的に行うための分散計算,データの検証作業の管理を行いやすくするための自動登録を持ったデータ管理,細かい推移の確認や比較を行うためのグラフの自動生成である.これら3つの機能を持ち,それらの専門知識を意識することなく本来の強化学習アルゴリズム開発に専念できるシステムがあればアルゴリズム開発の促進につながる.しかし,すでに開発されている問題解決環境(Problem Solving Environments: PSE)は,強化学習アルゴリズム開発で扱うデータと検証方法が異なるため,強化学習アルゴリズム開発特有の支援システムが必要となる.そこで,各分野でのPSEシステムを参考に,我々が過去に開発したPSEシステムを統合し,分散計算システム,データ管理システム,グラフ生成システムの3つのサブシステムを持ったPSEシステムを構築し,実際の強化学習アルゴリズムを用いたシミュレーションに適用した.その結果,各サブシステムを用いることで,計算実行時間は610.3秒から78.5秒,データ管理作業時間は266.7秒から1.9秒,シミュレーション結果の比較作業時間は1495.5秒から356.8秒に短縮され,比較作業時間において最も時間的な効率が得られた.短縮された時間の割合は,計算実行時間が約1/8,データ管理の作業時間が約1/140,シミュレーション結果の比較作業時間が約1/4となり,データ管理の作業時間の短縮の割合が最も高かった.このことから,データ管理の作業時間や比較作業の効率化が重要であることがわかった.一方,システム全体を用いた場合,平均経過時間は,2372.5秒から437.2秒となり,約1/5となった.仮に,計算時間のみを効率化した場合,平均経過時間は最大で約4/5,比較作業時間のみを効率化した場合,最大で約1/2にしかならない.このことから,サブシステムの組み合わせが重要であることがわかった.
収録刊行物
-
- 日本計算工学会論文集
-
日本計算工学会論文集 2009 (0), 20090017-20090017, 2009-09-28
一般社団法人 日本計算工学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1390851418979175936
-
- NII論文ID
- 130008056218
-
- ISSN
- 13478826
- 13449443
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- CiNii Articles
-
- 抄録ライセンスフラグ
- 使用不可