学習期間と制御期間に分割された強化学習問題における最適アルゴリズムの提案
Bibliographic Information
- Other Title
-
- ガクシュウ キカン ト セイギョ キカン ニ ブンカツサレタ キョウカ ガクシ
- The Optimal Algorithms for the Reinforcement Learning Problem Separated into a Learning Period and a Control Period
- 知識処理
Search this article
Abstract
本研究では,遷移確率行列が未知であるようなマルコフ決定過程によってモデル化されている,学習期間と制御期間に分割された強化学習問題における,最適アルゴリズムの提案を行っている.従来研究では,真の遷移確率行列を同定できれば制御期間の収益を最大化できるため,学習期間の目的を単に未知の遷移確率行列の推定としているが,有限の学習期間のもとでは推定誤差があるため,収益最大化の厳密な保証はない.そこで本研究では,有限の学習期間と有限の制御期間の強化学習問題において,制御期間の収益をベイズ基準のもとで最大化する基本最適アルゴリズムを提案する.しかし,基本最適アルゴリズムの計算量が指数オーダーのため,さらにその改良を行い,改良最適アルゴリズムを提案する.改良最適アルゴリズムは基本最適アルゴリズム同様に収益をベイズ基準のもとで最大化することができ,かつその計算量は多項式オーダーに軽減されている.
In this paper,new algorithms are proposed based on statistical decision theory in the field of Markov decision processes under the condition that a transition probability matrix is unknown.In previous researches on RL(reinforcement learning),learning is based on only the estimation of an unknown transition probability matrix and the maximum reward is not received in a finite period,though their purpose is to maximize a reward.In our algorithms it is possible to maximize the reward within a finite period with respect to Bayes criterion.Moreover, we propose some techniques to reduce the computational complexity of our algorithm from exponential order to polynomial order
Journal
-
- 情報処理学会論文誌
-
情報処理学会論文誌 39 (4), 1116-1126, 1998-04-15
情報処理学会
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1050001337886524672
-
- NII Article ID
- 10011368207
- 110002722119
-
- NII Book ID
- AN00116647
-
- ISSN
- 18827764
- 03875806
-
- NDL BIB ID
- 4445949
-
- Text Lang
- ja
-
- Article Type
- journal article
-
- Data Source
-
- IRDB
- NDL
- CiNii Articles