不完全知覚問題に対するProfit Sharingと遺伝的アルゴリズムを用いたハイブリッド学習

  • 鈴木 晃平
    名古屋工業大学 大学院工学研究科 情報工学専攻
  • 加藤 昇平
    名古屋工業大学 大学院工学研究科 情報工学専攻 名古屋工業大学 情報科学フロンティア研究院

書誌事項

タイトル別名
  • Hybrid Learning Using Profit Sharing and Genetic Algorithm under the POMDPs
  • フカンゼン チカク モンダイ ニ タイスル Profit Sharing ト イデンテキ アルゴリズム オ モチイタ ハイブリッド ガクシュウ

この論文をさがす

説明

<p>Reinforcement learning is generally performed in the Markov decision processes (MDP). However, there is a possibility that the agent can not correctly observe the environment due to the perception ability of the sensor. This is called partially observable Markov decision processes (POMDP). In a POMDP environment, an agent may observe the same information at more than one state. HQ-learning and Episode-based Profit Sharing (EPS) are well known methods for this problem. HQ-learning divides a POMDP environment into subtasks. EPS distributes same reward to state-action pairs in the episode when an agent achieves a goal. However, these methods have disadvantages in learning efficiency and localized solutions. In this paper, we propose a hybrid learning method combining PS and genetic algorithm. We also report the effectiveness of our method by some experiments with partially observable mazes.</p>

収録刊行物

参考文献 (4)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ