著者名,論文名,雑誌名,ISSN,出版者名,出版日付,巻,号,ページ,URL,URL(DOI) 堀口 正之 and 蔵野 正美 and 安田 正實,マルコフ決定過程におけるTD法による学習アルゴリズムについて,数理解析研究所講究録,18802818,[京都] : 京都大学数理解析研究所,2007-06,,1559,34-49,https://cir.nii.ac.jp/crid/1520290885014152192,