著者名,論文名,雑誌名,ISSN,出版者名,出版日付,巻,号,ページ,URL,URL(DOI) 大橋 守,マルコフ決定過程に対するQ-learningについて,数理解析研究所講究録,18802818,[京都] : 京都大学数理解析研究所,2003-02,,1306,101-108,https://cir.nii.ac.jp/crid/1520009410029872640,