OpenAI gym 使用
OpenAI gym 環境
openai gym 提供了各種不同的環境以供使用,
這是他們所有環境的
網站
,接下來介紹如何在python中使用gym提供的環境和一些openai gym
所提供的功能。
使用OpenAI gym環境
import gym
載入gym
env = gym.make('CartPole-v0')
創建一個CartPole-v0的環境
env.reset()
初始化(創建)一個環境並返回第一個observation
env.render()
刷新環境
env.step(action)
選擇一個action(動作),並前進一偵,並得到新的環境參數
env.step(action)
會回傳四個值,依序是observation,reward,done,info
,而他們分別代表不同的意思。
observation(object)
:描述環境的特徵,ex:位置、像素…… 依環境不同而不同。
reward(float)
:環境給的獎勵
done(bool)
:這局遊戲是否達到結束條件了
info(dict)
:一些環境的診斷訊息,通常不會用到
2. OpenAI gym 重要環境變量
接下來介紹幾個重要的變量:
env=env.unwrapped
有了這行才能看一些重要的變量
env.action_space
這個遊戲環境有幾個可選的動作
env.observation_space
這個環境有幾個可以描述它的特徵
env.observation_space.high
各項特徵的最大值
env.observation_space.low
各項特徵的最小值
3. 錄製強化學習成果
from gym import wrappers
先import wrappers
env = wrappers.Monitor(env,“儲存路徑”,video_callable=lambda count:count%10==0)
設定影片存的路徑並設定每10個step錄一次
env.close()
最後關閉錄製
錄製結果: