OpenAI gym 使用

OpenAI gym 環境

openai gym 提供了各種不同的環境以供使用, 這是他們所有環境的 網站 ,接下來介紹如何在python中使用gym提供的環境和一些openai gym 所提供的功能。

使用OpenAI gym環境

import gym載入gym
env = gym.make('CartPole-v0')創建一個CartPole-v0的環境
env.reset()初始化(創建)一個環境並返回第一個observation
env.render()刷新環境
env.step(action)選擇一個action(動作),並前進一偵,並得到新的環境參數
env.step(action)會回傳四個值,依序是observation,reward,done,info ,而他們分別代表不同的意思。
observation(object):描述環境的特徵,ex:位置、像素…… 依環境不同而不同。
reward(float):環境給的獎勵
done(bool):這局遊戲是否達到結束條件了
info(dict):一些環境的診斷訊息,通常不會用到


2. OpenAI gym 重要環境變量

接下來介紹幾個重要的變量:
env=env.unwrapped有了這行才能看一些重要的變量
env.action_space這個遊戲環境有幾個可選的動作
env.observation_space這個環境有幾個可以描述它的特徵
env.observation_space.high各項特徵的最大值
env.observation_space.low 各項特徵的最小值

3. 錄製強化學習成果


from gym import wrappers 先import wrappers
env = wrappers.Monitor(env,“儲存路徑”,video_callable=lambda count:count%10==0) 設定影片存的路徑並設定每10個step錄一次
env.close()最後關閉錄製
錄製結果: