기존 그리디 알고리즘의 조금의 랜덤성을 부여한다.
epsilon 의 확률만큼 랜덤적으로 선택하고,
나머지 확률만큼 그리디 하게 선택한다.
대충 구현 :
if np.random.random() <= epsilon:
#set random
else:
#set greedy
사용 :
강화학습에서 현재 state에 따라 다음 action을 선택할때, epsilon-greedy 알고리즘을 사용한다.
기존 그리디 알고리즘의 조금의 랜덤성을 부여한다.
epsilon 의 확률만큼 랜덤적으로 선택하고,
나머지 확률만큼 그리디 하게 선택한다.
대충 구현 :
if np.random.random() <= epsilon:
#set random
else:
#set greedy
사용 :
강화학습에서 현재 state에 따라 다음 action을 선택할때, epsilon-greedy 알고리즘을 사용한다.