Abstract:
본 논문에서는 더 나은 탐색을 위해 기존의 정책 엔트로피 정규화를 강화하기 위해 샘플 인식 정책 엔트로피 정규화를 제안한다.
재생 버퍼에서 얻을 수 있는 샘플 분포를 활용하여 제안된 샘플 인식 엔트로피 정규화는 샘플 효율적인 탐색을 위해 정책 동작 분포와 재생 버퍼에서 샘플 동작 분포의 가중 합계의 엔트로피를 최대화한다.
제안된 샘플 인식 엔트로피 정규화를 통해 목적 함수에 정책 반복을 적용하여 다양성 행위자-비판(DAC)이라는 실제 알고리듬을 개발한다.
수치 결과는 DAC가 강화 학습을 위한 기존 최신 알고리듬을 크게 능가한다는 것을 보여준다.