AI in EE

AI IN DIVISIONS

AI in Communication Division

A Max-Min Entropy Framework for Reinforcement Learning

Abstract: 

본 논문에서는 모델이 없는 샘플 기반 학습에서 최대 엔트로피 강화학습을 구현하는 SAC 알고리듬의 한계를 극복하기 위해 강화 학습을 위한 최대 최소 엔트로피 프레임워크를 제안한다.
최대 엔트로피 강화학습은 미래에 엔트로피가 높은 상태에 도달하기 위한 정책에 대한 학습을 안내하는 반면, 제안된 최대-최소 엔트로피 프레임워크는 엔트로피가 낮은 상태를 방문하고 이러한 낮은 엔트로피 상태의 엔트로피를 최대화하여 더 나은 탐사를 촉진하는 것을 목표로 한다.
일반 마르코프 의사 결정 프로세스의 경우, 탐색과 착취의 분리를 기반으로 제안된 최대-최소 엔트로피 프레임워크에 따라 효율적인 알고리듬이 구성된다.
수치 결과는 제안된 알고리듬이 현재 최첨단 강화학습 알고리듬보다 성능이 크게 향상되었음을 보여준다.

 

성영철3