저자: Suyoung Lee, Sae-Young Chung
내용:
기존 강화학습 알고리즘들은 학습에 다량의 데이터를 요구하면서도 일반화 능력이 좋지 못해 태스크 간 분포 차이가 크게 나는 경우 성능 저하가 크다. 본 연구에서는 특징 레벨에서 역학 모델을 학습하고 가상의 경험을 생성하는 형태로 데이터 효율성과 일반화 능력을 개선하는 LDM (Latent Dynamics Mixture) 기법을 개발하였다.
LDM은 학습 과정에서 경험해보지 못한 태스크를 사전정보 없이 자체적으로 생성하고 학습에 활용함으로써 새로운 태스크에 미리 대비하는 형태로 학습이 이루어진다. 이를 통해 기존 메타 강화학습의 경우처럼 새로운 태스크 환경에 대해 다량의 학습 데이터를 요구하지 않고도 빠르게 좋은 성능을 달성할 수 있음을 확인하였다. LDM은 기존 메타 강화학습 기법들 대비 더 높은 성능과 데이터 효율성을 보였고, 맥락 기반 기법 대비 더 높은 데이터 효율성을 보였다.