AI in EE

AI IN DIVISIONS

AI in Communication Division

Improving Generalization in Meta-RL with Imaginary Tasks from Latent Dynamics Mixture

Authors: Suyoung Lee, Sae-Young Chung

Conference: Advances in Neural Information Processing Systems 2022 (NeurIPS 2022)

Abstract:

대부분의 메타 강화 학습(meta-RL) 방법의 일반화 능력은 학습 태스크를 추출하는 데 사용된 동일한 분포에서 추출된 테스트 태스크로 크게 제한된다. 이러한 한계를 극복하기 위해 학습된 잠재 특징 분포의 혼합으로 생성된 가상 태스크로 훈련시키는 LDM (Latent Dynamics Mixture)을 제안한다. 기존 학습 태스크와 함께 혼합 태스크에 대해서 훈련함으로써 LDM은 학습 중에 보이지 않는 테스트 태스크를 준비할 수 있게 되고 학습태스크에 과적합되는 것을 방지한다. LDM은 학습 태스크 분포와 테스트 태스크 분배를 엄격하게 분리한 Grid-World 탐색 및 MuJoCo 테스트 환경에서 기존 방식을 큰 폭으로 뛰어넘는 성능을 보였다.

정세영1 1

Figure 1. Latent space에서 혼합을 통해 가상의 태스크를 생성

정세영2 1

Figure 2. 가상 태스크를 생성해 학습하는 강화학습 기법 LDM 네트워크 구조

정세영3 1

Figure 3. 3가지 Out-of-distribution MuJoCo 태스크의 테스트 상황에서의 평균 리턴