AI in EE

AI IN DIVISIONS

AI in Communication Division

Self-Diagnosing GAN: Diagnosing Underrepresented Samples in Generative Adversarial Networks (NeurIPS 2021)

Author: Jinhee Lee, Haeri Kim, Youngkyu Hong and Hye Won Chung

Keywords: Generative Adversarial Networks (GAN), diversity, fairness

Abstract:

Despite remarkable performance in producing realistic samples, Generative Adversarial Networks (GANs) often produce low-quality samples near low-density regions of the data manifold, e.g., samples of minor groups. Many techniques have been developed to improve the quality of generated samples, either by post-processing generated samples or by pre-processing the empirical data distribution, but at the cost of reduced diversity. To promote diversity in sample generation without degrading the overall quality, we propose a simple yet effective method to diagnose and emphasize underrepresented samples during training of a GAN. The main idea is to use the statistics of the discrepancy between the data distribution and the model distribution at each data instance. Based on the observation that the underrepresented samples have a high average discrepancy or high variability in discrepancy, we propose a method to emphasize those samples during training of a GAN. Our experimental results demonstrate that the proposed method improves GAN performance on various datasets, and it is especially effective in improving the quality and diversity of sample generation for minor groups.

주어진 데이터셋으로부터 이 데이터셋을 생성한 확률 분포를 효과적으로 학습하고, 이를 통해 실제와 같은 가상 데이터를 생성하는 기술은 컴퓨터 그래픽 분야에서 높은 활용도를 보이고 있다. 하지만 현재의 기술은 주어진 데이터 샘플 중 다수를 이루는 메이저한 특성(feature)은 효과적으로 학습하는 데 반해 마이너 그룹에 해당하는 특성은 잘 학습하지 못하는 한계를 지닌다. 예를 들어, 사람 얼굴로 이루어진 CelebA 데이터셋 같은 경우는 다수의 이미지를 차지하는 백인, 금발 등의 특성은 높은 퀄리티로 학습하지만, 마이너한 인종, 머리색 등의 특성은 네트워크가 잘 학습하지 못한다. 그 결과, 가상 데이터에서 마이너에 해당하는 샘플의 비율과 퀄리티 모두 메이저 샘플에 비해 (실제 학습 데이터에 비해서도) 현저히 떨어지는 단점을 지닌다. 따라서 본 연구는 이에 대한 해결을 위해 스스로 학습 공정성을 진단하고 개선하는 기계학습 생성 모델 개발을 목표로 하였다. 

 

본 연구에서는 데이터셋에 라벨이 없는 경우, 즉, 데이터를 구성하는 마이너한 특성(feature)이 무엇인지 알려지지 않은 경우에도, 데이터셋으로부터 직접 적대적 생성 신경망(GAN) 모델을 학습하며 스스로 학습 공정성을 진단하고 개선해 가는 기계학습 생성 모델을 제안하였다. 핵심 아이디어는 각 샘플이 학습되는 경향성을 수학적으로 진단하고 학습 되는 정도를 샘플 별로 scoring하는 기법을 통해 학습이 제대로 이루어지지 않고 있는 마이너한 샘플을 구별하고, 이를 다시 강조하여 마이너 샘플에 대한 학습 퀄리티를 향상 시킨데 있다. 이 연구는 가상 데이터셋 생성에 있어 공정성을 개선하며 동시에 다양성을 획기적으로 증진 시켰다는 점에서 앞으로 활용도가 높을 것으로 기대된다. 

 

정혜원1