연구

RESEARCH

연구성과

2024 한국인공지능학회 유창동교수 연구실 윤희석(석박통합과정) 우수 논문상 수상

2024 한국인공지능학회 유창동교수 연구실 윤희석(석박통합과정) 우수 논문상 수상

사진

<(좌측부터) 유창동 교수,  윤희석 석박통합과정 사진>

한국인공지능학회는 매년 분기별로 개최하는 학회이며, 이번 하계 학술대회는 8월 15일부터 17일까지 부산 벡스코에서 개최될 예정이다.
윤희석 석박사통합과정생은 “BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation”라는 제목의 논문의 우수성을 인정받아 수상자로 선정되었다.

 

또한, 해당 연구 결과는 올해 9월 이탈리아 밀라노에서 열리는 컴퓨터 비전 분야 최우수 국제 학회 중 하나인 ‘European Conference on Computer Vision (ECCV) 2024‘에서 발표될 예정이다 (논문명: BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation).

자세한 내용은 다음과 같다.

0 학회명: 2024 한국인공지능학회 하계학술대회
0 개최기간: 2024년 08월 15일 ~ 17일
0 수상명: 우수 논문상
0 저자: 윤희석, 윤은섭, 유창동 (지도교수)
0 논문명: BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation

 

본 연구는 기존의 챗GPT와 같은 멀티모달 대화형 거대 모델의 한계를 극복하고, 멀티모달 다이얼로그에서 이미지 생성의 일관성을 유지하는 혁신적인 연구로 평가받고 있다.  

 

chatgpt

그림 1 : ChatGPT와 BI-MDRG의 이미지 응답 예시 

기존의 멀티모달 다이얼로그 모델들은 이미지를 생성할 때 이미지에 대한 텍스트 묘사를 우선적으로 생성하고, 이를 text-to-image 모델을 활용하여 이미지를 생성하였다.

이러한 경우, 이전 대화에 포함되어 있던 이미지의 시각적 정보를 충분히 반영하지 못해 일관성이 부족한 이미지 응답을 생성하는 경우가 많았으나, 유창동 교수 연구팀의 BI-MDRG는 이미지의 직접적 참조 기법을 통해 이미지 정보 손실을 최소화하여 일관된 이미지 응답 생성을 가능하게 하였다. 

 

240709

그림 2 : 기존의 멀티모달 대화 시스템에서의 문제점 및 BI-MDRG 방법론 도식화

BI-MDRG는 기존 멀티모달 대화 모델이 가지는 이미지 정보 손실 문제를 해결하기 위해 설계된 새로운 시스템으로, Attention Mask Modulation과 Citation Module을 제안한다.

Attention Mask Modulation은 텍스트로 변환된 이미지 설명 대신 이미지 그 자체에 집중하여 대화를 수행할 수 있도록 하며, Citation Module은 대화 중 등장하는 동일한 물체에 Citation 태깅을 통해 이미지 응답 생성 시 유지되어야 할 물체를 직접 참조함으로써 일관된 응답을 가능하게 한다.

연구팀은 다양한 멀티모달 다이얼로그 벤치마크에서 BI-MDRG의 성능을 검증하였다. 그 결과, BI-MDRG는 높은 대화 수행능력과 일관성을 기록하였다.

 

training overall5

그림 3: BI-MDRG 모델의 상세 구조

BI-MDRG는 다양한 멀티모달 응용 분야에서 실용적인 솔루션을 제공할 수 있다.

예를 들어, 고객 서비스에서는 사용자와의 대화 내용을 기반으로 정확한 이미지를 제공하여 만족도를 높일 수 있으며, 교육 분야에서는 학습자의 질문에 대해 관련된 이미지와 텍스트를 일관되게 제공하여 이해도를 향상시킬 수 있다. 또한, 엔터테인먼트 분야에서는 대화형 게임에서 자연스럽고 몰입감 있는 상호작용을 가능하게 할 수 있다.