연구

RESEARCH

연구성과

전기및전자공학부 김회린 교수 연구팀, 국제 최우수 음향, 음성 및 신호처리 학술대회 최우수 학생 논문상 (Best Student Paper Award) 수상

전기및전자공학부 김회린 교수 연구팀, 국제 최우수 음향, 음성 및 신호처리 학술대회 최우수 학생 논문상 (Best Student Paper Award) 수상

 

연구팀

<(왼쪽부터) 상장 사진, 수상식 사진, 장강욱 박사과정 사진 (제1저자), 김성년 박사과정 사진>
 
전기및전자공학부 김회린 교수 연구팀은 국제 최우수 신호 및 음성, 음향 학술대회 중 하나인 ‘IEEE 국제 음향, 음성 및 신호처리 학회(International Conference on Acoustics, Speech, and Signal Processing, ICASSP)’에서 최우수 학생 논문상(Best Student Paper Award)을 수상했다고 발표했다. 이는 제출된 5576편의 논문들 중, 교육 기관에서 작성한 논문 상위 5편에게만 주어지는 영예이다.
 
전기및전자공학부 장강욱 박사과정(제1저자), 김재철AI대학원 김성년 박사과정, 김회린 교수로 구성된 연구팀은 음성 자기지도학습(Speech Self-Supervised Learning, Speech SSL) 모델의 압축을 위해 음성 간의 시간적 관계를 새로운 증류 손실 함수로 제안하여 최우수학생논문상을 수상했다.
 
음성 자기지도학습 모델은 음성인식과 화자인식과 같은 다양한 음성 과제에서 우수한 성능을 보이지만, 매우 큰 파라미터 개수로 인해 on-device 적용과 같은 실용성이 아직은 부족한 상태이다. 따라서 이들 모델의 파라미터 개수를 지식 증류(Knowledge Distillation, KD)를 통해 줄이는 압축 연구가 많이 진행되어 왔다. 그러나 현재까지의 기술들은 선생 모델의 음성 표현을 학생 모델에게 직접적으로 일치시키는 연구가 대부분이었으나, 이것이 모델 표현력이 약한 학생 모델들에게 과한 제한조건이 되는 등의 문제가 있었다.
 
Untitled
<김회린 교수 연구팀이 제안하는 음성의 시간적 관계성 손실 함수 모식도>
 
김회린 교수 연구팀은 음성 프레임들 간의 시간적 관계성을 표현하는 지표를 다양하게 탐색하여, 음성 자기지도학습 모델에 적합한 손실 함수를 제안하였다. 이를 통해 압축된 학생 모델은 총 10가지 음성 관련 과제에 대해 검증되었으며, 파라미터를 약 30% 수준으로 압축한 모델들 중에서 가장 우수한 성능을 보인다.
 
이번 연구는 정부의 재원으로 한국연구재단의 지원을 받아 수행되었다.