AI in EE

AI IN DIVISIONS

AI in Computer Division

Lazy Batching: An SLA-aware Batching System for Cloud Machine Learning Inference, The 27th IEEE International Symposium on High-Performance Computer Architecture (HPCA-27), Seoul, South Korea, Feb. 2021

초록

클라우드 인공지능 추론 시스템에서 배칭은 연산 처리량을 늘리고 총소유비용을 절감할 수 있도록 하는 필수적인 기술이다. 기존 추론 서버에서 활용하는 그래프 단위의 배칭은 다수의 사용자 데이터에 대한 추론 연산을 전체 인공지능 그래프 단위로 동시에 실행한다. 본 연구진은 이러한 전체 그래프 단위의 배칭은 동적인 연산 요청을 처리가 요구되는 인공지능 추론 상황에서 심각한 연산 비효율을 야기하여 성능을 극대화하지 못한다는 문제점을 발견하였다. 이에 본 연구진은 그래프 단위의 수행에서 벗어나 개별 레이어 단위로 유동적인 배칭을 가능하게 하는 레이지 배칭을 제안한다. 레이지 배칭은 개별 레이어 단위로 여러 입력을 동시에 실행할 수 있는 고도화된 알고리즘을 통해 기존 배칭 방법을 개선한다. 레이지 배칭은 기존 추론 서버의 배칭 방법 대비 평균응답시간, 처리량, 서비스수준규약 만족 정도를 각각 평균 15배, 1.5배, 5.5배 향상시킨다.

유민수교수님1 0