" Token-Picker: Accelerating Attention in Text Generation with Minimized Memory Transfer via Probability Estimation," IEEE/ACM Design Automation Conference, 2024 Accept (김이섭 교수 연구실)

Junyoung Park, Myeonggu Kang, Yunki Han, Yanggon Kim, Jaekang Shin, Lee-Sup Kim, “ Token-Picker: Accelerating Attention in Text Generation with Minimized Memory Transfer via Probability Estimation,” IEEE/ACM Design Automation Conference, 2024

Abstract: The attention mechanism in text generation is memory-bounded due to its sequential characteristics. Therefore, off-chip memory accesses should be minimized for faster execution. Although previous methods addressed this by pruning unimportant tokens, they fall short in selectively removing tokens with near-zero attention probabilities in each instance. Our method estimates the probability before the softmax function, effectively removing low probability tokens and achieving an 12.1x pruning ratio without fine-tuning. Additionally, we present a hardware design supporting seamless on-demand off-chip access. Our approach shows 2.6x reduced memory accesses, leading to an average 2.3x speedup and a 2.4x energy efficiency.

AI in EE

AI in Circuit Division

AI in Computer Division

AI in Communication Division

AI in Signal Division

AI in Wave Division

AI in Circuit Division

AI in Device Division

” Token-Picker: Accelerating Attention in Text Generation with Minimized Memory Transfer via Probability Estimation,” IEEE/ACM Design Automation Conference, 2024 Accept (김이섭 교수 연구실)

학부 소개

연구

EE-X

AI in EE

구성원

교육

입학

소식

기부

학부 소개

연구

EE-X

AI in EE

구성원

교육

대외협력

입학

소식