본문 바로가기
AI이야기

AWQ로 거대 언어 모델 성능 끌어올리기: 효율적인 LLM 양자화 탐구

by logbe1 2024. 11. 7.

LLM(대규모 언어 모델)의 발전과 함께 모델 크기가 기하급수적으로 증가하면서, 메모리 및 연산 비용 문제가 더욱 심각해지고 있습니다. 이러한 문제를 해결하기 위해 모델 양자화(Quantization) 기술이 주목받고 있는데요, 오늘은 그중에서도 AWQ (Activation-aware Weight Quantization) 에 대해 자세히 알아보는 시간을 갖도록 하겠습니다.

 

AWQ는 활성화 통계 정보를 활용하여 양자화 과정에서 발생하는 오차를 줄이는 데 초점을 맞춘 알고리즘입니다. 기존의 양자화 방법들은 주로 가중치(Weight) 값만을 고려했지만, AWQ는 활성화(Activation) 값을 분석하여 양자화 오차를 더욱 효과적으로 줄일 수 있다는 장점을 가지고 있습니다.

 

특히, 대규모 언어 모델과 같이 복잡한 시스템에서 효율적인 데이터 처리 및 성능 향상을 목표로 하며, GPTQ와 같은 기존 방법들에 비해 적은 보정 데이터만으로도 우수한 성능을 낼 수 있다는 점이 큰 매력입니다.

 


AWQ: 활성화 인식 가중치 양자화의 이해


AWQ의 핵심 아이디어: 활성화 통계 기반 양자화 오차 감소

AWQ의 핵심은 활성화 값을 분석하여 양자화 오차가 가장 크게 발생하는 지점을 찾아내고, 이를 기반으로 양자화를 진행하는 것입니다. 쉽게 말해, 모델의 연산 과정에서 어떤 부분에서 오차가 가장 크게 발생하는지를 파악하여, 그 부분에 집중적으로 양자화를 적용하는 방식이라고 할 수 있어요.

 

기존의 GPTQ와 같은 양자화 방법들은 가중치 값만을 고려하여 양자화를 수행했기 때문에, 활성화 값에 따른 오차를 제대로 고려하지 못하는 경우가 많았습니다. 반면, AWQ는 활성화 값을 함께 고려하여 양자화를 수행하기 때문에, 보다 정확하고 효율적인 양자화가 가능합니다.

 

예를 들어, 모델의 특정 가중치가 양자화 과정에서 오차가 크게 발생한다고 해도, 해당 가중치가 실제로 활성화 값에 큰 영향을 미치지 않는다면, AWQ는 이 가중치를 양자화할 때 오차를 크게 신경 쓰지 않을 수 있습니다. 이렇게 함으로써 전체적인 모델 성능 저하를 최소화할 수 있습니다.

 


AWQ의 장점: 간단한 구현과 뛰어난 효율성

AWQ는 비교적 간단하게 구현할 수 있으며, 다양한 엔진에서 지원됩니다. 덕분에 여러 환경에서 쉽게 적용 가능하다는 장점이 있죠. 게다가, 활성화 통계 정보를 이용하여 양자화 오차를 줄이는 방식으로, 성능과 정확도 모두에서 괜찮은 결과를 보여줍니다.

 

AWQ는 여러 장점을 지니고 있습니다.

 

  • 간단한 구현: AWQ는 구현이 쉽고, 다양한 엔진에서 지원되어 다양한 환경에서 쉽게 적용할 수 있습니다.
  • 활성화 통계 활용: 활성화 통계 정보를 이용하여 양자화 오차를 줄이는 방식으로, 성능과 정확도를 동시에 개선할 수 있습니다.
  • 활성화 값 기반: 활성화 값만을 사용하며, 그래디언트 계산이 필요하지 않아 연산 비용을 줄일 수 있습니다.
  • 보정 데이터 의존성 감소: GPTQ와 달리 보정 데이터에 과적합되지 않으며, 보정 데이터의 특성이 성능에 거의 영향을 미치지 않습니다.
  • 적은 보정 데이터 필요: GPTQ 대비 1/10 이하의 적은 보정 데이터만으로도 효과를 볼 수 있습니다.

AWQ의 한계: On-the-fly 양자화 불가 및 제한적인 적용 범위

AWQ는 뛰어난 성능과 효율성을 제공하지만, 몇 가지 한계 또한 가지고 있습니다.

 

  • On-the-fly 양자화 불가: BitsAndBytes와 달리 AWQ는 모델 실행 중에 실시간으로 양자화를 적용할 수 없습니다. 미리 보정 데이터를 준비하고 양자화를 적용해야 합니다.
  • 제한적인 적용 범위: AWQ는 비선형 스케일 양자화 방식에는 적용할 수 없습니다.
  • LoRA와의 호환성: AWQ와 LoRA를 함께 사용할 수 있는 라이브러리는 있지만, 생성된 LoRA 어댑터를 AWQ 모델에 병합할 수 있는지는 아직 명확하지 않습니다.

AWQ의 작동 원리 및 수학적 배경


Salient Weight Channel의 중요성

FP16으로 표현된 가중치를 INT8로 양자화하면, 성능이 떨어지는 것을 쉽게 확인할 수 있습니다. 하지만, 특정 가중치 채널(Salient Weight Channel)을 FP16으로 유지하면, 성능이 다시 원래 수준으로 회복되는 것을 볼 수 있습니다.

 

그렇다면, Salient Weight Channel은 어떻게 결정될까요?

 

가장 간단한 방법은 절댓값 평균이 가장 큰 가중치 채널을 선택하는 것입니다. 하지만, 이 방법은 성능 향상에 큰 도움을 주지 못합니다. 실제로, 랜덤하게 가중치 채널을 선택하는 것과 거의 동일한 성능을 보여줍니다.

 

AWQ 논문에서는 가장 큰 활성화 값을 생성하는 가중치 채널이 Salient Weight Channel이라고 주장합니다. 즉, 모델의 연산 과정에서 활성화 값에 가장 큰 영향을 미치는 가중치 채널을 찾아내는 것이 중요합니다.

 


Per-Channel Scaling을 활용한 Salient Weight Channel 보존

Salient Weight Channel을 보존하는 방법에는 여러 가지가 있지만, AWQ에서는 Per-Channel Scaling 기법을 사용합니다.

 

Per-Channel Scaling은 각 가중치 채널에 스케일링 팩터를 곱한 후 양자화하고, 실제 활성화 계산 시에는 다시 스케일링 팩터로 나누는 방식입니다.

 


RTN Round to Nearest
Per-Channel Scaling 각 가중치 채널에 스케일링 팩터를 곱한 후 양자화
AWQ 활성화 인식 가중치 양자화

기법 설명

 

이 기법을 통해, Salient Weight Channel을 보다 효과적으로 보존하고, 양자화로 인한 성능 저하를 최소화할 수 있습니다.

 


AWQ의 실제 적용 및 활용 사례

AWQ는 다양한 LLM 모델에 적용될 수 있으며, 특히 대규모 언어 모델의 성능 향상에 큰 도움을 줄 수 있습니다.

 

예를 들어, GPTQ와 AWQ를 함께 사용하여 모델의 성능을 더욱 개선할 수 있습니다. GPTQ는 가중치 값을 양자화하고, AWQ는 활성화 값을 분석하여 양자화 오차를 줄이는 방식으로, 두 가지 기법을 함께 사용하면 시너지 효과를 얻을 수 있습니다.

 


결론 및 추가 정보

AWQ는 활성화 통계 정보를 활용하여 양자화 오차를 줄이는 효과적인 알고리즘입니다. 간단한 구현과 뛰어난 효율성을 제공하며, LLM 모델의 성능 향상에 크게 기여할 수 있습니다. 하지만, On-the-fly 양자화 불가 및 제한적인 적용 범위와 같은 한계도 존재합니다.

 

앞으로 AWQ는 LLM 모델의 성능을 개선하고, 메모리 및 연산 비용을 절감하는 데 더욱 중요한 역할을 할 것으로 예상됩니다.

 

QnA

Q1. AWQ는 어떤 경우에 사용하는 것이 좋을까요?

 

A1. AWQ는 LLM 모델의 크기가 크고, 메모리 및 연산 비용이 중요한 경우에 사용하는 것이 좋습니다. 특히, GPTQ와 같은 기존 양자화 방법으로는 성능 향상이 제한적인 경우에 AWQ를 적용해 보시면 효과를 볼 수 있습니다.

 

Q2. AWQ를 사용하면 성능이 얼마나 향상될까요?

 

A2. AWQ를 사용하면 모델의 성능이 최대 몇 퍼센트까지 향상될 수 있습니다. 하지만, 모델의 종류와 양자화 수준에 따라 성능 향상 정도는 달라질 수 있습니다.

 

Q3. AWQ는 어떻게 구현할 수 있나요?

 

A3. AWQ는 다양한 엔진에서 지원되기 때문에, 해당 엔진의 문서를 참고하여 구현할 수 있습니다. 예를 들어, Hugging Face의 Transformers 라이브러리를 사용하면 AWQ를 쉽게 적용할 수 있습니다.

 

마무리

AWQ는 LLM 분야에서 떠오르는 양자화 기술 중 하나이며, 앞으로 더욱 발전할 가능성이 높습니다. 지속적인 연구와 개발을 통해 AWQ가 더욱 효과적이고 광범위하게 활용될 수 있기를 기대합니다.

 

키워드

활성화인식가중치양자화, 양자화, LLM, 대규모언어모델, GPTQ, 모델압축, 딥러닝, 머신러닝, 인공지능, AI, Nvidia, H100, FP8, BitsAndBytes, GGUF, LoRA, FriendlyAI, 성능개선, 효율성, Calibration, PerChannelScaling, SalientWeight, MixedPrecision, RTN, RoundToNearest, HuggingFace, Transformers