ChatGPT 가 유행하면서 Nvidia 의 GPU가 핵심 하드웨어로 간주되고 있습니다. Nvidia 는 전세계 최강자이며 이를 따라가는 다양한 Startup 들이 존재합니다. 하지만 AWS 역시 내부적으로 NVidia의 GPU가 아닌 NPU(Neural Processing Unit)를 제공하고 있습니다. GPU를 통해서 학습(Training)과 추론(Inference)을 하는데 이 두 영역은 고객군이 불리되는 경우가 많으니 학습 전용 HW와 추론 전용 HW를 분리하여 제공하는 것이 비용 및 성능 효율적이라고 생각합니다. 예를 들어, 우리나라의 혁신적인 스타트업인 리벨리온(Rebellions)는 추론 영역의 HW를 타겟팅한 회사 입니다. 오늘은 AWS 추론엔진인 Inferentia2를 간단하게 공부해 보고자 합니다.
Nvidia GPU, Infrentia 처럼 특정 하드웨어를 추가하여 제공하는 서비스 군은 AWS에서 "Accelerated Computing" 군으로 모여 있다. 왜냐하는 이런 장치를 일반적으로 Co-processor 또는 Accelerator라고 하기 때문인거 같습니다. AWS 에서 제공하는 Accelerators에는 Nvidia GPU (EC2 P, G 타입), AWS Trainium chip(EC2 Trn 타입), AWS Inferentia chip(EC2 Inf 타입), Intel Gaudi (EC2 DL 타입), Xilinx FPGA (EC2 F 타입), Xilinx U30 (EC2 VT 타입)이 있습니다.
AWS Instance 타입(inf2) 가격
AWS Inferentia co-processor 는 벌써 2세대를 제공하고 있습니다. 2세대 chip은 1세대 chip의 거의 4배의 성능을 발휘 한다고 합니다. 현재 2세대 chip에서 사용 가능한 인스턴스 타입은 다음과 같습니다. 비슷한 스펙의 Nvidia GPU 보다 가격이 25% 정도 싼 거 같습니다. (ex. inf2.xlarge vs. g5.xlarge)
Inferentia Architecture
Inferencia2 의 핵심 코어는 NeuronCore-v2 라고 합니다.
참고로 1세대 Inferentia1은 다음과 같은 아키텍쳐를 가지고 있습니다.
NeuronCore-v1 과 v2의 차이는 단순한 성능의 차이 뿐만 아니라 연산의 종류도 다릅니다. NeuronCore-v1 에서는 32Bit Floating Point 연산인 FP32를 지원하지 않습니다. 또한 Inferentia1에서는 PCIe (Gen4)와 DDR4 램을 사용하였다면 Inferentia2에서는 PCIe (Gen5)와 HBM을 사용하여 하드웨어적인 성능 향상도 이루었습니다.
Inferentia2 성능
비슷한 스펙의 NVidia A10 과 비교해 보면 약 1.5배 정도 성능이 좋은 것으로 보입니다.
연산 종류 | Inferentia1 | Inferentia2 | NVidia A10 |
INT8 | 128 TOPS | 380 TOPS | 250 TOPS |
FP16/BF16/cFP8/TF32 | 64 TFLOPS (Only FP16, BF16) |
190 TFLOPS | 125 TFLOPS |
FP32 | - | 47.5 TFLOPS | 31.2 TFLOPS |
생각
하드웨어적으로 Training Accelerator와 Inference Accelerator 가 따로 존재하는데, 두개의 큰 하드웨어적인 차이점은 Training에는 FP32 연산이 필요하며, Inference에는 FP32 연산이 필요 없기 때문이라고 추측할 수 있을거 같습니다.
Reference
Inferentia2: https://awsdocs-neuron.readthedocs-hosted.com/en/latest/general/arch/neuron-hardware/inferentia2.html