엔지니어링 관점에서 딥러닝 모델의 서빙(Serving) 효율을 극대화하고자 할 때, 특히 Transformer 기반의 NLP 모델을 다룬다면 반드시 검토해야 할 라이브러리가 바로 CTranslate2입니다.단순한 추론 라이브러리를 넘어, 하드웨어의 자원을 극한으로 끌어쓰기 위해 어떤 아키텍처적 고민이 담겨 있는지 심도 있게 살펴보겠습니다.CTranslate2: 하이퍼 스케일 NLP 추론을 위한 전 전용 엔진CTranslate2는 OpenNMT 프로젝트에서 파생된 고성능 추론 엔진으로, 주로 Transformer 모델(BERT, GPT, Whisper, T5 등)의 배포에 최적화되어 있습니다. 파이토치(PyTorch)나 텐서플로우(TensorFlow) 같은 학습 프레임워크가 가진 오버헤드를 제거하고, 오직..