반응형

드디어 ARM 에서 자체 생산하는 CPU 가 나왔습니다.

Facebook DataCenter
Facebook은 항상 기술에서 선두주자에 있다. PROMETHEUS 는 1GW DC로 만들고 있고, HYPERION은 5GW DC로 만들고 있다.

1. 기가와트(GW)급 AI 슈퍼클러스터
- 전력 규모: 단일 클러스터로 1GW(기가와트) 이상의 전력을 사용하는 초대형 시설입니다. 이는 중형 원자력 발전소 1기의 발전량과 맞먹는 수준입니다.
- 컴퓨트 파워: 수만 개의 최신 GPU(NVIDIA H100/B200 등)가 고속 네트워크로 연결되어, 차세대 LLM(Llama 4 이상) 및 초지능(ASI) 개발을 위한 핵심 기반이 됩니다.
- 위치: 미국 오하이오주 뉴얼버니(New Albany)에 첫 번째 시설이 구축되고 있습니다.
2. 혁신적인 '텐트형' 데이터센터 구조
가장 독특한 점은 기존의 콘크리트 건물이 아닌 특수 텐트(Tent-style) 구조를 도입했다는 것입니다.
- 속도 중심: 전통적인 데이터센터 빌드는 18~24개월이 걸리지만, 텐트 방식은 4~7개월 내에 가동이 가능합니다. AI 경쟁에서 속도를 확보하기 위한 전략입니다.
- 모듈화: 전력 및 냉각 장치를 프리패브(Pre-fabricated) 모듈 형태로 제작하여 현장에서 조립하는 방식을 채택했습니다.
3. 네트워킹 및 기술 아키텍처 (BAG)
- Backend Aggregation (BAG): 메타가 최근 공개한 기술로, 지역 네트워크와 메타의 백본을 연결하여 수만 개의 GPU가 단일 컴퓨터처럼 작동하게 하는 고대역폭 네트워크 층입니다.
- 대역폭: 지역 간 연결 용량이 페타비트(Pbps) 단위에 달하며, 지연 시간을 최소화하여 분산 학습 효율을 극대화합니다.

OpenAI

H/W Spec


| 특징 | ARMv9.0-A (V2 적용) | ARMv9.2-A (V3 적용) |
| 핵심 보안 | TrustZone (기존 방식) | CCA (Confidential Compute) |
| 연산 가속 | SVE2 (Vector) | SME (Matrix) + SVE2 |
| 메모리 보호 | MTE (기본) | MTE (고도화/최적화) |
| 가상화 | 표준 가상화 지원 | Realm 관리 기능을 통한 완벽 격리 |


TDP의 기본 정의
TDP(Thermal Design Power, 열 설계 전력)는 프로세서가 최대한으로 작동할 때 발생하는 열을 식히기 위해 필요한 냉각 시스템의 용량을 의미합니다.
- 단위: Watt(W)로 표시하지만, 실제 전기 사용량이라기보다 **'이만큼의 열이 나오니 이 수준의 쿨러가 필요하다'**는 가이드라인에 가깝습니다.
- 의미: 300W TDP라면, 해당 칩셋이 풀가동될 때 발생하는 300W 분량의 열을 지속적으로 배출할 수 있는 냉각 솔루션(공랭/수랭 등)이 갖춰져야 함을 뜻합니다.
300W 수준의 의미
일반적인 가전이나 PC 부품과 비교하면 300W는 상당히 높은 고성능급 수치입니다.
| 구분 | 일반적인 TDP 수준 | 특징 |
| 저전력 노트북 | 15W ~ 45W | 긴 배터리 시간, 얇은 두께 |
| 데스크탑 CPU | 65W ~ 125W | 일반적인 게이밍 및 작업용 |
| 하이엔드 GPU | 250W ~ 450W | RTX 4080/4090 등 고성능 그래픽카드 |
| 데이터센터용 칩 | 300W ~ 700W+ | AI 연산, 대규모 서버용 |
비슷한 core의 EPYC 9745와 비교하는 큰 TDP 차이는 나지 않네요. (400 vs. 300)




아무리 저전력 CPU라고 해서, 30노드를 설치하는 36KW 랙이 필요합니다. 역시 전력 문제는 어디든





CPU roadmap




성능 최적화와 시장 출시 기간 단축
기존에는 칩 설계자가 개별 CPU IP를 가져와 인프라를 직접 설계해야 했으나, **CSS(Compute Subsystem)**는 Arm이 이미 검증한 '패키지형 서브시스템'입니다. 이를 통해 설계 복잡도를 낮추고 제품 출시 기간(Time-to-Market)을 획기적으로 줄일 수 있습니다.
기술적 주요 특징
- 최신 V3 코어 기반: Neoverse V3 CPU와 CMN S3 상호 연결 기술을 결합하여, AI 및 HPC 워크로드에서 요구되는 높은 처리량과 확장성을 제공합니다.
- 칩렛(Chiplet) 최적화: 최신 트렌드인 칩렛 구조 및 멀티 다이(Multi-die) 설계를 기본적으로 지원합니다. 이를 통해 사용자 정의 가속기나 I/O를 유연하게 통합할 수 있는 모듈형 시스템 구축이 가능합니다.
- 높은 코어 수 및 대역폭: 대규모 메모리 용량과 고대역폭 I/O를 지원하도록 설계되어, 성능 재설계 없이도 클라우드 및 데이터 집약적 워크로드를 수용할 수 있습니다.
- 성능 및 TCO 개선: Microsoft Azure의 Cobalt 200 같은 커스텀 실리콘이 이 CSS V3를 기반으로 하고 있으며, 이는 기존 대비 높은 전성비와 운영 효율성(TCO 절감)을 증명하고 있습니다.
https://www.arm.com/products/cloud-datacenter/arm-agi-cpu
728x90
반응형