'R&D/AI' 카테고리의 글 목록

NVIDIA $20억 투자 + S&P 500 편입: Coherent Corp.(COHR)이 AI 데이터센터 광통신 공급망을 독점하는 기술 구조와 $230억 시장 완전 분석 2026

Coherent Corp.(NYSE: COHR)은 2026년 현재 소재(InP·SiC) → 칩(EML·VCSEL·CW 레이저) → 모듈(플러그어블·CPO·OCS) → 시스템 전 단계의 수직통합, 세계 최초 6인치 InP 양산, 그리고 NVIDIA와의 $20억 전략적 파트너십이라는 3중 해자(Moat)를 동시에 보유한 유일한 기업이다. 이 구조가 $230억 TAM의 관문을 잠금(Lock-in)하며, AI 데이터센터 광통신 공급망의 구조적 병목을 형성하고 있다.지표수치출처Q2 FY2026 매출$1.69B (YoY +36%)Motley Fool Earnings Transcript데이터센터 부문 비중72%Financial ContentBook-to-Bill 비율4배 초과Q2 FY2026 실적발표NVIDIA 투자..

R&D/AI 2026.04.15

AI 데이터센터 전력비 73% 절감의 비밀: Co-Packaged Optics(CPO)로 구리 인터커넥트를 대체하는 광통신 가이드 2026

핵심 요약항목수치CPO vs 기존 트랜시버 전력 절감65~73%레이턴시 개선10~20배대역폭 (TSMC COUPE 3세대)12.8 TbpsCPO 시장 CAGR (2026~2036)37%2036년 시장 규모200억 달러 이상CPO(Co-Packaged Optics)란? 기존에 스위치 보드 외부에 꽂혀 있던 광학 모듈(트랜시버)을 스위치 ASIC 칩 바로 옆에 통합 패키징하는 기술입니다. 구리 전기 신호 경로를 최소화해 전력 손실과 레이턴시를 동시에 줄입니다.1. "구리의 벽(Copper Wall)"이 AI를 막고 있다2026년 현재, 전 세계 AI 데이터센터의 최대 병목은 GPU가 아닙니다. GPU 사이를 연결하는 인터커넥트입니다.GPU 클러스터가 수천, 수만 대로 확장되면서 이 문제는 더 이상 엔지니어링..

R&D/AI 2026.04.15

구글이 답이다 - Gemma 4 31B 출시

Production-grade Open LLM을 향한 아키텍처적 진화Google이 공개한 Gemma 4 31B는 단순한 오픈소스 LLM의 확장이 아니라, 프로덕션 환경에서의 실제 활용을 전제로 설계된 모델이라는 점에서 기존 계열과 명확히 구분된다.1. 모델 개요 및 설계 철학Gemma 4 31B는 다음과 같은 특징을 가진다.31B Dense Transformer 기반Instruction-tuned (it) 모델256K Context WindowMultimodal 지원 (Text + Image)Tool / Function Calling 대응 구조Apache 2.0 License여기서 핵심은 단순한 성능 향상이 아니라,다음과 같은 설계 목표가 반영되어 있다는 점이다.“LLM을 단일 응답 엔진이 아닌, 시스템..

R&D/AI 2026.04.08

Jetson Thor에서 vLLM 구동

Jetson Thor는 CPU와 GPU가 메모리를 공유하기 때문에, 새로운 모델을 사용하기 전에 캐시메모리를 삭제하고 시작하는게 좋다.vm.drop_caches 파일에 쓰는 숫자에 따라 해제되는 대상이 달라집니다: 1: Page Cache 해제 (디스크 읽기/쓰기 시 생성된 캐시) 2: Dentries 및 Inodes 해제 (파일 시스템 구조 관련 캐시) 3: 1번과 2번 모두 해제 (모든 캐시를 비움)sudo sysctl -w vm.drop_caches=3 Jetson Thor용으로 빌드된 vllm 컨테이너ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thornvcr.io/nvidia/vllm:26.01-py3# Run Commandsudo docker run -it --rm..

R&D/AI 2026.04.05

Jetson Thor sm110 빌드

1. ARCHITECTURES_WITH_KERNELS 목록에 추가 cmakeset(ARCHITECTURES_WITH_KERNELS 80 86 89 90 100 103 110 # ← 추가 120)2. ARCHITECTURES_COMPATIBILITY_BASE에 추가SM 110은 새로운 major family이므로: cmakeset(ARCHITECTURES_COMPATIBILITY_BASE 80 86 90 100 110 120)3. 기본 아키텍처 목록에 추가 (CUDA 버전 조건)SM 110을 지원하는 CUDA 버전에 맞게 추가합니다. SM 110은 CUDA 12.9 이후 지원될 가능성이 높으므로: cmakeif(CMAKE_CUDA_COMPILER_VERS..

R&D/AI 2026.04.05

Jetson Thor TensorRT LLM Build

# Build TensorRT LLM for Jetson Thorpython3 ./scripts/build_wheel.py --cuda_architectures "110-real" https://github.com/NVIDIA/TensorRT-LLM/pull/11357/changes#top1. ARCHITECTURES_WITH_KERNELS 목록에 추가 cmakeset(ARCHITECTURES_WITH_KERNELS 80 86 89 90 100 103 110 # ← 추가 120)2. ARCHITECTURES_COMPATIBILITY_BASE에 추가SM 110은 새로운 major family이므로: cmakeset(ARCHITECTURES_COMPATIBI..

R&D/AI 2026.04.04

생성형 AI 가속화 혁명: NVIDIA TensorRT-LLM 심층 분석

Generative AI의 폭발적인 성장과 함께 대규모 언어 모델(LLM)의 추론 효율성은 기업의 생산성과 비용 구조를 결정짓는 핵심 지표가 되었습니다. 이러한 흐름 속에서 NVIDIA가 선보인 TensorRT-LLM은 단순한 라이브러리를 넘어, 하드웨어의 잠재력을 극한으로 끌어올리는 소프트웨어 정의 추론(Software-Defined Inference)의 정수를 보여줍니다.1. 근간이 되는 기술: NVIDIA TensorRT의 이해TensorRT-LLM을 이해하기 위해서는 그 뿌리인 TensorRT를 먼저 살펴봐야 합니다. TensorRT는 NVIDIA GPU에서 딥러닝 모델의 추론 속도를 최적화하기 위한 고성능 SDK입니다. 학습이 완료된 모델이 실제 서비스 환경(Production)에서 구동될 때,..

R&D/AI 2026.04.04

NVIDIA CUDA의 진화와 GPU 아키텍처: 버전별 기술 변화와 하드웨어 매핑

CUDA는 NVIDIA가 GPU를 단순한 그래픽 처리 장치에서 범용 병렬 컴퓨팅 플랫폼으로 전환시키기 위해 설계한 핵심 기술이다. 오늘날 AI, HPC, 클라우드 데이터센터의 기반이 되는 이 플랫폼은 단순한 SDK를 넘어, GPU 아키텍처의 진화를 흡수하고 확장하는 실행 환경으로 자리잡았다. CUDA의 각 버전은 독립적으로 존재하는 것이 아니라, 특정 GPU 세대와 강하게 결합되어 발전해왔으며, 이 둘의 관계를 함께 이해하는 것이 전체 흐름을 파악하는 핵심이다.아래 표는 CUDA의 주요 버전과 해당 시기의 GPU 아키텍처, 그리고 기술적 특징을 한눈에 정리한 것이다.CUDA 버전별 아키텍처 및 하드웨어 매핑CUDA버전출시시기지원아키텍처 대표GPU 핵심 기술 변환1.x2007TeslaTesla C870GP..

R&D/AI 2026.04.04

CTranslate2 란?

엔지니어링 관점에서 딥러닝 모델의 서빙(Serving) 효율을 극대화하고자 할 때, 특히 Transformer 기반의 NLP 모델을 다룬다면 반드시 검토해야 할 라이브러리가 바로 CTranslate2입니다.단순한 추론 라이브러리를 넘어, 하드웨어의 자원을 극한으로 끌어쓰기 위해 어떤 아키텍처적 고민이 담겨 있는지 심도 있게 살펴보겠습니다.CTranslate2: 하이퍼 스케일 NLP 추론을 위한 전 전용 엔진CTranslate2는 OpenNMT 프로젝트에서 파생된 고성능 추론 엔진으로, 주로 Transformer 모델(BERT, GPT, Whisper, T5 등)의 배포에 최적화되어 있습니다. 파이토치(PyTorch)나 텐서플로우(TensorFlow) 같은 학습 프레임워크가 가진 오버헤드를 제거하고, 오직..

R&D/AI 2026.03.28

CUDA, cuDNN, TensorRT 에 대해서

🛠️ GPU 가속 컴퓨팅의 3단계 레이어: 아키텍처적 접근딥러닝 스택을 구축할 때 이 세 가지는 단순한 소프트웨어가 아니라, 하드웨어의 물리적 한계를 소프트웨어 최적화로 극대화하는 단계별 프로세스로 이해해야 합니다.1. CUDA (The Fundamental Interface)CUDA는 GPU의 수천 개 코어에 명령을 내리기 위한 추상화 계층(Abstraction Layer)입니다.기술적 실체: GPGPU(General-Purpose computing on GPU)를 가능케 하는 병렬 컴퓨팅 플랫폼이자 프로그래밍 모델입니다. CPU의 직렬 처리 방식과 달리, 데이터 병렬성을 극대화하기 위해 Thread - Block - Grid라는 계층 구조로 연산을 스케줄링합니다.핵심 기능: 메모리 관리(Host t..

R&D/AI 2026.03.28

Deep dive into Kernel

R&D/AI 27

티스토리툴바

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31