분류 전체보기 1252

CTranslate2 란?

엔지니어링 관점에서 딥러닝 모델의 서빙(Serving) 효율을 극대화하고자 할 때, 특히 Transformer 기반의 NLP 모델을 다룬다면 반드시 검토해야 할 라이브러리가 바로 CTranslate2입니다.단순한 추론 라이브러리를 넘어, 하드웨어의 자원을 극한으로 끌어쓰기 위해 어떤 아키텍처적 고민이 담겨 있는지 심도 있게 살펴보겠습니다.CTranslate2: 하이퍼 스케일 NLP 추론을 위한 전 전용 엔진CTranslate2는 OpenNMT 프로젝트에서 파생된 고성능 추론 엔진으로, 주로 Transformer 모델(BERT, GPT, Whisper, T5 등)의 배포에 최적화되어 있습니다. 파이토치(PyTorch)나 텐서플로우(TensorFlow) 같은 학습 프레임워크가 가진 오버헤드를 제거하고, 오직..

R&D/AI 2026.03.28

CUDA, cuDNN, TensorRT 에 대해서

🛠️ GPU 가속 컴퓨팅의 3단계 레이어: 아키텍처적 접근딥러닝 스택을 구축할 때 이 세 가지는 단순한 소프트웨어가 아니라, 하드웨어의 물리적 한계를 소프트웨어 최적화로 극대화하는 단계별 프로세스로 이해해야 합니다.1. CUDA (The Fundamental Interface)CUDA는 GPU의 수천 개 코어에 명령을 내리기 위한 추상화 계층(Abstraction Layer)입니다.기술적 실체: GPGPU(General-Purpose computing on GPU)를 가능케 하는 병렬 컴퓨팅 플랫폼이자 프로그래밍 모델입니다. CPU의 직렬 처리 방식과 달리, 데이터 병렬성을 극대화하기 위해 Thread - Block - Grid라는 계층 구조로 연산을 스케줄링합니다.핵심 기능: 메모리 관리(Host t..

R&D/AI 2026.03.28

최고의 저전력 서버 ARM AGI CPU 출시

드디어 ARM 에서 자체 생산하는 CPU 가 나왔습니다. Facebook DataCenterFacebook은 항상 기술에서 선두주자에 있다. PROMETHEUS 는 1GW DC로 만들고 있고, HYPERION은 5GW DC로 만들고 있다.1. 기가와트(GW)급 AI 슈퍼클러스터전력 규모: 단일 클러스터로 1GW(기가와트) 이상의 전력을 사용하는 초대형 시설입니다. 이는 중형 원자력 발전소 1기의 발전량과 맞먹는 수준입니다.컴퓨트 파워: 수만 개의 최신 GPU(NVIDIA H100/B200 등)가 고속 네트워크로 연결되어, 차세대 LLM(Llama 4 이상) 및 초지능(ASI) 개발을 위한 핵심 기반이 됩니다.위치: 미국 오하이오주 뉴얼버니(New Albany)에 첫 번째 시설이 구축되고 있습니다.2. 혁..

R&D/OS 2026.03.25

SSH login을 하면 discord에 알람 보내기

구조SSH 로그인 발생 → PAM 트리거 → 스크립트 실행 → Discord Webhook 호출1. Discord Webhook 생성Discord 서버 → 설정 → Integrations → Webhooks → URL 생성2. 스크립트 작성sudo vi /usr/local/bin/ssh_notify.sh #!/bin/bashWEBHOOK_URL="https://discord.com/api/webhooks/XXXX"USER="$PAM_USER"IP="$PAM_RHOST"DATE=$(date "+%Y-%m-%d %H:%M:%S")TYPE="$PAM_TYPE"# 이벤트 타입 구분if [ "$TYPE" = "open_session" ]; then EVENT="🔐 SSH LOGIN"elif [ "$TY..

R&D/OS 2026.03.21

라즈베리파이 - Buildroot 를 활용한 나만의 Linux 만들기

make raspberrypi0w_defconfigexport FORCE_UNSAFE_CONFIGURE=1 Buildroot 내부 툴체인 사용으로 변경make menuconfigToolchain → Toolchain type → (X) Buildroot toolchain 기타 주요 설정 Toolchain → C library → (X) glibc Kernel Headers → (X) 5.x 또는 latest (1) wpa_supplicant 활성화Target packages → Networking applications → [*] wpa_supplicant # wifi chip (BCM43438)Target packages → Hardware handl..

R&D/OS 2026.03.20

Jetson Xavier Kernel re-build

Download kernel sourcewget https://developer.nvidia.com/downloads/embedded/l4t/r35_release_v1.0/sources/public_sources.tbz2# 압축 해제tar -xjf public_sources.tbz2# 커널 소스 위치로 이동 (압축 해제 후 생성된 디렉토리 확인)cd Linux_for_Tegra/source/public Kernel 소스 압축 풀기tar -xjf kernel_src.tbz2cd kernel/kernel-5.10 빌드 도구 설치sudo apt-get updatesudo apt-get install build-essential bc bison flex libssl-dev \ libncurses-dev pkg-..

R&D/OS 2026.03.19

Jetson Xavier 에서 minikube로 웹 서비스하기 (1/3)

작은 보드 컴퓨터 위에 작은 클라우드를 올리는 일은 꽤 묘한 경험이다. 책상 위에 놓인 손바닥 크기의 장비가 Kubernetes를 돌리고 웹 서비스를 내보낸다. 거대한 데이터센터의 축소판이 바로 눈앞에 있는 셈이다. 이번에는 NVIDIA Jetson Xavier에서 Minikube를 사용해 웹 서비스를 띄우는 과정을 정리해 본다. Jetson은 ARM64 아키텍처라 일반 x86 PC와 몇 가지 차이가 있지만 구조는 거의 동일하다.Jetson Xavier에서 Kubernetes를 돌리는 이유Jetson 계열 장비는 원래 AI Edge 컴퓨팅을 위해 만들어졌다. 하지만 GPU가 있는 작은 서버이기도 하다. 그래서 다음 같은 실험이 가능하다.Edge AI 서비스Edge Kubernetes로컬 AI infere..

R&D/OS 2026.03.14

대규모 VM을 위한 스토리지 확장 전략: IOThread와 Virtqueue 매핑 최적화

최근 클라우드 네이티브 워크로드나 AI 추론용 가상 머신(VM)들은 수십 개의 vCPU를 사용하는 대형 인스턴스로 구성됩니다. 하지만 CPU가 많아진다고 해서 디스크 I/O 성능이 비례해서 늘어날까요?오늘은 레드햇의 최신 가이드를 바탕으로, virtio-blk 성능 확장의 핵심인 IOThread와 Virtqueue 매핑 전략을 살펴보겠습니다.1. 왜 대형 VM에서 I/O 병목이 발생하는가?전통적인 가상화 방식에서는 모든 I/O 처리가 단일 IOThread에서 이루어집니다. 아무리 vCPU가 많아도 I/O를 처리하는 입구(Thread)가 하나라면, 여기서 병목이 발생하여 고성능 NVMe 스토리지의 성능을 100% 활용할 수 없게 됩니다.2. 해결의 열쇠: IOThread와 Virtqueue이 병목을 해결하..

R&D/Hypervisor 2026.03.12

sudo su - 느리다면?

sudo su -가 느려지는 현상은 리눅스에서 꽤 고전적인 미스터리다. 겉으로 보면 단순히 root로 전환하는 명령인데, 내부에서는 꽤 많은 일이 벌어진다. 대부분의 경우 병목은 네트워크 조회나 PAM 인증 과정에서 발생한다. 차근차근 좁혀보면 원인을 찾을 수 있다.먼저 가장 흔한 원인부터 보자. DNS 조회 지연이다.sudo와 su는 실행될 때 현재 시스템의 hostname을 확인하고 이를 DNS로 조회하려는 경우가 있다. 이때 /etc/hosts에 hostname이 없거나 DNS가 느리면 몇 초씩 지연된다.확인 방법은 간단하다. hostnamecat /etc/hosts 보통 다음과 같은 줄이 있어야 한다. 127.0.0.1 localhost127.0.1.1 myhostname 여기서 myhostnam..

R&D/OS 2026.03.12

MTU 어디까지 아니?

MTU(Maximum Transmission Unit)는 OSI 7계층 모델에서 주로 2계층(데이터 링크 계층)과 3계층(네트워크 계층) 사이의 접점에 위치하며, 두 계층 모두와 밀접한 연관이 있습니다.구체적인 연관성은 다음과 같습니다.1. 데이터 링크 계층 (2계층, Data Link Layer)MTU의 물리적인 한계를 결정하는 계층입니다.특정 네트워크 기술(Ethernet, Wi-Fi 등)이 한 번에 전송할 수 있는 최대 프레임 크기를 정의합니다.가장 일반적인 Ethernet MTU는 1,500바이트입니다. 이는 이더넷 프레임의 페이로드(데이터 부분)에 담길 수 있는 최대 크기를 의미합니다.MTU 는 Ethernet payload 의 사이즈를 정의합니다. 따라서 실제 MTU가 1500의 Etherne..

R&D/OS 2026.03.05
728x90
반응형