RoCEv2 학습

개요

AI 데이터센터 네트워크 기술에 대해 학습하고 있다. 그 중 새롭게 알게된 단어인 RoCEv2 기술에 대해 학습한 내용을 정리해보았다.

컴퓨팅 패러다임의 변화와 RDMA 기술의 부상

현대의 대규모 데이터센터는 인공지능 모델의 분산 학습, 고성능 컴퓨팅(HPC), 그리고 초저지연 스토리지 네트워크 환경으로 급격히 진화하고 있다. 수천 대의 GPU가 병렬로 연산을 수행하고 거대한 파라미터를 실시간으로 동기화하는 환경에서는, 네트워크 패브릭의 대역폭과 극단적인 저지연 성능이 전체 클러스터의 효율성을 결정짓는 핵심 병목이 된다. 전통적인 TCP/IP 스택은 CPU가 네트워크 패킷 처리를 전담하는 구조로, 통신 속도가 100Gbps를 넘어 400Gbps, 800Gbps로 진입하는 현대의 인프라에서 막대한 연산 자원 낭비와 응답 지연을 초래하여 더 이상 지속 가능하지 않다.

이러한 구조적 한계를 근본적으로 해결하기 위해 도입된 기술이 원격 직접 메모리 접근(RDMA, Remote Direct Memory Access)이다. RDMA는 네트워크 어댑터가 호스트의 CPU나 운영체제의 개입 없이, 로컬 메모리와 원격지 노드의 메모리 간에 데이터를 직접 읽고 쓰는 기술이다. 이를 통해 CPU 부하가 최소화되며, 데이터 전송 지연 시간을 마이크로초 단위로 극단적으로 단축할 수 있다.

과거 RDMA는 주로 고비용의 특수 목적용 InfiniBand 네트워크에서 제한적으로 사용되어 왔으나, 기존 이더넷 인프라가 지닌 보편성과 경제성을 유지하면서도 RDMA의 압도적인 성능을 결합하고자 하는 산업계의 요구에 따라 이더넷 기반의 RDMA 프로토콜이 지속적으로 고안되었다. 그 결과, 라우팅이 가능한 Layer 3 프로토콜인 RoCEv2(RDMA over Converged Ethernet version 2)가 등장하였으며, 현재 대규모 멀티 테넌트(Multi-tenant) 클라우드 및 AI 데이터센터 네트워크의 사실상 표준으로 확고히 자리 잡았다.

고성능 통신 프로토콜의 아키텍처 비교 분석

데이터센터 내 고성능 네트워크 시장은 오랜 기간 특수 목적용인 InfiniBand 패브릭이 주도해 왔으나, 점차 범용 이더넷 기반의 iWARP와 RoCE 프로토콜이 그 자리를 대체하거나 보완하는 추세이다. 이 세 가지 프로토콜은 성능, 비용, 운영 복잡성 측면에서 뚜렷한 아키텍처적 차이를 보인다.

특성 및 기준	InfiniBand (IB)	RoCEv2	iWARP
기반 전송 계층	InfiniBand Native	UDP / IPv4 또는 IPv6	TCP / IP
물리적 네트워크 환경	전용 케이블 및 IB 전용 스위치 필수	범용 이더넷 스위치 적용 가능	범용 이더넷 스위치 적용 가능
L3 라우팅 지원 여부	독자적인 서브넷 라우팅 체계	IP 라우팅 지원	IP 라우팅 지원
무손실(Lossless) 보장 방식	Credit-based Flow Control (하드웨어 레벨)	PFC (Priority Flow Control) 및 DCQCN	TCP 본연의 윈도우 기반 재전송 메커니즘
종단 간 지연 시간 (Latency)	1 ~ 2 µs (최저 수준)	2 ~ 5 µs (튜닝에 따라 변동)	5 µs 이상 (TCP 스택 처리 오버헤드 존재)
도입 비용 및 운영 복잡도	매우 높음 / 전문 지식 및 별도 인프라 필요	중간 / 이더넷 기반이나 PFC, ECN 튜닝 요구됨	낮음 / 구성이 간편하나 확장성 및 성능 제약
네트워크 실패 복구	하드웨어 기반의 독립된 고속 페일오버	이더넷 페일오버 (잘못된 설정 시 혼잡 확산 위험)	TCP 재시도 로직에 의존 (지연 시간 증가 수반)
주요 적용 워크로드	단일 테넌트 기반 최고 성능 HPC 클러스터	대규모 AI 훈련, 클라우드 인프라, NVMe-oF	소규모 인프라

초거대 AI 클러스터 및 NVMe-oF 인프라에서의 RoCEv2 활용 전략

현재 구글, 메타, 마이크로소프트 등 대규모 클라우드 서비스 제공자(CSP)들이 수만 대의 최상위 계층 GPU(H100, GB200 등)를 엮어 초거대 모델용 AI 트레이닝 클러스터를 구축할 때, 데이터 분배와 역전파 그래디언트 동기화 처리를 위한 스위칭 백본으로 전면 채택하고 있는 것이 바로 RoCEv2 기반의 레일 최적화 패브릭이다.

1) GPUDirect RDMA와 대규모 분산 모델 학습 가속

AI 모델 학습, 특히 수백 기가바이트의 파라미터를 다루는 분산 학습 알고리즘 과정에서는 각 컴퓨팅 노드의 GPU 메모리 내에 계산된 가중치를 다른 모든 노드의 GPU들과 주기적으로 통합하고 분배하는 집단 통신 연산이 필수적으로 요구된다. 과거의 제한된 TCP/IP 아키텍처에서는 이를 위해 GPU 내부의 텐서 데이터를 PCIe 버스를 통해 호스트 시스템 RAM으로 일일이 복사한 뒤, CPU가 이를 IP 패킷으로 쪼개어 NIC로 전달하는 극도로 비효율적인 파이프라인을 거쳐야 했다. 이 과정은 CPU의 심각한 오버헤드를 유발하고 전송에만 수 초 이상의 지연을 야기하여, 값비싼 GPU 연산 코어를 멈춰 세우는 가장 큰 원인이었다.

이를 혁명적으로 단축시킨 기술이 GPUDirect RDMA이다. 이 기술은 운영체제 커널의 개입 없이 PCIe 스위치 컨트롤러를 통해 원격지의 GPU 물리 메모리와 로컬 호스트의 RNIC를 논리적으로 직접 연결한다. 수백 메가바이트 크기의 거대한 동기화 페이로드가 생성되더라도, RNIC의 하드웨어 엔진은 이 데이터를 원격 시스템의 GPU VRAM 공간으로 즉각적인 DMA(Direct Memory Access)를 통해 전송하며 CPU 사이클을 단 1%도 소모하지 않는다. 일례로 Google Cloud의 A3 Ultra 및 A4 인스턴스는 1대의 노드 내에 무려 8개의 RoCEv2 전용 하드웨어 RNIC를 장착하고, 이를 상단 스위치 계층에 물리적 충돌 없이 독립적으로 배선하는 이른바 '레일(Rail) 토폴로지' 설계를 적용하여, 노드 간 3.2 Tbps라는 경이적인 대역폭의 동기화 패브릭을 구성하고 있다.

2) NVMe over Fabrics (NVMe-oF) 기반의 스토리지 성능 극한화

GPU의 연산 자원 고도화 못지않게 중요한 난제는 끊임없이 소진되는 학습용 원본 데이터셋을 병목 현상 없이 지속적으로 GPU로 밀어넣는 고성능 스토리지 인프라의 확보이다. 과거의 DAS(Direct Attached Storage)나 TCP 기반의 iSCSI SAN 패브릭은 최신 SSD가 제공하는 초고속 IOPS와 대역폭을 네트워크 프로토콜 스택의 오버헤드 병목으로 인해 절반도 소화해 내지 못했다.

NVMe-oF (NVMe over Fabrics) 아키텍처, 그중에서도 NVMe/RoCE 방식은 RDMA가 지닌 이점을 네트워크 스토리지 영역으로 직접 확장한 차세대 규격이다. 이 아키텍처를 도입하면 거대한 데이터센터 반대편 랙에 장착된 수백 개의 JBOF(Just a Bunch of Flash) 내부 NVMe 드라이브를, 마치 서버 내부의 로컬 PCIe 버스 슬롯에 직결된 NVMe 드라이브처럼 마이크로초 수준의 초저지연 상태로 사용할 수 있다.

저작자표시 비영리 (새창열림)

날아라 병아리