AI DC 네트워크 구조의 기본 - Leaf Spine 구조에 대해 알아보자
AI DC 네트워크를 공부하면 우리가 알던 3계층(액세스–애그리게이션–코어)가 아닌 Leaf-Spine 구조만 나온다.
Leaf Spine 이 무엇이고, AI DC 네트워크에서 왜 필요한지 정리해본다.
전통적인 네트워크
옛날 데이터센터는 north-south(남북) 트래픽 중심이었다. 즉, 외부 사용자 → 서버 → 응답이라는 위아래 방향의 흐름이다. 전통적 3계층(액세스–애그리게이션–코어)은 바로 이걸 잘 처리하도록 설계되어 있었다.
가상화가 본격화되면서, 그리고 MSA 아키텍처가 부상하면서 상황은 달라지기 시작했다.
east-west(동서) 트래픽, 즉 서버 ↔ 서버 간 옆방향 통신이 폭증했다. 3계층 구조에서 서버 A가 서버 B와 통신하려면 트래픽이 액세스 → 애그리게이션 → (때로는 코어까지) → 다시 내려오는 식으로 위로 올라갔다 내려와야 해서 비효율적이었다.
3계층에서는 출발지·목적지에 따라 거치는 홉(hop) 수가 달랐다. 같은 액세스 스위치 아래면 가깝고, 다른 랙 또는 열이면 코어까지 갔다 와야 하고. 그래서 지연시간 예측이 어려웠다. 반면 Leaf-Spine은 어디서 어디로 가든 항상 leaf → spine → leaf의 2홉이라 지연이 일정하고 예측 가능하게 되었다.
Leaf Spine 구조, 그래서 어떤 건데?
리프-스파인은 네트워크 스위치를 딱 두 계층으로만 구성하는 구조다.
리프(Leaf): 서버가 연결되는 스위치. 랙 맨 위에 놓여서 ToR(Top-of-Rack) 스위치라고도 부른다.
스파인(Spine): 리프끼리만 연결해 주는 백본 스위치. 서버는 스파인에 직접 붙지 않는다.
규칙은 간단하다. 모든 리프가 모든 스파인에 연결된다(풀메시). 대신 리프끼리, 스파인끼리는 직접 연결하지 않는다.

Leaf-spine 구조, 구축 방법 (스위치 입장)
리프-스파인이 좋다는 이야기는 많이 들었을 것이다. 그런데 막상 "그래서 스위치 설정이 뭐가 달라지는데?"라고 물으면 설명이 막히는 경우가 많다. 토폴로지 그림은 단순해 보여도, 실제로 스위치에 들어가는 설정은 철학 자체가 다르다. 이 글에서는 전통적 3계층과 리프-스파인의 스위치 설정이 어떻게 달라지는지를 항목별로 비교한다.
1. 루프 방지: STP → 라우팅 (ECMP)
3계층
- 액세스·애그리게이션 계층이 대부분 L2로 묶여 있다.
- 루프를 막기 위해 **STP(Spanning Tree Protocol)**가 필수다.
- STP는 중복 링크를 **차단(blocking)**해 버린다. 이중화 링크를 깔아도 절반은 놀게 된다.
- 설정 예: spanning-tree mode rapid-pvst, 루트 브리지 우선순위 지정 등
Leaf-spine
- 리프–스파인 사이를 L3(라우팅)로 연결한다. L2 루프 자체가 생기지 않으므로 STP의 역할이 거의 사라진다.
- 대신 ECMP(Equal-Cost Multi-Path)로 모든 등가 경로에 트래픽을 분산한다. 4개의 업링크가 있으면 4개를 동시에 다 쓴다.
- STP는 만일을 대비해 리프 아래 서버 포트 쪽에만 최소한으로 남겨두는 정도다(BPDU Guard 등).
2. 라우팅 프로토콜: BGP 중심
3계층
- L2가 넓다 보니 스위치 자체에 라우팅 설정이 적었다. L3 경계(게이트웨이 라고 부름)는 주로 애그리게이션/코어에 몰려 있었다.
- HSRP/VRRP 같은 게이트웨이 이중화 프로토콜을 스위치에 설정했다.
Leaf-spine
- 각 리프가 라우터처럼 동작한다. 데이터센터에서는 eBGP가 사실상 표준이다(RFC 7938 권고).
- 모든 리프–스파인 링크마다 BGP 세션을 맺는다. 보통 /31(또는 /30) 서브넷을 쓴다.
- 각 리프·스파인에 고유한 AS 번호를 부여하고, BGP가 다중 경로(multipath)를 자연스럽게 광고한다.
3. 확장 방식
3계층
- 규모를 키우려면 코어 용량을 늘리거나 구조를 다시 짜야 하는 경우가 많았다. 오버서브스크립션도 위로 갈수록 심해졌다.
리프-스파인
- 서버를 늘리려면 리프를 추가하고, 대역폭을 늘리려면 스파인을 추가한다.
- 새 스위치를 추가할 때도 동일한 BGP·ECMP 설정 템플릿을 그대로 적용하면 되므로 자동화(Ansible 등 IaC)와 궁합이 좋다.
AI DC 네트워크에서 Leaf Spine이 왜 중요한가?
Leaf-spine은 사실 새로운 기술이 아니다. 일반 데이터센터에서는 이미 10년 넘게 표준이었다. 그런데 요즘 들어 AI 데이터센터 이야기가 나올 때마다 Leaf-spine이 다시 화두에 오른다. 왜일까? 답은 간단하다. AI 학습 트래픽이 Leaf-spine이 가장 잘하는 일을 극단까지 밀어붙이기 때문이다.
핵심: AI 학습은 "east-west 통신"의 끝판왕이다
AI 분산 학습은 이 east-west 트래픽을 상상 이상으로 극단적으로 만든다.
GPU 수백~수천 개가 하나의 모델을 함께 학습할 때, GPU들은 매 학습 스텝마다 계산한 gradient(기울기 값)를 서로 끊임없이 교환해야 한다. 내가 계산한 값과 네가 계산한 값을 모두 합쳐서 다시 모두에게 나눠주는 식이다. 이것을 All-Reduce라고 부른다.
이 통신량이 어느 정도냐면, 405B 규모 모델 기준으로 All-Reduce 한 번에 네트워크로 약 1.4TB가 이동한다. 그것도 학습이 끝날 때까지 수없이 반복된다. 8-GPU 서버 한 대만 봐도 north-south 대비 8~16배의 east-west 트래픽을 만든다. (AI 에게 물어본 결과라 참고만 해야함)
즉, AI 데이터센터의 네트워크는 "가끔 서버끼리 통신하는" 수준이 아니라 "수천 개 GPU가 동시에 풀스피드로 서로 데이터를 쏟아붓는" 환경이다. 이 환경에서 Leaf-spine의 장점은 선택이 아니라 필수가 된다.
Leaf-spine 위에 구현되는 AI 전용 네트워크 기술들
- RDMA (RoCEv2 / InfiniBand): CPU와 운영체제를 거치지 않고 GPU 메모리끼리 직접 데이터를 주고받는 기술이다. TCP/IP가 10~50µs 걸릴 지연을 약 2µs까지 낮춘다.
- 무손실 네트워크 (PFC / ECN / DCQCN): 패킷 하나만 떨어져도 RDMA는 전체 데이터를 재전송해 GPU가 몇 초씩 놀게 된다. 그래서 패킷을 절대 버리지 않는 무손실 패브릭을 구성한다.
- Rail-optimized 토폴로지: 각 노드의 같은 번호 GPU(NIC)를 동일한 리프 스위치에 모아 연결해, 같은 역할의 GPU끼리는 항상 1홉으로 통신하게 만드는 변형 설계다. All-Reduce 성능을 극대화한다.
- 스케일업 vs 스케일아웃 분리: 랙 내부는 초고속 NVLink(스케일업), 랙 사이는 리프-스파인 RDMA 패브릭(스케일아웃)으로 역할을 나눈다.