데이터센터 리던던시 강화를 위한 솔루션 비교

Reading Time: 5 minutes

오늘날의 데이터센터에서는 패브릭에 연결된 서버에서 시스템 이중화를 달성하는 여러 가지 방법이 있습니다. 고객은 일반적으로 다양한 멀티호밍 기술을 사용하여 서비스 가용성을 높이고(예: 엔드투엔드 AI 워크로드 달성) 시스템 효율성을 찾기 위해 중복성을 추구합니다.

이 포스팅에서는 잘 알려진 독점 멀티 섀시(chassis) 링크 집계 그룹(MLAG)의 장단점을 표준 기반 EVPN 멀티호밍(EVPN-MH)과 비교하여 설명합니다.

MLAG 소개

멀티호밍은 모든 최신 데이터센터에 필요한 기능으로, 단일 호스트가 두 개 이상의 노드에 연결하여 올-액티브 또는 단일-액티브 방식으로 서비스를 제공할 수 있도록 합니다. 올-액티브는 먼저 용량을 늘리고 이중화에 중점을 둡니다. 단일 활성은 주로 중복성에 중점을 둡니다.

인터넷 서비스 사업자 세계에서 멀티호밍은 주로 고객 장비가 사업자 엣지 장비 위치와 상호 연결되는 PoP(Point of Presence) 위치에서 익숙한 개념입니다.

이 연결은 거의 항상 레이어 3 라우팅 연결이며 중복 사이트 접속 또는 인터넷 접속을 해결하기 위한 것이므로 레이어 2 환경의 문제를 야기하지 않습니다. 그러나 데이터 센터에서는 서버나 엔드 노드를 네트워크에 중복 방식으로 연결할 때 레이어 2로 내려가야 합니다.

2010년대 초에 MLAG가 등장했고 많은 벤더가 비슷한 기능을 수행하는 유사한 기능을 구현했습니다. 한 가지 명심해야 할 중요한 점은 MLAG는 공급업체에 따라 달라지는 독점 기술이라는 점입니다. 위키백과에 따르면 MLAG의 구현은 “공급업체마다 다르며, 특히 섀시 사이에 존재하는 프로토콜은 독점적입니다.”라고 합니다. 이는 MLAG의 근본적인 문제이며 다른 많은 문제를 유발합니다.

MLAG(그림 1)에서 클라이언트 디바이스는 서버 또는 하이퍼바이저가 될 수 있고 스위치 또는 라우터는 일반적으로 두 개의 물리적 링크를 단일 논리적 링크로 결합하는 고전적인 링크 집계 그룹(LAG)을 형성합니다. 이러한 링크의 반대편에는 일반적으로 두 개의 스위치가 있으며, 이 스위치는 이러한 링크에 연결됩니다. LACP 관점에서 볼 때 이 두 스위치는 동일한 LACP 시스템 ID를 가진 단일 스위치처럼 작동합니다. 따라서 MLAG는 서버 관점에서 작동합니다.

그러나 두 개의 MLAG 참여 스위치의 경우 상황이 조금 더 복잡합니다. 두 스위치 간에 상태 및 MAC 동기화가 필요하기 때문에 참여 스위치 중 하나가 업링크가 끊어지는 경우 스플릿 브레인 상황과 피어 링크를 통한 트래픽 흐름을 방지하기 위해 하트비트도 필요합니다. 이 피어 링크는 전체 설계를 비표준적이고 복잡하며 오류가 발생하기 쉬운(CLOS 리프 및 스파인 아키텍처에 적합하지 않은) 설계로 만듭니다.

상태 및 MAC 동기화 표준을 만들기 위한 노력이 진행되고 있습니다. RFC7275는 이 문제를 해결하고 섀시 간 제어 프로토콜(ICCP)이라는 새로운 프로토콜로 이 문제를 해결하는 데 중점을 두고 있습니다. 그러나 여전히 여러 공급업체에서 다양한 버전의 RFC7275를 구현하고 있으며 결국 동일한 문제가 발생하고 있습니다. 이 MLAG 솔루션은 제한된 범위에서 멀티호밍 문제를 해결했습니다.

MLAG의 미래는 암울하지만, 보다 유연하고 기술적으로 우수한 멀티호밍 솔루션이 있습니다: 바로 EVPN 멀티호밍(EVPN-LAG 또는 ESI-LAG라고도 함)입니다.

EVPN 멀티호밍의 장점

멀티호밍은 ISP 업계에서 낯선 개념이 아니며 처음에는 WAN 기술로 등장했습니다. 그러나 최신 데이터 센터에는 멀티호밍을 구현하는 고유한 방법이 필요하다는 것이 분명해졌습니다.

공교롭게도 EVPN 자체도 처음에는 WAN 기술로 도입되었다가 데이터 센터 기술로 발전했습니다. EVPN은 멀티호밍 기능을 매우 빠르게 채택했습니다. RFC7432를 통해 EVPN-MH는 이더넷 세그먼트 식별자(ESI)라는 새로운 주소 지정 필드를 사용합니다. EVPN-MH를 작동하게 하는 이 기본 구성 요소는 유형 1 및 유형 4 라우트가 전파되는 한 패브릭 전체에 걸쳐 모든 곳에서 사용됩니다. ESI는 특정 멀티홈 세그먼트를 지정하는 10바이트 필드입니다.

EVPN-MH의 내부 구조, 라우트 유형, 레거시 및 독점 MLAG와 비교했을 때 어떤 점이 매력적인지 살펴보겠습니다.

EVPN-MH는 MLAG가 사용하는 ICCP와 달리 BGP(보더 게이트웨이 프로토콜)를 컨트롤 플레인으로 사용합니다. 또한, EVPN-MH는 RFC7432에 따라 여러 가지 유형의 EVPN 라우트유형을 사용합니다.

EVPN 라우트 타입-1

EVPN 타입-1 라우트 기능은 매스 인출, 앨리어싱, 부하 공유로 나열할 수 있습니다(그림 2).

대량 인출

대량 인출은 ES에서 특정 링크가 다운될 경우 해당 링크에 연결된 모든 종속 MAC 주소를 인출할 수 있도록 합니다. 이렇게 하면 각 MAC에 대해 하나씩 철회하는 대신 대량 철회를 전송하여 빠른 컨버전스를 달성할 수 있습니다. 여기서는 하이퍼바이저가 동일한 VLAN 또는 수백 개의 VLAN을 통해 많은 VM을 사용하여 해당 ES에 연결되어 있다고 가정합니다.

앨리어싱(Aliasing) 및 로드 밸런싱

앨리어싱 및 로드 밸런싱은 ES로 향하는 다운스트림 트래픽이 ES 멤버 스위치 간에 로드 밸런싱되도록 합니다(EVI라고도 함). 이렇게 하면 ES 멤버 스위치는 ES 뒤에서 특정 MAC을 광고하는지 여부에 관계없이 패브릭의 다른 스위치로부터 부하 공유 방식으로 트래픽을 수신할 수 있습니다.

EVPN 라우트 유형-2

유형-2(MAC/IP) 라우트는 동일한 ES 멤버 리프에 의해 광고되며, 이 이더넷 세그먼트에 연결된 각 MAC에 대한 ESI 값을 포함합니다(그림 3)

유형-2 라우트는 EVPN-MH 설정의 일부가 아니지만, 특정 대상 MAC에 ESI 정보가 있을 때 이를 사용합니다.

EVPN 라우트 유형-4

EVPN 유형-4 라우트는 DF(지정 전달자) 선택 및 멀티홈 ES의 자동 검색에 사용됩니다(그림 4).

EVPN 타입-1 및 타입-4 라우트는 EVPN-MH를 작동시키고 표준 기반 상호 운용성을 제공합니다. 유형 4 라우트는 특정 ES에 참여하는 라우터 또는 리프만 가져옵니다. 해당 ES에 참여하지 않는 패브릭의 다른 라우터 또는 리프는 유형 4 라우트를 가져오지 않습니다. 유형 4 라우트는 로컬 BUM 트래픽을 전송할 위치를 선택하기 위한 DF 선택에 사용되며, 멀티홈 시나리오에서는 멀티홈 서버와 같은 클라이언트에게 BUM 트래픽을 전송할 책임이 있는 DF만 네트워크를 통해 넘쳐나야 합니다.

일반적인 EVPN-MH 토폴로지는 그림 5에서 확인할 수 있습니다.

EVPN-MH의 장점:

컨트롤 플레인 기반 MAC 및 상태 동기화
표준 기반, BGP EVPN 라우트 유형 및 상호 운용성
멀티홈 연결의 패브릭 전체 라우트 배포
빠른 컨버전스, 철수
2개 이상의 멀티호밍 가능
물리적 피어 링크 연결 필요 없음
미래 대비
BGP로 확장 가능

결론

EVPN-MH는 BGP를 컨트롤 플레인으로 사용하는 미래 보장형 기술입니다. 표준 기반 아키텍처, 2개 이상의 게이트웨이를 통해 엔드 호스트에 멀티호밍을 제공할 수 있는 기능, 액티브-액티브 로드 밸런싱은 최신 데이터센터 네트워크에서 매력적인 사실상 솔루션이 될 수 있습니다. 또한 리프 간 피어 링크가 필요 없기 때문에 비용과 복잡성을 줄여주는 Clos 아키텍처에 완벽하게 부합하는 솔루션입니다.

EVPN을 컨트롤 플레인으로 사용하는 데이터센터에 EVPN-MH를 사용하는 것이 좋으며, 이는 곧 현장의 모든 MLAG 배포를 대체할 것입니다. 기존 네트워크는 이미 운영 중인 MLAG를 그대로 사용할 수 있습니다. 하지만 새로운 배포와 설계는 반드시 EVPN-MH를 기반으로 해야 합니다.

더 많은 리소스를 보려면 NVIDIA Cumulus Linux 멀티 섀시 링크 집계-MLAG 구성 가이드를 확인하세요.

데이터센터 리던던시 강화를 위한 솔루션 비교

MLAG 소개