IT

AI API 게이트웨이 및 시맨틱 라우터 가이드

kare jeyuk 2026. 5. 10. 15:43

최근 AI API 게이트웨이와 시맨틱 라우터에 대한 논의가 뜨겁다고 한다. 인프라 관점에서는 이 기술들이 기존의 체계를 어떻게 바꾸고 보완할 것인지가 핵심이다. CNCF 거버넌스 보드 멤버인 Max Körbächer의 발표를 정리했다.

https://youtu.be/SxRKXfBsd1c

 

반년 전쯤 현장에서 흥미로운 대화가 오갔다. 누군가는 모든 게이트웨이를 AI로 교체해 똑똑하게 만들겠다고 했고 다른 누군가는 시맨틱 라우터가 있으니 AI API 게이트웨이는 필요 없다고 주장했다. 무언가에 AI를 붙이면 즉시 기존 기술을 대체할 수 있다고 생각하기 쉽지만 인프라 중심의 관점에서 그것이 항상 정답은 아니다. 이 둘은 대립하는 개념이 아니라 해결하려는 문제의 성격이 다르다.

1. 전통적인 API 트래픽과 AI/LLM 트래픽

전통적인 API 세계에서 가장 중요한 가치는 속도 신뢰성 확장성이다. API는 기민하게 움직여야 하고 모든 시스템은 이를 중심으로 빠르게 응답해야 한다. 반면 대규모 언어 모델 중심의 AI 세계는 문법이 다르다.

지연 시간은 전통적인 API에 비해 응답이 상당히 느리다. 데이터 형식은 서버 센트 이벤트 세션을 통해 거대한 데이터 덩어리를 주고받으며 문맥을 유지해야 한다. 결국 인증 권한 부여 같은 기본 작업은 유지하면서도 AI 특유의 무겁고 느린 트래픽을 어떻게 관리할 것인가가 인프라 엔지니어의 숙제다.

2. AI 게이트웨이의 역할과 혜택

AI 게이트웨이가 제공하는 가치는 전통적인 API 게이트웨이와 본질적으로 맞닿아 있다.

 

비용 관리는 전체적인 비용 개요를 파악하는 시작점이다. 보안은 적절한 사용자가 허용된 리소스에 접근하는지 확인한다. 로드 밸런싱 및 모델 폴백은 엔드포인트 장애 시 다른 모델로 자동 전환한다. 관측성 및 시맨틱 캐싱은 모든 게이트웨이가 지원하진 않지만 매우 흥미로운 확장 영역이다. 통합 API는 OpenAI 호환 엔드포인트를 통해 표준화된 인터페이스를 제공하여 애플리케이션 도입을 돕는다.

3. AI 게이트웨이 vs 시맨틱 라우터

이 두 개념은 역할이 명확히 나뉜다. AI API 게이트웨이는 트래픽 라우팅 권한 부여 비용 추적 그리고 오픈 텔레메트리를 통한 추적의 시작점 역할을 수행한다. 시맨틱 라우터는 요청의 의도를 분류해 모델 크기를 최적화하고 비용과 품질을 개선하는 데 집중한다. 비교적 최근에 등장해 빠르게 진화 중인 분야다.

4. 주요 오픈소스 도구 탐색

Envoy AI Gateway

Bloomberg와 같은 엔드 유저들이 개발에 깊이 투자하고 있는 도구.  구조적으로 두 계층으로 나뉜다. 티어 1(Central Gateway) 은 클라이언트 트래픽의 중앙 진입점으로, 인증·권한·레이트 리밋·비용 추적 등을 처리한 뒤  OpenAI·Anthropic·Bedrock·Vertex 같은 외부 LLM 제공자로 직접 라우팅하거나, 내부 모델로 가야 할 트래픽이라면 적절한 티어 2 게이트웨이로 넘긴다. 티어 2(Internal Gateway) 는 KServe 같은 모델 서빙 스택과 함께 클러스터 내부에 배치되어 자체 호스팅 모델 트래픽에 집중하며, 모델 버전 관리·릴리스·세분화된 보안 정책, 그리고 LLM 추론 최적화를 위한 엔드포인트 피커(endpoint picker)를 제공한다. 이 분리 덕분에 플랫폼 팀은 외부 클라이언트 영향 없이 내부 모델 운영 정책을 독립적으로 바꿀 수 있다.

장점은 여러 공급업체를 쓸 때 유용하며 유료 결제 유도가 없는 순수 오픈소스다. 단점은 단일 공급업체 사용 시 설정 오버헤드가 크고 개발 속도가 너무 빨라 안정성을 중시하는 아키텍트에게는 다소 불안할 수 있다.

LiteLLM

조직 내 셀프 서비스 환경을 구축하기에 최적화된 도구다. 특징은 유아이를 통해 팀별로 허용된 모델을 선택하고 API 키를 즉시 발급할 수 있다.

장점은 비용 지출이 투명하게 관리된다. 단점은 엔터프라이즈 규모로 확장 시 비용이 발생할 수 있고 데이터베이스나 레디스 등 운영 부담이 존재한다.

 

vLLM Semantic Router

요청을 차별화하여 서로 다른 모델로 전달하는 기능에 극도로 최적화되어 있다. 작동 방식은 사내 챗봇에 점심 메뉴가 뭐야라고 물으면 가벼운 모델로 답하고 마케팅 컨셉을 짜줘라고 하면 대형 모델로 연결한다. 임팩트는 거대한 모델에 단순 질문을 던지는 낭비를 줄여 지연 시간을 단축하고 비용을 극적으로 절감한다. 수천억 파라미터 모델 대신 수십억 모델로도 충분한 처리가 가능해지기 때문이다.

Kong AI Gateway

는 이미 Kong 생태계를 사용 중인 조직에 적합하다.

KGateway + Agent Gateway

클라우드 네이티브 환경에 최적화되어 있다. 특히 Agent Gateway는 쿠버네티스 클러스터 내 수많은 에이전트가 실수로 데이터베이스를 지우는 행위를 하지 못하도록 제어 장치 역할을 한다.

5. 최종 결정을 위한 가이드라인

도구 선택은 현재 팀의 환경과 우선순위에 달려 있다. 쿠버네티스 기반이며 Envoy 생태계에 익숙하다면 Envoy AI Gateway를 고려한다. 수많은 모델 공급업체 연동과 팀 단위 관리가 시급하다면 LiteLLM을 고려한다. 자체 호스팅 모델과 데이터 주권이 중요하다면 vLLM 시맨틱 라우터를 고려한다.

 

결국 AI 게이트웨이냐 시맨틱 라우터냐는 양자택일의 문제가 아니다. 이들은 서로 확장하고 보완할 수 있는 존재다. LiteLLM으로 모델 접근을 관리하면서 특정 요청은 시맨틱 라우터로 보내고 그 전체를 다시 envoy proxy로 감싸는 식으로 도구들을 쌓아서 자신만의 AI 플랫폼을 구축하는 것이 정답에 가깝다. CNCF 생태계는 빠르게 진화하고 있다. 관련 워킹그룹과 화이트페이퍼가 활발히 나오고 있는 만큼 이러한 흐름을 놓치지 않고 자신의 환경에 맞는 최적의 스택을 찾아가는 과정이 필요하다.