레이트 리미팅 (Rate Limiting)
짧은 시간에 과도한 요청이 몰릴 때 API 호출량을 제한하는 제어 기법
#레이트 리미팅#rate limiting#rate limit#요청 제한#API 제한
레이트 리미팅이란?
레이트 리미팅(Rate Limiting)은 일정 시간 동안 허용할 요청 수를 제한해 시스템 과부하를 막는 운영 기법입니다.
예를 들어 1분에 60회까지만 호출을 허용하면, 그 이상 요청은 지연하거나 차단해 서비스 안정성을 지킬 수 있습니다.
왜 중요한가요?
AI API나 검색 API를 사용하는 서비스에서는 트래픽 급증 시 호출 실패, 응답 지연, 비용 급등이 동시에 발생할 수 있습니다.
레이트 리미팅은 이런 상황에서 서비스 품질과 비용을 함께 관리하는 기본 안전장치로 사용됩니다.
실무에서 자주 쓰는 방식
- 고정 윈도우(Fixed Window): 시간 구간별 최대 요청 수 제한
- 슬라이딩 윈도우(Sliding Window): 더 정교하게 시간 흐름을 반영해 제한
- 토큰 버킷(Token Bucket): 순간 트래픽 스파이크를 일부 허용하며 평균 속도 제어
관련 용어
AI 인프라/모델 최적화
경사하강법 (Gradient Descent)
손실 함수를 최소화하기 위해 기울기 반대 방향으로 파라미터를 반복 업데이트하는 최적화 방법
AI 인프라/모델 최적화
딥러닝 (Deep Learning)
다층 신경망을 이용해 데이터의 복잡한 표현을 자동으로 학습하는 머신러닝 접근
AI 인프라/모델 최적화
로봇 파운데이션 모델 (Robot Foundation Model)
대규모 로봇 데이터와 멀티모달 입력으로 사전 학습되어 다양한 물리 작업에 전이 가능한 범용 로봇 AI 모델
AI 인프라/모델 최적화
로컬 AI (Local AI)
모델을 외부 API가 아닌 자체 PC·서버에서 직접 실행하는 방식
AI 인프라/모델 최적화
모델 증류 (Model Distillation)
대형 모델의 출력 신호를 활용해 더 작은 모델을 학습시키는 경량화 기법
AI 인프라/모델 최적화
모델 컨텍스트 프로토콜 (MCP)
AI 모델이 외부 도구와 데이터 소스를 표준 방식으로 연결해 활용하도록 돕는 인터페이스 규격