Llama·Qwen·Gemma 같은 오픈 모델을 vLLM으로 띄워 OpenAI 호환 API로 서빙. 호출이 없으면 잠들어 비용을 아낍니다.
무엇인가요
외부 LLM API에 데이터를 보내기 어렵거나, 비용·지연을 직접 제어하고 싶을 때, 오픈소스 모델을 직접 서빙하는 선택지가 있습니다. onpod은 GPU에 vLLM 같은 추론 엔진을 올려 OpenAI 호환 엔드포인트로 띄웁니다.
추론 서버는 보통 무상태이므로 자동 확장과 절전에 잘 맞습니다. 호출이 몰리면 확장하고, 한가하면 잠들어 GPU 비용을 아낍니다. 데이터는 한국 리전에 머뭅니다.
자주 묻는 질문
관련 키워드
이어 보기