오픈소스 LLM 추론 서버 배포

Llama·Qwen·Gemma 같은 오픈 모델을 vLLM으로 띄워 OpenAI 호환 API로 서빙. 호출이 없으면 잠들어 비용을 아낍니다.

무엇인가요

내 모델을, 내 인프라에서, API로

외부 LLM API에 데이터를 보내기 어렵거나, 비용·지연을 직접 제어하고 싶을 때, 오픈소스 모델을 직접 서빙하는 선택지가 있습니다. onpod은 GPU에 vLLM 같은 추론 엔진을 올려 OpenAI 호환 엔드포인트로 띄웁니다.

추론 서버는 보통 무상태이므로 자동 확장과 절전에 잘 맞습니다. 호출이 몰리면 확장하고, 한가하면 잠들어 GPU 비용을 아낍니다. 데이터는 한국 리전에 머뭅니다.

왜 직접 서빙하나요

데이터 주권 — 프롬프트·출력이 한국 리전 내에.
비용 제어 — 토큰당 과금 대신 GPU 시간당.
모델 자유 — 파인튜닝한 가중치를 그대로 서빙.
OpenAI 호환 — 클라이언트 코드를 거의 그대로.

onpod — deploy

# 코딩 에이전트(Claude Code·Codex·Cursor…)에게 한 마디
나 이 LLM을 vLLM으로 onpod에 배포해줘

에이전트 → onpod 매뉴얼 읽음 → 빌드 → 배포 실행…
✓ 배포 완료
공개 주소: https://llm.onpod.ai (SSL 자동)

자주 묻는 질문

궁금한 것들

어떤 모델을 서빙할 수 있나요?

Llama·Qwen·Gemma 등 오픈 가중치 모델을 vLLM 같은 추론 엔진으로 서빙할 수 있습니다. 파인튜닝한 가중치도 같은 방식으로 올립니다.

OpenAI SDK를 그대로 쓸 수 있나요?

vLLM은 OpenAI 호환 API를 제공하므로, base URL만 바꿔 기존 클라이언트 코드를 거의 그대로 재사용할 수 있습니다.

호출이 없을 때도 GPU 비용이 나가나요?

추론 서버를 절전 모드로 운영하면 호출이 없는 동안 비용을 줄일 수 있습니다. 워크로드 특성에 맞게 상시 가동/절전을 선택하세요.

지금 한 줄이면 배포 끝.

코딩 에이전트에게 “onpod에 배포해줘”라고 말하기만 하면 됩니다. 무료 티어로 시작하세요.

5초 가입하고 시작 →

내 모델을, 내 인프라에서, API로

왜 직접 서빙하나요

궁금한 것들

관련 활용 사례

지금 한 줄이면 배포 끝.