H100 한 장으로 학습을 돌리고, 끝나면 그대로 추론 서빙으로 전환. 학습 중 체크포인트가 자동 저장되어 호스트가 바뀌어도 안 날아갑니다.
무엇인가요
며칠짜리 학습이 중간에 호스트 문제로 날아가면 시간과 비용을 모두 잃습니다. onpod은 학습 중 체크포인트를 자동으로 백업해, 호스트가 바뀌어도 이어서 돌릴 수 있게 합니다.
학습이 끝나면 같은 GPU를 추론 서빙으로 전환할 수 있어, 실험 → 배포의 거리가 짧습니다. 주말 학습 / 평일 추론처럼 GPU를 시간 단위로 효율적으로 씁니다.
자주 묻는 질문
관련 키워드
이어 보기