한 F&B 플랫폼 고객사 이야기예요. 5,800명 임직원이 매일 ChatGPT·Claude·Gemini를 쓰는데, 4분기 LLM 비용이 1억 7천만 원이 됐어요. 임원 회의에서 "이 속도면 1년 7억"이라는 우려가 나왔어요. 우리에게 도움을 요청했고, 4주 동안 같이 풀었어요.
1주차 · 어디서 비용이 새는지부터
먼저 한 달 치 API 로그를 다 받아서 분석했어요. 결과는 명확했어요.
- 일상 질의 78%가 GPT-4 / Claude Opus급 모델로 가고 있었어요. "메일 답장 초안", "회의록 요약" 같은 일이 대부분. 사실 SLM·소형 모델로도 충분한 일.
- 창의 작업·복잡 추론은 12%. 여기는 프론티어 모델이 정말 필요한 자리.
- 개인정보·민감 데이터가 외부 모델로 그냥 가고 있었어요. DLP 차단도, 사전 마스킹도 없이.
그러니까 비용 문제가 아니라 라우팅 문제였어요.
2주차 · 정책 설계
세 가지 라우팅 정책을 정의했어요.
cost-min— "품질이 충분하면 가장 싼 모델로." 일상 질의가 여기로.quality-max— "제일 똑똑한 모델로." 창의·복잡 추론용.latency-min— "가장 빠른 응답으로." 실시간 챗·CX용.
그리고 Corepin DLP 필터를 모든 호출 앞에 사전 차단으로 박았어요. 민감 정보가 외부 모델로 가기 전에 잡혀요.
3주차 · A/B 테스트
한 부서(기획팀, 약 200명)에서 1주일 동안 A/B 테스트를 돌렸어요. 라우팅 적용 그룹 vs 적용 안 한 그룹의 답변 품질을 직원들이 비공개로 평가하게 했어요.
| 지표 | 적용 전 | 적용 후 |
|---|---|---|
| 월 호출 비용 | ₩4,200/일 | ₩2,440/일 (−42%) |
| 답변 만족도 (1-5) | 4.31 | 4.27 |
| 응답 지연 p95 | 2.8초 | 1.4초 |
만족도가 거의 안 떨어졌어요 (4.31 → 4.27, 통계적으로 무의미한 차이). 비용은 42% 줄고 속도는 2배 빨라졌어요.
4주차 · 전사 롤아웃
전사 5,800명에게 펼쳤어요. 운영자가 새벽에 깨는 일은 없었어요. 자동 폴백·정책 전환이 모두 backend에서 처리돼서, 사용자는 그냥 더 빠르고 더 정확한 답을 받고 있어요.
왜 42%였나
처음 분석한 일상 질의 78% 비중과 SLM 평균 단가 차이 (LLM의 1/15)를 계산해보면 정확히 그 정도가 나와요. "마법"은 없어요. 일을 정확히 분석하고, 일에 맞는 모델로 보내고, 보안은 처음부터 박는 것 — 그게 다예요.
이 사례는 동일한 패턴으로 다른 기업에서도 재현 가능해요. 보통 도입 4주 안에 −30~50% 비용 절감을 만들어요. 샘플 데이터로 시뮬레이션해드릴 수 있어요.
An F&B platform customer. 5,800 employees use ChatGPT/Claude/Gemini daily. Q4 LLM bill: ₩170M. Exec meeting flagged "₩700M/year at this rate." They asked for help. We solved it together in 4 weeks.
Week 1 — find where the cost leaks
We pulled a full month of API logs. The answers were clear.
- 78% of daily queries routed to GPT-4 / Claude Opus tier. Mail drafts, meeting summaries — work that SLMs would handle fine.
- 12% needed frontier models — creative work, hard reasoning.
- Sensitive data flowed to external models freely — no DLP, no pre-masking.
It wasn't a cost problem. It was a routing problem.
Week 2 — policy design
Defined three routing policies:
cost-min— "Cheapest if quality is good enough." Daily queries.quality-max— "Smartest model only." Creative + hard reasoning.latency-min— "Fastest response." Real-time chat, CX.
And we pinned a Corepin DLP screener in front of every call. Sensitive data caught before leaving the boundary.
Week 3 — A/B test
One department (planning, ~200 people) ran A/B for a week. Employees blind-rated answer quality across the two groups.
| Metric | Before | After |
|---|---|---|
| Daily call cost | ₩4,200/day | ₩2,440/day (−42%) |
| Satisfaction (1-5) | 4.31 | 4.27 |
| p95 latency | 2.8s | 1.4s |
Satisfaction barely moved (statistically meaningless). Cost down 42%, speed doubled.
Week 4 — company-wide rollout
Shipped to all 5,800. Nobody got paged at 3 AM. Auto-fallback and policy switching happen in the backend — users just get faster, more accurate answers.
Why 42%?
Multiply the original 78% daily-query share by the SLM vs LLM cost gap (~1/15) and you get exactly that. No magic. Analyze the work, route it to the right model, bake in security from the start — that's it.
This pattern repeats across customers — typically −30 to −50% within 4 weeks. We can simulate it with your data.