추론(Inference)이 뭐야? AI가 답을 만드는 그 순간 5분 정리
ChatGPT에 질문을 보내고 답이 도착하기까지 1~10초. 그 짧은 시간에 일어나는 작업이 바로 ‘추론’이다. AI 비용·속도·인프라의 거의 모든 것이 이 한 단계에 달려있다.

추론 한 줄 정의
**추론(Inference)**은 이미 학습된 AI 모델이 사용자 입력에 답을 만드는 단계다.
핵심은 “이미 학습된”이다. 모델을 만드는 학습(Training) 단계가 끝난 뒤, 그 모델을 사용해 답을 만드는 매 순간을 추론이라고 부른다.
ChatGPT 한 번 호출 = 추론 1회. 같은 모델이 1초마다 수만 명에게 쓰이고, 그 매 호출이 모두 별개의 추론이다. 그래서 사용자가 늘어날수록 추론 부하가 폭발적으로 증가한다.
중학생도 이해하는 비유
추론을 가장 쉽게 설명하는 비유는 요리사 vs 손님이다.
식당 주방에서 새 메뉴를 개발하는 단계가 학습이다. 시간·재료·실패가 많이 들지만 한 번 끝내면 메뉴가 확정된다.
손님이 와서 그 메뉴를 주문하면 요리사가 만들어 내준다. 이 단계가 추론이다. 메뉴 개발은 한 번이지만, 주문은 매일 수백 번 일어난다.
식당 운영 비용의 대부분이 어디서 나올까? 메뉴 개발(학습)이 아니라 매일 들어오는 주문(추론) 처리다. AI 회사도 똑같다. 모델 학습은 일회성 큰 비용이지만, 추론은 매일 누적되는 운영 비용이다.
학습 vs 추론 차이
| 항목 | 학습(Training) | 추론(Inference) |
|---|---|---|
| 목적 | 모델 만들기 | 모델 사용하기 |
| 주기 | 한 번 또는 가끔 | 사용자 호출마다 매번 |
| 비용 성격 | 일회성 큰 비용 | 누적되는 운영 비용 |
| 시간 | 수 일~수 주 | 1초~수십 초 |
| 하드웨어 | 거대한 GPU·TPU 클러스터 | GPU·TPU·일부는 PC 가능 |
| 사용자 영향 | 직접 안 보임 | 사용자 응답 시간 = 추론 시간 |
학습이 한 번에 큰 시설·자금이 필요하다면, 추론은 매일 끊임없이 자원을 소비한다. AI 클라우드 비즈니스의 거의 모든 비용 구조가 추론에 달려있다.
추론 속도를 결정하는 요인 5가지
같은 모델·같은 질문이라도 추론 시간이 다른 이유다.
1. 모델 크기 파라미터 수가 많을수록 추론이 느리다. 700억(70B) 모델 vs 2조(2T) 모델은 같은 질문에 응답 시간이 5~10배 차이.
2. 입력 길이 컨텍스트 윈도우 100K 토큰을 다 채우면 짧은 입력보다 추론이 훨씬 느리다.
3. 하드웨어 H100, A100, TPU v5 같은 칩에 따라 추론 속도가 다르다. Cloudflare Workers 같은 엣지 환경은 더 작은 모델에 최적화.
4. 최적화 기법 양자화(quantization), KV 캐시, 스트리밍 같은 기법이 적용되면 같은 하드웨어에서도 속도가 크게 빨라진다.
5. 동시 요청 한 GPU에 동시에 들어오는 요청이 많으면 큐잉이 발생해 개별 응답이 늦어진다. AI 서비스가 트래픽 폭주 시간에 느려지는 이유.
추론 비용을 줄이는 5가지 팁
운영하는 입장에서 추론 비용은 빠르게 누적된다. 다음 다섯 가지가 가장 효과 크다.
1. Prompt Caching 같은 시스템 프롬프트를 반복 사용하면 캐시된 토큰이 일반 토큰의 약 1/10 단가로 청구된다. (Anthropic 기준)
2. 짧은 시스템 프롬프트 50줄짜리 지시는 5~15줄로 압축. 토큰 절약 + 정확도 상승.
3. 모델 라우팅 간단한 작업은 작은 모델(Haiku, mini), 복잡한 작업만 큰 모델로 보내는 분업. 평균 비용을 크게 낮춘다.
4. Batch API 실시간이 아닌 일괄 작업은 batch API로. 일반 API 대비 50% 정도 저렴 (서비스에 따라).
5. 결과 재사용 자주 묻는 질문은 답을 캐시해 두고 재사용. 같은 답을 매번 새로 만들 필요 없다.
본인 PC에서 추론하기
오픈소스 모델은 본인 PC에서 추론 가능하다.
| 도구 | 특징 |
|---|---|
| Ollama | CLI 한 줄로 모델 실행. 가장 단순 |
| LM Studio | GUI 환경. 모델 관리 편함 |
| llama.cpp | 더 가벼운 버전. 모바일·노트북 친화 |
작은 모델(7B, 8B)은 RTX 4060 노트북에서도 충분히 추론 가능. 70B 같은 큰 모델은 워크스테이션 GPU 필요.
장점: 외부 API 호출 0, 데이터 외부 노출 없음, 토큰 비용 0. 단점: 사양 한계, 모델 품질 차이, 운영 복잡도.
비슷한 용어와 차이
| 용어 | 뜻 | 추론과의 차이 |
|---|---|---|
| 학습(Training) | 모델 만드는 단계 | 추론의 반대 |
| 파인튜닝(Fine-tuning) | 학습한 모델을 추가 학습 | 학습의 한 형태 |
| 응답(Response) | 추론 결과물 | 추론은 과정, 응답은 결과 |
| 생성(Generation) | 텍스트·이미지를 만드는 작업 | 추론의 한 사례 |
| Reasoning | 추론 모델이 단계별로 생각 | 일반 추론과 구분되는 모드 |
언제 추론을 마주치나
- AI API 가격표: “입력 1M 토큰 $X / 출력 1M 토큰 $Y” → 추론 단가
- 응답 속도 체감: 짧은 답 vs 긴 답 시간 차이
- AI 코딩 도구 한도: 컨텍스트 + 추론 횟수 제한
- 자체 호스팅 시도: Ollama·LM Studio로 본인 PC 추론
- AI Agent 시대: 한 작업에 추론 수십~수백 번
관련 용어
- 토큰(Token): 추론의 최소 단위. 토큰이 뭐야? 참고.
- 컨텍스트 윈도우: 추론 한 번에 처리 가능한 입력 한도. 컨텍스트 윈도우가 뭐야? 참고.
- LLM: 추론을 수행하는 모델 자체. LLM이 뭐야? 참고.
- API: 외부에서 추론을 호출하는 약속. API가 뭐야? 참고.
추론은 “이미 학습된 AI가 사용자 질문에 답을 만드는 단계”다. 학습은 일회성, 추론은 매일 누적되는 운영 비용. AI 시대 인프라·비용·속도의 거의 모든 이슈가 추론 한 단계에 달려있다. 본인 PC에서도 작은 모델로 시작 가능하지만, 큰 모델은 여전히 클라우드 GPU·TPU의 영역이다.
출처
- Anthropic, Inference 가이드, https://docs.anthropic.com/
- OpenAI, 모델 가격 페이지, https://openai.com/pricing
- NVIDIA, AI Inference 개요, https://www.nvidia.com/en-us/ai-data-science/inference-platform/