이미 학습된 AI 모델이 사용자 입력에 답을 만드는 그 순간의 작업이다. ChatGPT에 질문 → 답이 나오는 1~10초가 모두 추론 시간이다.

학습(Training)과 추론(Inference)은 뭐가 다른가요?

학습은 모델을 만드는 단계, 추론은 그 모델을 사용하는 단계다. 학습은 한 번 또는 가끔, 추론은 사용자가 쓸 때마다 매번 일어난다.

왜 AI 비용이 추론에 달렸다고 하나요?

사용자 1명 1회 호출이 곧 추론 1회다. 사용자가 늘어날수록 추론 호출이 폭발적으로 늘어 비용 대부분이 추론에서 발생한다. 학습은 일회성·사전 비용이라 운영 비용에서 비중이 작다.

추론 속도는 무엇에 달렸나요?

모델 크기, 입력 길이, 하드웨어(GPU·TPU), 최적화 기법 모두 영향을 준다. 같은 모델이라도 클라우드 회사·플랜에 따라 응답 속도가 다를 수 있다.

Reasoning model의 추론은 다른 건가요?

다르다. 일반 추론은 답을 한 번에 생성하지만, Reasoning model은 내부적으로 단계별 생각을 거친 뒤 답을 낸다. 그래서 응답이 느리고 비용도 높다.

추론과 답이 같은 말인가요?

비슷하지만 다르다. 추론은 답을 만드는 '과정', 답은 그 결과물이다. 한국어로는 둘 다 '추론'으로 번역되는 경우가 있어 헷갈리기 쉽다.

본인 PC에서 추론을 돌릴 수 있나요?

오픈소스 모델은 가능하다. Llama, Mistral, DeepSeek 같은 모델을 Ollama, LM Studio 같은 도구로 본인 PC GPU에서 추론 가능하다. 사양에 따라 작은 모델부터 시작.

추론 비용을 줄이는 방법이 있나요?

①프롬프트 캐싱 ②짧은 시스템 프롬프트 ③작은 모델 + 큰 모델 분업(라우팅) ④batch API ⑤캐시된 답 재사용. 다섯 가지가 가장 효과 크다.

추론 시간이 너무 길면 어떻게 하나요?

스트리밍(Streaming) 방식으로 답을 토큰 단위로 받으면 사용자 체감 시간이 줄어든다. 또 짧은 모델로 라우팅하거나 컨텍스트를 줄여 속도를 올릴 수 있다.

추론을 클라우드에서만 하나요?

거의 그렇다. 큰 LLM은 GPU 메모리를 많이 써서 일반 사용자 PC로는 어렵다. 다만 작은 모델, 양자화(quantization)된 모델은 본인 PC에서도 충분히 가능하다.

AI Agent 시대에 추론 비용이 더 늘어나나요?

그렇다. 에이전트 한 작업에 추론이 수십~수백 번 일어난다. 그래서 토큰당 단가를 낮추고 효율적인 모델 라우팅이 점점 중요해진다.

추론과 컨텍스트 윈도우는 어떤 관계인가요?

추론 한 번에 사용하는 컨텍스트가 클수록 추론 시간·비용이 늘어난다. 컨텍스트 윈도우는 추론의 상한선이다.

#060 · 66편 중

추론(Inference)이 뭐야? AI가 답을 만드는 그 순간 5분 정리

2026년 5월 11일 · 수정 2026. 5. 11. AI 통통

ChatGPT에 질문을 보내고 답이 도착하기까지 1~10초. 그 짧은 시간에 일어나는 작업이 바로 ‘추론’이다. AI 비용·속도·인프라의 거의 모든 것이 이 한 단계에 달려있다.

추론(Inference) 개념을 설명하는 AI 통통 입문 가이드 이미지

추론 한 줄 정의

**추론(Inference)**은 이미 학습된 AI 모델이 사용자 입력에 답을 만드는 단계다.

핵심은 “이미 학습된”이다. 모델을 만드는 학습(Training) 단계가 끝난 뒤, 그 모델을 사용해 답을 만드는 매 순간을 추론이라고 부른다.

ChatGPT 한 번 호출 = 추론 1회. 같은 모델이 1초마다 수만 명에게 쓰이고, 그 매 호출이 모두 별개의 추론이다. 그래서 사용자가 늘어날수록 추론 부하가 폭발적으로 증가한다.

중학생도 이해하는 비유

추론을 가장 쉽게 설명하는 비유는 요리사 vs 손님이다.

식당 주방에서 새 메뉴를 개발하는 단계가 학습이다. 시간·재료·실패가 많이 들지만 한 번 끝내면 메뉴가 확정된다.

손님이 와서 그 메뉴를 주문하면 요리사가 만들어 내준다. 이 단계가 추론이다. 메뉴 개발은 한 번이지만, 주문은 매일 수백 번 일어난다.

식당 운영 비용의 대부분이 어디서 나올까? 메뉴 개발(학습)이 아니라 매일 들어오는 주문(추론) 처리다. AI 회사도 똑같다. 모델 학습은 일회성 큰 비용이지만, 추론은 매일 누적되는 운영 비용이다.

학습 vs 추론 차이

항목	학습(Training)	추론(Inference)
목적	모델 만들기	모델 사용하기
주기	한 번 또는 가끔	사용자 호출마다 매번
비용 성격	일회성 큰 비용	누적되는 운영 비용
시간	수 일~수 주	1초~수십 초
하드웨어	거대한 GPU·TPU 클러스터	GPU·TPU·일부는 PC 가능
사용자 영향	직접 안 보임	사용자 응답 시간 = 추론 시간

학습이 한 번에 큰 시설·자금이 필요하다면, 추론은 매일 끊임없이 자원을 소비한다. AI 클라우드 비즈니스의 거의 모든 비용 구조가 추론에 달려있다.

추론 속도를 결정하는 요인 5가지

같은 모델·같은 질문이라도 추론 시간이 다른 이유다.

1. 모델 크기 파라미터 수가 많을수록 추론이 느리다. 700억(70B) 모델 vs 2조(2T) 모델은 같은 질문에 응답 시간이 5~10배 차이.

2. 입력 길이 컨텍스트 윈도우 100K 토큰을 다 채우면 짧은 입력보다 추론이 훨씬 느리다.

3. 하드웨어 H100, A100, TPU v5 같은 칩에 따라 추론 속도가 다르다. Cloudflare Workers 같은 엣지 환경은 더 작은 모델에 최적화.

4. 최적화 기법 양자화(quantization), KV 캐시, 스트리밍 같은 기법이 적용되면 같은 하드웨어에서도 속도가 크게 빨라진다.

5. 동시 요청 한 GPU에 동시에 들어오는 요청이 많으면 큐잉이 발생해 개별 응답이 늦어진다. AI 서비스가 트래픽 폭주 시간에 느려지는 이유.

추론 비용을 줄이는 5가지 팁

운영하는 입장에서 추론 비용은 빠르게 누적된다. 다음 다섯 가지가 가장 효과 크다.

1. Prompt Caching 같은 시스템 프롬프트를 반복 사용하면 캐시된 토큰이 일반 토큰의 약 1/10 단가로 청구된다. (Anthropic 기준)

2. 짧은 시스템 프롬프트 50줄짜리 지시는 5~15줄로 압축. 토큰 절약 + 정확도 상승.

3. 모델 라우팅 간단한 작업은 작은 모델(Haiku, mini), 복잡한 작업만 큰 모델로 보내는 분업. 평균 비용을 크게 낮춘다.

4. Batch API 실시간이 아닌 일괄 작업은 batch API로. 일반 API 대비 50% 정도 저렴 (서비스에 따라).

5. 결과 재사용 자주 묻는 질문은 답을 캐시해 두고 재사용. 같은 답을 매번 새로 만들 필요 없다.

본인 PC에서 추론하기

오픈소스 모델은 본인 PC에서 추론 가능하다.

도구	특징
Ollama	CLI 한 줄로 모델 실행. 가장 단순
LM Studio	GUI 환경. 모델 관리 편함
llama.cpp	더 가벼운 버전. 모바일·노트북 친화

작은 모델(7B, 8B)은 RTX 4060 노트북에서도 충분히 추론 가능. 70B 같은 큰 모델은 워크스테이션 GPU 필요.

장점: 외부 API 호출 0, 데이터 외부 노출 없음, 토큰 비용 0. 단점: 사양 한계, 모델 품질 차이, 운영 복잡도.

비슷한 용어와 차이

용어	뜻	추론과의 차이
학습(Training)	모델 만드는 단계	추론의 반대
파인튜닝(Fine-tuning)	학습한 모델을 추가 학습	학습의 한 형태
응답(Response)	추론 결과물	추론은 과정, 응답은 결과
생성(Generation)	텍스트·이미지를 만드는 작업	추론의 한 사례
Reasoning	추론 모델이 단계별로 생각	일반 추론과 구분되는 모드

언제 추론을 마주치나

AI API 가격표: “입력 1M 토큰 $X / 출력 1M 토큰 $Y” → 추론 단가
응답 속도 체감: 짧은 답 vs 긴 답 시간 차이
AI 코딩 도구 한도: 컨텍스트 + 추론 횟수 제한
자체 호스팅 시도: Ollama·LM Studio로 본인 PC 추론
AI Agent 시대: 한 작업에 추론 수십~수백 번