컨텍스트 윈도우가 뭔가요?

LLM이 한 번에 기억하고 처리할 수 있는 텍스트의 최대 분량이다. 보통 토큰 단위로 표시하며, 이 한도를 넘어가면 모델이 앞 내용을 잊어버린다.

토큰 단위는 얼마나 큰 거예요?

영어는 단어 1개가 대략 1토큰, 한국어는 글자 1~2개가 1토큰 정도다. 컨텍스트 윈도우 20만 토큰이면 한국어 책 1권 분량 가까이 된다.

컨텍스트 윈도우가 크면 뭐가 좋아요?

긴 문서를 통째로 분석하거나, 긴 대화 흐름을 끝까지 기억하게 할 수 있다. 책 1권을 한 번에 읽고 요약 가능한 모델은 컨텍스트 윈도우가 큰 모델이다.

컨텍스트 윈도우가 크면 항상 좋은가요?

아니다. 같은 작업이라도 더 큰 컨텍스트는 비용·지연이 늘어난다. 또 모델이 가운데 정보를 놓치는 'lost in the middle' 현상도 있어서 무리하게 채우는 게 항상 정답은 아니다.

ChatGPT, Claude, Gemini 컨텍스트 윈도우는 얼마나 차이가 나요?

모델마다 다르다. 2026년 시점에서 주요 상용 모델들은 약 20만~200만 토큰 사이 범위에 있다. 정확한 수치는 각 회사 공식 문서 확인을 권장한다.

컨텍스트가 한도에 닿으면 어떻게 되나요?

모델이 앞부분을 자르거나 압축하기 시작한다. 챗봇 UI는 보통 자동 처리하지만, API 직접 호출 시는 에러를 반환한다. 응답이 갑자기 어색해지면 한도 초과를 의심해야 한다.

긴 대화를 이어가면 컨텍스트가 줄어드나요?

그렇다. 대화 이력이 누적되면서 한도를 갉아먹는다. 새 대화로 옮기거나 핵심 내용만 다시 정리해 새로 시작하는 게 효율적이다.

컨텍스트 윈도우와 출력 길이는 같은 건가요?

다르다. 컨텍스트 윈도우는 입력+출력 합산 한도, 출력 길이는 그 안에서 한 번에 생성 가능한 답의 최대 길이다. 보통 출력은 컨텍스트 한도보다 훨씬 작다.

컨텍스트가 클수록 비용이 비싸지나요?

비례한다. 토큰 기반 과금이라 입력 토큰이 길어지면 호출 비용이 그대로 늘어난다. prompt caching·cache 입력 같은 기능으로 일부 절감 가능.

Lost in the middle이 뭐예요?

긴 컨텍스트의 중간 부분 정보가 처음·끝에 비해 모델 답변에 잘 반영되지 않는 현상이다. 중요한 내용은 시작·끝에 두 번 적는 게 안전하다.

컨텍스트를 잘 관리하는 5가지 팁이 있나요?

①핵심 정보는 시작·끝에 ②무관한 자료 빼기 ③시스템 프롬프트는 짧게 ④오래된 대화는 새로 시작 ⑤prompt caching 활용. 이 다섯 가지가 가장 효과 크다.

컨텍스트 윈도우는 앞으로 더 커질까요?

그렇다. 매년 한도가 빠르게 증가 중이다. 다만 같은 모델 안에서도 '효과적으로 활용 가능한 길이'는 표시 한도보다 짧을 수 있다. 표기 한도 = 실용 한도가 아니라는 점을 기억해야 한다.

#059 · 66편 중

컨텍스트 윈도우(Context Window)가 뭐야? AI 기억력의 한계 5분 정리

2026년 5월 11일 · 수정 2026. 5. 11. AI 통통

ChatGPT에 긴 문서를 붙여 넣다가 “메시지 너무 길어요”라는 안내를 본 적 있다면, 그 한계가 바로 컨텍스트 윈도우다. AI 기억력의 한계 자체다.

컨텍스트 윈도우 개념을 설명하는 AI 통통 입문 가이드 이미지

컨텍스트 윈도우 한 줄 정의

**컨텍스트 윈도우(Context Window)**는 LLM이 한 번에 기억하고 처리할 수 있는 텍스트의 최대 분량이다.

단위는 보통 토큰. 영어는 단어 1개가 대략 1토큰, 한국어는 글자 1~2개가 1토큰. 컨텍스트 윈도우 20만 토큰이면 한국어 책 1권 분량을 한 번에 처리할 수 있다는 뜻이다.

핵심은 상한선이라는 점이다. 이 한도를 넘으면 모델이 앞부분을 잊어버린다. 무한히 기억하지 않는다.

중학생도 이해하는 비유

컨텍스트 윈도우를 가장 쉽게 설명하는 비유는 책상 위 공간이다.

작은 책상은 책 한 권만 펼쳐 놓으면 꽉 찬다. 큰 책상은 책 5권을 동시에 펼쳐 비교할 수 있다. 컨텍스트 윈도우가 그 책상 크기다.

작은 컨텍스트 모델은 한 번에 처리할 수 있는 정보가 적다. 큰 컨텍스트 모델은 책 한 권을 통째로 올려놓고 비교·분석할 수 있다.

다만 큰 책상이 항상 좋은 건 아니다. 너무 많은 책을 펼치면 어디에 뭐가 있는지 헷갈린다. 컨텍스트도 똑같다. 무리하게 채우면 모델이 정작 중요한 정보를 놓친다 (‘lost in the middle’).

실제 사용 예시

예시 1: 긴 문서 분석 50쪽 PDF를 한 번에 ChatGPT에 넣을 수 있느냐는 컨텍스트 윈도우에 달렸다. 컨텍스트 200K 토큰 모델은 거의 책 1권을 한 번에 분석한다.

예시 2: 긴 대화 유지 ChatGPT와 100번 주고받은 대화도 컨텍스트가 충분하면 처음 대화 내용을 그대로 기억한다. 한도가 차면 앞부분이 자동으로 잘리거나 요약된다.

예시 3: 코드베이스 분석 Cursor·Claude Code 같은 AI 코딩 도구가 큰 프로젝트를 한꺼번에 보려면 큰 컨텍스트가 필요하다. 작은 컨텍스트 모델은 파일 몇 개만 동시에 본다.

예시 4: API 호출 비용 폭발 컨텍스트가 토큰 단위로 청구되므로, 무리한 길이는 비용 폭증으로 이어진다. 100K 토큰 입력 한 번 = 짧은 호출 100~1000번 분량.

컨텍스트 가득 채우면 안 되는 이유

큰 컨텍스트 윈도우 모델이 등장한 뒤에도 무조건 채우는 게 정답은 아니다.

1. 비용 토큰 기반 과금이라 입력 길이가 길수록 호출 비용이 비례 증가. 매번 100K 토큰을 보내면 한 달 청구가 폭증.

2. 응답 지연 긴 컨텍스트는 처리 시간이 길다. 챗봇 UX는 즉시성이 중요한데 응답이 느려지면 사용자 이탈.

3. Lost in the middle 긴 컨텍스트 중간 부분 정보를 모델이 충분히 활용 못 하는 경향이 있다. 중요한 정보가 중간에 묻히면 답에 반영 안 될 수 있다.

4. 표시 한도 ≠ 실용 한도 ‘200K 토큰 지원’ 모델이라도 실제로 제대로 활용 가능한 길이는 그보다 짧을 수 있다. 벤치마크와 실제 사용감이 다르다.

잘 관리하는 5가지 팁

1. 핵심 정보를 시작·끝에 시스템 지시·중요 자료는 컨텍스트 시작과 끝에 두 번 적기. 중간보다 양 끝이 더 잘 반영된다.

2. 무관한 자료 제거 “혹시 도움 될까봐” 자료를 다 넣지 말기. 모델이 가운데서 길을 잃는다.

3. 시스템 프롬프트는 짧게 50줄짜리 시스템 프롬프트보다 5~15줄 핵심만. 토큰 절약 + 정확도 상승.

4. 오래된 대화는 새로 시작 대화가 한도에 닿으면 새 대화에서 핵심 내용만 다시 적어 시작. 자동 잘림보다 명시적 정리가 안전.

5. Prompt caching 활용 같은 시스템 프롬프트를 자주 쓰면 prompt caching으로 토큰 비용 약 90% 절감 가능 (Anthropic 기준).

비슷한 용어와 차이

용어	뜻	컨텍스트 윈도우와의 차이
토큰(Token)	텍스트 처리 단위	컨텍스트는 토큰의 한도
출력 길이(Max Output)	한 번에 생성 가능한 답 길이	컨텍스트 안의 일부
메모리(Memory)	대화 간 영구 저장 정보	ChatGPT·Claude의 별도 기능
RAG	외부 자료 검색 후 컨텍스트에 주입	컨텍스트 한계 우회 기법
Prompt caching	반복되는 컨텍스트를 캐시	비용 절감용 기능