#059 · 66편 중
컨텍스트 윈도우(Context Window)가 뭐야? AI 기억력의 한계 5분 정리

컨텍스트 윈도우(Context Window)가 뭐야? AI 기억력의 한계 5분 정리

ChatGPT에 긴 문서를 붙여 넣다가 “메시지 너무 길어요”라는 안내를 본 적 있다면, 그 한계가 바로 컨텍스트 윈도우다. AI 기억력의 한계 자체다.

컨텍스트 윈도우 개념을 설명하는 AI 통통 입문 가이드 이미지

컨텍스트 윈도우 한 줄 정의

**컨텍스트 윈도우(Context Window)**는 LLM이 한 번에 기억하고 처리할 수 있는 텍스트의 최대 분량이다.

단위는 보통 토큰. 영어는 단어 1개가 대략 1토큰, 한국어는 글자 1~2개가 1토큰. 컨텍스트 윈도우 20만 토큰이면 한국어 책 1권 분량을 한 번에 처리할 수 있다는 뜻이다.

핵심은 상한선이라는 점이다. 이 한도를 넘으면 모델이 앞부분을 잊어버린다. 무한히 기억하지 않는다.

중학생도 이해하는 비유

컨텍스트 윈도우를 가장 쉽게 설명하는 비유는 책상 위 공간이다.

작은 책상은 책 한 권만 펼쳐 놓으면 꽉 찬다. 큰 책상은 책 5권을 동시에 펼쳐 비교할 수 있다. 컨텍스트 윈도우가 그 책상 크기다.

작은 컨텍스트 모델은 한 번에 처리할 수 있는 정보가 적다. 큰 컨텍스트 모델은 책 한 권을 통째로 올려놓고 비교·분석할 수 있다.

다만 큰 책상이 항상 좋은 건 아니다. 너무 많은 책을 펼치면 어디에 뭐가 있는지 헷갈린다. 컨텍스트도 똑같다. 무리하게 채우면 모델이 정작 중요한 정보를 놓친다 (‘lost in the middle’).

실제 사용 예시

예시 1: 긴 문서 분석 50쪽 PDF를 한 번에 ChatGPT에 넣을 수 있느냐는 컨텍스트 윈도우에 달렸다. 컨텍스트 200K 토큰 모델은 거의 책 1권을 한 번에 분석한다.

예시 2: 긴 대화 유지 ChatGPT와 100번 주고받은 대화도 컨텍스트가 충분하면 처음 대화 내용을 그대로 기억한다. 한도가 차면 앞부분이 자동으로 잘리거나 요약된다.

예시 3: 코드베이스 분석 Cursor·Claude Code 같은 AI 코딩 도구가 큰 프로젝트를 한꺼번에 보려면 큰 컨텍스트가 필요하다. 작은 컨텍스트 모델은 파일 몇 개만 동시에 본다.

예시 4: API 호출 비용 폭발 컨텍스트가 토큰 단위로 청구되므로, 무리한 길이는 비용 폭증으로 이어진다. 100K 토큰 입력 한 번 = 짧은 호출 100~1000번 분량.

컨텍스트 가득 채우면 안 되는 이유

큰 컨텍스트 윈도우 모델이 등장한 뒤에도 무조건 채우는 게 정답은 아니다.

1. 비용 토큰 기반 과금이라 입력 길이가 길수록 호출 비용이 비례 증가. 매번 100K 토큰을 보내면 한 달 청구가 폭증.

2. 응답 지연 긴 컨텍스트는 처리 시간이 길다. 챗봇 UX는 즉시성이 중요한데 응답이 느려지면 사용자 이탈.

3. Lost in the middle 긴 컨텍스트 중간 부분 정보를 모델이 충분히 활용 못 하는 경향이 있다. 중요한 정보가 중간에 묻히면 답에 반영 안 될 수 있다.

4. 표시 한도 ≠ 실용 한도 ‘200K 토큰 지원’ 모델이라도 실제로 제대로 활용 가능한 길이는 그보다 짧을 수 있다. 벤치마크와 실제 사용감이 다르다.

잘 관리하는 5가지 팁

1. 핵심 정보를 시작·끝에 시스템 지시·중요 자료는 컨텍스트 시작과 끝에 두 번 적기. 중간보다 양 끝이 더 잘 반영된다.

2. 무관한 자료 제거 “혹시 도움 될까봐” 자료를 다 넣지 말기. 모델이 가운데서 길을 잃는다.

3. 시스템 프롬프트는 짧게 50줄짜리 시스템 프롬프트보다 5~15줄 핵심만. 토큰 절약 + 정확도 상승.

4. 오래된 대화는 새로 시작 대화가 한도에 닿으면 새 대화에서 핵심 내용만 다시 적어 시작. 자동 잘림보다 명시적 정리가 안전.

5. Prompt caching 활용 같은 시스템 프롬프트를 자주 쓰면 prompt caching으로 토큰 비용 약 90% 절감 가능 (Anthropic 기준).

비슷한 용어와 차이

용어컨텍스트 윈도우와의 차이
토큰(Token)텍스트 처리 단위컨텍스트는 토큰의 한도
출력 길이(Max Output)한 번에 생성 가능한 답 길이컨텍스트 안의 일부
메모리(Memory)대화 간 영구 저장 정보ChatGPT·Claude의 별도 기능
RAG외부 자료 검색 후 컨텍스트에 주입컨텍스트 한계 우회 기법
Prompt caching반복되는 컨텍스트를 캐시비용 절감용 기능

언제 컨텍스트 윈도우를 마주치나

  • 긴 PDF·문서 분석: “이 자료 너무 길어요” 안내가 한도 초과 신호
  • AI API 사용 시작: 가격표에 토큰 단가와 함께 표시
  • AI 코딩 도구 한도: Cursor·Claude Code의 컨텍스트 사용량 표시
  • 모델 비교: “100K 토큰 vs 200K 토큰” 같은 비교가 컨텍스트 윈도우 비교
  • 장시간 대화: 답이 갑자기 어색해지면 한도 도달 신호

관련 용어

  • 토큰(Token): 컨텍스트 윈도우의 측정 단위. 토큰이 뭐야? 참고.
  • LLM: 컨텍스트 윈도우 한도를 가진 모델 자체. LLM이 뭐야? 참고.
  • 프롬프트 엔지니어링: 컨텍스트를 효과적으로 활용하는 기법.
  • 할루시네이션: 컨텍스트 부족 시 환각이 늘어나는 경향. 할루시네이션이 뭐야? 참고.

컨텍스트 윈도우는 “AI가 한 번에 처리할 수 있는 텍스트의 최대 분량”이다. 토큰 단위로 표시되고, 이 한도가 모델의 기억력·문서 처리 능력을 결정한다. 다만 큰 컨텍스트가 항상 정답은 아니라 비용·지연·lost in the middle 같은 단점도 함께 본다. 핵심 정보는 시작·끝에, 시스템 프롬프트는 짧게가 가장 효과적인 관리 원칙이다.


출처

#컨텍스트 윈도우#Context Window#AI 용어