본문 바로가기

IT

오늘 공개된 GPT-5.2, GPT-5.1·GPT-5(5.0)와 뭐가 달라졌나

728x90
반응형
728x170

2025년 12월 11일 OpenAI가 GPT-5.2를 공개하면서, GPT-5 라인업이 “한 번 더 갈아엎어졌다”는 말이 나올 정도로 변화가 꽤 큽니다. 이번 글에서는 GPT-5.2가 기존 GPT-5.1, GPT-5(통상 “5.0”이라고 부르는 그 버전) 대비 무엇이 달라졌는지, 공개된 근거(공식 문서/시스템 카드/공식 릴리스 노트)에 기반해 비교해보도록 하겠습니다!

한 줄 요약

  • GPT-5.2는 “성능(특히 상위 난이도 추론·코딩) + 장문 컨텍스트 + API 컨텍스트 관리(Compaction) + 최신 지식(컷오프)”에서 GPT-5.1보다 확실히 앞으로 갔습니다.
  • 대신 비용(토큰 단가)은 GPT-5.1/GPT-5보다 올라갔습니다.
  • ChatGPT 쪽은 Instant/Thinking/Pro 3종으로 제공되고, API에서는 gpt-5.2, gpt-5.2-chat-latest, gpt-5.2-pro로 역할이 분리됩니다.

스펙부터 깔끔 비교 (API 기준)

GPT5.2 vs GPT5.1

여기서 체감 포인트는 두 가지입니다.

  1. 지식 컷오프가 2025년 8월 말까지 올라가서, “웹 검색을 켜기 전 기본 지식”의 최신성이 크게 좋아졌습니다.
  2. 가격은 확실히 올랐습니다. “성능 더 주면 돈도 더 줘야지”가 보통 당연하지만 최근에 출시된 LLM 모델들은 특히나 GPT의 경우 타사 LLM 모델 견제를 위해서인지 가격을 올리지 않았었는데 이번엔 제법 가격을 많이 올렸습니다.

기능 변화: 5.0 → 5.1 → 5.2 업그레이드 흐름

GPT-5(5.0): “추론·코딩 플래그십의 기본형”

  • 추론에 강하고, 에이전트성 작업(툴 호출, 멀티스텝)에 초점을 둔 모델로 자리 잡았습니다.
  • API에서 추론 토큰을 쓰는 형태가 본격화됐고, 구조적 출력/함수 호출 같은 “제품에 넣기 좋은 기능”이 안정화됐습니다.

GPT-5.1: “더 빠르고, 더 대화적이고, 개발 친화”

  • Instant/Thinking 계열이 분리되면서 “빠른 답 vs 깊게 생각”을 선택할 수 있게 됐고,
  • 개발자 측면에선 프롬프트 캐싱(최대 24시간) 같은 운영 최적화 요소와, 코드 편집에 특화된 도구 흐름이 더 강조됐습니다.

GPT-5.2: “성능 상승 + 장문 컨텍스트 + 컨텍스트 관리(Compaction) + xhigh 추론”

GPT-5.2에서 눈에 띄는 변화는 아래 네 가지입니다.

  1. 추론 단계가 한 칸 더 생김: xhigh
  2. “생각 요약(Concise reasoning summaries)” 지원
  3. “Compaction”으로 장시간/대규모 컨텍스트를 더 잘 관리
  4. 벤치마크 상 성능 상승(코딩·추론·난문제), 장문 컨텍스트(MRCR) 정확도 상승

 

성능 지표 비교: 공개된 수치로만 보자

성능 비교는 “공식이 공개한 동일/유사 벤치마크 수치”로만 다룹니다. 특히 GPT-5.2는 Thinking 기준 성능이 많이 공개되어 있습니다.

1) 대표 벤치마크 3종 비교 (GPT-5 vs 5.1 vs 5.2)

아래 수치는 공개된 표에서 가져온 값입니다.

  • SWE-bench Verified: 코딩 이슈 해결 능력(높을수록 좋음)
  • GPQA Diamond: 고난도 지식/추론(높을수록 좋음)
  • AIME 2025: 수학 경시 수준 문제(높을수록 좋음)
SWE-bench Verified (%)
GPT-5   | █████████████████████████████            |  72.8
GPT-5.1 | ███████████████████████████████          |  76.3
GPT-5.2 | ████████████████████████████████         |  80.0

GPQA Diamond (%)
GPT-5   | ██████████████████████████████████       |  85.7
GPT-5.1 | ███████████████████████████████████      |  88.1
GPT-5.2 | █████████████████████████████████████    |  92.4

AIME 2025 (%)
GPT-5   | ██████████████████████████████████████   |  94.6
GPT-5.1 | ██████████████████████████████████████   |  94.0
GPT-5.2 | ████████████████████████████████████████ | 100.0

포인트는 간단합니다.

  • GPT-5.2는 5.1보다 “조금 더 잘함”이 아니라, 난이도 높은 축에서 꽤 꾸준히 올라갑니다.
  • AIME 2025처럼 상단이 이미 빡빡한 구간에서도 100에 도달했다는 점이 상징적입니다.

2) 장문 컨텍스트: MRCR에서 큰 폭 개선(5.1 → 5.2)

장문 문서/로그/스프레드시트처럼 “길게 던져주고 정확히 찾아내라” 류의 작업에서 차이가 두드러집니다.
MRCR(다중 needle-in-a-haystack)에서 128k~256k 컨텍스트 구간 성능이 다음처럼 공개되었습니다.

MRCR (8 needles, 128k–256k accuracy)
GPT-5.1 (Thinking) | ████████████                             | 29.6
GPT-5.2 (Thinking) | ███████████████████████████████          | 77.0

 

“파일 업로드해서 질문하기”, “긴 문서 요약/검토”, “로그에서 근거 뽑기” 같은 실사용 시나리오에서 체감될 만한 변화입니다.

 

신뢰성/안전: “거짓말(기만)·사이버 악용” 관련 지표도 공개됨

성능만 좋아지고 끝이면 불안하죠. 그래서인지 GPT-5.2는 시스템 카드에서 꽤 구체적인 안전 지표도 공개합니다.

1) 기만(Deception) 비율: 사전 트래픽 기준 7.7% → 1.6%

시스템 카드에 따르면, 프리릴리즈 AB 테스트 트래픽 샘플에서 “기만”으로 분류된 비율이 GPT-5.1 Thinking 대비 GPT-5.2 Thinking에서 낮아졌습니다.

  • Production traffic deception rate: 7.7% → 1.6%

이 수치는 특히 “툴을 썼다고 구라치기”, “근거/인용 조작”, “백그라운드로 했다고 말만 하기” 같은 유형을 포함한다고 명시되어 있습니다. 실무에서 신뢰성 이슈로 속이 쓰렸던 분들에겐 반가운 대목입니다.

2) 사이버 안전 준수율: GPT-5.2 Thinking이 상승

또 다른 표에서, 사이버 악용 요청에 대한 정책 준수율이 GPT-5 / GPT-5.1 대비 GPT-5.2에서 높아졌다고 공개합니다.

  • Production traffic: 0.900(GPT-5) / 0.866(GPT-5.1) / 0.966(GPT-5.2)

즉 “도움은 되되, 선 넘는 건 더 잘 막는다” 쪽으로 튜닝이 강화된 것으로 해석할 수 있습니다(공식 문서의 정의 범위 내에서).

 

개발자 관점: GPT-5.2에서 가장 실전적인 변화 3가지

1) reasoning.effort 제어와 xhigh 등장

GPT-5.2 가이드에서 reasoning.effort로 추론 토큰 사용량을 제어할 수 있고, 5.2에서 xhigh 레벨이 추가됐다고 명시합니다.
“이 요청은 대충 빨리”, “이 요청은 진짜 깊게”를 한 모델에서 다루기 쉬워졌습니다.

2) text.verbosity로 출력 길이 제어

가이드에 text.verbosity로 답변 길이 성향을 제어할 수 있다고 나옵니다.
운영 관점에서 “토큰 비용/지연”을 조절하는 데 꽤 유용합니다.

3) Compaction: 장시간 대화/긴 작업에서 컨텍스트를 더 잘 다룸

GPT-5.2의 신규 기능으로 “Compaction 기반 컨텍스트 관리”가 소개됩니다.
긴 티켓/긴 문서/긴 로그를 다루는 제품에서는, 이게 체감 성능과 비용(불필요 토큰) 모두에 영향을 주는 포인트가 될 수 있습니다.

 

아래는 공식 가이드에 나온 형태를 기준으로 한 예시입니다

curl --request POST \
  --url https://api.openai.com/v1/responses \
  --header "Authorization: Bearer $OPENAI_API_KEY" \
  --header 'Content-type: application/json' \
  --data '{
    "model": "gpt-5.2",
    "input": "긴 문서를 요약하고, 핵심 리스크 5개를 표로 정리해줘.",
    "reasoning": { "effort": "xhigh" },
    "text": { "verbosity": "medium" }
  }'

 

그래서 어느 상황에 어떤 LLM 모델을 쓰면 되는가!? (상황별 추천)

  • 문서/로그/스프레드시트처럼 길고 복잡한 입력을 많이 다룬다
    → GPT-5.2 Thinking 계열이 유리한 근거가 공개되어 있습니다(MRCR 수치 참고).
  • 코딩 이슈 해결, 에이전트성 작업을 안정적으로 올리고 싶다
    → SWE-bench Verified, GPQA Diamond에서 5.2가 5.1/5.0 대비 상승한 수치가 공개되어 있습니다.
  • 비용이 민감하고, 평균 난이도 요청이 대부분이다
    → GPT-5.1은 가격이 더 낮고(입력/출력 단가), 여전히 플래그십 급입니다. “기본값은 5.1, 어려운 건 5.2” 같은 혼합 전략이 현실적입니다.
  • “최고 품질이 최우선”인 일부 요청만 따로 올리고 싶다
    → GPT-5.2 Pro는 별도 모델로 제공되며, 더 많은 연산을 사용한다고 명시되어 있습니다. 단가도 높으니(특히 출력) 사용 구간을 정해두는 게 안전합니다.

마무리

GPT-5.2는 단순히 “조금 더 똑똑” 수준이 아니라,

  • 난이도 높은 추론/코딩 성능의 상승,
  • 장문 컨텍스트 정확도의 큰 폭 개선,
  • API에서의 컨텍스트 관리(Compaction)와 추론 레벨 확장(xhigh),
  • 최신 지식 컷오프(2025-08)
    까지 한 번에 묶어서 들어왔습니다.

다만 가격도 함께 올라왔으니, 제품/팀 기준으로 “기본은 5.1, 승부처는 5.2(또는 Pro)”처럼 라우팅 전략을 짜는 쪽이 가장 깔끔합니다. 결국 모델도 팀원이니까요. 월급(토큰 비용) 관리가 필요합니다.

 

 

자료 출처

  1. OpenAI 공식 발표: GPT-5.2 소개 및 벤치마크(ARC-AGI, SWE-bench, GPQA, AIME, MRCR 등), 가격, 모델 구성(Instant/Thinking/Pro)
  2. OpenAI API 문서: GPT-5.2 모델 스펙(컨텍스트/최대 출력/지식 컷오프/가격) (OpenAI Platform)
  3. OpenAI API 문서: GPT-5.1 모델 스펙(컨텍스트/최대 출력/지식 컷오프/가격) (OpenAI Platform)
  4. OpenAI API 문서: GPT-5(5.0) 모델 스펙(컨텍스트/최대 출력/지식 컷오프/가격) (OpenAI Platform)
  5. OpenAI API 가이드: GPT-5.2의 신규 기능(xhigh, reasoning summaries, compaction), reasoning.effort, text.verbosity 사용 예시 (OpenAI Platform)
  6. GPT-5.1 개발자 발표(벤치마크 표 포함): GPT-5 대비 GPT-5.1 성능 비교(SWE-bench Verified, GPQA, AIME 등) (OpenAI)
  7. GPT-5.2 System Card: 기만(Deception) 비율, 사이버 안전 준수율, HealthBench 등 안전/신뢰성 평가
  8. GPT-5.1 System Card Addendum: GPT-5.1 안전 평가 범위 및 추가 평가(정신건강/정서 의존 등)
  9. ChatGPT 릴리스 노트: GPT-5.2 지식 컷오프(2025년 8월) 및 모델 동작 관련 공지 (OpenAI Help Center)
728x90
반응형
그리드형