이번 주(2026년 2월 6일 기준) 드디어 수많은 개발자들이 기다려온 대규모 LLM AI 신규 모델이 출시하였습니다!
- OpenAI 신규모델: GPT-5.3-Codex(코딩/에이전트 중심)
- Anthropic 신규모델: Claude Opus 4.6(코딩/에이전트/장문 컨텍스트 중심)
비교 기준이 되는 직전 세대인 아래 모델들과 신규 모델들의 차이를 비교해보는 글을 작성해보고자 합니다.
- GPT-5.2(및 GPT-5.2-Codex)
- Claude Opus 4.5
문제는 여기서부터입니다. 사람들은 “누가 더 좋으냐”를 묻지만, 실제로는 “내가 하려는 작업에 누가 더 잘 맞냐”가 진짜 승부처입니다. 벤치마크 표만 보면 결론이 하나로 보이는데, 커뮤니티 후기를 보면 결론이 두세 갈래로 갈라지는 이유도 바로 그 지점에 있습니다.
이 글은 다음 순서로 정리합니다.
- 숫자로 보는 핵심 벤치마크 비교(표)
- LLM Arena(사람 선호도) 관점에서의 위치(표)
- 작업 유형별 추천(표)
- “왜 점수가 사이트마다 다르게 보이냐”에 대한 실전 설명
- 이번 주 신형이 직전 모델과 달라진 점을 한 줄 요약으로 정리
1) 먼저 결론부터: “최강 모델”은 없다, “최적 모델”만 있다
일단 가장 자주 나오는 결론을 작업 관점으로 번역하면 이런 느낌입니다.
- 코드 작성, 리팩터링, 에이전트로 터미널까지 밀어붙이는 “개발자 작업”: GPT-5.3-Codex가 아주 강력한 후보
- 컴퓨터 사용(브라우저/앱 조작), 장문 컨텍스트, 멀티스텝 에이전트의 “지속력”: Opus 4.6이 아주 강력한 후보
- 문서/스프레드시트/기업 업무(정확성, 일관성, 디테일): Opus 4.6 쪽이 “체감”에서 칭찬이 많고, Opus 4.5도 여전히 단단함
- “코드 선호도 투표(LLM Arena)” 같은 사람 취향/대화 품질: Opus 4.5가 텍스트 상위권에 오래 버티고, GPT-5.2 계열은 코드 쪽에서 존재감이 큼(다만 이번 주 신형은 아직 반영 지연이 보임)
이제 숫자로 들어가 보겠습니다.
2) 핵심 벤치마크 점수 비교 표: SWE-Bench, Terminal-Bench, OSWorld
벤치마크는 종류가 많지만, 이번 세대 비교에서 특히 자주 등장하는 축은 세 가지입니다.
- SWE-Bench 계열: “현실 코드 이슈 해결”에 가까운 지표
- Terminal-Bench 2.0: “터미널을 도구로 쓰는 에이전트형 코딩/자동화” 지표
- OSWorld(Verified 포함): “컴퓨터 사용(앱/브라우저 조작) 에이전트” 지표
아래 표는 공개된 수치 중, 출처가 명확하고 문맥이 비교 가능한 것 위주로만 넣었습니다. (표의 수치 근거는 글 맨 아래 참고자료에 정리해두었습니다.)

| 모델 | 세대/포지션 | SWE-Bench 계열 | Terminal-Bench 2.0 | OSWorld 계열 | 한줄 요약 |
| GPT-5.3-Codex | 이번 주 신형(코딩/에이전트) | SWE-Bench Pro 56.8% | 77.3% | OSWorld-Verified 64.7% | 터미널·코딩 에이전트 최상위권 |
| GPT-5.2 | 직전(범용) | SWE-Bench Pro 55.6% | 64.2% | OSWorld-Verified 61.9% | 범용+코딩도 강한 균형형 |
| GPT-5.2-Codex | 직전(Codex) | SWE-Bench Pro 53.3% | 69.1% | OSWorld-Verified 52.2% | Codex 라인 직전 세대 |
| Claude Opus 4.6 | 이번 주 신형(코딩/에이전트/장문) | (공개 표 이미지 중심) | 65.4% | OSWorld 72.7% | 컴퓨터 사용+지속력 강점 |
| Claude Opus 4.5 | 직전(코딩/에이전트) | SWE-Bench Verified 80.9% | 59.3% | OSWorld 66.3% | 코딩/에이전트 정석, 여전히 강함 |
주의할 점 하나는, SWE-Bench Pro와 SWE-Bench Verified는 같은 “SWE-Bench” 이름이지만 세부 조건과 해석이 달라서 단순 대소 비교에 함정이 있다는 겁니다. 그래서 위 표는 “같은 축에서 공개된 숫자”를 최대한 보수적으로 담았고, 이후 추천 파트에서는 “업무 유형 + 도구/에이전트 적합성”으로 해석합니다.
3) 2026년 이번 주 신형 AI vs 직전 AI 모델
GPT-5.3-Codex vs GPT-5.2-Codex
공개된 비교 수치 기준으로는 다음이 가장 직관적입니다.
- SWE-Bench Pro: 56.8% vs 53.3% (상승 폭 3.5%p)
- Terminal-Bench 2.0: 77.3% vs 69.1% (상승 폭 8.2%p)
- OSWorld-Verified: 64.7% vs 52.2% (상승 폭 12.5%p)
해석을 사람 말로 바꾸면 이렇습니다.
- “코드를 잘 짜는 것”도 좋아졌지만,
- “터미널을 쓰며 끝까지 밀어붙이는 에이전트 작업”에서 체감이 커지고,
- “컴퓨터 사용/도구 연동” 쪽은 아예 급이 달라졌다는 신호가 강합니다.
Opus 4.6 vs Opus 4.5
Opus는 이번 주에 4.6이 나오면서 핵심 축에서 딱 보기 좋게 올라갔습니다.
- Terminal-Bench 2.0: 65.4% vs 59.3% (상승 폭 6.1%p)
- OSWorld: 72.7% vs 66.3% (상승 폭 6.4%p)
그리고 Anthropic 쪽은 GDPval-AA(Elo) 같은 “업무 가치 기반 평가”에서도 큰 격차를 강조합니다.
숫자만 보고 “이젠 4.5 필요 없나?”라는 말이 나오는 이유가 생기는 지점입니다. 다만 현실에선 가격/속도/사용량 제한, 그리고 도구 체인과의 궁합 때문에 “4.5가 아직도 편한 자리”가 남습니다.
4) LLM Arena 관점: 사람 투표(선호도)에서는 누구 편을 드나
LLM Arena는 “정답 맞히기”보다 “사람이 더 낫다고 느끼는 답”에 가깝습니다. 그래서 다음 같은 질문에 유용합니다.
- 같은 질문을 던졌을 때 더 자연스럽고 설득력 있게 대답하는 모델은?
- 코드도 결국 “사람이 읽기 좋은 형태”로 내는 모델은?
다만, 이번 주에 나온 신형(특히 GPT-5.3-Codex, Opus 4.6)은 리더보드 반영이 며칠 지연될 수 있습니다. 그래서 “이번 주 신형이 아직 목록에서 안 보인다”면 그 자체도 중요한 정보입니다. 즉, 점수가 낮아서가 아니라, 아직 경기장에 입장표가 안 찍혔을 수 있습니다.
LLM Arena 상위권에서 확인되는 포인트

| 구분 | 리더보드 기준 | 이번주 출시 모델 |
| 텍스트(대화) | Opus 4.5 계열이 상위권에 위치 | Opus 4.6은 반영 지연 가능 |
| 코드 | GPT-5.2-high가 상위권에 위치 | GPT-5.3-Codex는 반영 지연 가능 |
여기서 “그럼 신형은 못 믿겠네?”가 아니라, 오히려 이렇게 생각하는 게 현실적입니다.
- 벤치마크(공식/리더보드): 신형의 성능 상승이 이미 수치로 확인됨
- LLM Arena(사람 투표): 반영되면 체감 평가가 어떻게 나오는지 곧 보일 구간
즉, 지금 시점에서 Arena 점수만으로 이번 주 신형의 결론을 내리면 “신제품을 리뷰하기 전에 택배 송장만 보고 별점 주는” 상황이 될 수 있습니다.
5) 작업별 추천표: 내 업무에 맞는 모델 고르는 법

이제 제일 실용적인 파트입니다. “나는 이거 할 건데, 그럼 뭘 쓰지?”에 바로 답할 수 있게 정리했습니다.
| 대규모 코드 변경(리팩터링/멀티파일 수정/PR 단위 작업) | GPT-5.3-Codex | Opus 4.6 | SWE-Bench Pro 및 Terminal-Bench에서 강한 수치, 코딩 에이전트 지향이 명확 |
| 터미널 자동화(빌드/배포/CI 트러블슈팅) | GPT-5.3-Codex | Opus 4.6 | Terminal-Bench에서 GPT-5.3-Codex가 강하게 앞섬. 다만 Opus 4.6도 상위권 |
| 컴퓨터 사용형 작업(웹/앱 조작, 에이전트가 화면을 쓰는 자동화) | Opus 4.6 | GPT-5.3-Codex | OSWorld 축에서 Opus 4.6이 강하고, “지속력/일관성” 후기가 많음 |
| 문서/스프레드시트/업무 산출물(정확성, 디테일, 일관성) | Opus 4.6 | Opus 4.5 | Opus 라인이 엔터프라이즈 워크플로우를 강하게 밀고 있고, 4.6에서 상승 |
| 빠른 범용 질의응답+코딩 보조(가성비/속도/안정) | GPT-5.2 | Opus 4.5 | 이미 검증된 직전 세대. “항상 최고”는 아니어도 “항상 무난”한 선택지 |
여기서 현실 꿀팁 하나.
- “내가 원하는 건 결과물 하나”라면: 더 강한 모델(신형)을 쓰는 게 이득
- “내가 원하는 건 반복 작업 자동화”라면: 모델 성능만큼이나 도구 체인(에이전트 프레임워크, 실행 환경, 안전장치)이 결과를 좌우
즉, 터미널/컴퓨터 사용 계열은 모델만 바꿔서는 체감이 제한적일 수 있고, 반대로 잘 세팅된 에이전트 환경에서는 같은 모델도 점수가 확 튀는 일이 생깁니다.
6) 왜 벤치마크 점수가 사이트마다 다르게 보일까?
이번 주에 특히 혼란을 키우는 포인트는 Terminal-Bench 같은 에이전트형 평가입니다.
- 같은 모델이라도 어떤 “에이전트 하네스(harness)”로 돌리느냐에 따라 점수가 달라짐
- 도구 호출 방식, 스캐폴딩(작업 발판), 채점 엄격도, 재현 가능성 문제로 점수가 출렁일 수 있음
- 그래서 어떤 곳은 “모델 점수”처럼 보이지만, 실제로는 “모델 + 에이전트 프레임 + 설정”의 합산 결과인 경우가 많음
이걸 모르면, 모델 비교가 아니라 “운영체제 vs 그래픽카드 vs 게임 옵션”을 한 표에 섞어 비교하는 꼴이 됩니다. 그리고 커뮤니티가 싸우기 시작합니다. 왜냐하면 둘 다 맞는 말을 하고 있기 때문입니다.
- A는 “공식 발표(동일 조건)에서 더 올랐다”고 말하고
- B는 “리더보드(실전 에이전트)에서 더 잘 나온 조합이 있다”고 말합니다
둘 다 맞습니다. 다만 기준이 다를 뿐입니다.
그래서 가장 안전한 해석법은 이렇습니다.
- 공식 벤치: 모델 자체 성능이 직전 대비 얼마나 올라갔는지 확인
- 에이전트 리더보드: 실제 자동화/툴 연동에서 어떤 조합이 잘 먹히는지 확인
- LLM Arena: 사람이 읽는 품질(대화/코드)을 선호도 관점에서 확인
7) 커뮤니티 체감 후기에서 반복적으로 보이는 포인트
벤치마크는 숫자고, 커뮤니티는 체감입니다. 둘이 싸우면 대개 체감이 이깁니다. 사람은 숫자보다 “내가 오늘 덜 고생했는지”를 기억하니까요.
이번 주 신형 관련해서 커뮤니티에서 반복적으로 보이는 이야기를, 과장 없이 “자주 보이는 패턴”만 추려서 정리하면 대략 이런 흐름입니다.
GPT-5.3-Codex 쪽에서 자주 나오는 말
- 도구를 붙였을 때(특히 코딩/터미널) 계획-실행 루프가 더 매끈해졌다는 반응
- 멀티스텝 작업에서 되돌아가거나 헛발질하는 비율이 줄었다는 이야기
- 다만 “환경/프롬프트/리포지토리 규모”에 따라 체감 편차가 크다는 말도 함께 나옴
Opus 4.6 쪽에서 자주 나오는 말
- 큰 코드베이스에서 “꾸준히” 작업을 이어가는 지속력이 좋아졌다는 반응
- 코드 리뷰에서 버그를 더 잘 잡는다는 칭찬
- 장문 컨텍스트나 멀티에이전트에서 “사람이 덜 돌봐도 된다”는 식의 후기
여기서 중요한 건, 커뮤니티 후기는 대부분 “내 세팅에서의 실전 결과”라는 점입니다. 그래서 그대로 믿기보다 “내 작업이 저 후기의 상황과 비슷한가?”를 체크하는 데 써야 합니다.
8) 실전 선택 가이드: 이렇게 고르면 실패 확률이 낮다
마지막으로, 선택을 빠르게 끝내는 규칙을 제안합니다. 결정을 길게 끌면, 결국 모델이 아니라 사람이 지칩니다.
규칙 1: 터미널/에이전트 자동화가 핵심이면
- 우선 GPT-5.3-Codex를 기준점으로 잡고
- 내 환경이 컴퓨터 사용/브라우저 조작 비중이 크면 Opus 4.6을 붙여서 비교
규칙 2: 문서/스프레드시트/업무 산출물이 핵심이면
- 우선 Opus 4.6을 기준점으로 잡고
- 비용/속도/사용량 제약이 크면 Opus 4.5로 현실 타협
규칙 3: “내가 지금 바로 써서 생산성이 올라가야 한다”면
- 이번 주 신형을 메인으로 쓰되,
- 직전 모델을 백업으로 같이 들고 가는 게 심리적으로도 안정적
신형은 강하지만, 세상 모든 신형은 가끔 변덕이 있습니다. 그래서 백업이 있으면 신형도 더 용감하게 쓸 수 있습니다.
참고자료(수치·인용 근거)
- GPT-5.3-Codex의 SWE-Bench Pro / Terminal-Bench 2.0 / OSWorld-Verified 수치 및 GPT-5.2·GPT-5.2-Codex와의 비교: (OpenAI)
- Claude Opus 4.6의 출시일(2026-02-05), Terminal-Bench 2.0(65.4%), OSWorld(72.7%) 및 고객 코멘트 일부: (Anthropic)
- Claude Opus 4.6의 GDPval-AA(Elo) 비교(대략 144 Elo, 190 Elo 등) 및 평가 관련 설명: (Anthropic)
- Claude Opus 4.5의 주요 벤치마크 표(SWE-Bench Verified 80.9%, Terminal-Bench 2.0 59.3%, OSWorld 66.3% 등) 정리: (Azure)
- Terminal-Bench 2.0 리더보드에서 모델/에이전트 조합별 점수(실전 하네스 기반): (Terminal-Bench)
- LLM Arena(텍스트/코드/기타 카테고리) 리더보드 및 업데이트 시점(반영 지연 가능성 판단 근거): (아레나)
- 에이전트 벤치마크 점수 변동(스캐폴딩/채점/재현성)과 해석 주의점: (Anthrpic)
- 커뮤니티 논의(초기 체감/사용 후기 흐름 파악용): (Reddit)
'IT' 카테고리의 다른 글
| 카카오톡 선물하기 ChatGPT Pro 2만9천원, Plus 1+1도 2만9천원? 진짜인지, 동일한 플랜인지, 기존 사용자는 어떻게 쓰는지 총정리 (1) | 2026.02.13 |
|---|---|
| GPT-5.3 출시: GPT-5.2 대비 뭐가 얼마나 좋아졌나? (6) | 2026.02.06 |
| OpenAI Codex macOS 앱: CLI,웹과 뭐가 다르고, 개발자 입장에서 뭐가 좋아졌는지 분석 (2) | 2026.02.04 |
| OpenAI Prism란 무엇인가?(LaTeX 논문 작성과 협업 중심) (1) | 2026.02.04 |
| 경량화 언어 모델(SLM) 은 무엇인가? (5) | 2026.01.30 |