GPT-5 vs GPT-4o·o3·o4-mini·GPT-4.1 성능 지표 & 가격 비교

728x90

728x170

GPT-5는 코딩·에이전트(툴 체인) 작업에서 SOTA. SWE-bench Verified 74.9%, Aider polyglot 88%. API 단가는 입력 $1.25 / 출력 $10 (per 1M tokens). 미니/나노는 더 저렴.
이전 세대와 비교하면 o3/o4-mini 대비 코딩·툴콜 안정성이 더 좋고, 지시 준수·사실성·할루시네이션 감소가 개선됨.
범용 텍스트/비전에는 여전히 GPT-4o가 강력하고, 가격은 입력 $2.50 / 출력 $10 수준.
팀/엔터프라이즈는 ChatGPT Plus $20, Pro $200, Team $25~30/인/월 등 구독 가격 참고.

1) 빠른 비교표 (가격·컨텍스트·벤치마크)

단가 단위: per 1M tokens (입력/출력). 캐시 입력은 Prompt Caching 적용가.

모델 유형/포지셔닝 입력 출력 캐시 입력 컨텍스트 윈도우 대표 벤치마크(코딩)

GPT-5	최고 성능(코딩·에이전트)	$1.25	$10.00	–	~400k	SWE-bench 74.9%, Aider 88%
GPT-5 mini	비용·지연 최적	$0.25	$2.00	–	(공개치 미상)	SWE-bench 71.0%, Aider 71.6%
GPT-5 nano	초저비용·최고속	$0.05	$0.40	$0.01	(공개치 미상)	SWE-bench 54.7%, Aider 48.4%
GPT-4o	범용 텍스트·비전	$2.50	$10.00	$1.25	128k	(모자이크 지표, 범용 강점)
GPT-4o mini	초저가 범용	$0.15	$0.60	$0.075	(공개치 미상)	(소형 대비 강력)
o3	고난도 추론	$2.00	$8.00	$0.50	(보통 200k급)	SWE-bench 69.1%
o4-mini	소형 고성능	$0.55	$2.20	$0.138	(공개치 미상)	SWE-bench 68.1%
GPT-4.1	전세대 고급	$2.00	$8.00	$0.50	(공개치 미상)	SWE-bench 54.6%

출처 요약: GPT-5 가격·벤치마크는 개발자 소개 글 및 시스템 카드, GPT-4o/o3/o4-mini/GPT-4.1 가격은 모델 비교/모델 문서에서 확인. 컨텍스트(윈도우)는 GPT-5/4o 비교 페이지 기준. SWE-bench/Aider 수치는 GPT-5 소개 글의 비교 섹션.

2) 모델별 하이라이트

GPT-5 (gpt-5 / mini / nano)

왜 쓰나: 실무 코딩·에이전트(툴 체인)와 장문 추론에서 가장 높은 정답률/안정성. SWE-bench 74.9%, Aider 88% 로 공개 비교에서 우위.
가격: gpt-5 $1.25 / $10, mini $0.25 / $2, nano $0.05 / $0.40.
안정성: 지시 준수·사실성 개선, 할루시네이션 및 아부(sycophancy) 감소. Safe-completions 도입.
컨텍스트: 비교 페이지 기준 ~40만 토큰급 컨텍스트/대용량 출력 지원.

GPT-4o / 4o mini

왜 쓰나: 텍스트+비전 범용 모델. 실사용 가격대비 성능이 좋고 레이턴시도 준수. 입력 $2.50 / 출력 $10 (4o), 입력 $0.15 / 출력 $0.60 (4o mini).
컨텍스트: 4o는 128k 윈도우.

o3 / o4-mini / GPT-4.1

왜 쓰나: o3는 고난도 추론(“think-before-answer”) 계열. o4-mini는 소형 대비 우수. 가격은 각 입력/출력 기준으로 o3 $2/$8, o4-mini $0.55/$2.20. GPT-4.1 $2/$8.
코딩 벤치마크: SWE-bench에서 o3 69.1%, o4-mini 68.1%. (동일 조건 비교)

3) 벤치마크 해석 팁

SWE-bench Verified: 실제 OSS 이슈를 고쳐 PR 패치를 만드는 실전형 코딩 평가. GPT-5 74.9%로 o3 대비 향상.
Aider polyglot: 코드 수정(diff) 능력 평가. GPT-5 88%로 최고 수준.
툴콜/지시준수: τ²-bench(통신) 96.7%, Scale MultiChallenge 69.6%로 에이전트 작업 신뢰성이 강화. 실제 운영 환경에선 툴 실패 재시도·에러 핸들링이 중요.

주의: 같은 모델이라도 reasoning_effort(추론 강도), verbosity, 툴 세팅에 따라 점수와 비용이 크게 달라질 수 있음(특히 GPT-5).

4) 용도별 선택 가이드

실무 코딩/긴 작업을 끝까지 시키고 싶다 → GPT-5 기본. 비용 민감하면 GPT-5 mini, 초저가/고속이면 GPT-5 nano.
이미지/텍스트 범용 대화·응대 → GPT-4o, 대량 트래픽/저비용이면 4o mini.
깊은 추론만 따로 실험 → o3. (비용·지연 고려)
팁: Prompt Caching(캐시 입력가)·배치 API를 병행하면 고정 프롬프트 비용을 크게 줄일 수 있어요. (각 모델 문서의 Cached input 단가 참고)

5) 가격표 (API & ChatGPT 구독)

API 단가 요약 (per 1M tokens)

GPT-5: 입력 $1.25, 출력 $10.00 / mini: $0.25·$2.00 / nano: $0.05·$0.40.
GPT-4o: 입력 $2.50, 출력 $10.00 (캐시 입력 $1.25). 4o mini: 입력 $0.15, 출력 $0.60 (캐시 $0.075).
o3: 입력 $2.00, 출력 $8.00 (캐시 $0.50). o4-mini: 입력 $0.55, 출력 $2.20 (캐시 $0.138). GPT-4.1: 입력 $2.00, 출력 $8.00 (캐시 $0.50).

ChatGPT 구독(월 과금)

Free: GPT-5 접근(사용량 제한) 포함. $0.
Plus: $20/월 — GPT-5 확장 사용량, 고급 음성/화면공유 일부 제공.
Pro: $200/월 — GPT-5 무제한(가드레일 내), GPT-5 pro 접근, 고급 음성 등 확장.
Team: $25(연)/$30(월) /인 — 팀용 워크스페이스·보안·연결기능.
(Enterprise는 영업문의)

구현 팁 (개발자 관점)

호출 파라미터: reasoning_effort(최소/기본/높음), verbosity(low/medium/high)로 비용·속도·품질 트레이드오프를 직접 제어. GPT-5는 “최소 추론” 모드로도 이전 세대의 비추론 모델보다 안정적.
툴콜 안정화: 평문 custom tools + 병렬 툴콜 지원. 툴 에러·재시도 지침을 시스템/도구 전제(prompt preamble)에 포함.
롱컨텍스트: 대용량 맥락은 요약→근거 인용 RAG→최종 생성 흐름으로 비용 폭증 방지. (GPT-5의 장문 출력 한도는 비교 페이지 참고)

자주 묻는 질문(FAQ)

Q1. GPT-5가 언제나 GPT-4o보다 싸나요?
A. 아니요. 순수 텍스트 기준으로 입력 단가만 보면 GPT-5가 더 저렴하지만, 출력은 GPT-4o와 동일(둘 다 $10)입니다. 작업 성격(출력량·툴콜·추론강도)에 따라 총비용이 달라집니다.

Q2. 벤치마크 점수 = 실사용 성능일까요?
A. 경향성은 보여도 =은 아님. 프롬프트, 툴 설계, 컨텍스트, 캐시 사용 등 운영 설정이 큰 영향을 줍니다. 다만 GPT-5는 동일 조건에서 o3·o4-mini 대비 코딩·에이전트 지표가 우위라는 공개 수치는 확인됩니다.

Q3. 한국어 성능은?
A. 공식 문서는 다국어 세부 점수보단 실사용 유틸리티(지시 준수·사실성·안전성) 개선을 강조합니다. 한국어 대화/요약/코딩 주석 등에서 GPT-5 기본 선택을 권장하고, 비용이 민감하면 mini/4o mini를 A/B 해보세요.

참고 링크(공식)

GPT-5 개발자 소개(가격·벤치마크·기능), GPT-5 시스템 카드. (OpenAI)
모델 비교/문서(가격·컨텍스트): GPT-4o, o3, o4-mini, GPT-4.1. (OpenAI 플랫폼)
ChatGPT 구독 가격(Free/Plus/Pro/Team/Enterprise). (OpenAI)

728x90

그리드형

저작자표시 (새창열림)

'IT' 카테고리의 다른 글

GPT-5 프롬프트 엔지니어링 가이드 (8)	2025.08.11
GPT-5 vs GPT-5 Thinking 차이점 알아보기 (15)	2025.08.08
GPT와 심심이의 차이점: 인공지능 챗봇 비교 (4)	2024.09.23
MapStruct에서 List 하위 객체 ignore 하는 방법 (1)	2024.09.22
MapStruct 사용 시 꼭 알아야 할 30가지 질문과 답변 (1)	2024.09.21

HTML6

GPT-5 vs GPT-4o·o3·o4-mini·GPT-4.1 성능 지표 & 가격 비교

1) 빠른 비교표 (가격·컨텍스트·벤치마크)

단가 단위: per 1M tokens (입력/출력). 캐시 입력은 Prompt Caching 적용가.

2) 모델별 하이라이트

GPT-5 (gpt-5 / mini / nano)

GPT-4o / 4o mini

o3 / o4-mini / GPT-4.1

3) 벤치마크 해석 팁

4) 용도별 선택 가이드

5) 가격표 (API & ChatGPT 구독)

API 단가 요약 (per 1M tokens)

ChatGPT 구독(월 과금)

구현 팁 (개발자 관점)

자주 묻는 질문(FAQ)

참고 링크(공식)

'IT' 카테고리의 다른 글

티스토리툴바

GPT-5 vs GPT-4o·o3·o4-mini·GPT-4.1 성능 지표 & 가격 비교

1) 빠른 비교표 (가격·컨텍스트·벤치마크)

단가 단위: per 1M tokens (입력/출력). 캐시 입력은 Prompt Caching 적용가.

2) 모델별 하이라이트

GPT-5 (gpt-5 / mini / nano)

GPT-4o / 4o mini

o3 / o4-mini / GPT-4.1

3) 벤치마크 해석 팁

4) 용도별 선택 가이드

5) 가격표 (API & ChatGPT 구독)

API 단가 요약 (per 1M tokens)

ChatGPT 구독(월 과금)

구현 팁 (개발자 관점)

자주 묻는 질문(FAQ)

참고 링크(공식)

'IT' 카테고리의 다른 글

'IT' Related Articles

티스토리툴바