장편소설 한 편을 통째로 AI에 넣고 "이 책에서 주인공의 심리 변화를 분석해줘"라고 물을 수 있다면 어떨까요. 코드 저장소 전체를 그대로 입력해 보안 취약점을 찾아달라고 시킬 수 있다면요. 그 상상이 현실이 된 게 바로 구글의 Gemini 3.1 Ultra입니다. 200만 토큰이라는 숫자가 무엇을 바꾸는지, 그리고 개발자들이 실제로 어떻게 활용해야 하는지 차근차근 살펴봅시다.
200만 토큰, 그래서 이게 얼마나 큰 건데
숫자만 들으면 감이 잘 안 옵니다. 그래서 실생활 단위로 환산해 봤습니다.
토큰 수가 가지는 실제 의미
| GPT-5 | 128K 토큰 | A4 약 100페이지 |
| Claude 3.7 Sonnet | 200K 토큰 | A4 약 150페이지 |
| Gemini 3.0 Ultra (이전) | 1M 토큰 | 책 약 1,500페이지 |
| Gemini 3.1 Ultra | 2M 토큰 | 책 약 3,000페이지 |
참고로 GPT-5의 컨텍스트 윈도우는 128K 토큰이고, Claude 3.7 Sonnet은 200K 토큰입니다. Gemini 3.1 Ultra의 2M 윈도우는 이전 세대 대비 10배 증가이며, 이 모델에서 가장 중요한 단일 아키텍처 결정입니다. 이 숫자는 마케팅 주장이 아닙니다. 모델에 제출할 수 있는 문제의 클래스 자체를 바꿉니다. Abhs
쉽게 말하면 그동안은 "책 한 챕터 분석해줘"였다면 이제는 "책 시리즈 전권 던져줄게 캐릭터 일관성 분석해줘"가 가능해진 거죠.
진짜 핵심은 컨텍스트 크기 자체가 아니다
크기만 크다고 자랑할 일이 아닙니다. 모델의 진짜 가치는 그 큰 입력 안에서 정보를 얼마나 잘 유지하느냐에 달려 있습니다.
실용적인 개선은 단순히 양이 아닙니다. 구글은 경쟁 모델에서 긴 컨텍스트의 마지막 3분의 1에서 보이는 성능 저하 없이, 전체 윈도우에서 더 나은 일관성 유지를 주장하고 있습니다. Abhs
여기가 중요한 포인트입니다. 다른 모델들은 컨텍스트 끝부분으로 갈수록 정보를 "잊어버리는" 경향이 있는데, Gemini 3.1 Ultra는 그게 덜하다는 얘기입니다. 200만 토큰을 넣어도 첫 부분과 끝부분 모두 일관되게 추론할 수 있다면, 이건 단순한 스펙업이 아니라 실제로 사용 가능성이 다른 차원입니다.
새롭게 추가된 샌드박스 코드 실행
이번 모델에서 개발자 입장에서 가장 반가운 기능은 따로 있습니다.
Gemini 3.1 Ultra는 이제 서드파티 Code Interpreter 플러그인 없이 네이티브로 샌드박스 환경에서 Python 코드를 실행할 수 있습니다. 코드를 작성하고, 실행하고, 출력을 관찰한 다음, 수정합니다. 이는 OpenAI가 데이터 분석 작업에서 경쟁 우위를 누려온 ChatGPT의 Code Interpreter(현재 Advanced Data Analysis)와의 격차를 좁힙니다. Abhs
기존에는 모델이 "이런 코드를 짜면 됩니다"라고 코드만 던져주고 끝났는데, 이제는 그 코드를 실제로 돌려보고 결과를 보면서 다시 다듬는다는 겁니다. 데이터 분석 워크플로우에서는 게임 체인저입니다.
정확히 어떤 라인업이 나왔나, 모델 이름 정리
이 시점에서 헷갈리기 쉬운 게 모델 이름입니다. 현재 Vertex AI 문서 기준으로 Gemini 3.1 Pro는 1M 토큰 컨텍스트 윈도우를 가지고 있으며, 텍스트, 오디오, 이미지, 비디오, PDF, 그리고 전체 코드 리포지토리까지 이해할 수 있습니다. Google
Gemini 3.1 Pro의 표준 API 컨텍스트 윈도우는 1백만 토큰입니다. 2백만 토큰 상한은 구글 생태계에서 이미 활성화되어 있으며, Gemini 1.5 Pro와 함께 도입되어 일부 엔터프라이즈 Vertex AI 구성에서 지원됩니다. Ultra 등급은 확장된 컨텍스트와 에이전트 추론 작업에서 그 기능을 더욱 밀어붙입니다. AI2Work
벤치마크에서는 어땠나
Gemini 3.1 Pro는 ARC-AGI-2에서 77.1%, GPQA Diamond(대학원 수준 과학)에서 94.3%, SWE-Bench Verified에서 80.6%를 기록했습니다. 이는 현 시점 모든 공개 가능 모델 중 벤치마크 1위 점수입니다. AI2Work
Gemini 3.1 Ultra는 HumanEval 코드 생성과 MMLU Pro에서 GPT-5를 앞서고, LiveCodeBench 어려운 코딩 작업에서는 Claude 3.7 Sonnet에 뒤지며, 1M 토큰에서의 긴 컨텍스트 회상에서는 둘 다 앞섭니다. Abhs
요약하면 "긴 컨텍스트 작업에서는 압도적, 일반 코딩에서는 클로드와 박빙, 추상 추론에서는 GPT보다 우위" 정도가 됩니다.
가격은 얼마나 매력적인가
Gemini 3.1 Pro는 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 12달러로, Claude Opus 4.6의 블렌디드 비용의 약 절반, GPT-5.3 가격의 일부에 해당합니다. Ultra는 프리미엄 가격대에 위치하지만, 그에 걸맞은 성능을 갖추고 있습니다. Medium
이 가격 정책이 흥미로운 이유는 명백합니다. 구글이 시장 점유율을 빼앗아오는 데 진심이라는 신호이기 때문입니다. Gemini 3.1 Pro의 안정 GA 가격은 컨텍스트 캐싱 및 배치 할인을 포함해 2026년 2분기에 100만 토큰당 1.50/10달러 수준으로 안정화될 것으로 예상됩니다. AI2Work
장문 문서 분석
법률 계약서 수십 건, 학술 논문 모음, 회의록 1년치 같은 자료를 통째로 던져 비교 분석이 가능합니다.
3) 멀티모달 통합 처리
Gemini 3은 Google Search, Google Maps Grounding, File Search, Code Execution, URL Context를 지원합니다. 또한 media_resolution 매개변수를 통해 멀티모달 비전 처리에 대한 세밀한 제어를 제공합니다. Google AI
비디오, 오디오, 이미지, 텍스트를 모두 한 번에 처리할 수 있어서 회의 녹화본 + 화이트보드 사진 + 회의록을 한꺼번에 분석하는 같은 작업이 가능해졌습니다.
thinking_level 매개변수, 새 옵션
이번 모델에서 도입된 또 하나의 흥미로운 기능입니다.
Gemini 3 시리즈 모델은 프롬프트를 추론하기 위해 기본적으로 dynamic thinking을 사용합니다. thinking_level 매개변수를 통해 응답을 생성하기 전 모델의 내부 추론 프로세스의 최대 깊이를 제어할 수 있습니다. thinking_level이 지정되지 않으면 Gemini 3은 high로 기본 설정됩니다.
검색의 미래도 함께 바뀐다
이게 그냥 API 모델 하나 출시한 차원이 아닙니다. Gemini 3.1 Ultra는 구글의 AI Overviews(검색 결과 상단에 나타나는 생성형 답변)에 깊이 통합되어 있습니다. 이는 단순히 단독으로 사용하는 모델이 아닙니다. 수억 명의 일일 검색을 위해 웹을 읽고 요약하는 엔진입니다. Medium
블로그를 운영하거나 SEO를 신경 쓰는 분들이라면 이 부분이 중요합니다. 구글이 검색 결과를 만드는 데 사용하는 모델이 200만 토큰을 한 번에 처리할 수 있다면, 이제는 페이지 단위가 아니라 사이트 전체를 평가한다는 의미가 됩니다.
정리하며
Gemini 3.1 Ultra를 한 줄로 요약하면, "AI가 책 한 권이 아니라 책장 전체를 한 번에 읽고 이해할 수 있는 시대로 들어섰다"는 말이 됩니다. 단순히 컨텍스트가 늘어난 것이 아니라, 그 큰 입력 안에서 일관성 있게 추론할 수 있다는 점이 진짜 가치입니다.
개발자 입장에서 활용 포인트를 다시 정리하면, 200만 토큰이라는 큰 입력을 활용한 코드베이스 전체 분석, 네이티브 코드 실행으로 데이터 분석 자동화, 비용 효율적인 가격 정책, 그리고 thinking_level을 통한 세밀한 제어가 핵심입니다. 한국 개발 환경에서 도입을 검토 중이라면 Vertex AI를 통한 엔터프라이즈 경로를 권장합니다.
저는 개인적으로 코드베이스 전체를 한 번에 던져서 리뷰받는 시나리오에 가장 끌립니다. 그동안 코드 리뷰는 "이 파일 봐줘" 단위였는데, 이제는 "이 프로젝트 봐줘"가 가능해진 거니까요. 다만 이렇게 편해질수록 우리는 또 어떤 새로운 고민을 하게 될까 싶기도 합니다.
'IT > AI' 카테고리의 다른 글
| Codex에 펫이 생겼다고? OpenAI의 깜찍한 신기능 Codex Pets 기능 정리 (1) | 2026.05.15 |
|---|---|
| 2만9천원에 풀렸던 ChatGPT Pro 선물하기 이벤트 사용 관련 QnA 총정리 (0) | 2026.05.14 |
| 메타 Muse Spark 등장과 154조 원 베팅, 오픈소스의 왕은 왜 닫힌 문을 선택했나 (0) | 2026.05.12 |
| 클로드 미토스(Claude Mythos) 무단 접근 사건 정리: '보안 핵폭탄' AI는 어떻게 새어 나갔나 (2) | 2026.04.27 |
| 클로드코드의 MCP, CLI, 플러그인, 커넥터 완벽 비교: 언제 뭘 써야 할까? (5) | 2026.04.26 |