Gemini 3.5 패밀리: Flash는 GA, Pro는 아직
Gemini 3.5 패밀리는 비대칭적으로 출시됐습니다. Gemini 3.5 Flash는 2026년 5월 19일 안정적인 일반 출시(GA)에 도달했으며, 모델 ID gemini-3.5-flash로 Gemini API, Google AI Studio, Vertex AI, Android Studio를 통해 접근할 수 있습니다 . Google I/O에서 Flash와 함께 발표된 Gemini 3.5 Pro는 2026년 5월 29일 현재 공개 모델 카드도, API 모델 ID도, 공개된 가격 정보도 없습니다 . I/O에서의 '3.5 패밀리' 표현은 Flash를 출시 제품으로, Pro를 가까운 미래의 후속작으로 설명한 것이었습니다 — 동시 출시가 아닙니다.
gemini-3.5-flash)뿐입니다. Gemini 3.5 Pro는 공개 모델 ID, 벤치마크, 가격 정보가 없으며 빠르면 2026년 6월 출시를 목표로 합니다. Flash는 15개 벤치마크 중 11개에서 Gemini 3.1 Pro를 앞서지만, 전문가 수준 추론과 128k 토큰 검색에서는 성능이 낮습니다.
Flash는 현재 웹·Android·iOS의 Gemini 소비자 앱에서 기본 모델로 사용되며, Google Search의 AI Mode를 전 세계적으로 구동합니다 . 오늘날 사용할 수 있는 유일한 프로덕션 수준의 3.5 옵션입니다. 3.5 Flash, 3.1 Pro 중 선택하거나 3.5 Pro를 기다릴지 고민 중이라면, 현재 실제로 선택 가능한 옵션은 둘이지 셋이 아닙니다.
Gemini 3.5 Pro는 Google 내부 사용 및 제한적인 Vertex AI 엔터프라이즈 프리뷰 상태임이 확인됐으며, 일반 출시 목표 시점으로 2026년 6월이 언급됩니다. 이 목표는 아직 확정이 아닙니다. ai.google.dev 체인지로그에는 5월 19일 날짜의 Flash 관련 3.5 항목 하나만 기재돼 있습니다 . 모델 카드와 API 모델 ID가 게재되기 전까지 Pro는 미출시로 봐야 합니다. 지금 당장 Pro급 추론이 필요한 개발자는 Gemini 3.1 Pro(프리뷰)를 유지하는 것이 좋습니다. 이 모델이 현재 고추론 안정 옵션으로서 권위 있는 위치를 차지하고 있습니다 .
Flash 벤치마크 한눈에: 에이전틱 우세 vs. 전문가 추론 하락
Gemini 3.5 Flash는 출시 시점에 Google이 공개한 15개 벤치마크 중 11개에서 Gemini 3.1 Pro를 앞서며, 가장 뚜렷한 우위는 에이전틱 평가 세트에 집중됩니다 . Terminal-Bench 2.1(실제 터미널 코딩)에서 Flash는 76.2%를 기록해 3.1 Pro의 70.3%를 5.9포인트 앞섭니다. 에이전틱 작업 전반의 도구 활용을 측정하는 MCP Atlas에서는 Flash 83.6% 대 78.2%입니다. 이는 사소한 차이가 아니라, 도구 보강 워크로드에 특화 최적화된 모델임을 보여 주는 수치입니다. 동등한 품질 기준에서 Gemini 3.1 Pro 대비 약 4배인 ~289 토큰/초 처리량으로 , Flash는 스트리밍 애플리케이션과 고동시성 에이전트에서 의미 있는 차별점이 됩니다.
Finance Agent v2 격차는 운영 관점에서 가장 주목할 만한 결과입니다. Flash 57.9% 대 3.1 Pro 43.0%로 +14.9포인트 우위입니다. 금융 데이터 파이프라인이나 멀티 도구 오케스트레이션을 운영하는 팀에게는 진지하게 받아들여야 할 방향성 신호입니다. Blueprint-Bench 2(코드베이스 계획)에서는 +7.1포인트 우위(33.6% 대 26.5%), Toolathlon(멀티 도구 오케스트레이션)에서도 +7.1포인트 우위(56.5% 대 49.4%)를 기록합니다 . 패턴은 일관됩니다. Flash는 순수 텍스트 추론이 아닌 에이전트 루프를 위해 튜닝됐습니다.
하락 지점도 똑같이 중요합니다. Flash는 Humanity's Last Exam(HLE)에서 40.2%를 기록해 3.1 Pro의 44.4%보다 4.2포인트 낮습니다 — 도구 없이 진행되는 가장 어려운 전문가 추론 벤치마크입니다. ARC-AGI-2(추상 추론)에서는 Flash 72.1% 대 3.1 Pro 77.1%로 5.0포인트 하락합니다 . 이 손실은 Flash의 에이전틱 이득에 따른 직접적인 트레이드오프입니다. 도구 스캐폴딩 없이 다단계 전문가 추론이 필요한 작업이라면 Flash는 현재 적합하지 않습니다.
| 벤치마크 | Gemini 3.5 Flash | Gemini 3.1 Pro | 변화량 | 승자 |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 76.2% | 70.3% | +5.9 pts | Flash ✓ |
| MCP Atlas | 83.6% | 78.2% | +5.4 pts | Flash ✓ |
| Finance Agent v2 | 57.9% | 43.0% | +14.9 pts | Flash ✓ |
| GDPval-AA Elo | 1,656 | 1,314 | +342 Elo | Flash ✓ |
| Blueprint-Bench 2 | 33.6% | 26.5% | +7.1 pts | Flash ✓ |
| Toolathlon | 56.5% | 49.4% | +7.1 pts | Flash ✓ |
| Humanity's Last Exam | 40.2% | 44.4% | −4.2 pts | 3.1 Pro ✓ |
| ARC-AGI-2 | 72.1% | 77.1% | −5.0 pts | 3.1 Pro ✓ |
| MRCR v2 @ 128k | 77.3% | 84.9% | −7.6 pts | 3.1 Pro ✓ |
| MRCR v2 @ 1M | 26.6% | 26.3% | +0.3 pts | 동률 |
Source: FelloAI Gemini 3.5 Review, Google Blog
"Flash는 작은 Pro가 아닙니다 — 최적화 목표가 다른 별개의 모델입니다. 에이전틱 벤치마크를 보면 Flash는 순수 추론 깊이가 아닌 도구 루프를 위해 설계됐음을 알 수 있습니다. 속도와 지능을 혼동하는 개발자는 HLE와 ARC-AGI-2의 한계에 금방 부딪힐 것입니다." — Harrison Chase, LangChain CEO (source: NxCode Complete Guide)
긴 컨텍스트 검색 성능: RAG 빌더라면 반드시 알아야 할 MRCR 회귀
128k 토큰 기준 MRCR v2 벤치마크는 프로덕션 RAG 빌더에게 가장 명확한 신호를 준다. Flash는 77.3%를 기록한 반면 Gemini 3.1 Pro는 84.9%로, 실제 프로덕션 파이프라인이 주로 운용하는 컨텍스트 범위에서 7.6포인트 회귀가 발생한다 . 이는 미미한 품질 차이가 아니다. 128k 토큰 구간에서 Flash의 검색 신뢰도는 3.1 Pro보다 유의미하게 낮다. RAG 파이프라인이 중간 범위 컨텍스트 창에 의존하고 검색 정확도가 핵심 제약이라면, 3.1 Pro에서 3.5 Flash로의 업그레이드는 개선이 아니라 회귀다.
1M 토큰 극단에서는 두 모델이 사실상 동일한 성능으로 수렴한다. MRCR v2 전체 기준으로 Flash는 26.6%, 3.1 Pro는 26.3%를 기록했다 . 최대 컨텍스트 한도에서는 어느 모델도 안정적인 검색을 보장하지 못한다. 1,048,576 입력 토큰 스펙은 상한선일 뿐, 실제 운용 범위가 아니다. 1M 토큰에서 신뢰할 수 있는 검색을 전제로 프로덕션 RAG 시스템을 구축하는 것은 두 모델 모두 벤치마크 데이터가 뒷받침하지 않는다.
실무 지침: 프로덕션 RAG는 128k 토큰 미만으로 유지하고, 해당 범위에서 검색 정확도가 중요하다면 Flash로 전환하기 전에 3.1 Pro와 반드시 비교 벤치마크를 수행해야 한다. Flash의 지식 컷오프는 2026년 1월이며 , 출력 토큰 한도는 65,536으로 3.1 Pro와 동일한 스펙 범위다. 두 모델의 차이는 용량 회귀가 아닌 품질 회귀다. Flash는 동일한 문서 볼륨을 처리할 수 있지만, 대부분의 프로덕션 시스템이 운용되는 128k 범위에서 검색 정확도가 더 낮다.
"1M 토큰 윈도우는 마케팅 스펙이다. MRCR 정확도 26.6%라는 건 네 청크 중 하나 정도만 올바르게 검색한다는 뜻이다. 그건 RAG 파이프라인이 아니라 노이즈 주입이다. Flash의 신뢰할 수 있는 검색 상한선은 128k 미만이며, 그 범위에서도 3.1 Pro 대비 7.6포인트를 포기해야 한다." — Jerry Liu, LlamaIndex 공동 창업자 (source: Codersera Gemini 3.5 Guide)
4단계 가격 구조: Standard, Batch, Flex, Priority
Gemini 3.5 Flash는 이전 세대에는 없던 4단계 가격 구조를 도입했다 . Standard 티어 기준으로 Flash는 1M 토큰당 입력 $1.50 / 출력 $9.00으로, Gemini 3.1 Pro의 Standard 요금($2.00 / $12.00)보다 25% 저렴하다. 이 가격 구조는 워크로드 특성과 무관하게 단일 요금을 내는 방식 대신, 지연 시간과 SLA 요구사항에 맞춰 비용을 조정할 수 있도록 설계됐다. 어떤 티어가 자신의 사용 사례에 맞는지 파악하는 것은 벤치마크 트레이드오프를 이해하는 것만큼 중요하다.
| 티어 | 입력 (1M당) | 출력 (1M당) | SLA | 적합한 용도 |
|---|---|---|---|---|
| Standard | $1.50 | $9.00 | Standard | 일반 프로덕션 |
| Batch | $0.75 | $4.50 | 없음 | 비동기 데이터 보강, 오프라인 추론 |
| Flex | $0.75 | $4.50 | 없음 | 유연한 용량의 비동기 워크로드 |
| Priority | $2.70 | $16.20 | 용량 보장 | 지연 시간에 민감한 프로덕션 에이전트 |
| Standard (비글로벌) | $1.65 | $9.90 | Standard | 지역 컴플라이언스 요건 |
| Gemini 3.1 Pro (≤200K) | $2.00 | $12.00 | Standard | 참고: 현행 Pro 요금 |
Source: Google AI Developer — Gemini API Pricing
Batch와 Flex 티어는 모두 1M 토큰당 $0.75 / $4.50으로 Standard 대비 50% 절감되며, 지연 시간 SLA 보장은 없다 . 비동기 데이터 보강 파이프라인, 문서 전처리, 스케줄링을 직접 제어할 수 있는 오프라인 추론 작업에 적합한 선택이다. 파이프라인이 가변 지연 시간을 허용하고 응답 시간 SLA에 구애받지 않는다면, Batch 또는 Flex로 토큰 비용을 절반으로 줄일 수 있다. 이 요금 기준으로 Flash는 Gemini 3.1 Pro Standard 대비 62.5% 저렴하며, 대규모 운용에서는 실질적인 차이를 만든다.
Priority 티어($2.70 / $16.20)는 용량 보장이 필요한 지연 시간에 민감한 프로덕션 에이전트에 적합하다. 비글로벌 리전에는 모든 티어에 10% 추가 요금이 부과되므로, 기본 글로벌 엔드포인트 외부에 배포한다면 비용 예측에 반영해야 한다 . 총소유비용(TCO) 산정 시 추가로 고려해야 할 두 가지 비용 항목이 있다. 첫째, 컨텍스트 캐싱은 캐시된 읽기 토큰 1M당 $0.15에 저장 비용으로 시간당 1M 토큰당 $1.00이 부과된다. 둘째, Search grounding은 월 5,000 프롬프트까지 무료이며 이후 1,000 쿼리당 $14이 적용된다. 검색 기반 기능에 크게 의존하는 에이전트의 경우, 이 $14/1,000 요금이 대규모에서 토큰 비용을 압도할 수 있다.
프리뷰에서 안정 버전으로 API 마이그레이션: 제거된 파라미터와 기본값 변경
Gemini 3.5 Flash 프리뷰에서 안정 엔드포인트로 마이그레이션할 때 모든 경우에 오류로 드러나지 않는 4가지 호환성 깨짐 또는 동작 변경 차이점이 존재합니다 . 가장 심각한 것은 thinking_budget(정수형)이 제거되고 thinking_level(열거형)로 대체되었다는 점입니다. 숫자 값을 전달하는 코드 — 예: thinking_budget=8192 — 는 안정 엔드포인트에서 오류가 발생하거나 조용히 무시됩니다. 파라미터가 거부되지 않고 폐기될 경우 호출 시점에 아무런 지원 중단 경고도 발생하지 않습니다. 안정 버전으로 전환하기 전에 thinking_budget을 명시적으로 설정한 모든 에이전트를 점검하십시오.
기본 thinking level 변경은 무음 성능 저하 위험입니다. 프리뷰는 기본값이 high였지만 안정 버전은 medium으로 기본값이 낮아졌습니다. 파라미터를 명시적으로 설정하지 않고 프리뷰 기본값에 의존하던 에이전트는 마이그레이션 후 오류도, 응답 구조 변화도 없이 낮은 품질의 추론 결과를 출력하게 됩니다 . 수정 방법은 간단합니다. 프리뷰와 동일한 동작을 원하는 모든 프로덕션 호출에서 thinking_level="high"를 명시적으로 설정하십시오. API 버전 간 기본값에 의존하지 마십시오.
함수 호출 계약이 응답 스키마 수준에서 변경되었습니다. 툴 응답에는 이제 응답 객체에 일치하는 id와 name 필드가 반드시 포함되어야 합니다. 프리뷰 API에서 허용되던 불완전한 tool_result 객체는 안정 버전에서 거부됩니다 — 두 필드를 모두 채우지 않고 프로그래밍 방식으로 툴 응답을 구성하는 에이전트에는 명백한 호환성 깨짐입니다 . 배포 전에 스테이징 환경에서 안정 엔드포인트를 대상으로 툴 응답 구성 코드를 반드시 테스트하십시오.
멀티턴 사고 보존이 안정 버전에서 기본적으로 활성화되었습니다. Flash는 대화 내 턴 간 중간 추론 과정을 누적·보존하게 되어, 장기 실행 에이전트 루프에서 컨텍스트 증가 방식이 달라집니다. 턴 수가 많은 에이전트에서는 프리뷰에서 없던 컨텍스트 누적이 발생할 수 있습니다. 장기 실행 루프를 안정 버전으로 전환하기 전에 컨텍스트 윈도우 예산 계산을 검토하고, 필요하다면 명시적인 컨텍스트 트리밍 로직을 추가하십시오 .
워크로드별 선택 기준: Flash, 3.1 Pro, 아니면 Pro 출시 대기
Gemini 3.5 Flash, Gemini 3.1 Pro, 3.5 Pro 출시 대기 중 어느 것을 선택할지는 세 가지 변수로 좁혀집니다. 작업 유형(에이전틱 vs. 추론), 컨텍스트 윈도우 요건, 비용 허용 범위입니다. 벤치마크 데이터는 대부분의 워크로드 범주에 대해 구체적인 권장 사항을 뒷받침할 만큼 충분히 방향성이 명확합니다 — 두 현재 옵션이 모두 제공하지 못하는 에이전틱 성능과 전문가 수준 추론 깊이의 조합이 워크로드에 반드시 필요한 것이 아니라면, 3.5 Pro를 기다릴 필요 없이 프로덕션 결정을 내릴 수 있습니다.
지금 Flash를 선택하십시오 — 코딩 에이전트, 멀티툴 오케스트레이션, 금융 데이터 파이프라인, 스트리밍 엔드포인트, 또는 128k 토큰 이하에서 운용하며 에이전틱 벤치마크 성능이 품질 지표인 워크로드에 해당한다면 Flash가 적합합니다. Flash는 출시 시 공개된 모든 에이전틱 벤치마크에서 우위를 점하고, 3.1 Pro 대비 약 4배 높은 처리량으로 동작하며 , Batch 또는 Flex 티어 기준으로 3.1 Pro 스탠다드 대비 62.5% 저렴합니다. 도구 없이 깊은 전문가 추론이 필요하지 않은 비용 민감 대규모 추론이라면 Flash가 현재 올바른 기본 선택입니다.
Gemini 3.1 Pro(프리뷰)를 유지하십시오 — 툴 스캐폴딩 없이 깊은 전문가 추론이 필요한 워크로드(HLE·ARC-AGI-2 성능이 기준), 128k 토큰 이상 장문서 검색(Flash는 128k MRCR v2에서 −7.6점 하락), 또는 3.1 Pro 벤치마크 프로파일 — GPQA Diamond 94.3%, SWE-Bench Verified 80.6% — 이 적합한 평가 기준인 작업에 해당한다면 3.1 Pro를 유지하십시오. 3.1 Pro는 2026년 4월 1일부터 유료 전용이지만, 3.5 Pro가 출시되어 모델 카드를 공개하기 전까지는 공식적인 Pro 옵션으로 남습니다.
3.5 Pro 출시를 기다리십시오 — Flash 수준의 에이전틱 성능과 3.1 Pro 이상의 전문가 추론 깊이를 동시에 필요로 하고, 배송 보장 없는 수 주간의 대기를 감수할 수 있는 경우에만 해당합니다. 미확인 Pro 기능을 전제로 프로덕션 시스템을 설계하지 마십시오. 오늘 현재 사양, 벤치마크, 가격, API 모델 ID 중 어느 것도 공개된 것이 없습니다 . 아직 출시되지 않은 모델에 대한 가정을 기반으로 구축하는 것은 Flash와 3.1 Pro 조합으로 현재 충분히 커버되는 통합 위험입니다.
Pro 티어 예산을 확정하기 전에 비용 모델을 재검토하십시오. Batch 또는 Flex 티어 기준으로 Flash($0.75 / $4.50)는 3.1 Pro 스탠다드($2.00 / $12.00) 대비 62.5% 저렴합니다. 워크로드가 비동기 처리를 허용한다면 이 비용 차이는 대용량에서 복리처럼 불어납니다. Flash가 비슷한 성능을 내는 비동기 파이프라인에 Pro 티어를 기본으로 적용하기 전에, 실제 토큰 소비량을 기준으로 수치를 직접 계산해 보십시오.
Gemini 3.5 Pro: Google가 확인한 것과 추측에 머무는 것
2026년 5월 29일 현재, Gemini 3.5 Pro는 공개 API 결과물로 존재하지 않습니다. 모델 카드도, 공식 벤치마크도, 가격 정책도, API 모델 ID도 공개된 것이 없습니다 . ai.google.dev 변경 로그에는 2026년 5월 19일자 Gemini 3.5 항목이 단 하나뿐이며, 이는 Flash 전용입니다 . 그 이상의 내용은 모두 발표·전망·브리핑일 뿐, 실제 출시된 기능이 아닙니다.
Google가 확인한 사항: Pro는 I/O 2026에서 출시 예정으로 발표됐으며, 현재 Google 내부에서 사용 중이고, Vertex AI 기업용 제한 프리뷰로 제공 중이며, 2026년 6월이 일반 출시 목표 시점으로 명시돼 있습니다 . Pro의 목적은 Flash에서 나타난 추론 성능 저하를 보완하는 것으로, 구체적으로는 ARC-AGI-2, Humanity's Last Exam, 128k 토큰 검색 부문입니다. 실제로 그 목표를 달성하는지, 어느 정도인지는 모델 카드가 공개될 때까지 알 수 없습니다.
아직 추측에 불과한 것: 200만 토큰 컨텍스트 창은 여러 보도에서 널리 인용되지만 공식 확인이 없습니다 . 애널리스트들의 가격 추정치는 입력 $2.50–$3.00 / 출력 $15.00–$18.00(100만 토큰 기준)에 집중돼 있지만, Google은 아무것도 발표하지 않았습니다. 4단계 가격 구조(Standard / Batch / Flex / Priority)가 Pro까지 적용되는지도 미확인입니다. 3.5 Pro 출시 후 Gemini 3.1 Pro의 지원 종료 일정도 발표된 바 없습니다. 유일하게 신뢰할 수 있는 신호는 변경 로그입니다. ai.google.dev에 3.5 Pro 항목이 등장하면 출시된 것입니다. 그전까지는 Pro를 미출시 제품으로 취급해야 합니다.
자주 묻는 질문
현재 Gemini API를 통해 Gemini 3.5 Pro를 사용할 수 있나요?
아니요. 2026년 5월 29일 현재, 안정적인 GA 상태인 것은 Gemini 3.5 Flash(모델 ID: gemini-3.5-flash)뿐입니다. Gemini 3.5 Pro는 공개 모델 ID도, 모델 카드도, 발표된 가격 정책도 없습니다. Google 내부 사용 및 Vertex AI 기업용 제한 프리뷰에서는 확인됐으며, 2026년 6월이 일반 출시 목표로 언급되지만, 이는 목표일 뿐 확약이 아닙니다. ai.google.dev 변경 로그에는 2026년 5월 19일자 3.5 항목이 Flash 전용으로 단 하나뿐입니다. 모델 카드와 API 모델 ID가 등재되기 전까지 Pro는 미출시 상태로 취급해야 합니다.
지금 프로덕션 워크로드를 Gemini 3.1 Pro에서 3.5 Flash로 마이그레이션해야 할까요?
워크로드 유형에 따라 다릅니다. Flash는 코딩 에이전트, 멀티 툴 오케스트레이션, 금융 파이프라인, 스트리밍 엔드포인트 등 모든 에이전틱 벤치마크에서 3.1 Pro를 앞섭니다. 표준 티어 기준 처리량은 약 4배, 비용은 25% 저렴합니다. 해당 사용 사례라면 지금 Flash로 마이그레이션하는 것이 자연스럽습니다. 그러나 128k 토큰 이상의 장문 컨텍스트 검색(이 범위에서 Flash는 3.1 Pro 대비 MRCR v2 −7.6점 저하)이나 툴 없이 심층 전문가 추론이 필요한 워크로드(Humanity's Last Exam에서 Flash −4.2점)라면, 해당 작업에 한해 3.1 Pro를 유지하세요. 마이그레이션 여부는 워크로드별로 판단해야 하며, 일괄 업그레이드 결정이 아닙니다.
프리뷰에서 마이그레이션하는 에이전트에서 thinking_level 변경이 무엇을 깨뜨리나요?
두 가지입니다. 첫째, thinking_budget을 정수로 전달하는 코드는 안정 엔드포인트에서 실패하거나 조용히 무시됩니다. 이 파라미터는 thinking_level(열거형: "low", "medium", "high")로 교체됐습니다. 둘째, 기본값이 high에서 medium으로 바뀌었습니다. 파라미터를 명시적으로 설정하지 않고 프리뷰 기본 동작에 의존하던 에이전트는 마이그레이션 후 추론 품질이 저하되지만, 변경을 알리는 오류는 발생하지 않습니다. 해결책은 프리뷰와 동등한 동작이 필요한 모든 프로덕션 호출에서 thinking_level="high"를 명시적으로 설정하는 것입니다. API 버전 간에 기본값에 의존하지 마세요.
실제로 RAG에서 100만 토큰 컨텍스트 창은 얼마나 신뢰할 수 있나요?
전체 컨텍스트 검색에는 신뢰할 수 없습니다. 100만 토큰에서의 MRCR v2 점수는 Flash 기준 26.6%로, 3.1 Pro의 26.3%와 사실상 동일합니다. 이 성능 수준에서는 청크 네 개 중 하나 정도만 정확히 검색되므로, 100만 토큰 창은 프로덕션 RAG에 적합하지 않습니다. 안정적인 검색은 128k 토큰보다 훨씬 짧은 범위에서 이루어져야 합니다. 그마저도 Flash는 저하를 보입니다. MRCR v2 128k 기준으로 Flash 77.3% 대 3.1 Pro 84.9%입니다. 1,048,576토큰 입력 한도는 사양상 상한선일 뿐, 품질 보증이 아닙니다. 청킹 및 검색 아키텍처는 컨텍스트 창 사양이 아닌 MRCR 벤치마크 데이터를 기준으로 설계하세요.
프로덕션 API 에이전트에 적합한 Flash 가격 티어는 무엇인가요?
보장된 용량이 필요한 레이턴시 민감 에이전트라면 Priority 티어($2.70 입력 / $16.20 출력, 100만 토큰 기준)를 사용하세요. 강한 SLA 요구사항이 없는 일반 프로덕션이라면 Standard 티어($1.50 / $9.00)가 적합하며, Gemini 3.1 Pro 대비 25% 저렴합니다. 스케줄링을 직접 제어하고 가변 레이턴시를 허용할 수 있는 비동기 파이프라인이라면 Batch 또는 Flex 티어($0.75 / $4.50)로 Standard 대비 50% 비용 절감이 가능합니다. 기본 글로벌 엔드포인트 외부에 배포하는 경우 비글로벌 리전 10% 추가 요금을 반드시 고려하고, 월 5,000건 무료 쿼리 초과분에 대한 검색 그라운딩 비용은 1,000건당 $14로 별도 계산하세요.
지금 구축할 수 있는 것과 주목할 것
Gemini 3.5 출시는 사실상 Flash 출시에 Pro 발표가 덧붙여진 형태입니다. 대부분의 개발자에게 실질적인 선택지는 Flash와 3.1 Pro 사이이며, 둘 다 현재 이용 가능하고 벤치마크상 명확한 차이가 있습니다. 에이전틱 워크로드, 툴, 비용 민감 추론에서는 Flash가 유리합니다. 전문가 추론과 128k 범위 검색에서는 3.1 Pro가 우위입니다. 어느 쪽도 무조건 우월하지 않으며, 작업 유형에 따라 벤치마크가 답을 알려줍니다.
프리뷰에서 안정 버전으로의 API 마이그레이션에는 명시적 감사가 필요한 실제 브레이킹 체인지가 있습니다. thinking_budget 제거, high에서 medium으로의 기본값 변경, 툴 응답 스키마 변경, 컨텍스트 누적 동작이 그것입니다. 이 중 어느 것도 타입 체커로 감지되지 않으며, 모든 실패 모드에서 오류를 발생시키지 않습니다. 프로덕션 에이전트를 이전하기 전에 안정 엔드포인트를 대상으로 스테이징 환경에서 마이그레이션을 테스트하는 것이 최소한의 검증 단계입니다.
3.5 Pro의 경우: ai.google.dev 변경 로그를 주시하세요. 모델 카드와 API 모델 ID가 등재되는 것이 Pro가 출시됐다는 유일하게 신뢰할 수 있는 신호입니다. 2026년 6월이 목표 시점으로 명시됐지만, 해당 결과물이 실제로 공개되기 전까지는 프로덕션 의존성을 구축하지 마세요. 현재 GA 기능은 Flash와 3.1 Pro 프리뷰입니다. 발표된 내용이 아니라 실제로 이용 가능한 것을 기준으로 시스템을 설계하세요.
최종 업데이트: 2026-05-29. 이 글은 Gemini 3.5 Flash 안정 출시(2026년 5월 19일) 및 2026년 5월 29일 기준 Gemini 3.5 Pro 제공 현황을 반영합니다. 가격, 벤치마크 데이터, API 사양은 프로덕션 배포 전에 ai.google.dev에서 반드시 확인하세요.


