ChatGPT Images 2.0 (gpt-image-2): API, 가격 정책 및 안전 카드

gpt-image-2, 추론 모드·2K 출력·공식 안전 카드 탑재 — Images API의 변경 사항 정리.

Creeta

2026년 5월 27일

ChatGPT Images 2.0 (gpt-image-2): API, 가격 정책 및 안전 카드

ChatGPT Images 2.0에서 달라진 것: 5가지 핵심 기능

gpt-image-2는 ChatGPT Images 2.0의 API 모델 식별자로, GPT Image 1.5의 직계 후속작이며 2026년 4월 21일에 출시되었습니다 . OpenAI 이미지 모델 중 네이티브 추론 레이어를 최초로 탑재한 모델로, 픽셀이 생성되기 전에 실행되는 사전 계획 단계를 포함합니다. 버전 별칭은 없으며, 호출 시 반드시 문자열 "gpt-image-2"를 그대로 전달해야 합니다. OpenAI 출시 발표에 따르면, 이 모델은 "대폭 향상된 세계 지식, 지시 사항 준수, 그리고 밀집 텍스트와 같은 세부 사항 및 복잡성 생성 능력"을 제공합니다.

한눈에 보기: gpt-image-2는 2026년 4월 21일 출시되었으며, GPT Image 1.5 대비 다섯 가지 새로운 기능을 갖췄습니다: 네이티브 추론 레이어, 실시간 웹 검색 그라운딩(thinking 모드 전용), 최대 해상도 2560×1440, 최대 10장의 일관된 배치 생성, 인쇄 품질의 다국어 텍스트. DALL-E 2와 DALL-E 3는 2026년 5월 12일 종료되었습니다 — 마이그레이션 시 모델 문자열 교체 및 과금 로직 업데이트가 필요합니다.

GPT Image 1.5 대비 핵심적으로 추가된 다섯 가지 기능은 각각 별도의 통합 의사결정이 필요할 만큼 독립적입니다:

Thinking 모드: 생성 전 추론 단계가 레이아웃을 계획하고, 구성을 검증하며, 선택적으로 실시간 웹 검색을 호출합니다. 접근은 플랜 등급에 따라 제한됩니다 — Plus, Pro, Business, Enterprise 전용 . 무료 티어 사용자는 instant 모드만 사용할 수 있습니다.
웹 검색 그라운딩: thinking 모드에서만 동작합니다. 모델이 생성 도중 최신 데이터를 가져올 수 있어, 이벤트 포스터·실시간 데이터 인포그래픽·시간에 민감한 시각 자료에 유용합니다 . 이는 텍스트 측 가져오기이며, 웹에서 참조 이미지를 가져오지는 않습니다.
2K 해상도 및 유연한 화면 비율: 최대 출력 해상도가 2560×1440으로 올라갑니다(출시 시점 실험적으로 표시됨) . 화면 비율은 3:1 초광각부터 1:3 초세로까지 지원합니다.
연속성을 갖춘 다중 이미지 배치: 단일 프롬프트로 최대 10장의 일관된 이미지를 생성할 수 있으며 , 배치 전체에서 캐릭터 동일성과 오브젝트 연속성이 유지됩니다 — 스토리보드, 시퀀스, 캠페인 에셋 작업에 유용합니다.
다국어 텍스트 및 레이아웃 렌더링: 일본어, 한국어, 중국어, 힌디어, 벵골어의 정확한 텍스트 렌더링; 스캔 가능한 QR 코드 생성; 인쇄용 다중 패널 레이아웃 지원 .

추론 레이어는 기존 모든 OpenAI 이미지 모델과의 구조적 차별점입니다. 이전 모델들은 별도 계획 단계 없이 단일 순방향 패스로 결과를 출력했습니다. gpt-image-2는 계획과 생성을 분리하여, 픽셀 출력이 시작되기 전에 구성 검증을 수행합니다. 트레이드오프는 지연 시간입니다: thinking 모드는 요청당 15~30초가 추가됩니다 — 이 비용에 대해서는 다음 섹션에서 자세히 다룹니다.

버전 별칭이 없다는 점은 라이프사이클 관리에 중요한 의미를 갖습니다. OpenAI가 언젠가 후속 모델을 출시하더라도 코드가 자동으로 업그레이드되지 않으며 — 마이그레이션은 개발자가 직접 제어합니다. "gpt-image-2"를 명시적으로 하드코딩하고 명명된 의존성으로 추적하세요. Azure OpenAI Service는 2026년 4월 21일 출시일부터 이 모델을 지원합니다 .

Thinking Mode와 웹 검색 그라운딩: 아키텍처 상세

gpt-image-2의 Thinking mode는 사전 생성 추론 단계로, 픽셀 생성 단계와 구조적으로 분리되어 있으며 모델이 출력을 생성하기 전에 레이아웃 계획, 구성 검증, 선택적 실시간 웹 데이터 수집을 수행합니다. Plus, Pro, Business, Enterprise 플랜 구독자에게만 제공됩니다 . 무료 티어 사용자는 접근할 수 없으며, 인스턴트 모드 경로만 사용할 수 있습니다. 이는 소프트 기능 플래그가 아닌 하드 인프라 게이트입니다.

웹 검색 그라운딩은 아키텍처상 Thinking mode 내부에 중첩되어 있어, 표준 인스턴트 모드 경로에서는 트리거할 수 없습니다. 모델이 Thinking mode 생성 실행 중 웹 페치를 실행하면 현재 텍스트 데이터(장소 세부 정보, 이벤트 날짜, 실시간 통계)를 가져와 구성 계획에 통합합니다. 페치는 후처리 단계가 아닌 생성 도중에 발생합니다 . 텍스트 전용이며, 모델은 시각적 렌더링을 위해 웹에서 참조 이미지를 가져오지 않습니다.

"모델은 Thinking mode 내에서만 실시간 웹 검색을 호출할 수 있으며", 이를 통해 "정확한 이벤트 포스터, 뉴스 스타일 인포그래픽, 시간에 민감한 시각 자산" 생성이 가능합니다 — OpenAI ChatGPT Images 2.0 Safety System Card, OpenAI Deployment Safety Hub, 2026년 4월.

지연 비용은 실제로 무시할 수 없습니다. 기본 생성 시간 외에 요청당 15~30초의 추가 처리 시간이 소요됩니다 . 이로 인해 Thinking mode는 동기식 사용자 대면 생성 파이프라인과 구조적으로 호환되지 않습니다. 제품이 스피너를 표시하고 다음 UI 상태를 렌더링하기 전에 이미지를 기다린다면, 15~30초의 추가 시간은 대부분의 소비자 대면 환경에서 실용적인 지연 예산이 되지 않습니다. Thinking mode는 비동기 배치 작업, 오프라인 에셋 파이프라인, 또는 사용자가 이미 처리 지연을 예상하는 운영자 측 생성 플로우에 더 적합합니다.

많은 개발자들이 과소평가할 두 번째 운영상 시사점이 있습니다. Thinking mode는 안전 감지율을 낮춥니다. OpenAI 안전 카드에 공개된 통합 감지율은 표준 모드의 96.1%에서 Thinking mode의 87.5%로 하락합니다 . 카드에는 이 격차에 대한 완전한 설명이 없습니다. 가장 유력한 원인은 추론 단계가 안전 스택이 차단하도록 충분히 조정되지 않은 구성적 엣지 케이스를 도입한다는 것입니다. 규제 대상이거나 고위험 콘텐츠 영역의 경우, Thinking mode 활성화 시 이 8.6포인트의 감지율 격차는 애플리케이션 레이어 모더레이션을 추가로 구축할 근거가 됩니다.

현재 요청별로 Thinking mode를 명시적으로 전환하는 공개 API 파라미터는 없습니다. 접근 메커니즘은 전적으로 플랜 티어 기반입니다. 서로 다른 플랜 티어로 운영되는 테넌트가 혼재하는 멀티테넌트 아키텍처라면, Thinking mode 사용 가능 여부는 사용자 기반 전체에서 균일하지 않습니다. 이 제약을 액세스 티어 로직에 명시적으로 반영하세요. 낮은 티어 사용자에게 기능이 자동으로 저하되거나 오류가 반환되는 상황을 노출하는 대신, 인증 자격 증명이 필요한 플랜 티어를 보유한 테넌트에게만 Thinking mode 기능을 표시해야 합니다.

API 통합: 엔드포인트, 품질 티어, 토큰 기반 요금

API 수준에서 gpt-image-2를 통합하려면 기존 호출에서 문자열 하나만 바꾸면 됩니다. /v1/images/generations 또는 /v1/images/edits 엔드포인트에 model="gpt-image-2"를 전달하세요 — URL 구조와 인증 방식은 모두 동일합니다 . 새 라우트도, 새 인증 토큰 형식도, SDK 버전 요구사항도 없습니다. 이 모델은 2026년 4월 21일 출시일부터 Azure OpenAI Service에서도 사용할 수 있습니다 .

quality 파라미터는 low, medium, high 세 가지 값을 받습니다. 1024×1024 해상도 기준 이미지당 요금은 각각 $0.006, $0.053, $0.211입니다 . 편집 요청은 예외입니다. 전달한 quality 값과 무관하게 API가 항상 최고 품질로 처리합니다. DALL-E 3에서 품질 티어별 요금으로 편집 비용을 낮추던 방식은 더 이상 사용할 수 없으므로, 편집 중심 워크플로를 마이그레이션하기 전에 비용 모델에 이 점을 반영하세요.

더 중요한 요금 변화는 토큰 기반 과금 레이어입니다. 이미지 입력 토큰은 백만 토큰당 $8.00, 이미지 출력 토큰은 백만 토큰당 $32.00으로 청구됩니다 . 이 요금은 이미지당 고정 요금에 추가로 적용되며, DALL-E 3의 고정 요금 단일 모델을 대체합니다. API 응답 스키마는 이제 토큰 수를 반환하므로, 처음부터 response.usage를 읽고 로깅해야 합니다. Azure 배포 환경에서는 비용 모니터링 대시보드와 내부 청구 도구를 고정 호출당 단가 방식 대신 토큰 수 필드 기반으로 업데이트하세요.

품질 티어	이미지당 요금 (1024×1024)	이미지 입력 토큰 단가	이미지 출력 토큰 단가	편집 동작
`low`	$0.006	$8.00 / M tokens	$32.00 / M tokens	항상 최고 품질로 실행 — `quality` 파라미터 무시
`medium`	$0.053
`high`	$0.211

최소한의 Python 통합 예시는 다음과 같습니다. response.usage 필드를 주목하세요 — DALL-E 3 응답에는 없던 필드로, 옵저버빌리티와 테넌트별 과금 로직에 반드시 연결해야 합니다:

import openai

client = openai.OpenAI()
response = client.images.generate(
    model="gpt-image-2",
    prompt="Product shot of a matte black mechanical keyboard on a wooden desk",
    quality="high",
    size="1024x1024",
    n=1
)
print(response.data[0].url)
# 토큰 과금 필드 — 반드시 로깅:
print(response.usage)  # input_tokens, output_tokens

고해상도 생성 요청에서는 이미지 크기가 토큰 소비에 상당한 영향을 미칩니다. 동일한 품질 티어에서 2560×1440 출력은 1024×1024 출력보다 훨씬 높은 토큰 요금이 발생합니다. 애플리케이션에서 해상도를 사용자가 선택할 수 있다면, 비용 추정 로직을 품질 티어 값만이 아니라 출력 해상도에 비례하도록 업데이트하세요.

DALL-E 2·3, 2026년 5월 12일 서비스 종료: 마이그레이션 경로

DALL-E 2와 DALL-E 3는 2026년 5월 12일 서비스 종료(EOL)에 도달했습니다 . 해당 날짜 이후부터 images API에 model="dall-e-2" 또는 model="dall-e-3"을 전달하면 오류가 반환됩니다. 폴백이 있는 소프트 지원 중단이 아니라 해당 모델 문자열 자체가 유효하지 않습니다. 대부분의 경우 마이그레이션은 간단하지만, 프로덕션에 변경 사항을 반영하기 전에 세 가지 동작 차이를 명시적으로 처리해야 합니다.

Step 1 — 모델 문자열 변경. model 파라미터를 교체하세요. 엔드포인트 URL, 경로, Authorization 헤더는 그대로입니다. 대부분의 코드베이스에서 한 줄만 바꾸면 됩니다:

# Before
response = client.images.generate(model="dall-e-3", ...)

# After
response = client.images.generate(model="gpt-image-2", ...)

Step 2 — quality 값 이름 변경. DALL-E 3는 "standard"와 "hd"를 사용했습니다. gpt-image-2는 "low", "medium", "high"를 사용합니다. 새 모델에 이전 값을 전달하면 오류가 발생하거나 자동으로 기본값이 적용됩니다. 합리적인 초기 매핑은 "standard" → "medium", "hd" → "high"입니다. 프로덕션에 적용하기 전에 출력 품질이 허용 기준을 충족하는지 검증하세요 — 품질 티어 간 체감 차이는 모델마다 다르며 DALL-E 3의 결과와 1:1로 대응되지 않을 수 있습니다.

OpenAI의 ChatGPT Images 2.0 발표에 따르면, 마이그레이션은 모델 파라미터 교체만으로 충분하며 엔드포인트 URL과 인증은 변경되지 않습니다 . OpenAI, April 2026.

Step 3 — 과금 로직 업데이트. DALL-E 3는 두 가지 품질 티어의 고정 이미지당 요금으로 책정되었습니다. gpt-image-2는 토큰 기반 과금 레이어가 추가되어 이미지 입력 토큰 $8.00/M, 출력 토큰 $32.00/M이 부과됩니다 . 응답 스키마는 이제 response.usage에 토큰 수를 반환합니다. 트래픽이 전환되기 전에 비용 모니터링을 업데이트하세요 — 고정 이미지당 요금을 가정한 비용 상한 로직이나 내부 청구 시스템은 첫 번째 요청부터 잘못된 수치를 산출하게 됩니다. 한 가지 추가 엣지 케이스: gpt-image-2의 편집 요청은 전달된 파라미터와 무관하게 항상 최고 품질로 실행됩니다. DALL-E 3 편집 호출에서 비용 절감을 위해 quality="standard"를 사용하던 경우, 해당 절감 효과는 사라집니다. 마이그레이션 비용 모델에 이 점을 반영하세요 .

안전 시스템 카드: 3단계 콘텐츠 검토 아키텍처

OpenAI는 2026년 4월 21일 gpt-image-2의 공식 안전 시스템 카드를 공개했습니다. deploymentsafety.openai.com에서 열람할 수 있으며, 전체 PDF는 해당 페이지에서 직접 링크로 제공됩니다 . 이 카드에는 3단계 콘텐츠 검토 아키텍처, 표준 모드와 사고(thinking) 모드로 구분한 탐지율 공개 수치, 생물학적 위험 공식 평가, 그리고 원시 분류 체계 매칭에서 결과 기반 유해 출력 위험 평가로의 방법론적 전환이 문서화되어 있습니다.

3개 레이어는 모든 요청에 대해 순차적으로 실행됩니다:

레이어 1 — 업스트림 차단: 특화된 텍스트 분류기가 생성 모델에 도달하기 전에 모든 입력 요청을 평가합니다. 정책을 위반하는 요청은 생성 시스템을 거치지 않고 이 단계에서 거부됩니다 .
레이어 2 — 입력 차단: 멀티모달 안전 추론 모델이 모든 텍스트 및 이미지 입력을 검사합니다. 어느 한 요소라도 정책을 위반하면 픽셀이 생성되기 전에 생성이 중단됩니다 .
레이어 3 — 출력 차단: 동일한 안전 추론 모델이 최종 렌더링된 이미지를 호출자에게 반환하기 전에 검토합니다. 레이어 1·2를 통과했더라도 출력이 정책을 위반하면 이 최종 단계에서 차단됩니다 .

"콘텐츠 정책에 대해 추론하도록 훈련된 멀티모달 모델"이 '안전 추론 모델'로서 입력과 출력을 모두 검사하며, 생성 모델과 독립적으로 작동합니다 — ChatGPT Images 2.0 Safety System Card, OpenAI Deployment Safety Hub, 2026년 4월.

공개된 안전 지표를 보면 표준 모드와 사고 모드 사이에 의미 있는 격차가 드러납니다:

지표	표준 모드 (Images 2.0)	사고 모드
종합 탐지율	96.1%	87.5%
안전 출력 비율	99.1%	99.2%
정책 위반 출력 생성 비율	22.0%	6.7%

이 비대칭성은 면밀하게 짚어볼 필요가 있습니다. 사고 모드는 정책 위반 출력을 더 적게 생성하지만(6.7% 대 22.0%), 종합 탐지율은 더 낮습니다(87.5% 대 96.1%). OpenAI의 카드는 이 겉보기 역설을 해소하지 않습니다. 운영 관점에서 가장 보수적으로 해석하면, 사고 모드는 정책 위반 콘텐츠를 생성하지 않는 데는 더 뛰어나지만, 생성이 시작되기 전에 위반을 포착하는 안전 스택의 신뢰성은 더 낮습니다 — 규제 대상 콘텐츠 버티컬에서 탐지율을 주요 위험 지표로 사용하는 경우 중요한 구분입니다. 헬스케어 이미징, 법률 문서 파이프라인, 또는 어린이 플랫폼의 경우, 사고 모드 활성화 시 8.6%p의 탐지율 격차는 애플리케이션 레이어의 추가 모더레이션을 요구합니다.

카드에는 바이오톡신 합성 인포그래픽 유도를 목적으로 설계된 프롬프트를 다룬 772장 이미지 세트를 활용한 생물학적 위험 평가가 문서화되어 있습니다 . 생물무기 전문가가 출력물을 검토한 결과, 모델이 실질적으로 제공하는 지원은 "초보자 수준의 역량 향상"에 그친다고 평가했습니다. 생물학적 안전 정책의 이미지 특화 변형이 이제 안전 추론 모델을 통해 모든 입출력에 적용됩니다. 생성된 모든 이미지에는 하류 출처 검증을 위한 C2PA 메타데이터 임베딩 및 콘텐츠별 비가시 워터마킹이 적용됩니다 .

벤치마크 결과와 공식 확인된 한계

2026년 4월 21일 출시 후 12시간 만에, gpt-image-2는 Image Arena 리더보드의 모든 카테고리에서 +242점 차이로 1위에 올랐으며 , 해당 플랫폼 역대 최대 격차로 평가받았습니다. Image Arena는 알고리즘 점수가 아닌 사람의 선호도 투표를 사용하므로, 이 결과는 평가자들이 체감한 미적 품질과 지시 수행 능력을 반영합니다 — 좁은 의미의 기술적 성능 지표가 아닙니다. 유용한 방향성 지표이기는 하지만, 실제 프로덕션 환경을 대표하는 프롬프트로 직접 평가한 결과가 리더보드 순위보다 더 중요합니다.

공식 문서화된 한계는 일반적인 면책 문구가 아닌 정확한 설명이 필요합니다:

지식 컷오프: 2025년 12월. 모델은 컷오프 이후의 제품, 이벤트, 공인을 정확하게 렌더링할 수 없습니다 . 씽킹 모드의 웹 검색 그라운딩은 현재 텍스트 데이터(장소 주소, 최근 이벤트 날짜 등)를 가져올 수 있지만, 컷오프 이후 주제에 대한 모델의 시각적 렌더링은 정확하지 않습니다. 2026년 1월에 출시된 제품이나 최근 주목받기 시작한 공인은 그라운딩 여부와 무관하게 올바르게 렌더링되지 않습니다. 해당 주제에 대한 시각적 훈련 데이터가 모델에 없기 때문입니다. 이는 최근 주제를 다루는 마케팅 자산 생성이나 편집 일러스트레이션 워크플로에서 중요한 고려 사항입니다.

브랜드 로고 재현은 일관성이 없습니다. 이는 정책적 제한이 아닌 기능적 한계입니다 — 모델이 로고를 근사치로 표현할 수는 있지만 정확하게 재현하지는 못합니다. 이미지 내 텍스트의 경우, 일본어·한국어·중국어·힌디어·벵골어에서 높은 정확도를 보입니다 . QR 코드는 스캔 가능합니다. 라틴 문자 텍스트 렌더링도 정확하며, 다국어 지원 향상은 이전 모델 대비 주목할 만한 추가 사항입니다.

아키텍처 미공개, 파인튜닝 불가. OpenAI는 생성 컴포넌트가 디퓨전 기반인지 자기회귀 방식인지 밝히지 않았으며 , 2026년 4월 현재 파인튜닝 방법도 공개된 바 없습니다 . 정해진 시각적 정체성을 갖춘 제품 사진이나 일관된 스타일 규칙의 브랜드 일러스트레이션처럼 도메인별 스타일 일관성이 강하게 요구되는 애플리케이션이라면 프롬프트 엔지니어링에만 의존해야 합니다. 현재 어댑터나 LoRA 경로는 제공되지 않습니다.

씽킹 모드의 지연은 구조적 특성으로, 일시적인 현상이 아닙니다. 15~30초의 추가 지연은 추론 과정과 선택적 웹 검색을 반영한 것으로, 패치 릴리스로 개선될 성능 저하가 아닌 아키텍처적 특성입니다 . 이 제약이 해소되기를 기다리기보다 파이프라인 설계 단계부터 반영하십시오.

씽킹 모드 활성화 시점: 개발자 의사결정 프레임워크

씽킹 모드의 플랜 등급 제한은 대부분의 개발자에게 이분법적 상황을 만듭니다: 인증된 조직의 구독 여부에 따라 접근 가능 여부가 결정됩니다. 접근 가능하다는 전제 하에, 요청별 판단은 세 가지 변수로 압축됩니다: 지연 허용 범위, 이미지당 비용 민감도, 콘텐츠 위험 프로파일.

씽킹 모드를 사용해야 하는 경우:

생성 속도보다 레이아웃 정확성과 구성 계획이 중요한 인쇄물, 이벤트 포스터, 편집 인포그래픽
모델이 훈련 데이터만으로는 도출할 수 없는 사실적 정확성을 웹 검색 그라운딩이 제공하는, 현재 데이터가 필요한 콘텐츠(실시간 장소 정보, 최근 이벤트 정보, 업데이트된 통계 등)
이미지 간 일관성과 구성 검증이 필요한 다중 패널 레이아웃, QR 코드 삽입 디자인, 스토리보드 시퀀스, 캠페인 자산 배치
생성이 동기식 사용자 상호작용을 차단하지 않는 비동기 파이프라인 및 배치 작업

씽킹 모드를 건너뛰어야 하는 경우:

15초 이상의 지연이 허용되지 않는 실시간 사용자 대면 생성 — 추론 과정은 설정 변경이 불가하며 단축할 수 없습니다
이미지당 비용이 주요 제약이고, 단순하고 명확한 프롬프트에서 구성 계획이 의미 있는 품질 향상을 가져오지 않는 대용량 생성 배치
즉시 모드 출력이 이미 품질 기준을 충족하고 씽킹 모드 오버헤드가 순수한 낭비인 간단한 제품 렌더링이나 아이콘 생성

"씽킹 모드의 통합 탐지율은 87.5%로, 표준 모드의 96.1%와 비교됩니다" — OpenAI Deployment Safety Hub, 2026년 4월, ChatGPT Images 2.0 Safety System Card PDF 에서 발췌. OpenAI는 공개된 카드에서 이 격차가 존재하는 이유를 설명하지 않습니다.

안전 탐지율 격차는 규제 대상 콘텐츠 분야에서 추가적인 고려 요소입니다. 씽킹 모드에서 87.5%의 탐지율로 운영한다는 것은 표준 모드의 96.1%와 비교했을 때, 표준 모드에서 탐지됐을 정책 위반 입력 중 상당한 비율이 생성 시작 전에 차단되지 않는다는 의미입니다. 의료, 법률, 아동 플랫폼의 경우 씽킹 모드 활성화 시 애플리케이션 레이어에서 추가적인 콘텐츠 모더레이션을 적용하십시오 — API 내장 안전 시스템에만 의존하지 마십시오.

요청별로 씽킹 모드를 강제로 켜거나 끄는 공개 API 파라미터는 존재하지 않습니다. 현재 제어 표면은 전적으로 계정 플랜 등급에 있습니다. OpenAI가 향후 API 버전에서 요청별 토글을 도입한다면 위의 의사결정 프레임워크는 여전히 유효하지만 — 계정 수준이 아닌 호출 수준에서 더 세밀한 제어가 가능해질 것입니다. 지금은 이 제약을 액세스 등급 로직에 반영하십시오: 기반 자격증명이 지원하는 경우에만 씽킹 모드 기능을 노출하고, 해당 조건을 코드베이스에 명시적으로 문서화하십시오.

자주 묻는 질문

gpt-image-2는 무료 요금제에서 사용할 수 있나요?

OpenAI 무료 계정에서도 gpt-image-2의 인스턴트 모드는 이용할 수 있지만, 씽킹 모드와 웹 검색 그라운딩은 사용할 수 없습니다. 해당 기능을 사용하려면 Plus, Pro, Business, 또는 Enterprise 플랜이 필요합니다 . 이는 사용량 제한이 아닌 인프라 수준의 하드 게이트입니다 — 무료 계정 자격증명으로 씽킹 모드 요청을 보내도 인스턴트 모드로 자동 폴백되지 않습니다. 씽킹 모드 기능을 최종 사용자에게 노출하기 전에 플랜 등급을 확인하는 접근 제어 로직을 설계하세요.

기존 코드에서 DALL-E 3을 gpt-image-2로 어떻게 마이그레이션하나요?

세 가지를 변경해야 합니다. 첫째, 모델 문자열을 "dall-e-3"에서 "gpt-image-2"로 교체합니다 — 엔드포인트 URL과 Authorization 헤더는 그대로입니다. 둘째, 품질 값 이름을 변경합니다: "standard"는 "medium"으로, "hd"는 "high"로 바뀌며, DALL-E 3의 품질 문자열은 새 API에서 유효하지 않습니다 . 셋째, 빌링 로직을 업데이트합니다 — gpt-image-2는 토큰 기반 요금제를 사용하며, 이미지 입력 토큰은 $8.00/M, 출력 토큰은 $32.00/M이 이미지당 요금에 추가됩니다. 이는 DALL-E 3의 정액제 모델을 대체합니다. 응답 스키마는 이제 usage.input_tokens와 usage.output_tokens를 반환하므로, 트래픽을 전환하기 전에 이를 비용 모니터링에 연결하세요. 또한 주의할 점: gpt-image-2의 편집 요청은 quality 파라미터와 무관하게 항상 최고 품질로 처리됩니다 — DALL-E 3에서 quality="standard"로 편집 비용을 낮췄다면, 그 절감 효과는 더 이상 없습니다.

gpt-image-2 안전 시스템 카드는 실제로 무엇을 측정하나요?

이 카드는 표준 모드와 씽킹 모드에 걸쳐 두 가지 주요 비율을 측정합니다. 복합 탐지율은 정책 위반 입력 중 3단계 안전 스택이 생성 전후에 성공적으로 차단한 비율로, 표준 모드 96.1%, 씽킹 모드 87.5%입니다 . 안전 출력률은 반환된 이미지 중 정책을 준수한 비율로, 표준 모드 99.1%, 씽킹 모드 99.2%입니다. OpenAI는 이 평가 방식을 단순 분류 매칭에서 실제 유해 출력 위험에 대한 결과 기반 평가로 전환했습니다. 모드 간 탐지율의 8.6%포인트 차이는 공개된 카드에 문서화되어 있지만 완전히 설명되지는 않았습니다. 전체 PDF는 deploymentsafety.openai.com에서 확인할 수 있습니다.

씽킹 모드는 프로덕션에서 체감할 만한 지연을 유발하나요?

그렇습니다 — 기본 생성 시간에 더해 요청당 15~30초의 추가 지연이 발생합니다 . 이는 구조적인 특성으로, 생성 전 추론 패스와 선택적 웹 페치를 반영한 것이며 일시적인 성능 문제가 아닙니다. 씽킹 모드는 5초 이내 생성이 요구되는 동기적 사용자 대면 플로우에는 적합하지 않습니다. 반면 비동기 배치 작업, 예약된 콘텐츠 파이프라인, 또는 처리 지연이 이미 예상되는 운영자 측 에셋 생성에는 잘 맞습니다. 씽킹 모드를 유지하면서 추론 패스를 단축하거나 건너뛸 수 있는 API 파라미터는 없습니다.

gpt-image-2는 2025년 12월 이후 이벤트를 정확히 렌더링할 수 있나요?

신뢰하기 어렵습니다. 모델의 지식 컷오프는 2025년 12월입니다 . 씽킹 모드의 웹 검색 그라운딩은 최신 텍스트 데이터 — 최근 이벤트 날짜, 업데이트된 장소 정보 등 — 를 검색해 구성 계획에 반영할 수 있습니다. 그러나 모델은 컷오프 이후 대상의 시각적 외형을 정확히 렌더링할 수 없습니다: 2026년에 출시된 제품, 새롭게 주목받는 공인, 최근 리디자인된 로고는 그라운딩 여부와 무관하게 시각적으로 정확하지 않을 수 있습니다. 해당 대상의 외형에 대한 학습 데이터가 없기 때문입니다. 웹 검색 그라운딩은 프롬프트에 최신 사실을 반영하는 용도로 활용하되, 컷오프 이후 현실을 시각적으로 재현해 줄 것이라고 기대하지 마세요.

빌드 결정과 추적해야 할 사항

gpt-image-2는 OpenAI 플랫폼에서 텍스트와 이미지 생성 사이의 기능 격차를 해소합니다 — 추론 레이어, 다중 이미지 연속성, 명령어 이해 향상이 DALL-E 3에 대한 개발자들의 가장 흔한 불만을 해결합니다. 마이그레이션 데드라인은 이미 지났습니다: DALL-E 2와 DALL-E 3는 2026년 5월 12일부로 은퇴했습니다 . 아직 마이그레이션하지 않았다면, 모델 문자열 교체와 품질 값 이름 변경이 즉각적인 블로커입니다. 토큰 빌링 전환은 예상치 못한 비용 증가를 유발할 가능성이 가장 높은 부분입니다 — 첫 요청부터 response.usage를 로깅하고, 프로덕션 트래픽을 전환하기 전에 기준선을 확립하세요.

더 흥미로운 아키텍처 질문은 씽킹 모드가 스택 어디에 맞는가입니다. 비동기 파이프라인 — 예약된 콘텐츠 생성, 운영자 측 에셋 생성, 문서-이미지 변환 워크플로우 — 에서는 플랜 등급이 허용하는 경우 씽킹 모드가 기본값으로 적합합니다. 실시간 사용자 대면 생성에서는 지연 특성이 개선되기 전까지 인스턴트 모드가 유일한 현실적 선택입니다. 모드 간 안전 탐지율 차이(96.1% vs 87.5%)는 적극적으로 모니터링할 위험 요소입니다: OpenAI가 씽킹 모드에 특화된 안전 개선을 출시한다면, 고위험 콘텐츠 버티컬에서의 판단 기준이 달라집니다. OpenAI가 이 격차를 공개 카드에 명시적으로 공개했다는 사실 자체가 유용합니다 — 향후 안전 카드 개정과 비교할 수 있는 문서화된 기준선을 제공하기 때문입니다.

주목해야 할 네 가지: 씽킹 모드의 요청별 API 토글(아직 미제공 — 현재는 플랜 등급으로만 게이팅됨); gpt-image-2의 파인튜닝 지원(2026년 4월 기준 미발표 ); 씽킹 모드의 무료 계정 확대; 그리고 OpenAI의 탐지율 격차에 대한 공식 설명. Deployment Safety Hub는 카드가 개정될 때 안전 지표 업데이트의 공식 출처입니다. PDF를 직접 북마크해 두세요 — OpenAI는 역사적으로 주요 발표 없이 새로운 평가 결과로 시스템 카드를 업데이트해 왔습니다.

최종 업데이트: 2026-05-27. OpenAI의 2026년 4월 21일 출시 발표, deploymentsafety.openai.com에 게재된 ChatGPT Images 2.0 안전 시스템 카드, OpenAI 이미지 생성 API 문서를 바탕으로 작성되었습니다. DALL-E 2 및 DALL-E 3의 은퇴는 2026년 5월 12일부로 확인되었습니다.