Project Genie + Street View: 현실 세계 시뮬레이션, Genie 3에 탑재

Genie 3는 실제 Street View 지형 데이터로 인터랙티브 세계를 생성한다. Waymo는 이미 희귀 상황 학습에 이를 활용 중이다.

Project Genie + Street View: 현실 세계 시뮬레이션, Genie 3에 탑재

Maps Imagery Grounding 의 역할

Maps Imagery Grounding은 Genie 3가 생성된 3D 환경의 초기 지오메트리를 순수 합성 생성이 아닌 실제 Street View 사진 데이터에서 도출하는 메커니즘입니다. 2026년 5월 19일 Google I/O에서 발표된 이 기능은 사용자에게 좌표 선택 인터페이스를 제공합니다. 미국 내 어느 위치에나 핀을 꽂으면, Genie는 해당 위치에서 촬영된 Street View 이미지를 읽어 공간 배치—건물 후퇴선, 도로 폭, 교차로 형상—를 재구성한 뒤 인터랙티브 장면을 생성합니다. 결과물로 만들어지는 환경은 일반적인 도심이나 교외 블록의 스타일 근사치가 아니라, 해당 좌표에서 기록된 실제 구조 배치를 반영합니다.

핵심 요약: Maps Imagery Grounding을 사용하면 미국 내 어느 위치에나 핀을 꽂을 수 있으며, Genie 3는 해당 좌표의 Street View 이미지를 읽습니다—110개국에 걸쳐 2,800억 장에 달하는 이미지 코퍼스에서 추출된 데이터로 —그리고 합성 근사값이 아닌 실제 구조 배치를 그대로 반영하는 초기 지오메트리를 가진 인터랙티브 3D 환경을 생성합니다.

좌표를 선택하면 네 가지 시각 스타일 테마를 사용할 수 있습니다: Desert Sands, Stone Age, Ocean World, B&W Film . 이것들은 실제 지오메트리 위에 적용되는 미적 변환으로, 기저 공간 구조를 대체하지 않고 표면 외관, 조명 분위기, 재질 스타일을 변경합니다. 밀집된 도심 교차로에서 생성된 Desert Sands 장면도 Street View 촬영에 담긴 건물 간의 실제 관계, 보도 폭, 교통 지오메트리를 그대로 인코딩합니다. 위상 구조는 스타일화 아래에서 변함없이 유지됩니다.

선택적 캐릭터 레이어를 통해 사용자는 생성된 환경에 등장하는 플레이어블 개체—동물, 만화 영웅, 스타일화된 아바타—를 정의할 수 있습니다 . 이는 환경 생성 자체와는 별개입니다. 캐릭터 정의는 장면 구성 과정이 아닌 장면 내 탐색 에이전트에 영향을 줍니다. 구현된 에이전트 학습 파이프라인을 평가하는 개발자에게 의미 있는 레이어는 환경 지오메트리이며, 캐릭터 정의는 소비자용 UX 편의 기능에 해당합니다.

출력물은 정적 이미지, 비디오 클립, 렌더링된 프레임의 슬라이드쇼가 아닙니다. 사용자가 실시간으로 탐색하는 인터랙티브 3D 환경입니다 . 바로 이 탐색 가능성이 Genie를 이전 생성 이미지·비디오 시스템과 구별하고, 로봇공학 시뮬레이션 파이프라인과의 연관성을 만들어내는 핵심입니다. 그럴듯하게 보이는 거리 이미지를 생성하는 것은 이미 해결된 문제입니다. 특정 실제 거리를 통과 가능하고 공간적으로 일관된 형태로 표현하는 것이 Genie 3가 해결하려는 더 어려운 기술적 문제입니다.

Genie 3의 공간 기억과 장면 일관성

Project Genie + Street View: Real-World Simulation Lands in Genie 3

공간 기억은 이전 생성 접근법과 비교했을 때 Genie 3의 가장 기술적으로 중요한 특성입니다. Genie가 생성한 환경에서 사용자가 시점을 회전하면 주변 장면은 일관성을 유지합니다—현재 바라보는 방향에서 180도 위치에 배치된 지오메트리는 사용자가 뒤를 돌아볼 때 나타나는 것과 동일합니다. 이 지속성은 Genie 3를 비디오 확산 시스템에서 일반적인 프레임별 생성 패러다임과 구별합니다. 그 시스템에서는 각 렌더링된 프레임이 유지된 장면 상태를 참조하지 않고 프롬프트나 조건 신호로부터 독립적으로 계산됩니다.

"Genie가 생성한 환경에서 360도 회전하면, AI는 뒤에 무엇이 있었는지 기억합니다." — Jonathan Herbert, Google Maps 디렉터 (source: The Next Web)

Herbert가 지적하는 대조는 구체적이고 중요합니다. 이전 비디오 생성 시스템은 각 프레임을 독립적으로 재생성합니다. 사용자의 시점이 회전하면, 생성기는 새로운 조건 상태를 받고 새 프레임을 생성합니다—사용자가 다시 왼쪽을 바라볼 때 원래 왼쪽에 있던 건물이 여전히 거기 있다는 보장이 없습니다 . 수동적인 비디오 소비자에게 이 불일치는 감지하기 어렵거나 허용 가능한 수준일 수 있습니다. 하지만 그 환경에서 학습하는 구현된 에이전트에게는 구조적 문제가 됩니다.

프레임별 시스템의 기술적 실패 양상은 기하학적 드리프트입니다. 시점이 변함에 따라 구조 요소들이 프레임 사이에서 위치를 이동하거나, 사라지거나, 형태가 바뀝니다. 접근 시 3미터 너비였던 복도가 돌아올 때는 2미터 너비일 수 있습니다. 한 프레임에 있던 출입구가 다음 프레임에는 존재하지 않을 수 있습니다. 이것들은 단순한 시각적 아티팩트가 아닙니다—물리적 공간에 대해 추론하는 법을 배우는 에이전트의 학습 신호를 손상시킵니다. 한 타임스텝에서 위치 X의 문을 관찰하고 다음 타임스텝에서 위치 X에 문이 없는 것을 발견하는 에이전트는 신뢰할 수 있는 공간 지도를 구축할 수 없습니다.

Genie 3는 장면의 지속적인 공간 표현을 유지함으로써 이 문제를 해결합니다. 각 시점 업데이트마다 처음부터 재생성하는 대신, 모델은 이동과 회전 전반에 걸쳐 상태를 유지합니다 . 구체적인 아키텍처 메커니즘—명시적 장면 그래프인지, 신경 방사 필드 스타일의 암묵적 표현인지, 학습된 메모리 모듈인지—은 공개적으로 밝혀지지 않았습니다. 문서화된 것은 행동적 특성입니다: 시점이 변경되어도 전체 장면 재생성이 촉발되지 않습니다.

구현된 AI 학습에 있어 이 특성은 프리미엄 기능이 아닌 기본 요건입니다. 탐색을 학습하는 에이전트는 타임스텝 전반에 걸쳐 공간적으로 일관된 환경을 경험해야 합니다. 그 일관성이 없으면 '문 쪽으로 이동하기'와 같은 행동에 대한 보상 신호가 불안정해집니다—문의 존재와 위치가 지속된다고 가정할 수 없기 때문입니다. Genie 3의 공간 기억은 생성된 환경을 단순히 시각적으로 매력적인 소비자 경험이 아닌, 실질적인 학습 기반으로 만드는 핵심 요소입니다.

2,800억 장의 이미지 코퍼스: 시뮬레이션 기반 재료로서의 스트리트 뷰

Genie가 생성하는 실제 환경의 기하학적 토대는 스트리트 뷰 이미지 코퍼스다. 약 20년에 걸친 지속적인 촬영으로 110개국, 7개 대륙에서 수집한 2,800억 장의 이미지가 그 핵심이다 . Genie 3의 그라운딩 기능이라는 맥락에서 보면, 이 코퍼스는 단순한 사진 아카이브가 아니라 구조화된 기하학 데이터셋이다. 각 이미지에는 지오태그와 캘리브레이션 정보가 담겨 있어, 촬영 시점의 좌표·방향·고도를 정확히 알 수 있다. 같은 장소를 다양한 각도로 중첩 촬영한 데이터로부터 건물 위치, 도로 폭, 보도 형태, 교차로 형상 등의 공간 구조를 재현할 수 있다.

코퍼스 속성 비고
총 이미지 수 2,800억 장 지속 증가 중; 2026년 5월 기준 수치
지리적 커버리지 110개국, 7개 대륙 출시 시점 Genie 그라운딩은 미국으로 제한
수집 기간 약 20년 최초 스트리트 뷰 차량 투입 2007년
차량 탑재 촬영 차량 접근 가능한 공공 공간 주요 수집 방식; 도심 및 고속도로 격자망 포괄
백팩 탑재 촬영 보행자 전용 공간 광장, 트레일, 차량 진입 불가 도로 추가
데이터 최신성 지역별 상이 대도심은 주기적 갱신; 일부 농촌 지역은 수년 전 촬영

코퍼스의 하드웨어 다양성은 시뮬레이션의 폭을 결정한다. 차량 탑재 장비는 도로 네트워크 재현에 필요한 밀도와 일관성을 제공한다. 일정 속도로 여러 차례 반복 주행하고, 캘리브레이션된 카메라 어레이를 통해 스테레오 재현에 충분한 중첩 데이터를 확보한다. 백팩 카메라는 차량 데이터만으로는 포착할 수 없는 광장, 공원, 시장 같은 보행자 전용 공간으로 커버리지를 확장해 구조적 다양성을 더한다 . 차량과 보행자가 혼재하는 환경에서 에이전트를 훈련하려는 로보틱스 팀에게는 백팩으로 촬영된 코퍼스 부분이 특히 유용한 그라운딩 재료가 된다.

절차적 생성 시뮬레이션 환경과의 핵심 차이는 기하학적 특수성에 있다. 절차적 생성기가 훈련 시뮬레이션용 도시 블록을 만들 때는 통계 규칙에 따라 레이아웃을 채운다. 건물 높이는 분포에서 추출하고, 도로 폭은 파라미터로 설정하며, 교차로 형태는 템플릿 라이브러리에서 선택한다. 그 결과물은 그럴듯해 보이지만 실제 특정 장소는 아니다. Genie의 스트리트 뷰 그라운딩은 실제 건물 풋프린트, 실측 도로 폭, 공식 기록된 교차로 형상을 사용한다. 실제 교차로를 시드로 생성된 환경에는 통계적 근사치가 아닌 그 교차로의 실제 기하 구조가 담긴다.

시간적 드리프트는 아직 해결되지 않은 과제다. 스트리트 뷰 이미지는 노후화되며, 촬영 데이터의 최신성은 지역마다 크게 다르다. 미국 주요 도시의 고밀도 지역은 최근 12~24개월 이내 촬영 데이터를 보유할 수 있다 . 통행량이 적은 지역은 수년 전 촬영에 의존하는 경우도 있다. 건물은 바뀌고, 도로는 재편되며, 공사로 레이아웃이 달라진다. Genie가 이미지 기반 기하 데이터와 현재의 물리적 실제 사이의 괴리를 어떻게 처리하는지는 아직 문서화되어 있지 않다. 특정 도시에서의 자율주행차 배포처럼 현재의 실제 조건에 대한 기하학적 정확도가 중요한 훈련 활용 사례에서는, 바탕이 되는 스트리트 뷰 이미지의 촬영 날짜를 팀이 명시적으로 고려해야 할 변수다.

Waymo의 희귀 시나리오 훈련: Genie가 시뮬레이션 루프를 구동하는 방식

Project Genie + Street View: Real-World Simulation Lands in Genie 3

Genie 3는 이미 Waymo의 로보택시 훈련에 쓰이는 시뮬레이션 환경 중 하나를 실제로 제공하고 있습니다 . 개념 증명이나 로드맵 항목이 아닌, 현재 운영 중인 실사용입니다. Waymo를 위해 Genie가 해결하는 구체적인 훈련 문제는 '희귀 시나리오 커버리지'입니다. 즉, 실제 테스트에서 의도적으로 재현하기엔 너무 위험하거나, 견고한 모델 훈련에 필요한 규모로 축적하기엔 통계적으로 너무 드물게 발생하는 사건의 훈련 데이터를 생성하는 것입니다. 문서화된 사례로는 토네이도와 도로 위 예상치 못한 야생동물 출현이 있습니다 .

시나리오 유형 실제 데이터 수집 가능성 Genie의 역할 기하 구조 기반
토네이도 / 악천후 의도적으로 재현하기 비현실적이며 위험 실제 도로망 환경 내에서 이벤트 합성 Street View의 실제 교차로 / 도로 기하 구조
도로 위 예상치 못한 야생동물 통계적으로 희귀; 대규모로 안전하게 연출 불가 다양한 실제 위치에서 조우 시나리오 생성 실제 도로 폭, 곡률, 시야각 기하 구조
일반적인 도심 주행 데이터 풍부; 실제 차량 센서 로그 활용 가능 Genie의 주요 활용 사례 아님; 기존 데이터로 충당 N/A — Genie 공백 보완 대상 아님
비정상적인 보행자 행동 엣지 케이스는 훈련 규모에서 포착하기 어려움 향후 시나리오 유형으로 가능성 있음; 아직 미확인 Street View 보도 및 횡단보도 기하 구조

희귀 시나리오를 실제 기하 구조에 기반시키는 것의 구조적 의미는, 훈련 데이터의 시뮬레이션-현실 간 연관성을 유지한다는 점입니다. 토네이도 시나리오가 일반적인 교차로 기하 구조를 가진 가상의 도로망에서 전개된다면, 훈련된 모델은 실제 도로 환경과 무관하게 추상화된 이벤트 처리를 학습하게 됩니다. 반면 그 시나리오가 피닉스나 피츠버그의 실제 교차로 레이아웃에서 전개된다면, 훈련된 행동은 실제 배치된 차량이 마주치게 될 특정 회전 반경, 신호등 위치, 차선 구성에 맞게 조정됩니다 . 기하 구조는 단순한 배경이 아니라 훈련 변수입니다.

시뮬레이션-현실 전이 품질은 Street View 촬영 밀도와 상관관계가 있습니다. 다양한 각도로 자주 촬영된 고밀도 도시 격자—Waymo가 운영 중인 샌프란시스코, 피닉스, 오스틴—는 더 완전한 기하 구조 복원을 제공하므로 씬 시딩 정확도가 높습니다. 단일 패스, 저해상도로 촬영된 희박한 농촌 도로는 그렇지 않습니다. 이는 훈련 효과에 대한 지리적 계층 구조를 만들어냅니다. Genie 기반 시나리오는 자율주행차 배치가 가장 활발한 고밀도 도시 환경에서 가장 가치 있고, Street View 데이터가 얇은 곳에서는 그 효용이 낮아집니다.

Waymo가 Genie 3에 접근하는 방식은 공개적으로 명시되어 있지 않습니다. 해당 기능의 개발자 API가 존재하지 않는다는 점을 감안할 때, Waymo의 통합은 외부 팀이 사용할 수 있는 인터페이스가 아닌 Google과의 비공개 파트너십을 통해 이루어지고 있을 것이 거의 확실합니다 . 이 구분은 Waymo 사례를 자체 로보틱스 파이프라인의 모델로 평가하는 팀에게 중요합니다. 해당 기능은 실제로 작동하며 최소 하나의 프로덕션 환경에서 운영 중이지만, 현재 공개된 어떤 툴링으로도 재현할 수 없습니다.

실체화 AI 훈련: 실제 기하 구조가 중요한 이유

실제 기하 구조 기반 시뮬레이션의 핵심 논거는 전이 효율성입니다. 실제 공간 레이아웃에서 구축된 훈련 환경은 시뮬레이션과 배포 사이의 분포 격차를 줄이며, 이는 로보틱스에서 시뮬레이션-현실 전이 실패의 주요 원인입니다. 실제 건물 평면도, 측정된 문 위치, 문서화된 계단실 구성에서 도출된 환경으로 훈련된 에이전트는 실제 공간에 배치되었을 때 기하학적 이상을 덜 마주하게 됩니다. 격차가 완전히 없어지는 것은 아닙니다. Google도 현재 세대의 생성 품질이 사실적인 촬영보다는 비디오 게임 그래픽에 가깝다고 인정하고 있습니다. 그러나 절차적으로 제작된 시뮬레이션보다는 격차가 좁습니다 .

합성 훈련 환경을 수동으로 제작하는 것은 상당한 엔지니어링 병목입니다. 탐색 훈련용 다양한 실외 환경—다양한 교차로 유형, 도로 기하 구조, 보도 구성—을 만들려면 구조적 복잡도에 비례하는 모델링 작업이 필요하며, 확장성이 낮습니다. Street View 기반 시딩은 이러한 부담 없이 실외 환경의 씨앗 기하 구조를 자동화합니다. 좌표 선택기가 사실상 제작 인터페이스가 되며, 20년에 걸쳐 촬영된 2,800억 장의 이미지가 가진 구조적 다양성이 추가적인 모델링 투자 없이 훈련 입력으로 활용됩니다 .

Waymo가 시연한 희귀 이벤트 합성 패턴은 일반화할 수 있습니다. 저빈도 시나리오 커버리지가 필요한 모든 로보틱스 팀—제조 현장 사고, 긴급 대응 기동, 비정상적인 보행자 행동 패턴—은 동일한 접근 방식을 적용할 수 있습니다. 실제 기하 구조로 환경을 시딩하고, 기하학적으로 검증된 맥락 안에서 희귀 이벤트를 생성하는 것입니다. 훈련 데이터는 이벤트의 통계적 희귀성과 공간의 기하학적 특수성을 함께 상속받습니다. 이 조합은 순수 합성 제작(희귀 이벤트를 추가할 수 있지만 기하학적 특수성이 없음)이나 순수 실제 데이터 수집(희귀 이벤트를 대규모로 연출 불가)만으로는 달성하기 어렵습니다.

커버리지 공백은 상당하며 지금 당장 계획에 반영해야 합니다. 현재의 기반 기능은 Street View가 촬영한 범위로 제한됩니다. 즉, 실외, 도로 수준, 차량 또는 배낭 접근 가능한 공공 공간입니다. 실내 공간—창고, 사무실, 병원, 매장 내부—은 포함되지 않습니다. 지하 대중교통 환경도 없습니다. 도로 접근 불가 구조물과 사유지도 마찬가지입니다. 이러한 환경에서 작동하는 에이전트를 구축하는 팀에게 Genie의 Street View 기반은 목적에 맞게 구축된 시뮬레이션의 대체재가 아닙니다. 이는 실외 도로 수준 문제를 특정하여 해결할 뿐입니다 .

지리적 범위와 현재 제약 사항

Project Genie의 스트리트 뷰 그라운딩은 2026년 5월 19일 미국 전용 기능으로 출시되었습니다 . 국제 확장은 계획 중이라고 밝혔으나 일정은 발표되지 않았습니다. 스트리트 뷰 자체가 110개국을 커버한다는 점에서, 이 지리적 제약은 영구적인 아키텍처 한계라기보다 출시 단계의 제약에 가깝습니다—기반 데이터는 이미 존재합니다—하지만 미국 외 지역 그라운딩을 언제 사용할 수 있을지 일정은 불명확합니다. 미국 외 지역 커버리지가 필요한 훈련 파이프라인을 계획하는 팀은 단기 계획 기간 동안 미국 전용 접근만 가능하다고 가정해야 합니다.

접근은 월 200달러의 Google AI Ultra를 통해서만 가능합니다 . 2026년 5월 출시 기준으로, 더 저렴한 요금제 옵션은 발표되지 않았으며 이 기능에 특화된 무료 체험도 없고 기업용이나 연구용 티어도 제공되지 않습니다. 해당 기능을 평가하려는 개인 연구자나 소규모 팀에게 월 200달러는 기술적으로 접근 가능한 수준입니다. 웨이모 통합이 시사하는 것과 같은 대규모 프로덕션 사용을 고려하는 조직에게는 소비자 구독 티어가 장기적인 제공 방식이 될 가능성은 거의 없습니다. 다만 아직 대안은 발표되지 않았습니다.

출시는 2026년 5월 19일부터 18세 이상의 미국 내 적격 구독자를 대상으로 단계적으로 진행되며, 이후 몇 주에 걸쳐 완료될 예정입니다 . 2026년 5월 말에 AI Ultra를 구독한다고 해서 즉시 접근이 보장되지는 않습니다. 단계적 출시로 인해 일부 구독자는 다른 구독자보다 먼저 기능을 이용할 수 있습니다. Google이 명시한 지리적 제한과 연령 제한이 활성 Ultra 구독 외에 공식적으로 문서화된 유일한 자격 기준입니다.

기능의 경계는 스트리트 뷰 촬영 범위를 따릅니다. 차량 탑재 또는 백팩 탑재 카메라로 접근 가능한 야외, 도로 수준의 공개 공간이 대상입니다 . 실내 환경, 항공 시점, 스트리트 뷰가 커버하지 않는 지역은 발표된 범위 밖입니다. 이는 단순한 콘텐츠 정책 제약이 아니라 데이터 의존성의 문제입니다. Genie의 그라운딩 메커니즘은 촬영된 이미지를 기반으로 작동합니다. 이미지가 없는 곳에서는 그라운딩이 작동할 수 없습니다. 이 제약은 임시적인 것이 아니라 구조적인 문제입니다.

기술 팀이 아직 할 수 없는 것들

Project Genie + Street View: Real-World Simulation Lands in Genie 3

2026년 5월 기준으로 Project Genie의 공개 API나 SDK는 발표되지 않았습니다 . 접근은 AI Ultra 구독자를 위한 Google 소비자 웹 인터페이스를 통해서만 가능합니다. 좌표 세트에 대한 환경 생성 요청, 씬 파라미터 설정, 여러 위치 반복 처리, 씬 데이터 검색을 프로그래밍 방식으로 할 수 있는 방법이 없습니다. Genie는 브라우저를 통해 접근하는 Google Labs 실험 프로젝트입니다. 정의된 인터페이스를 갖춘 엔지니어링 서비스가 아닙니다.

API가 없다는 것은 기술 팀이 Genie를 중심으로 계획할 수 있는 여러 워크플로우가 현재 불가능하다는 것을 의미합니다:

  • 일괄 생성: 목표 좌표 세트에 걸쳐 프로그래밍 방식으로 훈련 환경을 생성합니다. 지원되지 않습니다.
  • 스크립트 파라미터화: API 호출을 통해 스타일 테마, 조명, 에이전트 정의 등의 씬 파라미터를 지정합니다. 지원되지 않습니다.
  • 씬 지오메트리 내보내기: 생성된 씬 지오메트리를 NVIDIA Isaac Sim, Gazebo, CARLA 등 외부 시뮬레이션 엔진에서 가져올 수 있는 형식으로 추출합니다. 지원되지 않습니다.
  • 시나리오 재실행: 재현 가능한 훈련 실행을 위해 이전에 생성된 환경을 알려진 상태로 불러옵니다. 지원되지 않습니다.
  • 자동화된 평가 루프: 시뮬레이션 에이전트를 Genie 환경에 연결하고 스크립트 평가를 실행합니다. 지원되지 않습니다.

웨이모의 Genie 3 운영 사용은 외부 팀에게 상황을 바꾸지 않습니다. 웨이모의 접근은 외부 조직이 복제할 수 있는 인터페이스가 아닌, Google과의 비공개 협약을 통해 이루어지는 것이 거의 확실합니다 . 웨이모 통합의 존재는 기반 기술 역량이 최소 하나의 맥락에서 실제로 프로덕션에 준비되었음을 확인합니다. 이것이 동등한 접근이 다른 누구에게도 가능하다는 것을 의미하지는 않습니다.

현재 시뮬레이션 도구를 평가하는 팀에게 실질적인 계획 자세는 Genie를 통합할 시스템이 아닌 추적할 역량으로 취급하는 것입니다. API 접근, SDK 출시, 또는 기업용 티어에 관한 Google의 개발자 공지를 모니터링하세요. 소비자 프리뷰는 시스템이 무엇을 할 수 있는지를 보여줍니다. 소비자 프리뷰와 프로덕션 엔지니어링 인프라 사이의 격차는 여전히 크며, 이를 좁히는 데 걸리는 시간은 명시되지 않았습니다 . Google 스스로도 인터랙티브 월드 생성이 정확도 면에서 비디오 생성보다 약 6~12개월 뒤처진다고 인정했습니다. 이는 시스템이 품질 곡선의 초기 단계에 있다는 솔직한 신호입니다.

자주 묻는 질문

Project Genie의 지도 이미지 그라운딩이란?

지도 이미지 그라운딩은 Project Genie의 환경 생성을 실세계 공간 데이터에 연결하는 기능입니다. 사용자가 지도 뷰에서 핀을 꽂는 방식으로 미국 내 임의의 위치를 선택하면, Genie는 해당 좌표에서 촬영된 스트리트 뷰 이미지를 읽어 들입니다. 그리고 합성 근사값을 구성하는 대신, 실제 기록된 구조적 레이아웃—건물 위치, 도로 폭, 교차로 구성—을 바탕으로 생성될 3D 환경의 초기 형상을 도출합니다. 결과물은 실제 장소의 공간 구조를 반영하는 인터랙티브 3D 환경입니다. 사막 모래(Desert Sands), 석기 시대(Stone Age), 해저 세계(Ocean World), 흑백 필름(B&W Film)의 네 가지 시각 스타일 테마를 그라운딩된 형상 위에 미적 레이어로 적용할 수 있으며, 기반 공간 구조는 변경되지 않습니다 .

Genie 3의 공간 기억, 영상 생성과 무엇이 다른가?

영상 생성 시스템은 일반적으로 프롬프트나 컨디셔닝 신호를 기반으로 각 프레임을 독립적으로 재생성합니다. 시점이 바뀌면 갱신된 조건에서 새 프레임이 생성되는데, 이전 프레임에 존재했던 구조 요소가 새 프레임에도 유지된다는 보장이 없습니다. 이로 인해 기하학적 드리프트가 발생합니다. 즉, 건물이 이동하고, 출입구가 사라지며, 복도 치수가 프레임 사이에 달라집니다. Genie 3는 시점이 바뀌어도 장면의 공간적 표현을 지속적으로 유지합니다. 사용자가 360도 회전했을 때, 처음 시작 시 등 뒤에 있던 형상은 다시 그 방향을 바라볼 때도 그대로 존재합니다. 이 특성은 생성된 환경을 구체화된 AI 훈련 기반으로 활용하기 위한 전제 조건입니다. 내비게이션을 학습하는 에이전트는 신뢰할 수 있는 공간 추론을 개발하려면 시간 단계에 걸쳐 공간적으로 일관된 환경이 필요합니다 .

Waymo는 자율주행 차량 훈련에 Genie 3를 어떻게 활용하고 있나요?

Genie 3는 Waymo의 로보택시 모델 훈련을 위한 시뮬레이션 환경 중 하나를 제공하며, 특히 희귀 이벤트 시나리오를 대상으로 합니다. 희귀 이벤트란 실제 테스트에서 의도적으로 재현하기에 너무 위험하거나, 일반 차량 운영을 통해 훈련 규모로 수집하기에 통계적으로 지나치게 드문 상황을 말합니다. 확인된 사례로는 토네이도와 도로 위 예상치 못한 야생동물 조우 등이 있습니다. 중요한 점은, 이러한 희귀 이벤트가 가상으로 만들어진 레이아웃이 아닌, 실제 매핑된 도로망에서 도출된 형상을 가진 환경 안에서 합성된다는 것입니다. 이는 훈련된 모델의 동작이 일반적인 합성 근사값이 아닌, 실제 도로 구성—실제 차선 폭, 교차로 형상, 시야선—에 맞게 보정됨을 의미합니다. Waymo의 Genie 3 접근은 공개 인터페이스가 아닌 Google과의 비공개 계약을 통해 운영되는 것으로 추정됩니다 .

Genie 세계 시뮬레이션용 개발자 API가 있나요?

2026년 5월 현재, Project Genie의 공개 API나 SDK는 발표된 바 없습니다. 접근은 월 $200의 AI Ultra 구독자를 위한 Google 소비자용 웹 인터페이스를 통해서만 가능합니다 . 환경 생성을 요청하거나, 장면 파라미터를 설정하거나, 좌표별로 환경을 일괄 생성하거나, 외부 시뮬레이션 엔진으로 장면 형상을 내보내는 프로그래밍 방식은 존재하지 않습니다. Waymo가 훈련 목적으로 Genie 3를 운영하는 것은 공개되지 않은 비공개 계약을 통해 이루어지며, 공개적으로 이용 가능한 API 접근의 근거가 아닙니다. Genie를 엔지니어링 워크플로에 활용하고자 검토 중인 팀은 현재 시점에서 통합을 계획할 수 있는 시스템이 아닌, 향후 지켜봐야 할 기능으로 다루어야 합니다.

Genie의 스트리트 뷰 그라운딩이 지원하는 실제 위치는?

2026년 5월 19일 출시 시점을 기준으로 , 스트리트 뷰 그라운딩은 미국 내 위치로 제한됩니다. 국제 확장은 계획 중이라고 밝히고 있으나, 일정은 아직 발표되지 않았습니다. 미국 내 커버리지는 스트리트 뷰가 실제로 촬영한 범위를 따릅니다. 차량 탑재 또는 배낭 탑재 카메라로 접근 가능한 야외 도로변의 공개 공간이 해당됩니다. 실내 환경, 항공 시점, 스트리트 뷰가 커버하지 않는 지역은 현재 범위 밖입니다. 출시는 2026년 5월 19일에 시작되었으며, 이후 몇 주에 걸쳐 18세 이상의 미국 내 AI Ultra 구독 자격자 전체에게 단계적으로 제공됩니다.

앞으로 주목할 사항

스트리트 뷰 그라운딩 발표는 명확한 기술 방향을 제시합니다. 문서화된 물리적 현실에 기반한 세계 시뮬레이션, 구체화된 에이전트 훈련을 가능하게 하는 공간 일관성 유지, 그리고 이 접근 방식을 프로덕션에서 검증하는 최소 하나의 확인된 운영 배포(Waymo)가 그것입니다. 제약 사항도 마찬가지로 명확합니다. 미국 한정의 지리적 범위, 월 $200의 소비자 전용 접근, API 없음, 형상 내보내기 없음, 그리고 Google 스스로 포토리얼리스틱이 아닌 비디오 게임 수준이라고 설명하는 시각적 품질. 현재 상태는 외부 엔지니어링 팀을 위한 프로덕션 준비 도구가 아닌, 프로덕션에서 검증된 방향성의 증명으로 이해하는 것이 가장 적절합니다.

가장 주목해야 할 신호는 API 접근입니다. 소비자 제품은 기반 기술이 의미 있는 정확도 수준에서 작동함을 입증합니다. '인터랙티브 소비자 기능'에서 '엔지니어링 인프라'로의 전환은 정의된 파라미터를 갖춘 프로그래밍 방식의 접근, 일괄 생성, 그리고 Isaac Sim, Gazebo, CARLA 같은 외부 엔진으로의 출력 이식성을 필요로 합니다. 이 중 오늘날 존재하는 것은 없습니다. Google이 개발자 티어 또는 연구 접근 프로그램을 발표하는 시점이 오면, 로보틱스 및 구체화된 AI 팀의 평가 방정식이 실질적으로 바뀔 것입니다 .

지금 시뮬레이션 인프라를 구축 중인 팀에게 실질적인 단계는 발표된 범위에 대한 갭 분석입니다. Genie는 미국 위치의 야외 도로변 형상을 다룹니다. 보완이 필요한 문제들—실내 공간, 비공개 접근 지역, 해외 위치, 항공 시점—은 여전히 열려 있습니다. 팀은 Genie의 커버리지가 끝나는 곳과 목적별로 구축된 시뮬레이션, 기존 공개 데이터셋(Matterport, ScanNet, nuScenes), 또는 직접 실세계 데이터 수집만이 유일한 실행 가능한 경로인 곳을 파악해야 합니다. 발표된 제약 사항을 지금부터 계획에 반영하면, 아직 통합할 수 없는 기능을 중심으로 파이프라인을 설계하는 흔한 실수를 피할 수 있습니다.

최종 업데이트: 2026-05-30. Google I/O 2026 발표 및 2026년 5월 19~20일에 게재된 보도를 기반으로 합니다.

최신 소식 받기

AI 도구, 에이전트, 그리고 이들을 잇는 프로토콜에 대한 현장 기록.

Creeta 둘러보기