DeepMind의 러닝 가이드 에이전트: 시각장애 운동선수를 위한 온디바이스 Gemma 4

DeepMind의 가슴 부착형 AI 시스템은 이중 경로 온디바이스 추론을 통해 시각장애 러너가 클라우드나 외부 연결 없이 독립적으로 주행할 수 있도록 지원합니다.

DeepMind의 러닝 가이드 에이전트: 시각장애 운동선수를 위한 온디바이스 Gemma 4

Running Guide 에이전트가 실제로 하는 일

Running Guide 에이전트는 Google DeepMind가 개발한 AI 시스템으로, 시각 장애 및 저시력(BLV) 운동선수가 물리적 안내선이나 시각 보조 파트너 없이 달릴 수 있도록 합니다. 2026년 5월 20일 게재되어 5월 28일 업데이트된 이 연구에 따르면, 에이전트는 가슴에 장착된 Pixel 10 Pro에서 완전히 구동되며 — 달리는 중에는 셀룰러 연결이 필요 없고 — 골전도 이어폰으로 소통합니다: 딸깍이는 오디오 신호가 방향을 전달하고, 음성 알림이 위험 요소를 알립니다. "unbounded"라는 표현은 순전히 물리적 보조 수단으로부터의 독립을 의미하며, AI 안전성이나 성능에 관한 주장이 아닙니다. 이 시스템은 싱가포르의 SG Enable과 함께 테스트된 연구 수준의 프로토타입으로, 소비자용 출시 제품이 아닙니다.

핵심 요약: Google DeepMind의 Running Guide 에이전트는 BLV 운동선수가 가슴 장착형 Pixel 10 Pro만으로, 달리는 동안 셀룰러 연결 없이 독립적으로 달릴 수 있게 해줍니다. 오프라인 온디바이스 세그멘테이션과 Gemma 4 E4B 온디바이스 추론을 결합하며, 세 개의 전문화된 서브에이전트가 이를 조율합니다. 2026년 5월 현재 싱가포르 SG Enable과 시험 운영 중인 연구 프로토타입으로, 일반 공개 제품이 아닙니다.

이 프로젝트는 Google DeepMind 플랫폼 및 디바이스 부문 AI 혁신·연구 수석 이사 Robin Dua가 이끌었으며, DeepMind APAC의 Ramine Tinati 박사도 공개적으로 참여했습니다. Google DeepMind는 싱가포르 국가 장애·포용 기관인 SG Enable과 함께 이 시스템을 시범 운영 중이며, 실제 BLV 운동선수 시험의 첫 번째 거점으로 싱가포르를 선택했습니다.

기존에 BLV 달리기 선수에게 제공된 보조 방식은 세 가지로 나뉩니다: 선수 옆에서 함께 뛰는 시각 안내인, 트랙에 고정된 물리적 안내선, 그리고 경로 데이터는 제공하지만 실시간 위험 감지는 불가능한 GPS 전용 시스템입니다. 세 방식 모두 다른 사람이나 고정 인프라가 필요합니다. Running Guide 에이전트는 이러한 의존성을 지속적인 온디바이스 카메라 추론으로 대체합니다: 세그멘테이션 모델이 즉각적인 방향 출력을 처리하고, 온디바이스 멀티모달 모델(Gemma 4 E4B)이 트랙 곡선, 노면 변화, 주변 주자 등 장면 맥락을 해석합니다.

오디오 인터페이스는 의도적으로 최소화되어 있습니다. 딸깍이는 소리의 리듬과 음조가 달라지면서 방향을 전달합니다. Coach 에이전트의 음성 알림은 짧고 압축적으로 유지됩니다: 위험 수준 표시에 이어 간략한 설명이 뒤따릅니다. 이 설계는 경주 속도로 달릴 때의 인지 부하 제약에 직접 대응한 것입니다 — 밀도 높은 음성 언어는 신체 집중을 방해할 수 있으므로, 출력 어휘는 기술적 한계가 아닌 의도에 의해 엄격히 제한됩니다.

"구속 없는 달리기를 향한 한 걸음"이라고 Google DeepMind 플랫폼 및 디바이스 부문 AI 혁신·연구 수석 이사 Robin Dua는 썼습니다 — 이 프로젝트를 완성된 배포물이 아닌 방향성 연구로 규정한 표현입니다. 이를 프로덕션 참고 자료로 평가하는 개발자라면 이 구분이 중요합니다.

이 시스템은 연구 수준의 프로토타입입니다. 공개 출시일, SDK, 또는 가격 정책은 아직 발표되지 않았습니다. 개발자들은 이를 일반 스마트폰 하드웨어에서 현재 구현 가능한 것을 보여주는 기술적 참고 자료로 여겨야 하며, 즉시 구축 가능한 플랫폼으로 취급해서는 안 됩니다.

이중 경로 추론: 안전 경로 vs. 추론 경로

DeepMind's Running Guide Agent: On-Device Gemma 4 for Blind Athletes

Running Guide 에이전트는 서로를 절대 차단하지 않는 두 개의 병렬 추론 경로를 사용합니다. 경로 1은 Pixel 10 Pro 전용 실리콘에서 구동되는 커스텀 세그멘테이션 모델로, 즉각적인 STOP 명령과 방향 오디오 신호 등 안전에 직결된 출력을 담당합니다. 셀룰러 연결이나 추론 경로 완료에 의존하지 않고 완전히 오프라인으로 동작합니다. 경로 2는 AICore를 통해 구동되는 Gemma 4 E4B로, 이미지와 텍스트 입력을 결합해 세그멘테이션 모델이 파악할 수 없는 맥락—트랙 레이아웃, 원거리 장애물, 환경 조건—을 해석하는 고수준 멀티모달 장면 이해를 제공합니다.

핵심 설계 제약은 격리입니다. 안전 경로는 추론 경로 완료를 기다리며 멈춰서는 안 됩니다. NPU 시간이 발열·배터리 예산에 따라 공유되는 일반 스마트폰 하드웨어에서는 단일 추론 큐가 안전 경로의 지연 변동을 유발합니다. 이중 경로 아키텍처는 하드웨어 수준에서 연산을 분리해 이를 해결합니다. 세그멘테이션 모델은 전용 커스텀 실리콘에서, Gemma 4 E4B는 AICore를 통해 NPU를 사용하며, 각각 독립적인 실행 컨텍스트를 갖습니다.

Smarter Frame Selection이라는 메커니즘이 Gemma 4 추론 경로에 도달하는 프레임을 제어합니다. 캡처된 모든 프레임을 무거운 모델에 통과시키는 대신, 이전 프레임 대비 장면이 크게 변화한 고엔트로피 프레임만 필터링합니다. 새 장애물 출현, 갑작스러운 노면 변화, 트랙 분기점은 프레임 선택을 트리거하지만, 일정 속도로 달리는 직선 빈 레인은 그렇지 않습니다. 일상적인 프레임은 모델의 판단에 새로운 정보를 더하지 않으므로, 상황 인식을 희생하지 않고도 추론 경로의 연산 부하를 줄입니다.

이 아키텍처는 실시간 엣지 에이전트에 대한 더 넓은 원칙을 반영합니다. 응답의 지연 요건이 어느 경로가 처리할지를 결정하며, 입력의 복잡성이 아닙니다. 한 추론 사이클 내에 필요한 STOP 명령은 장면이 얼마나 복잡하든 빠른 경로에 속합니다. '40미터 앞에서 트랙이 왼쪽으로 굽어진다'는 안내는 더 높은 지연을 허용하고 더 풍부한 모델 추론의 이점을 누립니다. 단일 모델이 서로 다른 속도로 두 가지를 모두 처리하게 하는 대신, 아키텍처 설계 시점에 이러한 관심사를 분리하는 것이 시스템을 단일 스마트폰에서 구현 가능하게 만드는 핵심입니다.

추론 경로 모델 / 엔진 연결성 출력 유형 지연 우선순위
안전 경로 (경로 1) 커스텀 세그멘테이션 모델, Pixel 10 Pro 전용 실리콘 완전 오프라인 STOP 명령, 방향 틱 오디오 신호 초저지연 (안전 필수, 차단 없음)
추론 경로 (경로 2) AICore NPU를 통한 Gemma 4 E4B 완전 온디바이스 언어적 장면 맥락, 위험 분류, 경로 안내 높은 지연 허용 (맥락적, 권고적)

Smarter Frame Selection 메커니즘은 카메라 피드와 경로 2 사이에 위치합니다. 이전 처리 프레임 대비 각 입력 프레임의 엔트로피 변화량을 평가하며, 엔트로피 임계값을 초과한 프레임만 Gemma 4 추론 큐에 진입합니다. 세그멘테이션 경로(경로 1)는 모든 프레임을 지속적으로 수신하며 이 필터의 영향을 받지 않습니다. 추론 경로가 이전 프레임을 처리하는 중이라도 위험 감지는 프레임을 놓치지 않습니다.

세 가지 특화 서브에이전트와 역할 분담

Running Guide 시스템은 단일 모놀리식 루프로 영속 상태를 공유하는 대신 서로 핸드오프하는 세 개의 무상태(stateless) 이벤트 기반 서브에이전트로 구성됩니다. 각 서브에이전트는 명확히 정의된 핸드오프 경계를 기준으로 러닝 세션의 전·중·후 각 단계를 독립적으로 담당합니다. 에이전트 조율은 이벤트 기반으로 이루어지며, 에이전트 활성화는 주기적 폴링이 아닌 세션 상태 전환에 의해 트리거됩니다.

Planner Agent는 러닝 전 단계에서 동작합니다. Gemma 4의 함수 호출 기능을 활용해 실시간 날씨 데이터와 Google Maps 컨텍스트를 가져온 뒤, 러너와 대화를 나눠 운동 목표와 경로 계획을 수립합니다. 또한 세션 내내 공간 방향 유지를 위해 시스템이 사용하는 기준점인 디지털 출발선을 보정합니다. Planner는 인터넷 접속이 필요한 유일한 에이전트이며, 이후 에이전트들은 모두 네트워크 의존 없이 온디바이스에서만 동작합니다.

Coach Agent는 러닝이 시작되면 제어권을 넘겨받으며, 스택에서 처리량이 가장 높은 컴포넌트입니다. 이중 경로 추론 출력을 처리하고, 엄격한 3단계 계층 구조로 알림을 제공합니다: DANGER(즉각적인 회피 행동 필요), WARNING(위협 범위 내 인접 러너 또는 장애물), NOTICE(정보성 — 다가오는 트랙 커브, 경로 특성, 환경 조건). 각 단계는 서로 다른 예상 응답 지연 시간에 대응합니다: DANGER는 즉시 오디오를 트리거하고, WARNING은 수 초의 여유 시간을 제공하며, NOTICE는 권고 수준에 그칩니다. 구두 출력은 신체 활동 중 인지 방해를 최소화하기 위해 완전한 문장이 아닌 짧은 명사구로 의도적으로 간결하게 구성됩니다.

Break Agent는 휴식 구간을 관리합니다. 러너가 멈추면 휴식 시간을 추적하고 세션 컨텍스트를 보존하여 Coach Agent가 재초기화 없이 원활하게 재개할 수 있도록 합니다. 매 휴식마다 세션 상태가 손실된다면 재개할 때마다 Planner가 재보정을 해야 하며, 이로 인한 설정 부담이 전체 훈련 세션에 걸쳐 누적됩니다.

서브에이전트 단계 주요 도구 / 기능 인터넷 필요 여부 주요 출력
Planner Agent 러닝 전 설정 Gemma 4 함수 호출, Google Maps API, 날씨 데이터, 대화형 입력 예 (러닝 전에만) 경로 컨텍스트, 디지털 출발선, 운동 파라미터
Coach Agent 러닝 중 이중 경로 추론 출력, DANGER / WARNING / NOTICE 알림 계층 아니요 실시간 위험 신호, 간결한 구두 위험 알림
Break Agent 휴식 구간 세션 상태 보존, 타이머 관리 아니요 Coach Agent를 위한 원활한 세션 재개 컨텍스트

무상태 핸드오프 모델은 개발자에게 직접적인 시사점을 제공합니다. 각 서브에이전트의 범위는 명확히 정의되어 있어, Planner는 실시간 코칭을 담당하지 않고 Coach는 휴식 구간 관리를 맡지 않습니다. 이 분리 구조는 단일 서브에이전트 장애의 영향 범위를 제한합니다. Break Agent의 상태 직렬화가 실패하더라도 세션 재개만 영향을 받을 뿐, 안전에 핵심적인 방향 신호에는 문제가 없습니다. 또한 독립적인 반복 개발이 가능해져, Planner의 함수 호출 스키마를 건드리지 않고도 Coach Agent의 알림 계층을 개선할 수 있습니다.

Gemma 4 E4B: 엣지 배포 프로파일

DeepMind's Running Guide Agent: On-Device Gemma 4 for Blind Athletes

Gemma 4 E4B는 Google DeepMind의 Gemma 4 모델 패밀리에서 가장 작은 변형으로, 서버 추론이 아닌 모바일(AICore를 통한 iOS 및 Android), 데스크톱, IoT 하드웨어 등 엣지 배포에 특화 설계되었습니다. 소형임에도 다단계 계획, 자율적 행동, 함수 호출, 시청각 추론을 모두 온디바이스에서 지원합니다. Google Developers Blog에 따르면, Gemma 4는 NPU 가속이 적용된 Qualcomm Dragonwing IQ8에서 초당 약 3,700 프리필 토큰과 31 디코드 토큰의 처리 속도를 달성합니다. 엣지 최적화 라인업에서 E4B보다 아래에 위치한 E2B 변형은 2비트 양자화로 1.5 GB RAM 미만에서 동작합니다.

E4B는 E2B보다 상위에 위치하며, 일부 RAM 효율을 희생하는 대신 멀티모달 정확도를 높였습니다. 특히 Running Guide의 장면 해석이 의존하는 이미지-텍스트 결합 추론이 개선되었습니다. 현재 플래그십 Android 하드웨어를 대상으로 하는 개발자에게 E4B는 실용적인 성능·기능 균형점을 제공합니다. 함수 호출과 멀티모달 입력을 처리하기에 충분히 강력하면서, 공유 NPU 예산 내에서 다른 온디바이스 프로세스와 공존하기에 충분히 작습니다.

E4B의 함수 호출 기능 덕분에 Planner Agent는 별도의 서버 측 오케스트레이션 레이어 없이도 러닝 전에 실시간 날씨 및 Maps API를 조회할 수 있습니다. 온디바이스 함수 호출(모델이 구조화된 도구 호출을 생성하고, 등록된 함수에 대해 실행하며, 결과를 통합하는 방식)은 클라우드 측 도구 사용에 따른 왕복 지연 및 개인정보 노출을 제거합니다. 센서 데이터나 사용자 컨텍스트가 개인정보에 민감한 애플리케이션(건강 모니터링, 접근성 도구, 위치 인식 에이전트)에서 이 아키텍처 선택은 단순 성능 이상의 의미를 가집니다.

Google Developers Blog는 Gemma 4를 "엣지에 최첨단 에이전트 능력을 구현"하는 것으로 소개합니다. 이는 Running Guide의 요구사항인 장면 이해, 설정 시 외부 도구 호출, 서브에이전트 조율을 모두 러너가 가슴에 착용한 하드웨어에서 수행한다는 점과 정확히 부합하는 표현입니다. 전체 배포 세부 사항은 Google Developers Blog를 참조하세요.

Gemma 4 E4B를 기반으로 개발하는 개발자들은 'AICore를 통한 온디바이스'의 실질적 의미를 파악해야 합니다. AICore는 온디바이스 ML 모델을 관리하는 Android 시스템 서비스로, 공유 런타임을 제공하여 여러 앱이 각각 가중치를 번들링하지 않고도 동일한 모델을 사용할 수 있게 합니다. 이를 통해 앱별 스토리지 오버헤드를 줄이고 Google이 모델 가중치 업데이트를 중앙에서 배포할 수 있습니다. iOS 경로는 비교 가능한 온디바이스 추론 스택을 사용하지만, AICore는 Android에만 적용됩니다.

하드웨어 구성과 프로토타입 로드맵

현재 Running Guide 구성은 가슴에 장착한 Pixel 10 Pro를 단일 컴퓨팅 호스트로 사용합니다. 가슴 장착 방식은 안정적이고 전방을 향하는 카메라 시야각을 제공하며, 다양한 달리기 선수와 주행 스타일에 걸쳐 일관성을 유지합니다 — 고정된 시점에 맞게 교정된 모델에 있어 중요한 일관성 특성입니다. 이 기기는 한 시간 이상 지속될 수 있는 달리기의 열 및 배터리 제약 내에서 두 가지 추론 경로, 오디오 출력 처리, 세션 상태 관리를 모두 담당합니다.

현재 개발 중인 2세대 프로토타입은 스마트 안경을 주요 시각 입력 소스로 활용하는 방향을 목표로 합니다. 안경은 가슴 장착 스마트폰보다 더 넓고 안정적인 시야각을 제공합니다 — 눈 높이 시점은 가슴 높이로 인한 시차 오류를 없애고 더 자연스러운 전방 장면을 포착합니다. 핵심은, 안경이 Pixel을 대체하는 것이 아니라 영상을 Pixel로 스트리밍한다는 점입니다: Pixel은 두 추론 경로 모두에서 여전히 컴퓨팅 호스트 역할을 유지합니다. 이로써 아키텍처 변경이 점진적으로 이루어집니다 — 입력 파이프라인만 바뀌고 추론 스택은 그대로입니다.

배터리 수명은 이중 경로 아키텍처를 형성하는 데 가장 직접적인 영향을 미친 하드웨어 제약입니다. 온디바이스 추론은 열적으로도, 에너지 측면에서도 비용이 큽니다. 모든 프레임에 Gemma 4 E4B를 지속적으로 실행하면 대부분의 훈련 세션이 끝나기 훨씬 전에 Pixel 배터리가 방전됩니다. Smarter Frame Selection 메커니즘은 컴퓨팅 최적화이기도 하지만 동시에 전력 관리 전략이기도 합니다: 추론 경로 활성화를 고엔트로피 프레임으로 제한함으로써 시스템은 지속적인 정상 작동 가능 시간을 연장합니다. 장시간 모바일 세션용 에이전트를 개발하는 개발자라면 배터리를 사후 고려 사항이 아닌 지연 시간과 동급의 최우선 제약으로 취급해야 합니다.

열 관리는 이와 연관된 제약입니다. 모바일 하드웨어에서 NPU 집약적 워크로드는 지속적인 부하 후 열 쓰로틀링을 유발해 추론 지연 시간을 저하시킬 수 있는데, 이는 안전 임계 경로에 필요한 것과 정반대입니다. 전용 맞춤형 실리콘에서 실행되는 세그멘테이션 모델은 NPU 열 상태에 덜 노출되어 있으며, 이것이 안전 경로와 NPU 기반 추론 경로가 아키텍처적으로 분리된 또 다른 이유입니다.

'최초의 언바운드 소비자 AI 에이전트 프로덕션 배포'라는 말의 실제 의미

Google DeepMind 블로그 게시물도, 그 어떤 공식 출처도 Running Guide 에이전트를 "최초의 언바운드 소비자 AI 에이전트 프로덕션 배포"라고 설명하지 않습니다. 이 표현은 해설자가 붙인 레이블 — 팀의 공식 주장이 아니라 사후에 적용된 해석적 특성화입니다. DeepMind 블로그 게시물의 실제 부제는 "언바운드 달리기를 향한 한 걸음(A step towards running unbounded)"으로, 이를 현재진행형 연구로 명시적으로 자리매김하는 전향적 표현입니다.

공식 설명은 연구 수준의 프로토타입입니다. 공개 출시 일정은 발표된 바 없습니다. SDK, API, 또는 소비자 앱이 출시된 것도 없습니다. 배포는 싱가포르 SG Enable과의 구조화된 파트너 시험으로, 책임 있는 접근성 연구에 부합하는 방법론입니다 — 실세계 테스트는 통제된 조건과 대상 커뮤니티와의 협력이 필요하지만, 제품 출시와는 다릅니다.

기술적으로 정확한 사실 — 그리고 개발자들에게 주목할 만한 점 — 은 그 과장된 레이블이 시사하는 것보다 훨씬 구체적입니다: 이는 실험실 밖의 실세계 배포 시험에서 완전한 온디바이스 다중 서브에이전트 아키텍처와 멀티모달 추론을 결합한, 공개적으로 문서화된 최초의 시스템 중 하나입니다. 강조점은 "다중 서브에이전트"와 "멀티모달 온디바이스"의 결합에 있어야 합니다. 단일 모델 온디바이스 추론은 수년 전부터 존재해 왔습니다. 운영 중 클라우드 의존성 없이 단일 스마트폰에서 다중 에이전트 조율이 이루어지는 것, 이것이 이 시스템이 일반 하드웨어에서 새롭게 실현 가능함을 보여주는 점입니다.

DeepMind APAC의 Ramine Tinati 박사는 LinkedIn에서 이 프로젝트와 공개적으로 연관되어 #AIforScience와 #AIforGood 해시태그 아래 해당 작업을 소개하며, 이를 경쟁적인 제품 발표가 아닌 사회적 사명을 가진 응용 연구로 자리매김했습니다. 이 맥락에서 "프로덕션"이 무엇을 의미하는지 평가할 때 이 프레이밍은 중요합니다.

개발자들에게 실질적인 시사점: 오늘날 Running Guide 시스템 위에 구축하는 것을 전제로 한 제품 로드맵을 계획하지 마세요. 공개 API가 없습니다. 가치는 이 시스템이 보여주는 아키텍처 패턴에 있습니다 — 이중 경로 추론, Smarter Frame Selection, Gemma 4를 통한 온디바이스 함수 호출 — 이들은 조합 가능하며 현재 공개적으로 사용 가능한 도구를 활용해 즉시 적용할 수 있습니다. 시스템 자체는 2026년 5월 현재 서드파티 개발에 접근 불가합니다.

한 가지 특기할 만한 공백: 두 추론 경로 중 어느 경로에 대해서도 밀리초 단위 지연 시간 수치가 공개되지 않았습니다. 이 시스템을 이전 안내 시스템이나 다른 에이전트 배포와 비교하는 정량적 벤치마크도 공개 기록에 없습니다. 아키텍처는 기술적으로 타당하고 설계 선택은 충분한 근거가 있지만, 정량적 검증은 부재합니다.

온디바이스 에이전트를 개발하는 개발자를 위한 시사점

DeepMind's Running Guide Agent: On-Device Gemma 4 for Blind Athletes

러닝 가이드 에이전트는 실용적인 참조 아키텍처입니다. 범용 모바일 하드웨어, 중요 동작 중 클라우드 폴백 불가, 실시간 센서 입력, 혼합 지연 요구사항이라는 제약 조건이 광범위한 엣지 에이전트 애플리케이션에 그대로 적용되기 때문입니다. 이 에이전트가 보여주는 패턴은 접근성에만 국한되지 않으며, 로보틱스·자동차·AR 오버레이·창고 자동화·소비자 헬스케어 애플리케이션 전반에 걸쳐 일반화됩니다.

이중 경로 분리(Dual-path partitioning)는 가장 범용적으로 이전할 수 있는 패턴입니다. 실시간 센서 입력을 받아 즉각적인 반사적 출력과 고수준 맥락 판단을 동시에 생성해야 하는 에이전트라면, 이 둘을 독립적인 실행 컨텍스트를 가진 병렬 경로로 분리하는 것이 유리합니다. 운영 원칙은 이렇습니다. 트리거 이벤트 발생 후 단 한 번의 추론 사이클 내에 응답이 도달해야 한다면 전용 저지연 경로에 배치하고, 수백 밀리초의 여유가 있고 더 풍부한 모델 추론이 필요하다면 컨텍스트 경로에 배치합니다. 두 경로를 하나로 합치면 지연 편차가 발생하는데, 이는 권고성 출력에는 허용 가능하지만 안전 임계 출력에는 용납되지 않습니다.

고엔트로피 프레임 선택(High-entropy frame selection)은 제한된 하드웨어에서 동작하는 비디오 입력 에이전트를 위한 실용적인 최적화 방법입니다. 정상 상태에서 연속 프레임 대부분이 거의 동일하다면, 모든 프레임을 대형 모델에 전달하는 것은 낭비입니다. 프레임 차분(frame differencing), 옵티컬 플로우 크기(optical flow magnitude), 또는 소형 이진 분류기 같은 경량 엔트로피 추정기를 만들어 모델 호출을 게이팅하면 장면 안정성에 비례하여 추론 비용을 직접 절감할 수 있습니다. 러닝 가이드 구현은 NPU 가속 하드웨어에서도 이 방식이 충분히 가치 있음을 보여줍니다. 장시간 세션에 걸쳐 전력 및 발열 절감 효과가 복리로 누적되기 때문입니다.

Gemma 4를 통한 온디바이스 함수 호출(On-device function calling)은 구조화된 도구 사용에 반드시 서버 측 LLM이 필요하다는 아키텍처 전제를 없애줍니다. 기존에 클라우드 모델을 통해 도구 오케스트레이션을 처리하던 모바일 개발자는 이제 완전한 로컬 도구 사용의 경로를 확보했으며, 프라이버시와 지연 측면에서도 이점을 누릴 수 있습니다. 플래너 에이전트의 달리기 전 날씨·지도 쿼리는 최소한의 예시이며, 로컬 건강 데이터 쿼리, 기기 캘린더 조회, 온디바이스 센서 집계에도 동일한 패턴이 적용됩니다.

파트너 주도 접근성 연구(Partner-piloted accessibility research)를 배포 방법론으로 활용하는 것은 보조 기술이나 안전 임계 기술을 개발하는 팀을 위한 실용적인 템플릿입니다. SG Enable 파트너십은 광범위한 배포 전 실제 대상 커뮤니티와 실세계 시험을 수행하는 방법을 보여줍니다. 정해진 파트너 조직, 특정 지역, 통제된 시험 모집단, 명확한 연구 프레임이 그 구성 요소입니다. 이 구조는 보조 기술에 윤리적으로 적합할 뿐만 아니라 실용적으로도 유용합니다. 공개 출시의 지원 부담 없이 실세계 피드백을 얻을 수 있기 때문입니다.

오늘 당장 이러한 패턴을 기반으로 개발하려는 개발자를 위한 구체적인 출발점이 있습니다. Gemma 4 E4B는 Android의 AICore와 표준 모델 허브를 통해 제공되며, 온디바이스 함수 호출은 Google Developers Blog에 문서화되어 있습니다. 이중 경로 추론 패턴은 온디바이스 모델 런타임(AICore, Core ML, ONNX Runtime)과 전용 저지연 처리 파이프라인을 조합하여 구현할 수 있습니다.

자주 묻는 질문

러닝 가이드 에이전트는 달리는 동안 인터넷 연결이 필요한가요?

아니요. 두 가지 활성 추론 경로 — Pixel 10 Pro의 전용 실리콘에서 실행되는 세그멘테이션 모델과 NPU에서 실행되는 Gemma 4 E4B — 모두 달리는 동안 셀룰러 연결 없이 완전히 온디바이스에서 동작합니다. 인터넷 접근은 달리기 전 플래너 에이전트 단계에서만 필요합니다. 플래너 에이전트는 외부 API(날씨 데이터, Google 지도)를 호출하여 세션 시작 전 경로 컨텍스트를 구성하고 디지털 출발선을 설정합니다. 달리기가 시작되면 시스템은 완전히 오프라인으로 동작합니다.

Gemma 4 E4B란 무엇이며, 더 큰 Gemma 4 변형과 어떻게 다른가요?

Gemma 4 E4B는 Google DeepMind의 Gemma 4 모델 패밀리 중 가장 작은 엣지 최적화 변형입니다. 모바일·데스크톱·IoT 하드웨어를 대상으로 하며, 특히 AICore를 통해 Android와 iOS를 지원합니다. 멀티모달 입력(이미지+텍스트), 다단계 계획, 함수 호출, 오디오-비주얼 추론을 모두 온디바이스에서 지원합니다. 그 아래 E2B 변형은 2비트 양자화로 1.5GB RAM 미만에서 동작하며, E4B는 일부 RAM 효율성을 희생하는 대신 멀티모달 정확도를 높였습니다. Gemma 4 라인업의 더 큰 변형들은 고성능 엣지 하드웨어와 서버 배포를 대상으로 하며, 이 구성에서 스마트폰 단독 운용에는 적합하지 않습니다.

러닝 가이드 에이전트를 다운로드하거나 사용할 수 있나요?

현재는 불가능합니다. 2026년 5월 기준으로 러닝 가이드 에이전트는 싱가포르의 SG Enable과 함께 시험 중인 연구 수준의 프로토타입입니다. Google DeepMind는 공개 SDK, 소비자 앱, 개발자 API를 아직 발표하지 않았습니다. 오늘 현재 개발자가 이 시스템 위에 직접 개발하는 것은 불가능합니다. 다만 이 에이전트가 보여주는 아키텍처 패턴 — 이중 경로 추론, 스마터 프레임 선택, Gemma 4 온디바이스 함수 호출 — 은 기존 도구와 모델 허브를 통해 독립적으로 활용할 수 있습니다.

스마터 프레임 선택은 안전 커버리지 손실 없이 어떻게 지연을 줄이나요?

스마터 프레임 선택은 안전 임계 세그멘테이션 경로(경로 1)가 아닌 Gemma 4 추론 경로(경로 2)에만 적용됩니다. 경로 1은 모든 프레임을 지속적으로 수신하며 필터의 영향을 받지 않습니다. 선택 메커니즘은 수신 프레임의 엔트로피 델타 — 마지막 처리 프레임 대비 장면이 얼마나 변했는지 — 를 평가합니다. 엔트로피 임계값을 초과하는 프레임(새로운 장애물, 지형 변화, 갑작스러운 장면 전환을 나타냄)만 Gemma 4에 전달되어 추론이 수행됩니다. 안정적이고 변화 없는 환경에서의 일상적인 프레임은 건너뛰어 NPU 부하와 전력 소모를 줄이되, 안전 경로의 위험 감지 커버리지는 전혀 줄어들지 않습니다.

이중 경로 추론 패턴을 접근성 외 사용 사례에도 적용할 수 있나요?

네. 핵심 원칙 — 지연에 민감한 반응 경로와 느린 추론 경로를 분리하고, 독립적인 실행 컨텍스트로 병렬 실행 — 은 혼합 응답 지연 요구사항을 가진 실시간 센서 입력이 있는 모든 곳에 적용 가능합니다. 구체적인 예시를 들면, 창고 로보틱스(빠른 경로에서 충돌 방지, 추론 경로에서 경로 최적화), 자동차 ADAS(빠른 경로에서 긴급 제동, 추론 경로에서 차선 변경 권고), AR 오버레이(빠른 경로에서 오브젝트 앵커링, 추론 경로에서 의미론적 레이블링), 소비자 건강 모니터링(빠른 경로에서 알림 임계값 처리, 추론 경로에서 추세 분석)이 있습니다. 러닝 가이드의 접근성 프레임은 도메인에 특화된 것이지만, 아키텍처 패턴은 그렇지 않습니다.

온디바이스 멀티 에이전트 시스템, 앞으로의 방향

Running Guide 에이전트는 이론적으로는 수년 전부터 가능했지만 실제로는 거의 구현된 적 없는 것을 보여줍니다. 일반 스마트폰 하드웨어 위에서만 동작하며 실제 환경을 처리하는 멀티 에이전트·멀티모달 AI 시스템입니다. 온디바이스 함수 호출(Gemma 4 E4B), 하드웨어 분리 이중 경로 추론(Pixel 10 Pro 실리콘 + AICore NPU), 이벤트 기반 서브에이전트 조정의 조합은, 핵심 동작 중 클라우드 의존 없이 즉각적인 반사 반응과 맥락적 판단을 동시에 요구하는 엣지 에이전트를 위한 실제 배포 가능한 템플릿을 제시합니다.

개발자에게 단기적 시사점은 분명히 실용적입니다. 이러한 아키텍처 패턴을 재현할 도구는 이미 갖춰져 있습니다. Android AICore 위의 Gemma 4 E4B는 오늘 당장 사용할 수 있습니다. 이중 경로 추론 패턴은 기존 런타임으로 구현 가능합니다. 고엔트로피 프레임 선택은 영상 입력 에이전트 팀이라면 누구든 추가할 수 있는 경량 최적화입니다. Running Guide 아키텍처와 충분한 리소스를 갖춘 개발팀이 지금 당장 구축할 수 있는 것 사이의 간극은, 연구 논문식 표현이 암시하는 것보다 훨씬 좁습니다.

보다 장기적인 신호는 온디바이스 에이전트 전체 흐름에 관한 것입니다. 2세대 아이웨어 프로토타입은 컴퓨팅 아키텍처를 재구성하지 않고도 더 풍부한 센서 입력을 제공하는 하드웨어 진화의 방향을 가리킵니다. Gemma 4 변형이 Qualcomm·MediaTek·Apple Silicon 등 더 넓은 하드웨어 타깃으로 확산됨에 따라, 여기서 입증된 패턴은 훨씬 더 광범위한 설치 기반에 적용될 수 있습니다. 접근성 활용 사례는 해당 도메인에 특화되어 있지만, 엔지니어링 결정은 지연 시간·프라이버시·오프라인 동작이 중요한 제약인 환경에서 에이전트를 구축하는 모든 개발자에게 직접 전용됩니다.

마지막 업데이트: 2026-05-29. 이 글은 2026년 5월 20일 발표(2026년 5월 28일 업데이트)된 Google DeepMind Running Guide 발표와 2026년 5월에 게시된 Google Developers Blog Gemma 4 엣지 배포 문서를 기반으로 합니다.

최신 소식 받기

AI 도구, 에이전트, 그리고 이들을 잇는 프로토콜에 대한 현장 기록.

Creeta 둘러보기