BitcoinWorld
Google DeepMind объединяет Street View с Genie 3 для создания интерактивных миров ИИ
Google DeepMind сделал значительный шаг в сближении физического и цифрового миров, интегрировав изображения Street View непосредственно в Project Genie — универсальную мировую модель компании. Объявленная на конференции разработчиков Google I/O, интеграция позволяет пользователям генерировать интерактивные, исследуемые среды, привязанные к реальным локациям, зафиксированным за два десятилетия данных Street View.
За 20 лет Google собрал более 280 миллиардов изображений из 110 стран с помощью оснащённых камерами автомобилей и рюкзачных трекеров. Теперь этот огромный массив данных питает Genie 3 — мировую модель, способную генерировать разнообразные интерактивные 3D-среды по текстовым подсказкам или изображениям. Джек Паркер-Холдер, научный сотрудник команды открытых возможностей DeepMind, рассказал Bitcoin World, что сочетание реальных данных с генеративной симуляцией открывает мощные возможности использования как в робототехнике, так и для исследований человеком.
«Это действительно мощно как для случая применения агентом [и робототехникой], так и для людей, которые могут с этим взаимодействовать», — сказал Паркер-Холдер. Он описал сценарий, при котором робот, развёрнутый в Лондоне — городе, где редко бывает солнце, — мог бы проходить обучение на симулированных солнечных днях, сгенерированных из данных Street View, чтобы внезапный блик солнечного света от домов викторианской эпохи не нарушал работу его сенсоров. Аналогично, путешественник, планирующий поездку в Нью-Йорк зимой, мог бы использовать инструмент для визуализации заснеженной версии конкретного квартала, регулируя погодные условия по запросу.
Genie 3 уже используется Waymo, дочерней компанией Google по разработке самоуправляемых автомобилей, для симуляции крайне редких событий — таких как торнадо или неожиданные встречи с животными — в целях обучения автономных транспортных средств. Паркер-Холдер отметил, что хотя у Waymo есть собственный симулятор, сфокусированный на точке зрения автомобиля, интеграция Street View позволяет переключать перспективу на других агентов, таких как пешеходы или роботы-доставщики, обеспечивая более комплексные сценарии обучения.
Возможность привязывать симуляции к реальным географическим локациям может ускорить расширение Waymo в новые города по всему миру, давая его ИИ-водителю опыт работы с разнообразными дорожными схемами, дорожными знаками и условиями окружающей среды без необходимости физического развёртывания автопарка.
Несмотря на впечатляющие демонстрации — включая подводную симуляцию района — технология остаётся экспериментальной. Диего Ривас, продуктовый менеджер DeepMind, предупредил, что Street View в Genie всё ещё находится в разработке. В образцах, показанных журналистам, среды были узнаваемы, но имели качество видеоигры, а не фотореалистичное. В моделях также отсутствует понимание физики: в одной симуляции женщина, бегущая по заснеженной сцене в Джошуа-Три, проходила сквозь кактусы и кусты.
Паркер-Холдер признал этот пробел, сравнив текущую точность Genie с точностью моделей генерации видео шесть-двенадцать месяцев назад. «Я думаю, что это то, что мы решим», — сказал он, отметив, что понимание физики возникает интуитивно через пассивное наблюдение, аналогично тому, как учатся живые существа.
Джонатан Херберт, директор Google Maps и ветеран Street View с 12-летним стажем, подчеркнул, что настоящий прорыв — это пространственная непрерывность. Когда пользователь поворачивается на 360 градусов, ИИ правильно запоминает и симулирует среду позади него, а затем строит новые среды на основе этого понимания. «Мы давно думали о том, как создать лучшую и наиболее богатую модель мира на основе данных Street View», — сказал Херберт.
Google запускает Street View в Genie для отдельных пользователей Ultra в Соединённых Штатах начиная с сегодняшнего дня, с постепенным расширением доступа по США со временем. Глобальные пользователи Ultra получат доступ в течение следующих нескольких недель. Цель исследователей, по словам Риваса, — предоставить возможность как можно большему числу людей, хотя он подчеркнул, что улучшение точности остаётся приоритетом.
Соединяя два десятилетия реальных изображений с генеративным ИИ, Google DeepMind закладывает основу для нового класса интерактивных симуляций. Хотя технология всё ещё находится на ранних стадиях, интеграция Street View в Genie 3 представляет собой значимый шаг к системам ИИ, способным понимать, симулировать и взаимодействовать с физическим миром — с последствиями для робототехники, автономного вождения, городского планирования и иммерсивного образования.
В1: Что такое Genie 3?
Genie 3 — это универсальная мировая модель Google DeepMind, способная генерировать интерактивные, исследуемые 3D-среды по текстовым подсказкам или изображениям. Она разработана для обучения робототехники, игр и образовательного опыта.
В2: Как работает интеграция Street View?
Интеграция позволяет Genie 3 использовать огромный массив изображений Street View от Google — более 280 миллиардов изображений из 110 стран — в качестве основы для генерации симуляций, привязанных к реальным локациям. Пользователи могут интерактивно исследовать эти среды и регулировать условия, такие как погода.
В3: Является ли симуляция физически точной?
Пока нет. В текущей версии отсутствует понимание физики, то есть объекты могут взаимодействовать нереалистично (например, персонаж проходит сквозь твёрдые объекты). Google ожидает улучшений в течение следующих 6–12 месяцев по мере того, как модель будет интуитивно осваивать физику через больший объём данных.
Эта публикация Google DeepMind объединяет Street View с Genie 3 для создания интерактивных миров ИИ впервые появилась на BitcoinWorld.


