Встречайте израильскую революцию искусственного интеллекта от Google на DeepMind и Gemini⁠⁠

Дэвид Шарон, топ-менеджер Google и руководитель команды DeepMind, покинул YouTube ради искусственного интеллекта Gemini «Nano Banana» и видеоинструментов Veo 3. Он рассказывает о технологиях, которые оживляют фотографии и оживляют мертвых, а также о том, почему он гордится тем, что он израильтянин.

Google GeminiAI и Nano Banana

Забудьте всё, что вы знали о редактировании цифровых фотографий. Новая функция искусственного интеллекта Google под названием «Nano Banana» производит фурор — некоторые даже называют её «функцией, которая похоронит Photoshop». Официальное название Flash Image — это часть новейшей модели Google Gemini 2.5, которая позволяет создавать и редактировать высококачественные изображения за считанные секунды с помощью простых текстовых подсказок.

Запущенный DeepMind в августе, проект Nano Banana быстро распространился: то, что началось как игровая кампания по обмену изображениями бананов и эмодзи, привело к созданию или редактированию почти миллиарда изображений в течение месяца. Лидером по использованию в мире является Индия.

Справа: Крупный план крыла бабочки. Слева: Изображение, созданное Gemini с использованием текстуры бабочки.( Google )

Проект возглавляет Дэвид Шарон, старший разработчик Google и DeepMind, родом из Израиля.

Последние девять месяцев он руководил командой из примерно 1000 человек, работающих над Gemini, а также является одним из руководителей Veo 3, сопутствующего ИИ-видео.

Veo 3 может создавать реалистичные видеоклипы длительностью до восьми секунд, используя текстовые или графические подсказки с соответствующим звуком и музыкой. Вместе Flash Image и Veo 3 обеспечивают плавные переходы от статичных фотографий к динамичным изображениям с эффектом речи.

Nano Banana отличается от других моделей изображений своей поразительной стабильностью: черты лица сохраняются при любых трансформациях. Можно менять одежду или обстановку, сохраняя при этом естественность и достоверность образа. Шэрон называет эту стабильность «секретным ингредиентом».

Инструмент также поддерживает удаление объектов, точное позиционирование («сдвинуть стул немного влево»), объединение изображений и замену фона. Дизайнеры интерьеров, например, могут добавлять или удалять элементы на фотографии одной простой командой.

Команда также столкнулась с эмоционально волнующими приложениями. Сиделка в Мексике использовала этот инструмент, чтобы создать фотографию своей покойной бабушки с новорожденным внуком на руках, и распечатала её, чтобы показать семье. Шэрон, названный в честь деда, погибшего в Шестидневной войне, воспользовался Nano Banana, чтобы воссоздать черно-белую фотографию своего деда, и его бабушка лишилась дара речи.

Фотография собаки и женщины до редактирования( Google )

Составное изображение, созданное с помощью Nano Banana( Google )

41-летний Шэрон живёт в Менло-Парке, недалеко от штаб-квартиры Google. Он родился в Лос-Анджелесе в семье израильтян, вернулся в Израиль в детстве, служил в Армии обороны Израиля и учился в США.

Он проработал на YouTube восемь лет, прежде чем сосредоточиться на искусственном интеллекте, веря, что генеративный интеллект станет следующей преобразующей волной.

Помимо Nano Banana, его команда продвигает Veo 3 как прямого конкурента Sora 2 от OpenAI. Обе модели предназначены для анимации неподвижных изображений, синхронизации звука и движения и стирания границ между постановочными сценами и реальностью.

Некоторые создатели контента теперь используют Nano Banana для подготовки точного изображения, а затем загружают его в Veo 3 для создания кинематографической анимации.

Дэвид Шарон( Предоставлено Google )

В отличие от Veo 3, который стремительно развивается, Sora 2 пока доступен только на iPhone и ещё не вышел в широкий прокат. Ожидается, что он будет представлен в виде социального приложения, напоминающего TikTok.

Создание таких инструментов, как Nano Banana, — задача не из лёгких. Дэвид Шарон говорит, что в проекте задействовано более 1000 человек из разных областей.

Одни занимаются сбором данных и обучением, другие — инфраструктурой, соблюдением законодательства, безопасностью или превращением возможностей в удобные для пользователя приложения.

Шэрон с Авраамом Линкольном на фотографии, созданной Nano Banana( Google )

На вопрос о том, кто вносит больший вклад — программисты или креативщики, Шэрон настаивает, что это командная работа. «Вы удивитесь, но некоторые из самых волшебных идей исходят от исследователей или даже маркетологов», — говорит он.

Одна из самых выдающихся функций Nano Banana — создание нескольких стилистических версий одного портрета — изначально была разработана сотрудником маркетинговой команды, который экспериментировал с функцией Canvas в Gemini, используя простые текстовые подсказки. Позже инженеры доработали инструмент.

Иногда черты лица появляются случайно. В одном случае дизайнер нарисовал крестик над фигурой на фотографии. При загрузке в Gemini ИИ автоматически удалил отмеченный символ, несмотря на отсутствие явных указаний. В другой раз нарисованная стрелка, указывающая на открытое окно, подсказала модели «закрыть» его на изображении. «Она просто сделала это», — вспоминает Шэрон. «Мы были ошеломлены».

Эти моменты подтверждают то, что Шэрон считает ключевым уроком в разработке ИИ: «Нужно использовать инструмент, лично узнавать его сильные и слабые стороны и сохранять открытость».

Это Сора 2

Он называет Ирину Блох, эксперта по искусственному интеллекту еврейского происхождения, работающую в его команде, «наставницей моделей». По словам Шэрон, «она черпает удивительные идеи из каждой новой модели — она самый креативный человек из всех, кого я знаю».

Израиль играет важнейшую роль в этих проектах. Шэрон тесно сотрудничает с крупной инженерной группой страны, особенно с командой Яэль Каров, директора Google AI с более чем 25-летним опытом. «Они блестяще решают проблемы — не просто технические эксперты, но и мыслят глобально. Каждый из них подходит к продукту как генеральный директор», — говорит он.

Дэвид Шэрон в роли шеф-повара держит огромный шницель, приготовленный в Nano Banana.( Google )

Шарон всё ещё посещает Израиль, хотя и реже. «Кстати, — добавляет он, — сотрудники Google говорят, что в израильском офисе лучшая еда в мире. Некоторые говорят, что Токио составляет ему конкуренцию, но я с этим не согласен».

По словам Дэвида Шэрона, темпы развития видео с использованием искусственного интеллекта головокружительны, а конкуренция накаляется. В прошлом месяце OpenAI объявила о сотрудничестве с Vertigo Films над созданием фильма «Critterz» — первого полнометражного фильма с использованием искусственного интеллекта.

Фильм, основанный на короткометражном демоверсии 2023 года, будет снят командой из 30 человек всего за девять месяцев при бюджете в 30 миллионов долларов, что произведёт фурор в Голливуде.

Насколько мы близки к созданию фильмов, полностью созданных искусственным интеллектом и состоящих исключительно из текстовых подсказок?

«У меня такое ощущение, будто мы в космическом корабле», — говорит Шэрон. «Мы движемся невероятно быстро, но иллюминаторы закрыты, поэтому мы не знаем, пролетели ли мы мимо Луны и Марса или только что покинули Землю». По его словам, предсказать сроки практически невозможно — известно лишь, что изменения происходят «очень быстро».

Если бы генеральный директор Google Сундар Пичаи попросил его снять полноценный фильм с использованием искусственного интеллекта за год, Шэрон увидел бы две основные проблемы. «Сценарий всегда должен быть написан человеком. Именно это делает историю актуальной и трогательной». Второе препятствие — техническое: хотя современный ИИ может генерировать «кадры» длительностью до восьми секунд, чётко связать их между собой — с единообразными голосами, окружением, объектами и саундтреками — по-прежнему сложно, особенно в случае с персонажами-людьми, чей внешний вид должен быть одинаковым в разных сценах.

Пример того, как использовать одного персонажа во многих различных ситуациях с помощью Nano Banana( Google )

Может ли активное участие Google в разработке видео с использованием искусственного интеллекта представлять угрозу для более мелких игроков, таких как израильская Lightricks?

«Я так не думаю», — говорит Шэрон. «Рынок огромен, и на нём есть место для множества ниш. Мы только в начале пути. То, чего мы достигли за год, на YouTube заняло бы десятилетие».

Тем не менее, Шэрон признаёт, что те же инструменты, которые произвели революцию в медиа, могут быть использованы не по назначению, в том числе дипфейки и дезинформация. «Наш принцип — смелость в сочетании с ответственностью», — говорит он.

Google вложил значительные средства в меры безопасности, включая специальные группы по разработке политики и валидации, «красные команды» и постоянный мониторинг. Один из членов команды Шэрон — бывший высокопоставленный сотрудник ЦРУ.

Чтобы отличить ИИ от реальности, Google внедряет видимые и зашифрованные водяные знаки, включая цифровой SynthID.

«Мы также создаём общедоступный инструмент, который сможет быстро идентифицировать изображения, созданные ИИ», — говорит он. Например, Veo 3 нельзя использовать для создания изображений политиков, знаменитостей или контента откровенного характера.

Это поднимает более глубокий вопрос: если убрать дерево, добавить растение или применить фильтр к фотографии, останется ли она «реальной»? Шэрон признаёт, что это сложные философские вопросы.

Пропалестинцы, ворвавшиеся в офисы Google Cloud в прошлом году( Фото: Twitch )

Жизнь за пределами лаборатории тоже стала сложнее. С 7 октября израильтяне за рубежом сталкиваются с растущей враждебностью, а технологические гиганты, такие как Google, подвергаются давлению с целью разорвать связи с Израилем.

«Я с гордостью считаю себя израильтянином», — говорит Шарон. «Я не чувствовал проблем в своей команде, но это тяжело — видеть антиизраильские рекламные щиты на дорогах здесь или слышать, что пришлось пережить моей сестре в Нью-Йорке, когда водитель Uber плюнул в неё за то, что она говорила на иврите».

Его жена, родом из Франции, попросила его снять мезузу с двери из соображений безопасности. «Так живут сегодня евреи во Франции, и это понятно», — говорит Шарон. «Но я чувствую иначе. Я оставляю мезузу снаружи. Это как носить футболку своей команды».

Несмотря на напряжение, он также видит перемены. «Люди, которые работали со мной годами, — некоторые из них никогда не считали себя евреями, — теперь подходят и говорят: „Моя бабушка была еврейкой“. Их взгляд на Израиль меняется».

А что касается конкурентов, Цукерберг предлагал вам огромную зарплату за присоединение к Meta?

Шэрон смеётся: «Передайте ему, пусть позвонит мне — посмотрим, что он может предложить».

Перевод с английского

ИСТОЧНИК

Проект возглавляет Дэвид Шарон, старший разработчик Google и DeepMind, родом из Израиля.

Правила сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества