3

Встречайте израильскую революцию искусственного интеллекта от Google на DeepMind и Gemini

Дэвид Шарон, топ-менеджер Google и руководитель команды DeepMind, покинул YouTube ради искусственного интеллекта Gemini «Nano Banana» и видеоинструментов Veo 3. Он рассказывает о технологиях, которые оживляют фотографии и оживляют мертвых, а также о том, почему он гордится тем, что он израильтянин.

Google GeminiAI и Nano Banana

Google GeminiAI и Nano Banana

Забудьте всё, что вы знали о редактировании цифровых фотографий. Новая функция искусственного интеллекта Google под названием «Nano Banana» производит фурор — некоторые даже называют её «функцией, которая похоронит Photoshop». Официальное название Flash Image — это часть новейшей модели Google Gemini 2.5, которая позволяет создавать и редактировать высококачественные изображения за считанные секунды с помощью простых текстовых подсказок.

Запущенный DeepMind в августе, проект Nano Banana быстро распространился: то, что началось как игровая кампания по обмену изображениями бананов и эмодзи, привело к созданию или редактированию почти миллиарда изображений в течение месяца. Лидером по использованию в мире является Индия.

Справа: Крупный план крыла бабочки. Слева: Изображение, созданное Gemini с использованием текстуры бабочки.( Google )

Справа: Крупный план крыла бабочки. Слева: Изображение, созданное Gemini с использованием текстуры бабочки.( Google )

Проект возглавляет Дэвид Шарон, старший разработчик Google и DeepMind, родом из Израиля.

Последние девять месяцев он руководил командой из примерно 1000 человек, работающих над Gemini, а также является одним из руководителей Veo 3, сопутствующего ИИ-видео.

Veo 3 может создавать реалистичные видеоклипы длительностью до восьми секунд, используя текстовые или графические подсказки с соответствующим звуком и музыкой. Вместе Flash Image и Veo 3 обеспечивают плавные переходы от статичных фотографий к динамичным изображениям с эффектом речи.

Nano Banana отличается от других моделей изображений своей поразительной стабильностью: черты лица сохраняются при любых трансформациях. Можно менять одежду или обстановку, сохраняя при этом естественность и достоверность образа. Шэрон называет эту стабильность «секретным ингредиентом».

Инструмент также поддерживает удаление объектов, точное позиционирование («сдвинуть стул немного влево»), объединение изображений и замену фона. Дизайнеры интерьеров, например, могут добавлять или удалять элементы на фотографии одной простой командой.

Команда также столкнулась с эмоционально волнующими приложениями. Сиделка в Мексике использовала этот инструмент, чтобы создать фотографию своей покойной бабушки с новорожденным внуком на руках, и распечатала её, чтобы показать семье. Шэрон, названный в честь деда, погибшего в Шестидневной войне, воспользовался Nano Banana, чтобы воссоздать черно-белую фотографию своего деда, и его бабушка лишилась дара речи.

Фотография собаки и женщины до редактирования( Google )

Фотография собаки и женщины до редактирования( Google )

Составное изображение, созданное с помощью Nano Banana( Google )

Составное изображение, созданное с помощью Nano Banana( Google )

41-летний Шэрон живёт в Менло-Парке, недалеко от штаб-квартиры Google. Он родился в Лос-Анджелесе в семье израильтян, вернулся в Израиль в детстве, служил в Армии обороны Израиля и учился в США.

Он проработал на YouTube восемь лет, прежде чем сосредоточиться на искусственном интеллекте, веря, что генеративный интеллект станет следующей преобразующей волной.

Помимо Nano Banana, его команда продвигает Veo 3 как прямого конкурента Sora 2 от OpenAI. Обе модели предназначены для анимации неподвижных изображений, синхронизации звука и движения и стирания границ между постановочными сценами и реальностью.

Некоторые создатели контента теперь используют Nano Banana для подготовки точного изображения, а затем загружают его в Veo 3 для создания кинематографической анимации.

Дэвид Шарон( Предоставлено Google )

Дэвид Шарон( Предоставлено Google )

В отличие от Veo 3, который стремительно развивается, Sora 2 пока доступен только на iPhone и ещё не вышел в широкий прокат. Ожидается, что он будет представлен в виде социального приложения, напоминающего TikTok.

Создание таких инструментов, как Nano Banana, — задача не из лёгких. Дэвид Шарон говорит, что в проекте задействовано более 1000 человек из разных областей.

Одни занимаются сбором данных и обучением, другие — инфраструктурой, соблюдением законодательства, безопасностью или превращением возможностей в удобные для пользователя приложения.

Шэрон с Авраамом Линкольном на фотографии, созданной Nano Banana( Google )

Шэрон с Авраамом Линкольном на фотографии, созданной Nano Banana( Google )

На вопрос о том, кто вносит больший вклад — программисты или креативщики, Шэрон настаивает, что это командная работа. «Вы удивитесь, но некоторые из самых волшебных идей исходят от исследователей или даже маркетологов», — говорит он.

Одна из самых выдающихся функций Nano Banana — создание нескольких стилистических версий одного портрета — изначально была разработана сотрудником маркетинговой команды, который экспериментировал с функцией Canvas в Gemini, используя простые текстовые подсказки. Позже инженеры доработали инструмент.

Иногда черты лица появляются случайно. В одном случае дизайнер нарисовал крестик над фигурой на фотографии. При загрузке в Gemini ИИ автоматически удалил отмеченный символ, несмотря на отсутствие явных указаний. В другой раз нарисованная стрелка, указывающая на открытое окно, подсказала модели «закрыть» его на изображении. «Она просто сделала это», — вспоминает Шэрон. «Мы были ошеломлены».

Эти моменты подтверждают то, что Шэрон считает ключевым уроком в разработке ИИ: «Нужно использовать инструмент, лично узнавать его сильные и слабые стороны и сохранять открытость».

Это Сора 2

Он называет Ирину Блох, эксперта по искусственному интеллекту еврейского происхождения, работающую в его команде, «наставницей моделей». По словам Шэрон, «она черпает удивительные идеи из каждой новой модели — она самый креативный человек из всех, кого я знаю».

Израиль играет важнейшую роль в этих проектах. Шэрон тесно сотрудничает с крупной инженерной группой страны, особенно с командой Яэль Каров, директора Google AI с более чем 25-летним опытом. «Они блестяще решают проблемы — не просто технические эксперты, но и мыслят глобально. Каждый из них подходит к продукту как генеральный директор», — говорит он.

Дэвид Шэрон в роли шеф-повара держит огромный шницель, приготовленный в Nano Banana.( Google )

Дэвид Шэрон в роли шеф-повара держит огромный шницель, приготовленный в Nano Banana.( Google )

Шарон всё ещё посещает Израиль, хотя и реже. «Кстати, — добавляет он, — сотрудники Google говорят, что в израильском офисе лучшая еда в мире. Некоторые говорят, что Токио составляет ему конкуренцию, но я с этим не согласен».

По словам Дэвида Шэрона, темпы развития видео с использованием искусственного интеллекта головокружительны, а конкуренция накаляется. В прошлом месяце OpenAI объявила о сотрудничестве с Vertigo Films над созданием фильма «Critterz» — первого полнометражного фильма с использованием искусственного интеллекта.

Фильм, основанный на короткометражном демоверсии 2023 года, будет снят командой из 30 человек всего за девять месяцев при бюджете в 30 миллионов долларов, что произведёт фурор в Голливуде.

Насколько мы близки к созданию фильмов, полностью созданных искусственным интеллектом и состоящих исключительно из текстовых подсказок?

«У меня такое ощущение, будто мы в космическом корабле», — говорит Шэрон. «Мы движемся невероятно быстро, но иллюминаторы закрыты, поэтому мы не знаем, пролетели ли мы мимо Луны и Марса или только что покинули Землю». По его словам, предсказать сроки практически невозможно — известно лишь, что изменения происходят «очень быстро».

Если бы генеральный директор Google Сундар Пичаи попросил его снять полноценный фильм с использованием искусственного интеллекта за год, Шэрон увидел бы две основные проблемы. «Сценарий всегда должен быть написан человеком. Именно это делает историю актуальной и трогательной». Второе препятствие — техническое: хотя современный ИИ может генерировать «кадры» длительностью до восьми секунд, чётко связать их между собой — с единообразными голосами, окружением, объектами и саундтреками — по-прежнему сложно, особенно в случае с персонажами-людьми, чей внешний вид должен быть одинаковым в разных сценах.

Пример того, как использовать одного персонажа во многих различных ситуациях с помощью Nano Banana( Google )

Пример того, как использовать одного персонажа во многих различных ситуациях с помощью Nano Banana( Google )

Может ли активное участие Google в разработке видео с использованием искусственного интеллекта представлять угрозу для более мелких игроков, таких как израильская Lightricks?

«Я так не думаю», — говорит Шэрон. «Рынок огромен, и на нём есть место для множества ниш. Мы только в начале пути. То, чего мы достигли за год, на YouTube заняло бы десятилетие».

Тем не менее, Шэрон признаёт, что те же инструменты, которые произвели революцию в медиа, могут быть использованы не по назначению, в том числе дипфейки и дезинформация. «Наш принцип — смелость в сочетании с ответственностью», — говорит он.

Google вложил значительные средства в меры безопасности, включая специальные группы по разработке политики и валидации, «красные команды» и постоянный мониторинг. Один из членов команды Шэрон — бывший высокопоставленный сотрудник ЦРУ.

Чтобы отличить ИИ от реальности, Google внедряет видимые и зашифрованные водяные знаки, включая цифровой SynthID.

«Мы также создаём общедоступный инструмент, который сможет быстро идентифицировать изображения, созданные ИИ», — говорит он. Например, Veo 3 нельзя использовать для создания изображений политиков, знаменитостей или контента откровенного характера.

Это поднимает более глубокий вопрос: если убрать дерево, добавить растение или применить фильтр к фотографии, останется ли она «реальной»? Шэрон признаёт, что это сложные философские вопросы.

Пропалестинцы, ворвавшиеся в офисы Google Cloud в прошлом году( Фото: Twitch )

Пропалестинцы, ворвавшиеся в офисы Google Cloud в прошлом году( Фото: Twitch )

Жизнь за пределами лаборатории тоже стала сложнее. С 7 октября израильтяне за рубежом сталкиваются с растущей враждебностью, а технологические гиганты, такие как Google, подвергаются давлению с целью разорвать связи с Израилем.

«Я с гордостью считаю себя израильтянином», — говорит Шарон. «Я не чувствовал проблем в своей команде, но это тяжело — видеть антиизраильские рекламные щиты на дорогах здесь или слышать, что пришлось пережить моей сестре в Нью-Йорке, когда водитель Uber плюнул в неё за то, что она говорила на иврите».

Его жена, родом из Франции, попросила его снять мезузу с двери из соображений безопасности. «Так живут сегодня евреи во Франции, и это понятно», — говорит Шарон. «Но я чувствую иначе. Я оставляю мезузу снаружи. Это как носить футболку своей команды».

Несмотря на напряжение, он также видит перемены. «Люди, которые работали со мной годами, — некоторые из них никогда не считали себя евреями, — теперь подходят и говорят: „Моя бабушка была еврейкой“. Их взгляд на Израиль меняется».

А что касается конкурентов, Цукерберг предлагал вам огромную зарплату за присоединение к Meta?

Шэрон смеётся: «Передайте ему, пусть позвонит мне — посмотрим, что он может предложить».

Перевод с английского

ИСТОЧНИК

Еврейский мир

951 пост265 подписчиков

Правила сообщества

Уважение сообщества. Будьте толерантны и терпеливы. Мат и оскорбления будут решительно пресекаться. Здесь интеллигентное собрание подписчиков, и будьте взаимовежливы как к авторам поста так и между собой