Google DeepMind опять в ударе
Продолжаю восхищаться темпами, с которыми Google выкатывает новые продукты. Недавно подоспел Gemini CLI — ИИ-ассистент, который работает в командной строке. Суть простая: ставим, например, на ПК небольшую программу и получаем возможность работать с Gemini 2.5 Pro через командную строку. А 2.5 Pro, в свою очередь, получает возможность через командную строку управлять ПК. Кстати, пока это бесплатно — в пределах 60 запросов в минуту и 1000 запросов в сутки.
Google продвигает Gemini CLI в первую очередь для программистов и системных администраторов, которые много работают в командной строке, но в перспективе CLI важна не только для них. Не секрет, что развитие ИИ-агентов буксует: модели, будучи выпущенными за пределы своего уютного языкового мирка, очень сильно спотыкаются об интерфейсы, придуманные людьми для людей. Агенты по управлению компьютером находятся в экспериментальном статусе и справляются со своими задачами с большим трудом — см. на тот же Operator от OpenAI.
И не исключено, что как когда-то компьютеры управлялись через командную строку, так и сейчас первые шаги по взаимодействию ИИ с ними стоит делать таким же образом. Gemini CLI хорошо подходит не только для кодинга — ей можно, например, отдать команду отсортировать файлы на диске или разобраться с зависшим процессом. Веб-поиск через командную строку она также делает, а еще поддерживает внешние расширения — любой может интегрировать свой продукт для работы с ней. Уверен, пользователи найдут много других вариантов использования, но единственное препятствие пока — установка, которая не то, чтобы сложная, но непривычная для многих. Если хотите попробовать, но не понимаете, как — запустите ChatGPT или Gemini (можно даже в бесплатных версиях) и помогите помочь. Они для таких ситуаций дают хорошие инструкции: откуда и что качать, и что вводить в командную строку.
Второй анонс — Gemma 3n, полноценный локальный ИИ, который можно запустить даже на мощном смартфоне. Рейтинг на LMarena составляет 1300 баллов, что выше версии ChatGPT-4o от мая прошлого года — вот только 4o крутилась на серверах Microsoft, а Gemma 3n на мобильном процессоре. При этом модель поддерживает 140 языков для текстового вывода, а на 35 языках полностью мультимодальна — понимает голос и распознает видео (русский поддерживается, ура!).
Работа по оптимизации, которую провела Google, впечатляет. Модель есть в двух версиях: младшую потянет смартфон с 8 ГБ памяти, а для старшей надо 12 ГБ (цифры для Android, с iPhone все пока сложнее). При этом энтузиасты могут “нарезать” промежуточную версию между этими двумя моделями, добившись оптимального качества и скорости под свои задачи.
Зачем все это, если в приложениях ChatGPT и Gemini модели куда мощнее? Вариантов много. Можно не переживать за трафик в роуминге и использовать Gemma 3n как переводчик, в том числе голосовой и понимающий фото/видео (удобно с меню и вывесками). Или выучить что-то новое с помощью модели во время полета.
А еще полностью локальная модель конфиденциальна — можно обрабатывать документы, не беспокоясь, что они куда-то утекут. Она не подвержена блокировкам, работает без подписки, а распространение по лицензии Apache 2.0 позволяет дообучать модель так, как вам вздумается — фишка, конечно, для энтузиастов.
P.S. Еще больше интересного про ИИ — в моем канале "сбежавшая нейросеть". Подписывайтесь!
Искусственный интеллект
4.3K поста11.1K подписчика
Правила сообщества
ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан