Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр «Дурак подкидной и переводной» — классика карточных игр! Яркий геймплей, простые правила. Развивайте стратегию, бросайте вызов соперникам и станьте королем карт! Играйте прямо сейчас!

Дурак подкидной и переводной

Карточные, Настольные, Логическая

Играть

Топ прошлой недели

  • dec300z dec300z 11 постов
  • AlexKud AlexKud 43 поста
  • DashaAshton DashaAshton 7 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Маркет Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
0 просмотренных постов скрыто
7
mlenzovet
mlenzovet
18 дней назад

Как устроены нейросети для неспециалистов (1/2)⁠⁠

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Нам часто предлагают врубиться во что-то с места в карьер: «Вот я формулку нарисовал и всем понятно!».

Но не беспокойтесь, в начале же была не формула, в начале было слово, и вот о словах-то мы сейчас и поговорим. Я хочу этой статьей увлечь как гуманитариев, так и айтишников с математиками!

Понимаю, что у вас кружится голова от большого количества новых незнакомых понятий и терминов. Лучший способ все это уложить — пройти стопами тех людей, которые делали простые вещи, но называли это сложным, узнать историю развития и понять, почему все работает так, а не иначе.

Для этого нам придется углубиться в робопсихологию и робопсихиатрию!

❯ В начале было слово

И слово это было русское. Инженеры IBM вместе с Джорджтаунским универом переводили русские технические тексты на английский. По сути, это был электронный словарь с несколькими простыми правилами. Машина просто заменяла русские слова на английские. Тут было больше пиара, чем перевода, так как организаторам очень хотелось освоить военные бюджеты.

Словарь был всего лишь на 250 слов + 6 грамматических правил. На демонстрации перевели несколько заготовленных предложений на русском, типа таких:

1. KRAXMAL VIRABATIVAYETSYA MYEXANYICHYESKYIM PUTYEM YIZ KARTOFYELYA

2. VLADYIMYIR YAVLYAYETSYA NA RABOTU POZDNO UTROM

Вы не ошиблись, они вводили русские предложения заглавными английскими буквами, как в чатах 90-х (если кто застал).

В прессе был фурор: «New York Times» и многие другие газеты и журналы вышли со смелыми прогнозами, что через несколько лет вопрос с автоматическим переводом будет решен.

В ответ советские инженеры быстренько сделали такой же машинный перевод с английского на русский. Шла холодная война, и нужно было читать большие объемы технической документации противника.

Но все эти усилия особо ничего не дали, машина не задумывалась над смыслом перевода и он был уж совсем бестолковым.

Тем не менее шума в научных кругах и в прессе было много. Всем казалось, что искусственный интеллект будет уже вот-вот через пару лет, также как и полная колонизация космоса. Прошли 50-е годы, а потом и 60-е, и оказалось, что с космосом все гораздо бодрее, чем с машинным переводом.

❯ Пронумеруем слова

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Поскольку компьютер не понимает слова и буквы, то нужно их превратить в номера. А для этого нужно пронумеровать все слова. И тут выяснилось, что машина может довольно легко определять настроение текста (например, отзывов в интернете).

Практически у любого алгоритма машинного обучения с учителем есть два режима: обучение и обычная работа (inference). В режиме обучения на вход подают текст (в виде чисел), а на выход правильные ответы. В рабочем режиме на вход попадает текст, а на выходе появляются ответы машины, на базе тех правильных, которые она видела раньше.

Как же нам оценить тексты отзывов? Для обучения с одной стороны, подаем номера слов, с другой стороны баллы, которые пользователь поставил в отзыве. Теперь в рабочем режиме машина может прикинуть, сколько примерно баллов поставил бы живой пользователь по такому тексту отзыва, а значит может отличить позитивный отзыв от негативного. Для этого достаточно понять какие номера слов чаще встречаются в негативных текстах, а какие в позитивных. Такие методы, которые улавливают тенденцию, называют регрессионными.

Также это легко можно сделать, например, с помощью дерева решений, работает просто: видим негативный номер — значит, мы ближе к негативному отзыву. Видим позитивный номер — значит мы ближе к позитивному отзыву, пройдя весь лабиринт условий можно получить ответ.

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Похоже на психологические тесты, по типу: «Проверь, насколько ты депрессивный». Такие алгоритмы назвали «древесными».

Как раз по определению тональности отзывов я писал мою дипломную работу.

❯ Нейронные сети

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

И тут появляются нейронные сети, поначалу отдельно для картинок и отдельно для текстов. Оказывается, что если разбить изображение на области и математически просуммировать точки (пиксели) в них еще и еще, то получится какая-то маленькая абракадабра. Наделаем таких абракадабр для каждого изображения, пропустим через дерево решений и машина уже умеет отличать кошечек от собачек. Оказывается, что абракадабры для всех собачек похожи друг на друга, и для всех кошечек похожи друг на друга.
Т.е. можно взять фото кошки и вычленить из него самую суть, и из собачки вычленить самую суть! Процесс извлечения сути назвали «сверткой», так как большое изображение можно «свернуть» до минимума отражающего только его смысл. Такие нейросети назвали сверточными (Осторожно, эту статью написал Ян Ликун — главный исследователь ИИ в запрещенной в РФ компании, возможно известный вам по скандалам с перекупом исследователей из OpenAI за 100 мегабаксов).

В режиме обучения на вход такой нейросети подают собачку или кошку, а на выход ноль или единицу. В режиме определения такая нейросеть получает на вход фото собачки или кошечки, а на выходе выдает ноль или один уже самостоятельно. По сути, нейросеть учится взвешивать кошачью сущность и собачью сущность и эти «веса» позволяют ей в будущем определить кто перед ней.

❯ Ускорители

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Но есть одна проблема — чтобы получить высокую точность, нужна нейросеть с большим количеством весов и этой нейросети нужно очень много фото кошечек и собачек — сотни тысяч и чем больше, тем лучше.

Каждая картинка — это на самом деле табличка с цифрами, в каждой ячейке которой хранится цвет точки на экране компьютера. Такие таблицы математики называют матрицами. Для того, чтобы добиться впечатляющих эффектов в видеоиграх нужно уметь очень быстро преобразовывать изображения, а значит складывать и перемножать матрицы с цветами точек. Обычный процессор умеет это делать ячейка за ячейкой, но геймеры не будут ждать. Поэтому придумали графический процессор, который умеет складывать большое количество ячеек разом. С тех пор графический процессор называют GPU (Graphics Processor Unit). Напомню, что обычный процессор — это CPU (Central Processor Unit)

Поскольку можно складывать разные ячейки одновременно, то такие вычисления называют параллельными, или многопоточными. Обработку таблиц можно ускорить в десятки и сотни раз, так как они хорошо распараллеливаются.

Когда мы в суперкомпьютерном центре РАН проектировали многопотоковый процессор, никто не думал, что у похожих технологий настолько большое будущее.

Параллельные вычисления используется при добыче криптовалюты. Майнеры перебором находят результаты криптографических функций. Хочется грести деньги лопатой, а лучше экскаватором, а для этого нужны те самые GPU, чем больше — тем лучше!
Компьютерные игры крайне популярны, что позволяет производителям видеокарт быстро набить карманы наличностью, а это уже дает возможность развивать свои процессоры. Таким образом геймеры своими деньгами оплатили создание ускорителей для Искусственного Интеллекта и крипто валют сами того не подозревая!

❯ Большие данные

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Окей, теперь у нас есть нейросеть и есть ускоритель, но где же взять данные для обучения? Ведь нужны именно размеченные данные! На фотографиях должно быть подписано — это кошечка, а это — собачка!

Все это было бы невозможно, если бы интернет был только для военных и для ученых. Но слава соцсетям — там есть группы любителей кошечек, есть группы любителей собачек — таким образом у нас масса размеченных данных. Значит можно подавать их на вход нейросети, чтобы она взвешивала суть и уточняла веса.

Энтузиасты искусственного интеллекта пошли еще дальше и создали глобальный проект (ImageNet) для разметки фотографий и других изображений. Они брали фото из сети и делали подписи к ним. Таким образом много лет создавалась крупнейшая обучающая выборка для картиночных нейросетей — более 14 миллионов фотографий по 20 тысячам категорий.

В те годы я активно участвовал в соревнованиях по машинному обучению. Тебе дают размеченные обучающие данные — ты на них тренишь нейронку, потом тебе дают неразмеченную выборку и твоя нейронка ее размечает, результат отправляем на конкурс. Организатор вычисляет ошибку, у кого она лучше — тот и победил.

Берем соревнование, скажем, по определению поражения сетчатки глаз вследствие сахарного диабета. Организатор отсыпал около 30 тысяч глаз индусов, причем большая часть из них здоровые, и только несколько тысяч с разной степенью поражения. Учим нейросеть, а толку ноль — ошибка плохая. Потому что больных глаз нужно хотя бы еще 30 тысяч, а лучше по 300к и больных и здоровых.

И тут мы можем применить хитрый трюк: возьмем нейронку обученную на кошечках, собачках и других спутниках человеческой жизни, дообучим ее на глазах больных индусов, и вау — теперь она заправский доктор. Этот трюк называется Transfer Learning.

Чтобы нейросеть могла переварить такие объемы данных, то ей нужно много весов. Оказалось, что выгоднее всего их располагать на большом количестве сверточных (convolutional) слоев.

Получается на вход мы получили собачку, свернули ее, получили слой со смыслом собачки. Свернули смыслы собачек и получили подсмыслы — новый слой, а потом еще и еще много слоев. Если вы достанете веса с разных слоев обученной нейронки, то увидите, что на первых слоях всякие черточки, палочки, кружочки, кусочки текстуры.

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

А на более высоких уровнях вы можете увидеть уже набор глаз, ушей или носов.

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Это все из-за того, что при свертке используются различные фильтры. Таким образом простая суть в простых элементах, а более сложная в сложных. Кроме того, слои разделены между собой фильтрами, чтобы веса не смешивались и сеть лучше обучалась.

Чем больше слоев и обучающих данных — тем умнее нейронка, но с этим нельзя перебарщивать, в какой-то момент все может замаразмировать (с людьми кажется тоже так бывает, если челик дофига умный и дофига начитанный). Если переусердствовать, то сеть начнет вести себя странно и все больше и больше ошибаться. Это называется «переобучением» вследствие тупой зубрежки, когда вместо понимания смысла пытаешься просто запомнить правильные ответы.

Используя предобученную нейронку можно сэкономить на большом количестве дорогих GPU, на времени обучения и главное — на данных, которые собрать очень сложно. Таким образом пользователи интернета и социальных сетей профинансировали крупнейшие датасеты сами того не осознавая.

Кстати, предобученная сеть называется PRETRAINED — это очень важное понятие, запомните его, оно нам понадобится. Над одной из первых таких сетей (AlexNet) в команде собственно Алекса Крижевского работал наш соотечественник Илья Суцкевер, он нам тоже понадобится далее.

Машинное зрение

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

О чудо, машина кажется научилась видеть и понимать! Но это произошло задолго до нейросетей. Например, для определения человеческого лица — нужно найти вертикальный прямоугольник, горизонтальный прямоугольник, и два маленьких квадратика.

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Примерно так работает алгоритм для извлечения признаков Хаара (Haar-like features). Зачем пихать прожорливую нейросеть в фотоаппарат или в камеру видеонаблюдения, если суперпростой алгоритм сносно работает.

Нужно определить личность человека по фото или видео? Не вопрос: давайте измерим расстояние между глаз и сравним с расстоянием до носа — и вот теперь можно узнавать людей. Очень грубо, но для многих задач достаточно, а главное очень просто, дешево и можно засунуть в любой утюг.

В те годы я много занимался коммерческой обработкой изображений: дорабатывали трехмерные модели зубов, чтобы печатать элайнеры на 3D принтере; снимали кардиограмму с лица через камеру смартфона, чтобы делать выводы о здоровье пользователя; определяли скорость сперматозоидов под микроскопом, чтобы вычленять нормальных мужиков. И нейросети для этого всего были просто не нужны. С тех пор ситуация не сильно поменялась. Когда нам нужно быстро, массово и дешево, инженеры используют максимально тупые кондовые алгоритмы.

Генерация изображений

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Вернемся к PRETRAINED нейросетям. У нас есть обученная сеть, которой на вход подаешь фото, а на выходе получаешь ответ, что из 20 тысяч известных объектов попало на изображение. А что, если на входе поставить генератор шума? Какой-то шум будет больше похож на собачку, а какой-то меньше. Ок, добавим еще одну нейросеть, которая будет обучаться генерировать шум больше похожий на собаку. PRETRAINDED нейросеть будет только контроллером, который проверяет, насколько фигня, которую сгенерировали из шума, похожа на собаку. Обучение организовано таким образом, что сеть генератор и сеть проверяльщик все время соревнуются — одна пытается сгенерировать что-то очень похожее на собаку, а вторая сеть старается распознать подделку. В их споре рождается истина — с каждым новым циклом все сложнее отличить сгенерированное изображение от обычного.

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

И вот мы научились генерировать собак, которых вообще в природе не существует, а такие сети стали называть генеративными. GENERATIVE — тоже очень важное для нас слово, запомним его.

А что же переводы?

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост



Как бы сюда приспособить нейросеть? А давайте будем давать на вход русское предложение, а на выход английское. Точнее последовательность номеров русских и английских слов. Где же взять пары таких предложений? Ну, например, библию возьмем — она на многих языках есть.

В такой нейросети стоит архивариус, который в режиме обучения пытается вычленить какие-то связки последовательностей номеров слов, самых распространенных и сохранить их в долгосрочной памяти. То есть он взвешивает каждый кусочек последовательности номеров слов и корректирует веса в своей памяти.

В режиме работы архивариус достает из долгосрочной памяти наиболее подходящие по ситуации связки слов. Работает это как попугайчик Кеша, который вроде бы по делу говорит, но смысла слов не понимает.

Такие сети попугайного типа назвали рекуррентными.

Смысл слов

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Инженеры и ученые давно пытались пронумеровать слова так, чтобы в них был какой-то смысл, много голов сломали, много электричества сожгли и в итоге придумали вот такое:

1. Возьмем все тексты, которые найдем в компьютерном виде.

2. Составим табличку, где по горизонтали будут все слова, и по вертикали все слова.

3. А в ячейке запишем, как часто эти слова встречаются вместе друг с другом.

Табличка такая получилась 500 000 слов на 500 000 слов для одного языка. И каждое слово теперь можно закодировать с помощью 500 000 чисел. Такую последовательность чисел называют вектором. И получилось, что похожие слова имеют похожие векторы. Например, слова «собака» и «щенок» больше похожи друг на друга, чем «собака» и «кошка».

Получается, что смысл слова — это как часто оно встречается вместе с другими словами.

500 000 чисел на каждое слово — убиться можно, чтобы каждый раз загонять в нейросеть даже с GPU. Но есть способ, чтобы уменьшить это количество до 500 и при этом вычленить смысл — это же свертка! Чтобы сжать (свернуть) такие огромные таблицы, использовали алгоритмы, похожие на архиваторы для файлов.

И тут что началось! Обучаем векторами (смыслами) дерево решений — оно от этого лучше определяет содержимое текста. Кормим смыслами (векторами) сеть попугайного типа (рекуррентную) — она лучше переводит. Оказалось, что если в предложении все слова векторизовать (закодировать по смыслу), а потом сложить особым образом — получим смысл предложения. Даже если просто сложить и усреднить все вектора слов в тексте — получим смысл текста!

Недавно энтузиасты сделали вектора с помощью старого доброго zip-архиватора, скормили нейросети и получили отличные результаты. Получается, что нейросети в некотором роде похожи на архиваторы, они сжимают (или сворачивают) большие объемы информации. Вода испаряется, а остается смысл, который можно потом использовать.

Чуть позже придумали более изощренную схему — все доступные тексты нарезали на кусочки по три слова. Взяли маленькую однослойную нейросеть, на вход ей давали два соседних слова, а на выход центральное в режиме обучения. Нейросеть училась угадывать по двум соседним центральное слово и корректировала свои веса.

А дальше из нее просто достали эти веса, которые отображают смысл каждого слова, которое она училась угадывать. В учебниках по английскому, да и по русскому тоже, учеников часто просят заполнить недостающие слова.

Три слова подряд с центральным пропущенным назвали скип-граммами. А набор чисел (вектор), которые отражают смысл пропущенного слова, назвали эмбеддингом. Самые известные эмбеддинги — это GloVe и word2vec.

Обучение без обучения

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Ну ладно, теперь у нас есть слова, нумерация (векторизация) которых отражает их смысл. Сеть попугаечного типа (рекуррентная LSTM) стала переводить лучше, так как связки получаются более осмысленными, но все равно зазубренными. Теперь нам нужно найти пары предложений на разных языках. И это боль, так как все тексты немного разные и сложно сопоставить одни предложения с другими. Я в те годы работал над автоматическим переводом с гренландского языка на датский и обратно. Мы парсили (слава-слава Даниилу) новостные сайты, на которых были одни и те же заметки на двух языках. Оказывается, что журналисты переводили не предложение в предложение. Кто-то ленился и выкидывал часть предложений, а кто-то добавлял в порыве литературной страсти лишнее. И у меня пары предложений не совпадали. Я не знал ни гренландского, ни датского. Да и вообще носителей гренландского не более 50 000 человек в мире. Я сопоставлял предложения статистическими методами, а потом проверял часть из них на живом гренландце, который был на чиле/расслабоне, и при случае мог выдать за неделю оценку не более 50 пар предложений.

Собственно такая проблема была не только у меня и не только по гренландскому, а по всем языкам. Если с переводчиками тяжело и поэтому мы не можем подать на вход нейросети предложение на одном языке, а на выход подать предложение на другом языке. У нас просто нет в достаточном количестве этих чертовых предложений.
А что, если мы нарежем текст на кусочки, таким образом, чтобы модель получала на входе кусок текста, а на входе следующее слово из этого текста в режиме обучения? То есть, мы хотим, чтобы модель угадывала следующее слово для этого куска текста и таким образом предобучилась на всех доступных человечеству текстах без разметки. А уже дальше мы скормим ей пары предложений и будет наконец хороший переводчик.

Режем слова

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Но есть две проблемы: во-первых, наш зазубривающий переводчик-попугай не понимает смысла слов, а только заучивает связки, а во-вторых — 500 000 векторов очень много.

Поэтому решили взять все тексты и прорезать слова на кусочки, а потом чисто статистически вычислить, какие кусочки встречаются чаще всего. Оказалось, что оптимально когда таких кусочков примерно 30-50 тысяч.

В нейросеть добавили таблицу, которая взвешивает соотношение кусочков. Т.е. раньше попугай просто запоминал наиболее ходовые связки слов и предложение, то теперь он еще запоминает как куски слов соотносятся между собой. А как мы помним, соотношение слов между собой — это и есть смысл.

Кусочки слов назвали токенами, новый механизм извлечения смысла назвали «вниманием», а новую нейросеть TRANSFORMER — запомним это третье название, оно нам тоже будет важно.

Расцвет переводчиков

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Как раз появился TRANSFORMER мы взяли предобученную датскую нейросеть — с очень высоким качеством. Взяли слабенькую гренландскую нейросеть. Мы дообучили (слава-слава Юрию) ее тем небольшим количеством предложений, которые я смог сопоставить на слабеньком домашнем GPU. После этого наш гренландец сказал:

— Ребята, а где вы нашли еще одного гренландца? Я его знаю?
— Нет, это наша модель так умеет.
— Да, ладно.

Правда были и недостатки. Наша модель училась на новостях и хорошо переводила новости, а вот над разговорным языком предстояло еще помучиться.

Тем временем стали выясняться удивительные вещи, оказывается можно обучить модель сразу на всех языках, какие найдет. Оказывается что токены в разных языках имеют аналоги.

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

То есть языки-то разные, а смысл-то примерно один!

Токены гораздо лучше векторов, потому что если слово с ошибкой, или оно какое-то новое, то векторы никак не помогут. А вот если новое или ошибочное слово нарезать на токены, то проблема решается сама собой. Оказывается, что модель умеет понимать слова, которые никогда не видела и даже придумывать слова, которые никогда не видела. Открылся потенциал для исследования забытых языков, по которым очень мало материалов.

Выяснилось, что язык ДНК — тоже отлично бьется на токены. Гугловская компания DeepMind сделала нейросеть AlphaFold, которая умеет вычислять структуру белка на базе последовательности, взятой из ДНК.

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Раньше это было возможно только лабораторными экспериментами.

Получилось, что изображения и аудио можно тоже разбить на токены, а значит, нейросеть будет понимать аудио, изображения и текст одновременно. Такие модели называют мультимодальными.

Умная модель

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Если модель может переводить с любого языка на любой язык, то это значит, что она может переводить с русского на русский?

Давайте будем давать модели на вход кусок текста, чтобы его продолжила, она будет нам давать следующее слово. Мы будем этот кусок текста дополнять этим словом и снова подавать его в модель. Таким образом, модель получится генеративным, предобученным, трансформером или GENERATIVE PRETRAINED TRANSFORMER или, если короче, то GPT. А одним из создателей этого чуда является наш с вами соотечественник Илья Суцкевер.

А тем временем роботы

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

У GPT был существенный недостаток: вы могли дать нейронке любой текст и после этого ее начинало нести словесным поносом, прямо как человека в психотическом бреду.

Решение нашлось в неожиданном месте. Допустим, что так случилось, что вы не забыли со школы законы физики и помните несколько формул. При этом формула у вас есть, а вот заставить электромеханическую машину вести себя предсказуемо в реальном мире вы не можете. Потому что любая формула — это всегда упрощение действительности.

Что с этим делать уже давно придумано — датчик и обратная связь. Допустим, едет у вас лифт: трос растягивается и проскальзывает, при разной температуре металлы расширяются и сужаются, двигатель останавливается то раньше то позже. При этом лифт должен как-то остановиться вровень с этажом. Вместо того, чтобы морочить себе голову расчетами — поставим датчик, который будет останавливать двигатель, когда лифт подъезжает к этажу. Это называется отрицательной обратной связью.

Но зачем вам лифт, если вы программист? Давайте сделаем виртуальную модель лифта, и будем обучать механизм обратной связи на ней. Таким образом появилось большое количество всевозможных физических симуляторов, которые с давних времен используются в промышленности, строительстве, электронике.

Суть всего обучения с обратной связью — это функция награды. Модель должна постараться, чтобы найти максимальное значение этой функции, то есть получить награду. Тут все как в животном и человеческом мире: ребенок учится ходить, падает, набивает шишки — получает отрицательную награду, наконец-то удается пройтись — получает положительную награду.

Компания OpenAI собрала в интернете множество диалогов и дообучила на них GPT. Параллельно она наняла большое количество экспертов, которые оценивали ответы GPT — ставили плюсы и минусы. Благодаря этому нейронка научилась фильтровать свой бред. Сейчас модель часто просит вас оценить свой ответ, чтобы использовать это для дообучения.

Так GPT стала chatGPT. Кстати, обучение с подкреплением называют Reinforcement Learning или RL. А обучение с обратной связью от людей называют Reinforcement Learning from Human Feedback или RLHF.

Многие компании полны энтузиазма, чтобы с помощью RL научить роботов идеально двигаться в естественной среде. Прорыв в обучении машины человеческому диалогу очень вдохновил создателей человекоподобных роботов.

Послушание

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Главная задача дообучения chatGPT — сделать ее послушной. Если вы задали вопрос - она должна вам ответить ну хотя бы как-то рядом, а не про что-то другое. Оказывается, что непослушный искусственный интеллект — это просто генератор бреда. По поводу мышления идут споры — мыслит модель или нет. Но я вам скажу, как инженер — без послушания никакого интеллекта не получается. Если машина не может подчиняться другим, она и себе не сможет подчиняться. А если у нее будут ноги и руки, то непослушный искусственный интеллект не сможет ими даже пошевелить. Так что если вы думали о восстании машин, то речь явно об очень послушных машинах.

Да и успешное человеческое восстание — это пик послушания, когда все люди подчинены одной единой цели и действуют фанатично послушно и благодаря этому синхронно. Если все кто в лес, кто по дрова — ничего не получится. Разнузданность мышления — тоже не даст вам довести хоть какое-то дело до успешного конца. Мне это не нравится, но есть ощущение, что интеллект начинается с послушания.

А как же креативность? Как же детская непосредственность? Как же незашоренность, открытость мышления, свободомыслие? Проще всего с детской непосредственностью — она возможна только в присутствии взрослых, которые берут на себя заботу о базовых потребностях. Если таких людей нет, то дети очень быстро «взрослеют» и детская непосредственность улетучивается.
С креативностью интереснее в ней есть толк, если человек может вместить креативность в рамки поставленной задачи. Именно такое обычно воспринимается с восхищением как гениальность.

Если вернуться к большой языковой модели (Large Language Model или коротко LLM), то у нее есть настройка — температура. Модель должна угадать следующий токен, он поведет за собой следующий и так далее. Насколько этот токен соответствует стандартному подходу к ответу на вопрос пользователя? Или может быть нужны какие-то неожиданные подходы? Если вы снизите температуру до нуля — LLM будет выдавать вам самый каноничный ответ и будет хорошо слушаться, если вы будете повышать температуру то вероятность выпадения нетипичных для ситуации ответов увеличится, а послушность снизится, и, наконец, при дальнейшем увеличении температуры у модели сорвет свисток и она ответит вам потоком бреда и галлюцинаций. Видимо, когда люди говорят друг-другу: «Остынь немного, не кипятись, не горячись» — они имеют в виду что-то похожее.

Как же совместить юношеский максимализм и зрелую рациональность для получения удачного практического результата? Давайте одной LLM поставим температуру побольше — пусть что-нибудь придумает, а другая пусть приглядывает за первой, у нее будет температура пониже. Тогда первая модель будет искать нестандартные пути, а вторая будет пытаться согласовать их с суровой реальностью.

Кто ты?

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Поскольку GPT продолжает любой текст, который ей дали, то в зависимости от разных затравок (prompts или промптов) будет и разный ответ. В связи с этим можно в самом начале дать затравку: «Ты дух Александра Сергеевича Пушкина». Таким образом можно просить модель «менять шляпы» и продолжать текст с разных позиций.

С этого момента у большого количества неайтишных людей появилась возможность взаимодействовать с нейросетью, а это уже породило массу мифов, трюков, приемов — о них вам расскажут из каждого утюга, а мы тут больше про то как и почему это все черт побери работает.

Обучение без обучения (опять)

Как устроены нейросети для неспециалистов (1/2) Искусственный интеллект, ChatGPT, Openai, Промпт, Нейросети, Gemini, Чат-бот, Тренд, Длиннопост

Примерно раз в месяц ко мне приходят люди, которые хотят «обучить» GPT. Если взять готовую бесплатную языковую модель из интернета, то чтобы обучить ее вам понадобятся GPU на десятки и сотни миллионов рублей. Слава богу OpenAI предлагают задешево дообучить chatGPT прямо на их серверах. Но это вам не подойдет, ведь для обучения вам понадобятся пары текстов! Те которые на входе и на выходе! И текстов таких нужно множество, хотя бы тысячу пар. Но на самом деле вы таким классическим образом ничего учить и не собирались.

Как вы понимаете, если LLM подсунуть статью с данными, которые она никогда не видела, то она вполне себе сможет ответить на вопросы по ней. Также там могут быть инструкции в духе: «Не забудь, что ты Наполеон и веди себя так как подобает императору.»

Получается, что если этот текст подставлять LLM перед каждым запросом пользователя, то у него будет складываться ощущение, что она предоубчена. Поэтому остается всего-навсего написать небольшую прослойку между пользователем и нейросетью, с чем справится любой школьник.
Этот подход называется «контекстное обучение».

Продолжение статьи здесь: Как устроены нейросети для неспециалистов (2/2)

Показать полностью 24
[моё] Искусственный интеллект ChatGPT Openai Промпт Нейросети Gemini Чат-бот Тренд Длиннопост
5
1
Vankovich
Vankovich
19 дней назад

Просто сравнил ответы 3-х популярных ИИ. Получил 3 разных ответа на один вопрос:⁠⁠

"Если бросить 9 кубиков одновременно, то какая вероятность выпадения суммы больше 40? Ответ дать в процентах."

Что думаете? Кому теперь верить?

Просто сравнил ответы 3-х популярных ИИ. Получил 3 разных ответа на один вопрос: Искусственный интеллект, Теория вероятностей, Gemini, Яндекс Алиса, DeepSeek, Длиннопост

Gemini

Просто сравнил ответы 3-х популярных ИИ. Получил 3 разных ответа на один вопрос: Искусственный интеллект, Теория вероятностей, Gemini, Яндекс Алиса, DeepSeek, Длиннопост

Яндекс Алиса

Просто сравнил ответы 3-х популярных ИИ. Получил 3 разных ответа на один вопрос: Искусственный интеллект, Теория вероятностей, Gemini, Яндекс Алиса, DeepSeek, Длиннопост

DeepSeek

Показать полностью 3
Искусственный интеллект Теория вероятностей Gemini Яндекс Алиса DeepSeek Длиннопост
14
11
Uguns
Uguns
19 дней назад

Ответ на пост «Главный советский стендап-комик 80х»⁠⁠1

Прилетаю я как-то на Таити

[моё] Союзмультфильм Evgeny Shvenk Возвращение блудного попугая Попугай Кеша Стендап Попугай Gemini Анимания Нейровидео Ответ на пост Видео Короткие видео
0
4
pro.obzor
pro.obzor
19 дней назад

Nano Banana: нашумевшая нейросеть от Google теперь бесплатно в SYNTX⁠⁠

Нашумевшая нейросеть от Google - теперь у вас под рукой. Общайтесь с ИИ в свободной форме и создавайте или редактируйте изображения так же легко, как переписываться в чате.

Nano Banana полностью бесплатна для подписчиков SYNTX.

SYNTX - это платформа, собравшая более 90+ нейросетей в одном месте. Не требует VPN и регистрации. Новым пользователям начисляется 5,50 токенов для бесплатных генераций.

🔝 Что умеет Nano Banana?

  • ➕ Загружайте до 4 изображений сразу и объединяйте их в одно

  • ➕ Меняйте фон, детали или стиль по простому текстовому запросу

  • ➕ Общайтесь с моделью в диалоге: она помогает формулировать запросы, отвечает на вопросы и работает с текстом и с картинками одновременно

🎨 Особенность режима диалога

Каждый новый запрос изменяет то же самое изображение. Хотите начать заново — откройте новый проект и загрузите другое фото.

Как генерировать в Nano Banana:

1️⃣ Перейдите в SYNTX. В главном меню выбирайте: 🎨 Дизайн с ИИ → 🍌 Nano Banana

2️⃣ Загружаем от 1 до 4 изображений

3️⃣ После загрузки, вводим запрос и запускаем генерацию

Nano Banana: нашумевшая нейросеть от Google теперь бесплатно в SYNTX Арты нейросетей, Нейронные сети, Искусственный интеллект, Photoshop, Midjourney, Flux, Генерация изображений, Компьютерная графика, Stable Diffusion, Stable diffusion 3, Sora, Gemini, Luma Ai, Видео, Короткие видео, Telegram (ссылка), Длиннопост

Нейросеть Nano Banana

✨ Пока что функция полностью бесплатна для всех подписчиков SYNTX и совсем скоро появится в WEB!


Nano Banana: революция в генерации и редактировании изображений с помощью ИИ

Новый игрок на поле ИИ-генерации

В мире искусственного интеллекта постоянно появляются новые модели, но лишь некоторые из них действительно меняют правила игры. Nano Banana (также известный как Gemini 2.5 Flash Image) — одна из таких моделей. Разработанная Google, эта нейросеть быстро привлекла внимание благодаря своей способности генерировать и редактировать изображения с невероятной точностью и креативностью. В этой статье мы подробно рассмотрим, что такое Nano Banana, как она работает и почему она может стать вашим новым любимым инструментом для работы с изображениями.

Что такое Nano Banana?

Nano Banana — это продвинутая модель генерации и редактирования изображений, основанная на технологии Gemini 2.5 Flash Image от Google. Она использует естественный язык для обработки текстовых запросов и преобразования их в визуальный контент. Модель способна создавать изображения с нуля, редактировать существующие фотографии, объединять несколько изображений в одну композицию и сохранять консистентность персонажей и объектов в различных сценах.

Ключевые особенности Nano Banana

  • Генерация изображений из текста: Превратите текстовое описание в качественное изображение за секунды

  • Точное редактирование: Вносите изменения в конкретные области изображения, не затрагивая остальные элементы

  • Сохранение консистентности: Обеспечивает единообразие персонажей и объектов в разных сценах

  • Слияние изображений: Объединяйте несколько изображений в одну гармоничную композицию

  • Работа с естественным языком: Понимает сложные текстовые инструкции, как GPT для изображений

Как работает Nano Banana?

Nano Banana использует технологию Gemini 2.5 Flash, которая позволяет ей понимать контекст и семантику запросов. Модель обучалась на огромных массивах данных, что позволяет ей генерировать изображения, соответствующие описанию, и редактировать существующие фотографии с высокой точностью.

Процесс работы включает несколько этапов: пользователь вводит текстовый запрос или загружает изображение для редактирования, модель анализирует запрос с использованием своих знаний о мире и контексте, создает или редактирует изображение с соблюдением всех требований, и наконец пользователь получает готовое изображение в высоком разрешении.

Пример использования:

Простой текстовый запрос вроде

"Создай изображение кота, едящего банан в ресторане под созвездием Близнецов"

Nano Banana: нашумевшая нейросеть от Google теперь бесплатно в SYNTX Арты нейросетей, Нейронные сети, Искусственный интеллект, Photoshop, Midjourney, Flux, Генерация изображений, Компьютерная графика, Stable Diffusion, Stable diffusion 3, Sora, Gemini, Luma Ai, Видео, Короткие видео, Telegram (ссылка), Длиннопост

Генерация в Нано Банана

превращается в детализированное изображение, соответствующее описанию. Для разработчиков доступен API, позволяющий интегрировать функциональность Nano Banana в собственные приложения.

Преимущества Nano Banana

Nano Banana предлагает несколько значительных преимуществ по сравнению с другими решениями. Модель демонстрирует высокую точность и детализацию, создавая изображения с проработкой мельчайших элементов, таких как текстуры кожи, фон и окружающая обстановка. Это делает её идеальным инструментом для профессиональных дизайнеров и маркетологов.

Одной из самых сильных сторон является способность сохранять консистентность персонажей в разных сценах. Это особенно ценно для создания комиксов, рекламных материалов и контента для социальных сетей, где важно поддерживать единообразие визуального стиля.

Простота использования — еще одно ключевое преимущество. Интуитивный интерфейс и поддержка естественного языка делают Nano Banana доступной даже для пользователей без технических навыков. Для работы достаточно просто описать желаемый результат.

Модель доступна через различные платформы, включая Google AI Studio, Gemini API и Vertex AI. Также существует мобильное приложение для iOS, которое позволяет генерировать изображения прямо с телефона.

В плане стоимости Nano Banana предлагает конкурентные цены — примерно $0.039 за генерацию одного изображения, что дешевле многих аналогов.

Практические применения Nano Banana

Дизайн и креатив

Nano Banana идеально подходит для создания прототипов продуктов, рекламных материалов и концепт-арта. Дизайнеры могут быстро визуализировать идеи, не тратя время на ручную отрисовку.

Маркетинг и социальные сети

Для маркетологов это инструмент для создания консистентного визуального контента. Можно создавать серии изображений с одним и тем же персонажем для рекламной кампании или социальных сетей.

Личное использование

Пользователи могут весело проводить время, редактируя личные фотографии, добавляя к ним эффекты, стикеры или меняя фон.

Образование и визуализация

Nano Banana может использоваться для создания обучающих материалов, визуализации исторических событий или научных концепций.

Ограничения и критика

Несмотря на множество преимуществ, Nano Banana не лишена недостатков. Некоторые пользователи отмечают, что модель иногда слишком буквально интерпретирует запросы, что может приводить к неожиданным результатам. Хотя цена и ниже, чем у конкурентов, она всё ещё может быть высокой для частных пользователей.

Также стоит отметить, что Nano Banana не подходит для создания интимного контента. Google implemented защитные меры, включая водяные знаки и идентификаторы в метаданных.

Как начать использовать Nano Banana?

Для частных пользователей:

Процесс начала работы прост: необходимо зарегистрироваться в Gemini на сайте gemini.google.com и выбрать модель 2.5 Flash. После этого можно начать создавать изображения с помощью опции "Create Images" в разделе Tools. Для мобильных пользователей доступно приложение Nano Banana - AI Photo Creator в App Store.

Для разработчиков:

Разработчики могут установить необходимые библиотеки через pip, настроить аутентификацию с помощью API-ключа и использовать Gemini API для интеграции функциональности Nano Banana в свои приложения.

Стоимость использования варьируется: частные пользователи получают бесплатный доступ с ограничениями через Gemini app, а разработчики платят $30.00 за 1 миллион output токенов (каждое изображение считается как 1290 токенов, что составляет $0.039 за изображение).

Будущее Nano Banana

Nano Banana — это только начало. Google уже работает над улучшением рендеринга длинных текстов и повышением консистентности персонажей. В будущем мы можем ожидать ещё более продвинутых функций, таких как расширенное видео редактирование и 3D-генерация.

Nano Banana — это мощный инструмент, который меняет способ работы с изображениями. Благодаря своей способности понимать естественный язык и генерировать высококачественный визуальный контент, она открывает новые возможности для дизайнеров, маркетологов и обычных пользователей. Несмотря на некоторые ограничения, её преимущества делают её одним из самых перспективных ИИ-инструментов на рынке.

Если вы ещё не попробовали Nano Banana, сейчас самое время начать. Переходите в SYNTX и откройте для себя мир бесконечных возможностей генерации и редактирования изображений.

Показать полностью 2
Арты нейросетей Нейронные сети Искусственный интеллект Photoshop Midjourney Flux Генерация изображений Компьютерная графика Stable Diffusion Stable diffusion 3 Sora Gemini Luma Ai Видео Короткие видео Telegram (ссылка) Длиннопост
5
0
AndreyButakov
AndreyButakov
20 дней назад

Текстовый фотошоп от Google: Мой скептический взгляд на Nano-banana⁠⁠

Текстовый фотошоп от Google: Мой скептический взгляд на Nano-banana Искусственный интеллект, Нейросети, Google, Gemini, Photoshop, Технологии, Эксперимент, Обзор

Не прошло и года, как нам снова обещают «революцию» в мире редактирования изображений. На этот раз на арену выкатили некий Nano-banana (Gemini-2.5-flash-image) от Google. И, конечно же, он «уже реально текстовый фотошоп». Ну-ну, мы это уже слышали.

МОИ ПЕРВЫЕ ВПЕЧАТЛЕНИЯ

Первое, что бросается в глаза, – цена. 39$ за 1000 изображений. Это, конечно, «в два раза меньше конкурентов», но давайте будем честны, для большинства это пока что игрушка, а не рабочий инструмент. Хотя, если у вас есть американский VPN, можно пощупать бесплатно через Gemini app или Google AI Studio. Я, конечно, не удержался.

ЧТО ПО РЕЗУЛЬТАТАМ?

Заявлено, что результат «в целом лучше, чем у Qwen». И вот тут начинается самое интересное. Я прогнал несколько своих тестовых запросов, которые раньше ставили в тупик даже самые распиаренные модели. И что же? Да, местами стало лучше. Но до «текстового фотошопа» это все еще как до Луны пешком. Мелкие детали, сложные композиции – все еще хромает. ИИ по-прежнему «додумывает» за вас, а не выполняет четкие инструкции. Это не фотошоп, это скорее «умный» генератор вариаций на тему.

ГДЕ ПОДВОХ?

Мой скепсис тут не случаен. Каждый раз, когда выходит новая модель, нам обещают золотые горы. А по факту мы получаем чуть более продвинутую версию того, что уже было. Да, прогресс есть, но он не такой линейный и не такой «революционный», как нам пытаются продать. Это скорее эволюция, а не скачок. И пока что ни одна модель не заменит дизайнера с прямыми руками и Photoshop.

ВЫВОДЫ

Nano-banana – это шаг вперед, но не прыжок. Это инструмент, который может быть полезен для быстрых прототипов или для тех, кому не нужна идеальная точность. Но называть это «текстовым фотошопом» – это, мягко говоря, преувеличение. Мы все еще ждем того самого ИИ, который сможет понять и реализовать сложную задумку без десятка перегенераций и ручной доработки.

А как вы считаете, это реальный прорыв или очередной маркетинговый пузырь? Жду ваших мнений в комментах.

Показать полностью
[моё] Искусственный интеллект Нейросети Google Gemini Photoshop Технологии Эксперимент Обзор
0
484
BDSMka
BDSMka
23 дня назад
Искусственный интеллект

Сравнение Нейросетей⁠⁠

Решила провести сравнение генераций в разных бесплатных нейросетях. Прописываю одинаковый промт - и генерирую картиночки. Может быть кто-то думает, что выбрать в качестве своего нейроинструмента, так вот тут может я и пригожусь, так как часто приходится работать с этими инструментами. Сравнивать буду Stable Diffusion, GroK4 , Алиса, GigaChat, Gemini 2.5 pro., Qwen


Промт для всех будет такой:
Рыжая девушка, 21 год, улыбается, в белом боди, на фоне космоса.
Итак, поехали :)

Первый на очереди - Qwen. Созданная Конторой Meta Al, модифицирована нашими Китайскими коллегами из Alibaba.

Следование промту отличное. Картинка вроде бы неплохая, но разрешение такое себе. Детализация так же не на самом высоком уровне. Но генерирует очень быстро. Можно через сайт, можно через приложение. Удобно, быстро, бесплатно. Класс

Сравнение Нейросетей Арты нейросетей, Нейронные сети, Рыжие, Космос, Боди, Девушки, Stable Diffusion, Яндекс Алиса, Gigachat (Сбер), Qwen, Нейросеть Grok, Gemini, Длиннопост
Сравнение Нейросетей Арты нейросетей, Нейронные сети, Рыжие, Космос, Боди, Девушки, Stable Diffusion, Яндекс Алиса, Gigachat (Сбер), Qwen, Нейросеть Grok, Gemini, Длиннопост

Ниже GigaChat от сбера. Путает стили, промту следует неохотно. Качество посредственное. Но бесплатно и быстро

Сравнение Нейросетей Арты нейросетей, Нейронные сети, Рыжие, Космос, Боди, Девушки, Stable Diffusion, Яндекс Алиса, Gigachat (Сбер), Qwen, Нейросеть Grok, Gemini, Длиннопост
Сравнение Нейросетей Арты нейросетей, Нейронные сети, Рыжие, Космос, Боди, Девушки, Stable Diffusion, Яндекс Алиса, Gigachat (Сбер), Qwen, Нейросеть Grok, Gemini, Длиннопост

Ниже Алиса. Бесплатная нейронка от Яндекса. Первое, что бросается в глаза - промту следует не очень. Делает ярко, но однообразненько. Смотрится неплохо. Скорость генерации вообще быстрая

Сравнение Нейросетей Арты нейросетей, Нейронные сети, Рыжие, Космос, Боди, Девушки, Stable Diffusion, Яндекс Алиса, Gigachat (Сбер), Qwen, Нейросеть Grok, Gemini, Длиннопост
Сравнение Нейросетей Арты нейросетей, Нейронные сети, Рыжие, Космос, Боди, Девушки, Stable Diffusion, Яндекс Алиса, Gigachat (Сбер), Qwen, Нейросеть Grok, Gemini, Длиннопост

Ниже Gemini. Вес и разрешение картинок высокое. А вот следование промту... Да тоже чёткое. Но генерирует чаще какие-то нестандартные ракурсы. Пытается в креативность - это, наверное, плюсик. Детали вроде бы есть, но посмотрите на пальчики. Да, это больное место у всех. До сих пор. Но нейронка и не позиционирует себя, как генератор картиночек. Это так, приятный доп. Бесплатно, но вроде бы какие-то ограничения присутствуют на количество в сутки. Работает как минимум через сайт.

Сравнение Нейросетей Арты нейросетей, Нейронные сети, Рыжие, Космос, Боди, Девушки, Stable Diffusion, Яндекс Алиса, Gigachat (Сбер), Qwen, Нейросеть Grok, Gemini, Длиннопост
Сравнение Нейросетей Арты нейросетей, Нейронные сети, Рыжие, Космос, Боди, Девушки, Stable Diffusion, Яндекс Алиса, Gigachat (Сбер), Qwen, Нейросеть Grok, Gemini, Длиннопост

Ниже GroK4 От Нашего Илона Макса. Делает красиво. Ну сразу же видно. Креативит. Мне нравится. Быстро. Генерирует через свою соцсеть заморскую. Да, где-то деталей маловато, где-то артефактики лишние, но в целом - крутяк.

Сравнение Нейросетей Арты нейросетей, Нейронные сети, Рыжие, Космос, Боди, Девушки, Stable Diffusion, Яндекс Алиса, Gigachat (Сбер), Qwen, Нейросеть Grok, Gemini, Длиннопост
Сравнение Нейросетей Арты нейросетей, Нейронные сети, Рыжие, Космос, Боди, Девушки, Stable Diffusion, Яндекс Алиса, Gigachat (Сбер), Qwen, Нейросеть Grok, Gemini, Длиннопост

Ниже Stable Diffusion. Есть доступ через сервисы. Но самый сок, когда эта модель установлена на комп и работает через видяху. Бесплатно. Можно регулировать разрешение, следование промту хорошее. Генерирует быстро. Хорошая штука

Сравнение Нейросетей Арты нейросетей, Нейронные сети, Рыжие, Космос, Боди, Девушки, Stable Diffusion, Яндекс Алиса, Gigachat (Сбер), Qwen, Нейросеть Grok, Gemini, Длиннопост
Сравнение Нейросетей Арты нейросетей, Нейронные сети, Рыжие, Космос, Боди, Девушки, Stable Diffusion, Яндекс Алиса, Gigachat (Сбер), Qwen, Нейросеть Grok, Gemini, Длиннопост

В сравнении не учитывалось много условностей. Тут просто одинаковый промт для всех.
Выводы делаем самостоятельно.
Если понравилось - запилю ещё какие-нибудь тесты
Если не понравилось - скорее всего все равно что-нибудь опубликую :)

Показать полностью 12
Арты нейросетей Нейронные сети Рыжие Космос Боди Девушки Stable Diffusion Яндекс Алиса Gigachat (Сбер) Qwen Нейросеть Grok Gemini Длиннопост
105
11
hypo69
hypo69
26 дней назад
Лига Сисадминов
Серия Философия PowerShell

А давайте встроим ии в powershell⁠⁠

Дисклеймер. В пикабу нет редактора кода - поэтому такое форматирование и картинки. В конце поста я дам ссылку на github. Почитайте, и если вам интересно, смотрите код на гитхабе.

Под аббревиатурой «ии» я подразумеваю модель машинного обучения. Я буду использовать gemini-2.5-pro/flash. У гугла есть интерфейс командной строки gemini-cli.

Что такое Gemini CLI?

Подробно о Gemini CLI я уже рассказывал в Gemini CLI: Знакомство и первые шаги. Но если вы ее пропустили, вот краткое введение.

Если коротко, Gemini CLI — это командная строка для взаимодействия с моделями ИИ от Google. Вы запускаете его в своем терминале, и он превращается в чат, который, в отличие от веб-версий, имеет доступ к вашей файловой системе.

Ключевые возможности:

  • Понимает код: Он может анализировать ваши скрипты, находить в них ошибки и предлагать исправления.

  • Генерирует код: Вы можете попросить его написать PowerShell-скрипт для решения вашей задачи, и он это сделает.

  • Работает с файлами: Может читать файлы, создавать новые, вносить изменения в существующие.

  • Запускает команды: Может выполнять команды оболочки, такие как git или npm.

Для наших целей самое важное то, что Gemini CLI умеет работать в неинтерактивном режиме. То есть мы можем передать ему промпт как аргумент командной строки, и он просто вернет нам ответ, не запуская свой интерактивный чат. Именно эту возможность мы и будем использовать.

Установка и настройка

Чтобы начать, нам нужно подготовить наше окружение. Это делается один раз.

Шаг 1: Установка Node.js Gemini CLI — это приложение, написанное на Node.js (популярная среда для JavaScript). Поэтому сначала нам нужно установить саму Node.js.

  1. Перейдите на официальный сайт: https://nodejs.org/

  2. Скачайте и установите LTS версию. Это самый стабильный и рекомендуемый вариант. Просто следуйте инструкциям установщика.

  3. После установки откройте новое окно PowerShell и проверьте, что все работает:

    node -v npm -v

    Вы должны увидеть версии, например, v20.12.2 и 10.5.0.

Шаг 2: Установка самого Gemini CLI Теперь, когда у нас есть npm (менеджер пакетов для Node.js), установка Gemini CLI сводится к одной команде. Выполните ее в PowerShell:

npm install -g @google/gemini-cli

Флаг -g означает "глобальная установка", что сделает команду gemini доступной из любого места в вашей системе.

Шаг 3: Аутентификация В первый раз, когда вы запустите Gemini CLI, он попросит вас войти в свой аккаунт Google. Это нужно, чтобы он мог использовать вашу бесплатную квоту.

  1. Просто введите в PowerShell команду:

    gemini

  2. Он задаст вам вопрос о входе. Выберите "Sign in with Google".

  3. В вашем браузере откроется стандартное окно входа Google. Войдите в свой аккаунт и предоставьте необходимые разрешения.

  4. После этого в консоли вы увидите приветственное сообщение от Gemini. Поздравляю, вы готовы к работе! Можете ввести /quit, чтобы выйти из его чата.

Философия PowerShell: ужасный Invoke-Expression

Прежде чем мы соединим все вместе, познакомимся с одним из самых опасных командлетов в PowerShell — Invoke-Expression, или его коротким псевдонимом iex.

Invoke-Expression берет текстовую строку и выполняет ее так, как будто это была команда, напечатанная в консоли.

Пример:

$commandString = "Get-Process -Name 'chrome'" Invoke-Expression -InputObject $commandString

Эта команда сделает то же самое, что и простой вызов Get-Process -Name 'chrome'.

Почему он опасный? Потому что выполнение строки, которую вы не контролируете (например, полученной из интернета или от ИИ), — это огромная дыра в безопасности. Если ИИ по ошибке или со злым умыслом вернет команду Remove-Item -Path C:\ -Recurse -Force, iex без раздумий ее выполнит.

Для нашей задачи — создания управляемого и контролируемого моста между запросом на естественном языке и его выполнением — он подходит идеально. Мы будем использовать его с осторожностью, полностью осознавая риски.

Соединяем всё вместе: командлет Invoke-Gemini

Напишем простую PowerShell-функцию, которая позволит нам отправлять промпты одной командой.

А давайте встроим ии в powershell Windows, Автоматизация, Системное администрирование, Cli, Gemini, Powershell, Гайд, IT, Видео, Без звука, Короткие видео, Длиннопост

Давайте зададим ему вопрос на общую тему прямо из нашей PowerShell-консоли.

Invoke-Gemini -Prompt "Расскажи о пяти последних трендах в области машинного обучения"
Пробуем магию:

👏 Поздравляю! Вы только что успешно встроили ИИ в PowerShell.

В следующей статье я расскажу, как использовать Gemini CLI для запуска скриптов и автоматизации задач.

Ссылка на github

Серия «Философия PowerShell»
Серия «gemini-cli»

Полезно? Подпишись.
Понравилось — ставь «+»
Задавай вопросы в комментариях 👇👇👇
Удачи! 🚀

Показать полностью 1 1
[моё] Windows Автоматизация Системное администрирование Cli Gemini Powershell Гайд IT Видео Без звука Короткие видео Длиннопост
4
2
AndreyButakov
AndreyButakov
26 дней назад

ИИ-сказки: когда классика надоела, а мораль устарела⁠⁠

ИИ-сказки: когда классика надоела, а мораль устарела Искусственный интеллект, Нейросети, Сказка, Дети, Эксперимент, Gemini, Контент нейросетей

Надоели эти ваши классические сказки? Ну, знаете, где принцессы ждут принцев, а мораль устарела лет эдак на двести? Меня всегда бесило, что детские книги не успевают за миром, а порой и вовсе транслируют какую-то дичь. И вот, я решил копнуть глубже в тему генерации контента, но не для взрослых, а для самых маленьких.

МОЙ ЭКСПЕРИМЕНТ С ИИ-СКАЗКАМИ

Я тут наткнулся на одну интересную штуку – Gemini Storybook. По сути, это такой конструктор сказок на базе ИИ. Задаешь ему пару фраз, и он тебе выдает целую историю. Звучит как очередной хайп, да? Но я решил проверить, насколько это вообще применимо в реальной жизни, а не просто для баловства.

Первая мысль: «Окей, а что, если попробовать объяснить ребенку что-то сложное через сказку?» Например, почему львы едят антилоп, и это не «плохо», а «выживание». Или как самолеты летают, без скучных формул и законов физики. Я попробовал. И знаете что? Получилось довольно... иронично. ИИ, конечно, старается быть политкорректным, но иногда проскакивают такие формулировки, что диву даешься.

ВТОРАЯ ПОПЫТКА: САМОЛЕТЫ И ФИЗИКА

Вторая попытка была про самолеты. Тут ИИ справился лучше, но все равно чувствуется эта его «нейросетевая» наивность. С одной стороны, это хорошо – просто и понятно. С другой – иногда хочется чуть больше глубины, даже для ребенка. В общем, инструмент интересный, но пока не панацея.

ВЫВОДЫ И ПЕРСПЕКТИВЫ

Я вижу в этом потенциал. Особенно для родителей, которые хотят познакомить детей с нестандартными концепциями или просто отойти от заезженных сюжетов. Можно генерировать сказки на разных языках, что круто для билингвов. Но пока это скорее игрушка, чем полноценный инструмент для создания шедевров. ИИ еще не научился по-настоящему «чувствовать» аудиторию и тонкие нюансы морали.

А как вы считаете, это реальный прорыв в детской литературе или очередной маркетинговый пузырь? Жду ваших мнений в комментах. Может, кто-то уже пробовал и нашел свой идеальный промт для сказки?

Показать полностью 1
Искусственный интеллект Нейросети Сказка Дети Эксперимент Gemini Контент нейросетей
1
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Маркет Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии