Пробую разные кисти рисую на графическом планшете в программе Medibang Paint Pro
Пробую разные кисти рисую на графическом планшете в программе Medibang Paint Pro
Привет!
Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.
Меня зовут Вандер, я редактор канала Нейро-Пушка и каждую неделю я делаю обзор новостей о нейросетях и ИИ.
Неделя с 14 по 20 апреля выдалась горячей: революционные LLM от гигантов, прорывы в мультимодальных технологиях, инновационные платформы — всё это я собрал в одном месте. Только самое важное и только то, что реально интересно и полезно. Поехали!
Новые языковые модели
Семейство GPT-4.1 от OpenAI — новая эра программирования
o3 и o4-mini — мыслители от OpenAI
Gemini 2.5 Flash — гибридный подход к рассуждениям
ИИ в творческих приложениях
Kling 2.0 — реалистичные видео из изображений
AI-агенты и платформы
Grok Studio — холст для коллаборации от xAI
Aria в Opera Mini — AI для бюджетных устройств
SpeechMap — карта ответов нейросетей
AI в реальных приложениях
Запрет AI-аватара в суде Нью-Йорка
Социальная сеть от OpenAI — потенциальный конкурент X
DolphinGemma от Google — расшифровка языка дельфинов
AI для городского планирования в Кентукки
OpenAI представила семейство GPT-4.1 — новое поколение своих AI-моделей, которое значительно превосходит предыдущую флагманскую модель GPT-4o по ключевым параметрам! 🚀
Главные фишки новых моделей:
Улучшенное кодирование: GPT-4.1 превосходит GPT-4o на 21.4% в бенчмарке SWE-bench Verified. Делает более чем в 2 раза меньше ошибок в code diffs и снижает количество лишних изменений в коде с 9% до 2%!
Точное следование инструкциям: улучшение на 10.5% по сравнению с GPT-4o в бенчмарке Scale’s MultiChallenge.
Гигантское контекстное окно: поддержка до 1 миллиона токенов — в 8 раз больше, чем у GPT-4o!
В семейство вошли три модели:
GPT-4.1: флагманская модель для сложных когнитивных задач. Стоимость: $2 за миллион входных токенов и $8 за миллион выходных.
GPT-4.1 Mini: балансирует производительность и стоимость, по интеллекту соответствует или превосходит GPT-4o, но на 83% дешевле и вдвое быстрее! Демонстрирует высокие возможности в понимании изображений. Стоимость: $0.40 за миллион входных токенов и $1.60 за миллион выходных.
GPT-4.1 Nano: самая легкая, быстрая и дешевая модель, идеальна для задач с низкой задержкой. Несмотря на малый размер, поддерживает контекстное окно в 1 миллион токенов. Стоимость: $0.10 за миллион входных токенов и $0.40 за миллион выходных.
Эти модели уже показывают впечатляющие результаты на практике:
Thomson Reuters повысила точность на 17 % при анализе длинных юридических документов с помощью AI-ассистента CoCounsel.
Инвестиционная компания Carlyle улучшила извлечение информации из больших документов на 50 %.
Windsurf заявила, что GPT-4.1 набрал на 60 % больше баллов в их внутренних тестах по кодированию.
OpenAI представила две новые модели рассуждений: o3 и o4-mini, обученные “думать дольше, прежде чем отвечать”! 🧠
Эти модели — настоящий интеллектуальный прорыв, способный использовать и комбинировать все инструменты в ChatGPT, включая веб-поиск, анализ файлов с помощью Python и работу с изображениями.
Ключевые особенности:
o3 — самая мощная модель рассуждений OpenAI, демонстрирующая рекордные результаты в бенчмарках по кодированию, математике и науке.
Достигла 91.6% точности на олимпиадных задачах AIME 2024
Показала прорывной результат 75.7% на сложном бенчмарке ARC-AGI
По оценкам экспертов, допускает на 20% меньше серьезных ошибок, чем o1
o4-mini — более легкая модель для быстрого и экономичного рассуждения.
Лучшая модель по результатам AIME 2024 (93.4% без инструментов, 99.5% с Python)
На бенчмарке Codeforces набирает ELO 2719, немного опережая даже o3
На 24% быстрее и на 93% экономичнее по стоимости токена по сравнению с o1-mini
Стоимость и доступность:
o3: $10.00 за миллион входных и $40.00 за миллион выходных токенов
o4-mini: $1.10 за миллион входных и $4.40 за миллион выходных токенов
Обе модели доступны в ChatGPT для пользователей с подписками Plus, Team и Pro, а также через API. Пользователи бесплатного плана также могут попробовать o4-mini в режиме “Think”.
Сравнение с GPT-4.1:
Важно понимать, что это разные семейства моделей для разных задач. GPT-4.1 оптимизирована для следования инструкциям и работы с длинным контекстом (1M токенов), тогда как o3 и o4-mini специализируются на продвинутых возможностях рассуждения, но имеют контекстное окно только в 200K токенов.
Google представила Gemini 2.5 Flash — свою первую полностью гибридную модель рассуждений! 🔄
Ключевая фича — возможность включать и выключать «мышление» и устанавливать бюджеты на рассуждение для оптимального баланса между качеством, стоимостью и задержкой.
Технические характеристики:
Поддержка контекстного окна в 1 миллион токенов
Полноценная мультимодальная модель, понимающая текст, аудио, изображения и видео
Срез знаний на январь 2025 года
Адаптивные и контролируемые возможности рассуждения
Стоимость:
Входные токены: $0.15 за 1 миллион
Выходные токены: $0.60 за 1 миллион при выключенном “мышлении” и $3.50 при включенном
Результаты бенчмарков:
AIME 2025: 78.0% (одна попытка)
AIME 2024: 88.0% (одна попытка)
GPQA diamond: 78.3% (одна попытка)
LiveCodeBench v5: 63.5% (одна попытка)
MMMU: 76.7% (одна попытка)
Gemini 2.5 Flash выделяется своей ультрабыстрой скоростью при выключенном “мышлении”, сохраняя производительность 2.0 Flash, но с улучшенной точностью. При включении режима рассуждений модель способна решать сложные математические, научные и кодовые задачи на уровне лучших моделей.
Таким образом, пользователи получают гибкость: для простых запросов — молниеносную скорость и экономичность, а для сложных — глубокое рассуждение при необходимости.
Представлена обновленная нейросеть Kling 2.0 для создания видео с более реалистичными движениями объектов!
Ключевые особенности:
Возможность объединять до четырех изображений в один ролик
Функционал для редактирования сцен и отдельных объектов по запросу
Значительно улучшенная реалистичность движений по сравнению с предыдущей версией
Доступ к сервису реализован по подписке от $7 за шесть генераций, что делает технологию относительно доступной для креаторов и маркетологов.
Kling 2.0 предлагает новый подход к созданию видеоконтента, позволяя трансформировать статичные изображения в динамичные ролики, что особенно ценно для рекламы, контент-маркетинга и социальных медиа.
Представленная 16 апреля 2025 года, Grok Studio предоставляет пользователям возможность работать вместе с чат-ботом Grok AI в интерфейсе с разделенным экраном, напоминающем Canvas от OpenAI и Artifacts от Anthropic.
Ключевые возможности:
Генерация контента: документы, код, отчеты и даже браузерные игры
Выполнение кода: поддержка Python, C++, JavaScript, TypeScript и Bash с вкладкой предварительного просмотра
Интеграция с Google Drive: прикрепление документов, таблиц и слайдов
Совместная работа в реальном времени: несколько пользователей могут работать над проектами одновременно
Предварительный просмотр HTML: визуализация документов в формате, готовом для публикации
Отзывы пользователей пока неоднозначны: отмечаются положительные моменты относительно возможностей кодирования, но есть жалобы на удобство использования. Важное преимущество — Grok Studio доступна как для бесплатных, так и для премиум-пользователей на grok.com.
Opera интегрировала своего AI-помощника Aria в браузер Opera Mini для Android, предоставив возможности генеративного AI пользователям устройств с ограниченными ресурсами! 📱
Ключевые функции:
Генерация текста и кода
Создание изображений с помощью модели Imagen3 от Google
Переписывание текста, ответы на вопросы, обобщение контента
Оптимизация для облегченной архитектуры Mini без увеличения потребления данных
Это решение делает передовые AI-технологии доступными более чем 100 миллионам пользователей по всему миру, включая рынки с высокой стоимостью передачи данных, такие как Африка и Азия.
Отзывы пользователей:
Мнения разделились — некоторые считают Aria полезным инструментом для обобщения веб-страниц и ответов на вопросы, другие жалуются на медленное время ответа и проблемы с точностью по сравнению с такими платформами, как ChatGPT.
Интеграция Aria в Opera Mini — важный шаг в преодолении цифрового разрыва, позволяющий пользователям с ограниченными ресурсами получить доступ к генеративному AI.
Анонимный разработчик представил SpeechMap — инструмент, который показывает, как разные AI-модели реагируют на сложные или спорные запросы. 🗺️
Особенности:
Наглядное отображение реакций различных AI-моделей на одинаковые запросы
Четкая визуализация, где модели отвечают прямо, а где уклоняются от ответа
Полезный инструмент для разработчиков и пользователей, желающих изучить границы возможностей генеративного AI
SpeechMap позволяет сравнивать реакции различных AI-систем, что дает возможность лучше понять их ограничения, особенности и потенциальные предубеждения.
Этот инструмент особенно ценен для исследователей в области AI-этики, разработчиков моделей и специалистов, изучающих границы допустимого в генеративном AI.
В апелляционном суде Нью-Йорка вспыхнула дискуссия: можно ли использовать AI в судебных процессах?
Поводом стал инцидент с 74-летним Джеромом Девальдом, основателем стартапа Pro Se Pro. Он попытался представить свои аргументы по трудовому спору с помощью AI-видео — аватара по имени «Джим». Судья не знал о подмене и прервал выступление.
Судья Салли Мансанет-Дэниэлс потребовала отключить видео:
«Я не ценю, когда меня вводят в заблуждение. Вы не будете использовать этот зал для запуска своего бизнеса, сэр».
Почему суд отказал:
Нет прозрачности — это выглядело как попытка обмана.
Нарушение судебных протоколов.
Неясно, можно ли считать такое представительство легитимным.
Неготовность юридической системы к AI-аватарам.
Девальд объяснил, что потерял голос и не смог выступать лично, а видео было единственным способом донести аргументы. Позже он направил извинения.
Этот случай показывает, как важно заранее прописать чёткие правила использования AI в суде. Без них даже полезные технологии будут встречать сопротивление — не из-за вреда, а из-за отсутствия доверия и прозрачности.
OpenAI, по сообщениям инсайдеров, находится на ранних стадиях разработки собственной социальной сети, напоминающей популярную платформу X (ранее Twitter)! 🌐
Предполагаемый функционал:
Акцент на обмене контентом, сгенерированным AI, особенно изображениями
Интеграция с передовыми возможностями AI от OpenAI
Расширенные функции модерации контента на базе AI
Возможность генерировать и делиться различными формами AI-созданного медиаконтента
Стратегическая цель:
Получение прямого доступа к непрерывному потоку пользовательских данных в реальном времени, включая текст, изображения и поведение при взаимодействии. Эти данные бесценны для дальнейшего обучения и оптимизации AI-моделей OpenAI.
Влияние на рынок:
Потенциальное усиление конкуренции с Meta (Facebook, Instagram) и X
Переосмысление онлайн-взаимодействий с фокусом на генеративный AI
Демонстрационная площадка для передовых AI-технологий OpenAI
Гендир OpenAI Сэм Альтман лично возглавляет эту инициативу и активно запрашивает отзывы у внешних сторон. Пока неясно, будет ли эта социальная сеть запущена как отдельное приложение или интегрирована в существующее приложение ChatGPT.
Google представила DolphinGemma — фундаментальную AI-модель для изучения коммуникации дельфинов! 🐬
Основная цель проекта:
Расшифровка коммуникации дельфинов путем изучения закономерностей в их сложных вокализациях для потенциального межвидового диалога.
Ключевые особенности:
AI-модель с примерно 400 миллионами параметров
Функционирует как система “аудио на вход, аудио на выход”
Использует токенизатор SoundStream от Google
Достаточно эффективна для работы на смартфонах Google Pixel в полевых условиях
Будет выпущена как открытая модель летом 2025 года
Проект основан на многолетнем исследовании Wild Dolphin Project, изучающего диких пятнистых дельфинов в Багамах с 1985 года. Обширная база данных подводного видео и аудио, сопоставленных с идентификационными данными отдельных дельфинов, их историями жизни и наблюдаемым поведением, предоставила богатый материал для обучения DolphinGemma.
Исследователи также изучают потенциал двустороннего взаимодействия с использованием системы CHAT (Cetacean Hearing Augmentation Telemetry), связывая синтетические свистки с объектами для создания общего словаря.
Значение проекта:
Прорыв в понимании коммуникации дельфинов
Потенциальное создание “словаря” дельфиньего языка
Помощь природоохранным усилиям через выявление сигналов бедствия
Развитие теорий о естественном возникновении языка
В небольшом городе в Кентукки провели новаторский эксперимент по применению AI для создания 25-летнего плана развития! 🏙️
Процесс:
Жители предлагали свои идеи через специальную онлайн-платформу
Проводилось голосование за наиболее ценные и значимые предложения
AI-алгоритм анализировал представленные идеи и выявлял ключевые тенденции
Результаты анализа предоставлялись городским властям для принятия решений
Такой подход позволил не только собрать мнения граждан, но и эффективно обработать их с помощью искусственного интеллекта, выявив скрытые закономерности и приоритеты сообщества.
Инновационное использование AI для анализа отзывов жителей обладает большим потенциалом для применения в других городах, предлагая основанный на данных метод для учета мнения сообщества в долгосрочном планировании.
Неделя с 14 по 20 апреля 2025 показала ключевые тренды в развитии AI:
акцент на улучшенные возможности кодирования и рассуждения в фундаментальных моделях
гибридные подходы к балансировке производительности, стоимости и качества
интеграция AI в практические платформы и инструменты для широкой аудитории
расширение исследований AI в новые области, включая межвидовую коммуникацию
Технологии AI продолжают стремительно эволюционировать, становясь более мощными, эффективными и доступными. Конкуренция между ведущими компаниями стимулирует инновации, а практическое применение AI расширяется на все новые сферы жизни.
А какие новости вас впечатлили больше всего? Пишите в комментариях! 👇🏻
Всех приветствую 🖐
🔥 Рад вам представить свою портативную настроенною сборку ComfyUI, которая сэкономит кучу вашего времени и подойдет как для опытных пользователей, так и особенно для начинающих. Эта сборка на Python 3.12, torch 2.6, cuda 12.6. (сборку можно скачать БЕСПЛАТНО с boosty.
🔥 После установки СomfyUI приходится устанавливать Manager и различные библиотеки, и это требует время, а для новичков становится сложной задачей. С этой сборкой у вас будет всё гораздо проще, потому что в эту сборку уже установлены:
- insightFace и Envelop
- facexlibe
- dlib
🔥 Установленно много пользовательских узлов:
- Instant-id
- Reactor
- PulID
- OldPhoto Back to Life и многое др.
👁 Смотреть на YOUTUBE (https://youtu.be/qk5IEw2kDKM?si=mebGSXqV1e4WaTJ0)
👁 Смотреть на RUTUBE (https://rutube.ru/video/1037141b457bb31dc3d3c32b1719f121/?r=...)
В разговорах с коллегами, друзьями и экспертами я часто сталкиваюсь с одной и той же темой — многие боятся будущего из-за непредсказуемости, которую принесет технологический прогресс. Одни опасаются, что он усугубит неравенство, другие — что мы окажемся в условиях цифровой диктатуры. Однако стоит взглянуть на мнение одного из ведущих мыслителей нашего времени, Сэма Альтмана, чтобы увидеть более обнадеживающую картину.
Сэм Альтман — это не просто визионер, но и человек, который на практике меняет будущее технологий. Как бывший глава Y Combinator и текущий лидер OpenAI, он активно работает над развитием искусственного интеллекта, ставя его во благо человечества. В своем эссе «Закон Мура для всего» Альтман утверждает, что мы движемся к миру, где все, включая жилье, образование, еду и одежду, будет дешеветь в два раза каждые два года 🙂 Это звучит невероятно, но его доводы вполне логичны.
Если подумать, еще 50 лет назад было сложно представить, что в нашем кармане будет устройство, которое позволяет не только мгновенно связаться с любым человеком на другом конце мира, но и заказать еду, такси и найти решение для любого вопроса за секунды. 20 лет назад казалось фантастикой, что можно будет управлять домом с помощью голоса и работать удаленно, из любой точки планеты. А всего 3-4 года назад обычный человек даже не мог представить, что искусственный интеллект будет способен вести осмысленные беседы, помогать в сложных исследованиях и придумывать новые лекарства.
Эти примеры показывают, насколько быстро меняется мир, и предсказания Альтмана, хоть и звучат смело, вполне могут стать реальностью уже в ближайшие годы. В своем эссе он отвечает на важный вопрос: как технологии изменят наш бизнес и повседневную жизнь в следующие 5-10 лет. В прикрепленном аудио вы найдете его размышления на эту тему — он написал это эссе еще в 2021 году, и уже сейчас можно видеть, как часть его предсказаний сбылись
О возможностях AI и применении новых технологий в жизни и бизнесе я пишу в своём Telegram-канале: https://t.me/+rrqp-WVa_UQ3ZDli
В Telegram-боте @yes_ai_bot вы можете обрести доступ к большому количеству функций и категорий:
Искусственные нейронные сети для генерации изображений на любой вкус: Midjourney, Stable Diffusion, DALLE, FLUX и др.
Нейронные сети для работы с текстом: Chat GPT (4o, 4o mini, o1 preview, o1mini), Gemma 2
Нейросети для работы с видеоконтентом: Kling Ai, Sora, Luma, Pika, DeepFace Video и др.
Школа с подробным изучением нейронных сетей и их функционала: бесплатный курс, расширенный курс, приватные группы школы и специализированная поддержка
API искусственных нейронных сетей, которые можно интегрировать в ваш бизнес — [Перейти в инструкцию]
Комьюнити нейро-энтузиастов @yes_ai_chat
Бесплатная база ресурсов о нейросетях в текстовом формате — [Перейти на форум о нейросетях]
Бесплатные обучающие ролики по применению Stable Diffusion, Chat GPT и др. — [Перейти на канал Rutube]
Все полезные данные о нейронных сетях и статьи доступны безвозмездно. 👆
Некоторые инструменты в @yes_ai_bot предоставляются безлимитно, например, текстовая нейросеть (аналог Chat GPT) — Gemma 2.
Некоторые инструменты даются бесплатно каждый день — мы ежедневно начисляем ⭐️ баллы всем пользователям, используя которые вы можете создавать картинки и обрабатывать тексты. А ещё ⭐️ баллы можно получать в качестве бонуса — [Перейти в инструкцию]
Те инструменты, которые доступны только на коммерческой основе, предоставляются за 🔅 монеты (внутренняя валюта Yes Ai). Вы можете узнать текущие тарифы, отправив команду /prices в @yes_ai_bot
Описание баллов и монет для доступа к нейросетям содержится здесь: [Прочитать описание баллов и монет]
Подробности о платных тарифах Yes Ai: описание тарифов
Самым разумным решением будет старт бесплатного курса по искусственному интеллекту, через него вы не только познакомитесь с возможностями Yes Ai Bot, но и приобретёте полезные навыки по применению потенциала AI.
Для перехода в школу запустите бота Yes Ai, а в нижней панели кликните на «💥 Обучение».
- Техническая поддержка @yes_ai_support
- Телеграм-чат, где вы можете задать любые вопросы по нейросетям @yes_ai_chat
В уроке вы узнаете как можно ускорить генерации на Flux и SDXL в 1,5 - 2,5 раза и при этом не потерять в качестве.
💥 Для Flux мы установим Triton и WaveSpeed.
💥 Для SDXL будем использовать только WaveSpeed.
✅ Triton под windows позволяет поднять скорость на 30% без потерь качества.
✅ WaveSpeed при 30-50% увеличении скорости с определёнными настройками Sampler тоже не вызывает существенного понижения качества генераций.
🎦 СМОТРЕТЬ НА YOUTUBE (https://youtu.be/V1FqOClTN9A)
🎦 СМОТРЕТЬ НА RUTUBE (https://rutube.ru/video/74739553ee565854e2199c9ae3ebf120/)
🎦 СМОТРЕТЬ НА YOUTUBE
🎦 СМОТРЕТЬ НА RUTUBE
✅ Сегодня вы познакомитесь с лучшей на данный момент схемой LTX Video с поддержкой STG.
✅ Схемой апскейла видео на базе быстрой схемы Supir.
⏱️ Вы сможете генерировать 3, 5 и 10 секундные видео.
📌На RTX 4090: 10 сек видео генерируется за 2,5 мин, 5 сек в два раза быстрее.
📌На RTX 3060 12Гб схема генерирует 5 и 10 секундные видео но в 3 раза дольше.
Драконы 2.0 :)
или
или