Бесплатный доступ: не нужно подписываться на каналы для использования.
Собственная языковая модель: Craik 1 - мощная модель для генерации текста.
Анализ изображений: идентификация объектов на фотографиях, например, определение вида гриба.
Голосовой ввод: понимает и анализирует голосовые сообщения.
Минусы:
Иногда выдает ошибки при генерации: разработчики работают над исправлением этого недостатка.
2. ChatGPT & Midjourney | AI bot
Плюсы:
Доступ к ChatGPT: мощная нейросеть для общения и генерации текста.
Midjourney: платный доступ к мощному инструменту для генерации изображений.
Озвучка текста: платная функция для озвучивания сгенерированного текста.
Множество функций: как платных, так и бесплатных.
Минусы:
Лимит на запросы: 20 бесплатных запросов в день.
Ожидание перед отправкой: необходимо ждать 6 секунд перед каждым сообщением.
Платный доступ к некоторым функциям: например, анализ изображений, озвучка.
3. ChatGPT + Midjourney
Плюсы:
Подобен боту №2: предоставляет доступ к ChatGPT и Midjourney.
Больше лимита: более высокий лимит бесплатных запросов, чем у бота №2.
Минусы:
Платный доступ к Midjourney: генерация изображений доступна только за плату.
Меньше нейросетей в платной версии: по сравнению с ботом №2.
Более высокая стоимость подписки: 499 рублей за 30 дней.
Вывод:
Craik X является лучшим выбором для пользователей, которым необходим бесплатный и удобный бот с широкими возможностями, в том числе для анализа изображений и голосового ввода. Бот №2 и №3 предлагают более широкий спектр платных функций, в том числе доступ к Midjourney, но с более ограниченными бесплатными опциями.
«Ты сегодня взрослее стала, и учебу ты прогуляла…», напевает Виктор Цой в треке «Забирай меня скорей». Чуть позже в куплет врывается Егор Летов — в своей неподражаемой, казалось бы, манере кричит «Ну а как же я, ведь день рождения у тебя».
Переключаем трек. Теперь Михаил Горшенев из группы «Король и шут» на всем знакомый мотив начинает мелодично вещать, как беззащитны шипы белых роз, а затем сетовать на снег, морозы и лед витрин голубых.
Еще недавно такое можно было бы смело окрестить «Опиоидным кошмаром длинноволосого парня в напульснике с металлическими шипами». Но, как говорится, «мы живем, чтоб сказку сделать былью». Ну или чьи-нибудь ужасы, ведь эти композиции действительно существуют и прямо сейчас набирают прослушивания на площадках.
Всему виной AI
Пока все ужасались мухлежу, который устроили школьники и студенты с помощью ChatGPT, искусственный интеллект взялся за фанатов русского рока — он окунул их мертвых кумиров в пучину Шатунова и Жукова. Не сам, конечно. Нашлись умельцы из числа вполне себе человеческих мясных особей, у которых напрочь отсутствует какое-либо трепетное отношение к российским рок-иконам.
Называется все это AI-каверы. Как создаются такие композиции?
Для начала берется акапелла условного Михаила Круга (например, вырезается из его оригинального трека с помощью сервиса VocalRemover).
Затем скачивается модель голоса ушедшей рок-звезды (в сети полно необходимых файлов, можно найти на Discord-серверах или на специальных сайтах).
После этого исходники загружаются в нейросеть so-vits-svc (SoftVC VITS Singing Voice Conversion), либо же используются другие сервисы — например, Suno AI или Udio.
На выходе получается акапелла с голосом, например, Шевчука, попадающего в ноты и текст «Владимирского централа». Затем этот вокал сводится с инструменталом в FL Studio, Ableton или другой DAW. Готово.
Есть вопросы
А теперь представьте человека, для которого Егор Летов был «всем», а строчка «какая попсня, вырубите на***» поселилась где-то в области сердца. Услышать своего кумира завывающим простенькие мотивы для юных барышень — это бывает непросто.
Вот, например, комментарий с одного из форумов, посвященных русскому року:
— Егор Летов, Виктор Цой, Юра Хой — это не просто исполнители, это символы эпохи, голоса времени и поколения. Их творчество было проникнуто личными переживаниями, политическими и социальными взглядами, что невозможно воссоздать при помощи алгоритмов. Попытки AI создать новые песни в их стиле — это попытки коммерциализировать и упростить их наследие. Да еще и откровенно поиздеваться, наложив их голоса на всякие дебильные поп-песни. А вы не ох**ели? Я ненавижу AI-каверы.
Тем не менее, эти треки набирают много прослушиваний, а наиболее успешные варианты оказываются чуть ли не лучше оригиналов, судя по комментариям слушателей.
При этом далеко не все настроены негативно к AI-каверам. Вот еще несколько довольно интересных мнений:
— Считаю, что использование AI для создания новых песен и каверов в стиле Егора Летова — это интересный эксперимент. Конечно, это не заменит оригинального творчества, но такие композиции дают возможность вновь окунуться в атмосферу его музыки. Для нас, фанатов, это способ сохранить память о Летове и познакомить новое поколение с его наследием, — делится мнением другой фанат «Гражданской Обороны».
— AI-каверы с голосами Летова и Цоя привлекли мое внимание, хотя я не знал об этих певцах раньше. Теперь хочу изучить их оригинальное творчество. Видимо, технологии могут познакомить с музыкантами из прошлого. Мне интересно сравнивать, как звучат настоящие песни того же Летова по сравнению с AI-версиями, — рассказывает представитель молодого поколения.
Easy Money?
Зарабатывать на такой музыке, все же, не получится — как минимум инструментал-то остается чужой, а потому на площадках монетизации не будет. Но что, если удастся создать оригинальную музыку и даже, допустим, текст? Или, может, использовать какой-нибудь неопубликованный черновик умершего артиста?
Мы поговорили с автором YouTube-канала «Ай, гитарист!», публикующим нейрокаверы (в том числе с ушедшими из жизни звездами русского рока):
— На YouTube российская аудитория не монетизируется с 2022 года. Реклама показывается только другим странам, на которые не распространяются санкции. Доход незначительный может быть, так как основная аудитория всё таки российская. Как вариант, можно загрузить композиции на другие площадки (VK, Яндекс Музыка и тд). Но опять таки, черновики умерших артистов скорее всего с авторским правом. Хотя я делал одну песню на такой черновик Летова, есть на канале. Но с Ютубом попроще в этом плане. Тем более есть лицензия Content ID специально для каверов.
Эксперты отмечают, что сейчас вопрос авторского права на AI-произведения в РФ и в мире относится к сложным и дискуссионным. Популярно мнение, что обладателями прав на AI-музыку являются компании-производители онлайн-сервисов генерации треков. Более того, иногда это напрямую прописывается в публичной оферте таких сервисов.
Тем не менее, в сети полно обучающих материалов по заработку на AI-композициях — мол, создавайте музыку и монетизируйте на площадках. Многие сервисы разрешают коммерческое использование сгенерированного контента при условии оформления платной подписки. А значит всё возможно на этом поле экспериментов, и не только русском.
Так вот, одним полезным инструментом на ChatGPT 4o больше . Video Tutor извлекает и анализирует содержимое видеороликов, создаёт структурированные резюме, выделяя основные моменты и факты, а так же переводит с других языков.
Что еще крутого:
Video Tutorможет создавать диаграммы и даже викториныпо содержимому ролика.
Например, можно попросить выделить основные моменты и тезисы из видео конкурента и, вдохновившись, же написать на его основе сценарий для своего ролика.
Так как сейчас кастомные боты GPT's доступны и бесплатным пользователям ChatGPT, как и сама новая модель ChatGPT 4o, то Video Tutor доступен бесплатно с лимитом на сообщения. А безлимитно можно пообщаться в платной подписке ChatGPT, цена которой составляет все те же 20$. Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпиcывайтесь на мой телеграм канал НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса.
Привет, это Настя, руководитель отдела контента в Aigital — сервиса на основе нейросетей для решения маркетинговых задач. Мы придумываем и разрабатываем шаблоны, которые упрощают пользователям создание контента для рекламы, СМИ и соцсетей. Каждую неделю мы рассказываем о развитии стартапа и изнанке продукта.
Сегодня расскажу о создании Customer Journey Map (CJM) с помощью нейросетей, обновленном инструменте для удаления фона и генерации картинки на основе другого изображения.
Генерация картинки по референсу
На этой неделе мы добавили на платформу новый навык — генерация картинки на основе другого изображения. С помощью этого навыка можно решать множество прикладных задач: от генерации обложек для YouTube-видео в едином стиле до создания изображений для сайта компании или соцсетей. Он учитывает стиль, цветовую палитру и композицию предложенного изображения при генерации. Помимо этого навык учитывает и то, что указано в текстовом промпте.
Например, в поле «Референс» вы добавляете картинку — обложку с любого YouTube-видео, которая вам нравится по стилистике и цветовой палитре. В текстовом поле указываете, что вам нужна обложка для Youtube-видео с рецептом приготовления шашлыков для кулинарного блога. В результате вы получаете картинку с шашлыками, подходящую по тематике для вашего блога, а по стилистике, палитре и композиции похожую на изображение, что вы добавляли в качестве референса.
Генерация изображения в навыке «В стиле референса»
Под капотом навык работает следующим образом:
На первом этапе ИИ анализирует референс — GPT-4o подробно описывает картинку с разных сторон, прорабатывает её стилистику.
В параллель с этим другая нода GPT-4o берет текстовый запрос пользователя и переводит его на английский.
На следующем шаге GPT формирует объемный промпт, объединяя описание референса и текстовый запрос пользователя. Веса в нем расставлены так, чтобы нейронка понимала, на что следует обратить больше внимания, а на что меньше.
Этот текстовый промпт отправляется в Fooocus.
Fooocus умеет работать с входящими изображениями, поэтому вместе с текстовым промптом приходит и картинка-референс. Получается двойной удар по задаче — и со стороны текстового описания референса, и визуально — с ориентиром на само исходное изображение.
Fooocus сохраняет не только цветовую палитру, но и пропорции картинки-референса. Это особенно удобно, если требуется определенный размер изображения.
Генерация изображения в навыке «В стиле референса»
1/2
Картинка-референс (первое изображение) и результат генерации по референсу и описанию (второе изображение)
Далее обученная нами модель улучшает черты лица на картинке и передает ее пользователю.
Мы решили поэкспериментировать и сгенерировать стол со стульями на основе скрина нашего лендинга. Нейронка сохранила пропорции, забрала темно-серый на фон, а зеленый и белый в акценты.
Скрин нашего лендинга
Изображение сгенерировано в навыке «В стиле референса»
Создание Customer Journey Map с помощью ИИ
Навык «Путь пользователя» или Customer Journey Map для сегодняшнего разбора выбрало большинство читателей пятого дайджеста.
CJM — это карта пути клиента, которая показывает все этапы взаимодействия пользователя с продуктом или услугой. Она помогает понять, как клиент воспринимает ваш продукт, какие у него возникают вопросы и болевые точки на каждом этапе.
В этом навыке Aigital выступает в роли специалиста по CJM, глубоко знающего психологию, маркетинг, продуктовую разработку.
Перед тем как приступить к разработке карты пути клиента, важно четко понять, кто будет использовать ваш продукт и каковы их цели. Для этого нужно описать сам продукт, услугу и пользователя. Если у вас еще нет четкого представления о пользователе, можно воспользоваться навыком «3 портрета пользователя». В результате вы получите подробные портреты пользователей с учетом их дохода и психографики (интересов и взглядов) на основе описания вашего продукта.
В основу промпта лег фреймворк по Customer Journey Map от нашего продакт-менеджера Юры. Одна из компетенций Юры — как раз создание CJM.
Вы можете забрать этот фреймворк в Figma-комьюнити и использовать для презентации своей команде сгенерированный в Aigital CJM.
CJM должна включать не только общие этапы взаимодействия с продуктом, но и детализацию каждого шага. Подробный ответ генерируется под каждый шаг CJM, чтобы детальнее проработать задачу. Шаги пользователей, которые сейчас учитываются в навыке:
Онбординг (Onboarding) — первое взаимодействие клиентов с продуктом или услугой, знакомство с основными функциями и преимуществами.
Обзор ценности (Value Discovery) — глубокое изучение продукта или услуги, понимание его уникальной ценности и соответствия потребностям.
Рассмотрение вариантов (Consideration) — оценка плюсов и минусов продукта или услуги, принятие решения о покупке.
Покупка (Purchase) — процесс покупки.
Формирование привычки (Habit Formation) — включение продукта или услуги в повседневные привычки, развитие лояльности.
Распространение (Advocacy) — рекомендация продукта или услуги.
Наш сервис генерирует подробное описание каждого шага, отмечая следующее:
Какой цели я хочу достичь на этом этапе?
Какие действия мне нужно предпринять для достижения цели?
Какие трудности могут возникнуть?
Какие вопросы или сомнения могут появиться?
Где я могу ошибиться?
Что мотивирует меня двигаться к цели?
Какие эмоции я могу испытывать на этом этапе?
Отдельным пунктом в каждом шаге прописываются возможности для улучшения пользовательского опыта. В промпте для этого навыка мы прописываем, что CJM создается, чтобы повысить вовлеченность и снизить отток пользователей.
Наш фреймворк близок к маркетинговой воронке, но поскольку видов CJM довольно много, мы не хотим ограничиваться одним. Поделитесь в комментариях, какие шаги проходит ваш клиент, взаимодействуя с продуктом? В этом навыке мы планируем сделать выпадающее меню с выбором типа CJM.
Небольшие, но важные обновления
Еще немного о том, какие изменения в сервисе мы реализовали или готовим в ближайшее время.
Обновили «Удаление фона». Новый инструмент, на котором работает навык, очень быстро и гораздо качественнее отрабатывает задачу. Особенно это заметно на мелких деталях, например, на волосах.
Обратите внимание на волосы девушки
В раздел истории списаний добавили названия навыков, в которых происходили генерации. Теперь стало удобнее отслеживать, сколько вы расходуете кредитов на те или иные генерации.
Результаты генерации в текстовых навыках теперь приходят с форматированием — подзаголовки в них выделены жирным, маркированные списки аккуратно оформлены, если позволяет задача — добавлены эмодзи. Кроме того, теперь вы можете получать результат в виде таблички, достаточно указать это в пункте «Что учесть» или в своем запросе.
Надеемся, вы уже успели протестировать «Маркетологуса» и «Чат с ИИ». Мы готовим к релизу 10 новых ИИ-ассистентов, среди них будут эксперты по HR, SMM и SEO.
UPD:
Предыдущий выпуск «Дневника стартапа» читайте здесь.
В этом эпизоде подкаста рассмотрим, как работают большие языковые модели. Узнаем, как AI-агенты могут автоматизировать процесс взаимодействия с языковыми моделями. Обсудим также мультиагентные системы и фреймворки для их реализации.
AGI придет в 2031 году. Продолжительность жизни людей значительно вырастит, люди смогут жить до 500 лет в 2035. В 2038 году идеология мира изменится на новую. В 2040 году денег больше не будет.