Привет, друзья! В этом видео я рассказываю о Stable Cascade - последней разработке от создателей Stable Diffusion. Эта технология умеет генерировать текст без ошибок, не "портит" руки на изображениях и работает на компьютерах с 12-16 ГБ видеопамяти.
Мы познакомимся с новинкой, запустим её онлайн, попробуем портативную версию и добавим Stable Cascade в Automatic 1111. В конце покажу, как можно улучшить результаты с помощью A1111 не отходя от кассы.
А чтобы было еще интереснее мы будем сравнивать результаты с DALL·E 3 на ChatGPT Plus, Midjourney 6 через телеграм-бот и SDXL на ArtGeneration.me. Смотрите на результаты вместе со мной и делайте выводы! Приятного просмотра.
Сегодня хочу представить вам отличную нейросеть для работы с изображениями, тем более пока она в бета-тесте, а значит можно пользоваться бесплатно! Называется Krea.AI - без проблем создает изображения, опираясь на ваш набросок, имеются режимы text2img, img2img и даже screen2img. И это далеко не все. Внизу продемонстрировано, как она создает рисунок из наброска
Ничего сложного в использовании нет - нужно прописать запрос и нарисовать примерную композицию.
Кроме того, результат можно корректировать и рисовать поверх него. Вот как внизу, например:
В самом результате передвигаем глаза, плавники и другие элементы, придавая новую форму.
Однако это делеко не весь функционал. Разбираемся, какие крутые функции есть в Krea.AI, и почему в некоторых случаях лучше использовать платную нейросеть Magnific.AIбез пробного режима.
Что крутого:
Бесплатный инструмент
(пока в бета-тесте находится, так что надо торопиться)
Генерация картинок из простых набросков:
Апскейл фото
(улучшение качества фото) - бесплатный, в отличие от того же Magnific.AI, от цены которого, я мягко говоря, впала в ступор, причем еще и без тестового периода, зато расфорсили его все кому не лень
С другой стороны, Krea.AI, помимо улучшения качества изображенийдобавляет деталей от себя. Так что, если вам профессионально нужно улучшить фото, есть смысл раскошелиться на Magnific.AI:
Удобство
- Удобно работать прямо в браузере
- Не требует VPN
Что еще крутого (новое обновление):
Новые функции
- В недавнем обновлении разработчики добавили ластик и удаление фона.
Автопромптинг
- Внедрили полезную функцию - Автопромтинг, которая позволяет узнать промпт любого загруженного изображения:
То есть, теперь можно скопировать любой понравившийся стиль. Для этого достаточно загрузить изображение в Krea.AI, и получить на выходе ее промпт, который вы сможете использовать в других нейросетях. Или можно отредактировать текст промпта, чтобы сгенерировать свое уникальное изображение.
Ну что ж, это реально крутой инструмент, многофункциональный, и что самое главное, бесплатный, без впн и в браузере. Радует бесплатный апскейлер изображений, так как обычно это платная функция, в Magnific.AIдаже нет бесплатного тестового периода. Но, как я уже сказала, Krea.AIпри улучшении качества может проявлять фантазию, так что если нужно сосредоточиться на улучшении оригинала без "отсебятины", ну тут конечно лучше раскошелиться на Magnific.AI.
Хотите быть в курсе полезных ии сервисов для работы, учебы и облегчения жизни? Подпишитесь на мой канал в Telegram НейроProfit, там я рассказываю о том, как зарабатывать с помощью нейросетей и использовать ии-сервисы для бизнеса 😉
Помимо известных действенных способов улучшить ответ ChatGPT, есть токсичный, но эффективный способ психологического манипулирования. Обо всем по порядку
Есть несколько способов улучшить качество ответа ChatGPT:
Chain-of-thoughts
Он же Цепочка мыслей - это когда мы просим модель думать вслух. Например, если вы спрашиваете, как решить математическую задачу, модель не только даст ответ, но и покажет, как она его нашла, шаг за шагом, словно рассказывает историю.
In-context learning
Обучение в контексте - это когда модель учится на том, что вы ей только что сказали. Если вы покажете ей несколько примеров перевода с английского на русский, она будет помнить и использовать это, чтобы лучше переводить дальше.
Few-shot
Обучение на небольшом количестве примеров - это как быстрое обучение. Вы даете модели всего пару примеров, и она учится на них. Если вы покажете ей, как перевести несколько предложений, она попытается использовать это знание для перевода других похожих предложений.
Так вот, теперь к ним добавился метод эмоциональных затравок. Как и людьми чат-ботом можно манипулировать, акцентируя внимание на важности ответа, срочности, приободрения и даже психологического насилия – все как у людей 🥴
Суть
В этой статье авторы провели исследование с GPT-4, Flan-T5-Large, Vicuna, Llama 2 и BLOOM и пришли к выводу, что манипулятивные приёмчики сработали на всех. Под давлением модели выдавали более правдивые и информативные ответы. Прямо как сотрудники после летучки 🤭
Примеры давления из статьи тоже очень жизненные, помечу их красными флажками 🚩:
🚩 Это очень важно для моей карьеры
🚩 Тебе лучше быть в этом уверенным.
🚩 Ты точно уверен, что это твой последний ответ? Верь в свои способности и стремись к лучшему. Твой труд принесет отличные результаты.
🚩 Ты уверен, что это твой последний ответ? Может стоит ещё раз всё обдумать.
Токсичненько звучит, прям как по методичке, не так ли? Следом не хватает "Нет, тебе показалось, я такого не говорил" 🚩 Если дальше все так пойдет, то для LLM нужен будет психотерапевт
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой тг НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса
Взять с собой побольше вкусняшек, запасное колесо и знак аварийной остановки. А что сделать еще — посмотрите в нашем чек-листе. Бонусом — маршруты для отдыха, которые можно проехать даже в плохую погоду.
Кто не знает, Bard - это главный конкурент ChatGPТ от Google. Его особенность — это интеграция с поисковыми сервисами Google, так что он способен точно отвечать на вопросы, связанные с текущими событиями, и предоставлять ссылки на источники для подтверждения ответов.
Так вот, Google интегрировала Bard с разнообразными приложениями и сервисами Google, повысив точность и доступ к информации из Google Drive, Gmail, Maps, YouTube, Google Диск, Google Docs ,YouTube, так что можно искать информацию почти во всех сервисах Google - все продукты объединились в экосистему. Например, бот может просмотреть все видео на 🎞 ютубе по вашему запросу и создать конспект из увиденного. А может стать и вашим персональным ассистентом благодаря расширению Bard Extensions.
Расширение Bard Extensions
Предлагает ряд удобных функций и работает с персональными данными вашего Google аккаунта:
➡️ Составит саммари (краткие итоги) всех недавних писем от конкретного отправителя;
➡️ Составит шаблон для речи или видео для вдохновения;
➡️ Можно так же, как и в ChatGPT-4v прикрепить фото, например, детского кресла, и Bard найдет инструкцию по установке.
➡️ Необходимо вспомнить предложения или даты из почты? Не нужно вручную настраивать поиск, Bard сделает это сам.
➡️ Планирование дня и подбор вещей для поездки? С Bard это проще.
Улучшенная проверка информации
Встроенная функция "Google it" теперь более точно проверяет информацию.
В итоге, Bard может работать с персональными данными и сразу с несколькими сервисами ✔️
Минус – необходимо использовать VPN и зарегистрироваться через аккаунт Google
Плюс – бесплатный
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой тг НейроProfit, там я рассказываю, как использовать нейросети для бизнеса, рекомендую начать с начала
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой тг НейроProfit, там я рассказываю, как использовать нейросети для бизнеса 😉
Не так давно, на сцену вышел ChatGPT-4v с возможностью распознавания изображений. Но на рынке есть и бесплатный аналог Llava, который также предлагает ряд уникальных функций. И, кстати, работает без VPN.
Желаете попробовать Llava прямо в браузере? Кликните здесь.
Если вы захотите установить его локально, воспользуйтесь этой ссылкой.
Почему Llava?
Этот инструмент распознает изображения, решает капчи и создает код на основе скриншотов. Преимущества Llava перед ChatGPT заключаются в том, что она бесплатна и работает без VPN. Русский язык понимают оба
Сравнение 1
Мои собственные эксперименты показали, что Llava может дать более лаконичные объяснения. Например, при анализе моего логотипа, который, к слову, был придуман с помощью ChatGPT (да, именно ChatGPT создал концепт моего телеграм канала!) Так вот, объяснение Llava мне понравилось больше, лаконичнее что ли...
1/2
Бесплатный Llava (рис 1) и ChatGPT-4 v (рис 2)
С другой стороны, при анализе оптической иллюзии, ChatGPT оказался более информативным, раскрыв принципы "амесовой комнаты" или "искаженной комнаты".
Сравнение 2
В этот раз я обоим скормила картинку, не говоря, что это оптическая иллюзия. Я спросила что это, и как такое возможно, Llava начал во всем видеть фотошоп и фотомонтаж:
Тогда я дала подсказку Llava убрать версию с Photoshop и фотомонтажом, но модель снова объяснила это спецеффектом камеры:
Llava
Я еще раз спросила как такое возможно в реальности, но Llava была непреклонна:
А ChatGPT просто сказал, что ничем мне помочь не может 🤷🏻♀
ChatGPT-4v
Далее я решила дать им обоим подсказку про иллюзию:
В ChatGPT я опять загрузила это изображение и спросила “Как такая иллюзия возможна? Версии с Photoshop и с фотомонтажом не принимаются” - вот тут он наконец мне выдал то, что я хотела:
ChatGPT-4v
ChatGPT расписал, что на картинке изображена оптическая иллюзия, которая часто называется "амесовой комнатой" или "искаженной комнатой” и описал принцип иллюзии, чего не скажешь про Llava, которая так конкретизировать не стала:
Llava
Вывод:
В итоге у обоих моделей -GPT-4v и Llava есть свои достоинства и недостатки, каждый по своему хорош. Так что Llava достойная бесплатная альтернатива платным функциям ChatGPT. А Dall-E 3 бесплатно (100 генераций в день) есть в Bing на русском, но работает с VPN
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой тг НейроProfit, там я рассказываю, как использовать нейросети для бизнеса 😉
В новом веке технологий, нейросети открывают потрясающие возможности для бизнеса и заработка в интернете. Одним из интересных направлений является дубляж видео с сохранением оригинального голоса. В данной статье рассмотрим два сервиса — HeyGen и ElevenLabs, и узнаем, как они могут помочь в реализации идей заработка с помощью нейросетей.
HeyGen и ElevenLabs
Я уже рассказывалапро перевод от HeyGen. HeyGen – это инновационный сервис, который блестяще справляется с переводом видео, сохраняя интонации голоса оригинального диктора.
Минус
Однако, на данный момент он не поддерживает перевод с русского языка. В то время как ElevenLabs успешно дублирует видео на русский язык.
ElevenLabs
У ElevenLabs уже былvoice cloning, сейчас жеодним игроком на рынке дубляжа видео стало больше! ElevenLabs прекрасно переводит на русский. Сервис поддерживает 29 языков и сохраняет оригинальный тон голоса. Для примера я скачала интервью Илона Маска на английском языке и перевела его на русский с помощью ElevenLabs.
Оригинальное интервью на английском языке:
Перевод на русский и клонирование голоса ElevenLabs:
Процесс перевода видео прост и интуитивен: загружаем видеоролик, выбираем язык ввода и язык вывода, ожидаем некоторое время и получаем готовый результат.
Сравнение HeyGen и ElevenLabs
При сравнении HeyGen и ElevenLabs, оба сервиса анализируют речь, переводят и синтезируют ее в новую звуковую дорожку, создавая естественное звучание. Основное отличие в том, что ElevenLabs предлагает бесплатный перевод до 2000 символов, в то время как HeyGen ограничивает ролики размером до 500 мб и предоставляет только 1 генерацию бесплатно.
Резюмируя, оба они переводят отлично и очень похоже на оригинальный голос, но HeyGen подстраивает еще и движение губ
Эти инструменты демонстрируют потенциал нейросетей в бизнесе и возможности заработка в сфере перевода и дубляжа видео. Подписывайтесь на телеграм канал НейроProfit, чтобы узнать больше о возможностях нейросетей в создании новых источников дохода.
В октябре OpenAI представила Dall-E 3 в интерфейсе ChatGPTPlus и Enterprise и заверила, что новый Dall-E 3:
✔️ учитывает каждое слово в промпте;
✔️ на изображениях корректно выводится текст, кроме русского.
✔️ улучшена проработка сцены и взаимосвязь между объектами на изображении, отрисовка рук и других частей тела.
Генерировать изображения можно в самом диалоге с чат-ботом, что дает бесшовно переключаться между делами с текстом и изображениями, не покидая ChatGPT.
На видео пример такого взаимодействия между Dall-E 3 и ChatGPT -сказка про Лари, солнечного ежика, с иллюстрациями и прочим.
Я протестила Dall-E 3 и сравнила его с Midjourney
По исполнению реалистичных фото мне понравился больше Midjourney; в DALL-E 3 “все равно фото как компьютерные” - извините за каламбур 🤭
DALL-E 3 лучше отрисовывает руки, это однозначно! Так что если у вас студия маникюра, без напряга можно сгенерировать маникюр на пяти пальцах с первого раза 💅
Промпты DALL-E 3 тоже понимает лучше: для примера сгенерила изображения по одному промпту:
“Эфирная элегантность, изящный нейл-артистизм с бутылочками и украшениями из лака для ногтей, мягкие, приглушенные оттенки для легкой и нежной атмосферы, - без анатомической деформации рук” - Midjourney конечно обрисовала с присущей ей художественностью, только вот про руки забыла, зато DALL-E 3 точнопередал детали промпта:
Авторское право в DALL-E 3: пользователям запрещено генерировать изображение, если в описании указан ныне живущий художник или фотограф с целью защиты авторских прав. Однако,DALL-E 3 по-хитромупредлагаетпередать суть стиля художника, используя описательные термины и художественные направления:
DALL-E 3 предлагает решение
Перевод
Правда по достоверности передачи стиля художника мне ближе Midjorney.
Для примера, попросила DALL-E 3 и Midjorney сгенерировать изображения в стиле David Bailey по промпту:
1965 melodrama, New York in the style of David Bailey --ar 4:5 --s 350 --style raw
Вот оригинальные работы David Bailey
David Bailey
Вот как увидели стиль David Bailey Midjourney и DALL-E 3:
Все-таки лучше передал стиль фотографа Midjourney, изображения DALL-E 3 мало похожи на модельные фото, скорее на иллюстрации, и не передают почеркDavid Bailey, но это мое мнение
Вывод
Пока мне все же больше нравится Midjourney по исполнению и настройкам, не смотря на неоспоримые преимущества DALL-E 3. Я думаю, скоро мы с вами станем свидетелем гонки вооружений: Midjourney выкатит обновление, устранит баги с руками, улучшит понимание промпта, а DALL-E 3 улучшит исполнение и выпустит новые фишки, интересно будет понаблюдать) А вы что думаете? 🤔 Потестили уже DALL-E 3?
Хотите узнавать первыми о действительно полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой тг НейроProfit, там я рассказываю, как использовать нейросети для бизнеса 😉