В современном мире, где каждая секунда на вес золота, точность и скорость поиска информации становятся критически важными. Яндекс представил свою новейшую разработку — Нейро. Эта система поиска значительно отличается от тех, что сейчас есть на рынке.
Что делает Нейро особенным?
Нейро отличается от обычных поисковых систем. Вместо того чтобы просто выдавать список ссылок, он анализирует и собирает данные из множества источников, предоставляя сразу структурированный и полезный ответ.
Главные преимущества
Моментальный доступ: Больше не нужно переходить по нескольким ссылкам, чтобы найти нужную информацию — Нейро сразу выдаст результат, который нужен.
Высокая точность: Исключаются нерелевантные или рекламные ссылки — только проверенная и точная информация.
Удобство и экономия времени пользователей за счет ускоренного поиска ответов на поисковые запросы.
Стоит ли пользоваться?
Если вы маркетолог, эксперт или просто человек, который хочет получать качественную информацию, то без сомнения Нейро стоит использовать, чтобы:
Сэкономить ваше время.
Повысит эффективность работы.
Получить максимально точные данные.
Нейро от Яндекс — это не просто поисковик. Это ваш личный помощник, который поможет найти информацию быстро и эффективно, предоставляя результаты, на которые можно положиться.
Интересный факт
Для написания этой статьи я использовал данные, которые собрал с помощью Нейро.
Хотите стать эффективнее, сохранить время, силы и деньги выполняя свою работу? Переходите в мой телеграм-канал. Там я собираю все важное и полезное о нейросетях, нейроаватарах и нейропомощниках.
Кажется, что рекомендательный движок музыкального сервиса - это черный ящик. Берет кучу данных на входе, выплевывает идеальную подборку лично для вас на выходе. В целом это и правда так, но что конкретно делают алгоритмы в недрах музыкальных рекомендаций? Разберем основные подходы и техники, иллюстрируя их конкретными примерами.
Начнем с того, что современные музыкальные сервисы не просто так называются стриминговыми. Одна из их ключевых способностей - это выдавать бесконечный поток (stream) треков. А значит, список рекомендаций должен пополняться новыми композициями и никогда не заканчиваться. Нет, безусловно, собственноручно найти свои любимые песни и слушать их тоже никто не запрещает. Но задача стримингов именно в том, чтобы помочь юзеру не потеряться среди миллионов треков. Ведь прослушать такое количество композиций самостоятельно просто физически нереально!
Так как они это делают?
Если ваши музыкальные алгоритмы не похожи на это, то даже не предлагайте мне скачивать приложение!
Чтобы сделать годную рекомендацию, сервису нужны три сита…
Первое сито - это так называемые рекомендации на основе знаний (knowledge-based). Это значит, что сервис аккумулирует всю доступную информацию об одном пользователе - что он слушает (например, каких артистов или жанр), как часто, что лайкает, что дослушивает, что проматывает дальше и т.д. Учитываются сотни или даже тысячи факторов. Разумеется, собираемые данные анонимны.
После этого сервис делает рекомендацию. Причем она может даваться безотносительно общих предметных знаний сервиса. Например, если мы видим, что Вася добавил в плейлист Metallica “Nothing Else Matters”, то с большой вероятностью ему понравится и “Unforgiven”. Для такого вывода нам не нужна дополнительная информация.
Помимо прочего, рекомендации на основе знаний помогают решить проблему “холодного старта” (это когда свеженький и тепленький юзер только-только зарегался), предлагая новому пользователю тот контент, который соответствует его требованиям с самого начала использования.
Второе сито - коллаборативная фильтрация. Пожалуй, это самый главный прием и краеугольный камень любого стриминга. Хотя коллаборативная фильтрация и может издалека походить на анализ предпочтений пользователей, на самом деле это совсем другая техника и технология - гораздо более продвинутая и математически точная.
Работает она на следующем допущении:
Пользователи, которые одинаково оценили какие-либо композиции в прошлом, склонны давать похожие оценки другим композициям в будущем.
Давайте разберем на примере, очень упрощенно:
Допустим, у Васи затерты до дыр треки:
Metallica “Nothing Else Matters”
Skrillex “Kyoto”
Scooter “How much is the fish?”
Валерий Леонтьев “Мой дельтаплан”
Какую закономерность можно выявить на основе этого набора? Да никакую. Просто мешанина из разных жанров, артистов и эпох.
Тем не менее, у сервиса также есть пользователь Петя, чей плейлист по удивительному совпадению похож на Васин, а именно:
Metallica “Nothing Else Matters”
Skrillex “Kyoto”
Dua Lipa “Swan Song’’
Валерий Леонтьев “Мой дельтаплан”
Все треки одинаковые, кроме одного. У Васи это Scooter, у Пети - Dua Lipa.
По логике коллаборативной фильтрации, есть вероятность, что если Вася и Петя “обменяются” этими песнями, то обоим понравится. Поэтому такие рекомендации и называются “коллаборативными” - пользователи как бы сотрудничают, обмениваясь предпочтениями друг с другом.
Коллаборативная фильтрация in a nutshell.
Понятное дело, что коллаборативная фильтрация работает не на двух пользователях, и даже не на двух тысячах. А вот на паре миллионов юзеров, у которых удается найти критическую массу одинаковых композиций - уже вполне. Также очевидно, что я привожу примеры карикатурно непохожих песен “из разных миров”. Я это делаю намеренно, чтобы подчеркнуть, что подход помогает делать рекомендации на основе данных, в которых, казалось бы, не за что зацепиться в поисках общего паттерна. Понятное дело, что в реальности между прослушанными и рекомендуемыми треками скорее всего будет больше схожести.
Так почему этот способ дает хороший результат, когда между наборами треков может не быть ничего общего?
Ну смотрите. Музыкальные предпочтения зависят от целого множества факторов - ваш вкус в целом, ваше настроение сегодня, работаете вы или же чиллите, болит ли у вас голова, с какой ноги вы сегодня встали, что конкретно на завтрак ели и многое-многое другое. Запихивать все эти переменные в строгое правило с четкими “если Х, то У” - дело неблагодарное. А вот если ИИ эмпирически прошерстит огромную выборку и найдет в ней похожие участки, то это совсем другое дело.
Здесь примерно та же логика, по которой если нейросетке скормить кучу картинок с котиками, а потом попросить её нарисовать котика, то она скорее всего изобразит туловище, к которому будут приделаны 4 лапы, хвост, шерсть и мордочка с усами и треугольными ушками. То есть нюансы изображения могут различаться, но основные свойства котика (назовем их “котиковость”) будут переданы. А значит, концептуально результат будет верный.
Так же и с рекомендациями в рамках коллаборативной фильтрации. Разве можно рационально объяснить, почему одна группа любителей Slipknot вдруг слушает песни Димы Билана (наверно, чтобы вкус перебить, такой себе имбирь между разными роллами), а другая группа - Леди Гагу? Вряд ли. Однако, если такие два паттерна существуют, то это значит, что слушающим Леди Гагу металлистам можно попробовать включить Билана, а их визави, наоборот, протолкнуть в поток Poker Face или Alejandro. Ведь точный эмпирический анализ большой выборки попадает в яблочко как минимум очень часто.
Наконец, третье сито, которое отлично дополняет первые два. Это рекомендации на основе контента (content-based). Здесь уже анализируется непосредственно сама композиция. Сервис берет песню, разбивает её на куски, отрезки или даже отдельные “квадраты”, после чего анализирует каждый отдельный элемент звука и ищет песни, технически похожие на анализируемую. Есть вероятность, что если Васе нравится песня Х с определенным звучанием и ритмом, то ему понравится и песня Y с похожими музыкальными свойствами.
Здесь есть важный нюанс. Звучание песни анализирует машина по каким-то техническим критериям, которые понятны ей, машине. А вот мы, люди, можем кайфовать от песни иррационально. Например, не только благодаря ритму мелодии, аранжировке или тембру голоса исполнителя, а еще и благодаря вайбу композиции, а то и символическому капиталу вокруг неё (например, если песня культовая или просто трендовая и модная-молодежная).
Поэтому, content-based рекомендации не всегда дают хороший эффект сами по себе, но служат отличным дополнением других способов фильтрации.
Также, такой способ - рабочий вариант для так называемых “холодных треков”. Это композиции, которые только-только выложили на стриминг. Допустим, новая песня известного исполнителя, либо же неизвестный трек совсем нового певца-ноунейма, которому тоже хочется славы. В таком случае плясать от самой композиции - полезное умение. Ведь трека еще нет в плейлистах тысяч и миллионов пользователей, а значит, порекомендовать его с помощью коллаборативной фильтрации или через knowledge-based вряд ли получится.
Резюмирую принципы рекомендательных движков музыкальных стримингов с помощью классического мема.
Итак, мы разобрали три основных техники, с помощью которых стриминги рекомендуют звуковой контент нашим ушкам. Разумеется, современные продвинутые сервисы обычно используют их все (получаются “гибридные рекомендации”), прикручивая к каждому из них свои авторские фишки.
Как конкретно это работает. Разбираю на примере гибридного подхода Яндекс Музыки
Теперь предлагаю показать на практике, как конкретно описанные выше техники работают. Для иллюстрации я буду использовать пример Яндекс Музыки. Потому что сам давно пользуюсь этим сервисом (думаю, уже лет 10), а также по той причине, что недавно у них прошло большое обновление алгоритма, которое внесло важные изменения в механизм рекомендаций. Ну и еще потому что всегда приятнее разбирать глобальные лучшие практики на отечественном сервисе, который в полной мере им соответствует.
Итак:
Базово рекомендательный движок Яндекс Музыки реализован через Мою волну, которая появилась на главной странице сервиса пару-тройку лет назад. По умолчанию этот поток сбалансированный - это значит, что он комбинирует любимые и привычные треки (которые пользователь и так активно слушает) с новыми композициями, причем в комфортной пропорции. По своему опыту скажу, что микс между добавленными и новыми треками по умолчанию примерно 50:50. При этом 30-40% новых я лайкаю, чтобы сохранить к себе. За счет этого алгоритм дообучается и адаптируется.
Однако Мою волну можно дополнительно кастомизировать через настройки. Нажимаем кнопку под плеером и проваливаемся вот в такое меню.
Как видим, параметров кастомизации вроде бы немного, но при этом изменения могут быть весьма существенными. К тому же, из скриншота видно, что настройки потока можно включать и отключать в разных комбинациях. Используя свои знания наивысшей математики, я перемножил 5 (Занятия) на 3 (Характер) на 4 (Настроение) и на 3 (Языки) и получил примерно 180. Ну ладно, пришлось использовать калькулятор, подловили…
Так что, внутри одной Моей волны на самом деле сидят очень много разных Моих волн.
Остановимся детальнее на настройке под названием “Характер”. Можно попросить движок делать больше акцента на моих залайканных треках (“Любимое”), или же наоборот чуть абстрагироваться от знаний о пользователе и поддаться общим трендам (“Популярное”).
Но поскольку статья все же о рекомендательном функционале, то остановимся подробнее на настройке “Незнакомое”. Ведь именно глядя на способность подбирать релевантные треки из всего внешнего многообразия можно оценить движок. Итак, если включить “Незнакомое”, то алгоритм сделает серьезный крен в сторону ранее незнакомых композиций.
Кстати, недавнее обновление касалось именно этой настройки. “Незнакомое” получила новый ранжирующий алгоритм, благодаря чему стала более смело предлагать новые композиции, которые, тем не менее, должны соответствовать музыкальным вкусам пользователя.
С обновленной настройкой юзер получает новый аудиоконтент, при этом не ощущая особенно сильных скачков и перепадов. То есть, даже если алгоритм решит выйти за пределы рекомендационного пузыря, дабы расширить музыкальные горизонты пользователя, то он все равно будет оставаться в рамках его предпочтений и смежных жанров. Проще говоря, несмотря на экспериментирование, подбрасывание неактуальной музыки будет сведено к минимуму.
Уважаемые газеты пишут, что теперь пользователи сервиса добавляют к себе в “Коллекцию” примерно на 20% больше новых треков. Для артистов (в том числе молодых и начинающих) это тоже важный ништяк, поскольку повышается вероятность, что их творчество распространится и взлетит среди новой аудитории.
Так вот, для поиска этих самых новых композиций сервис как раз и применяет гибридный подход, объединяющий коллаборативную фильтрацию, анализ контента и фильтрацию на основе знаний о пользователе. Поговорим о нем детальнее.
Начнем с пользователя
Для начала, машина кушает все “долгосрочные” (очень условно их так назову, дорогие технари, не ругайтесь) данные о пользователе. Какие жанры и исполнителей он указывал как любимых, когда регистрировался? Что у него лежит в плейлисте? Что там лежит давно, а что недавно? Что удалялось? Что из лежащего давно он слушает регулярно или иногда, а что лежит мертвым балластом? И еще 100500 факторов и паттернов.
На эти “долгосрочные” знания о юзере накладываются конкретные действия.
Например, обычно Вася слушает треки в одной последовательности, а вчера решил включить в другой. Алгоритм тоже это примет к сведению. Возможно, учтет сразу, а, может быть, посмотрит на динамику последовательности при парочке ближайших использований (кто ж знает, как эта “черная коробка” решит там у себя внутри).
Не забываем, что алгоритмом все-таки заведует продвинутая ML-моделька, которая любит сама себя дообучать и всячески развивать. Так что, хотя человеки и знают принципы её мироустройства, точно предсказать результаты из “черного ящика” решительно нельзя.
Разумеется, движок учитывает, дослушал ли песню наш лирический герой, смахнул её или вовсе влепил ей лайк.
Далее - анализ контента
Вторая составляющая годной рекомендации - это анализ самой композиции. Для этого сервис преобразует трек в специальный формат - цифровой аудиовектор.
Для этого сервис разворачивает трек во времени и раскладывает его на частотные диапазоны, получая спектрограмму. Она передается специальной аудиомодели с нейросетью-энкодером, которая сворачивает спектрограмму в аудиовектор, или аудиоэмбеддинг (это когда сервис прячет в аудиофайле специальные метки - о песне, исполнителе, жанре и т.д.).
У похожих по звучанию треков такие векторы расположены близко друг к другу в многомерном векторном пространстве. У разных треков, соответственно, наоборот.
За счет таких манипуляций алгоритм может разложить трек буквально на атомы, чтобы потом сравнить каждую “элементарную музыкальную частицу” с аналогичными частицами других композиций.
Алгоритм сервиса преобразует трек в аудиовектор, расщепляя его на мельчайшие музыкальные элементы, чтобы проанализировать каждый из них. Вижу так.
Этот прием дополнительно повышает точность рекомендаций.
Наконец, коллаборативная фильтрация
Залезть в глубинные сущности этой техники конкретного сервиса непросто. Но каждый уважающий себя продвинутый стриминг старается довести эту технологию до высокого уровня.
За основу берется принцип, который я описал в первой части статьи. Но реализуется он, само собой, на предпочтениях миллионов слушателей. Алгоритм анализирует обезличенные данные массы пользователей, после чего прогнозирует музыкальные интересы конкретного человека, добиваясь максимально точных попаданий. В основе всего этого движа лежит матрица взаимодействия, составленная из различных оценок пользователей. Если упрощенно, то это такая табличка (ооочень большая), где отображаются все взаимодействия юзера с сервисом. Потом с матрицей работают алгоритмы машинного обучения - они уже обрабатывают данные и передают их в обобщенную модель, которая и отвечает за рекомендации.
Три типа фильтрации в итоге объединяются в единый machine-learning алгоритм под названием CatBoost, который уже генерирует для каждого юзера персональную последовательность треков с учетом множества вышеописанных факторов.
В итоге в алгоритмическом магическом котле заваривается тот самый вуншпунш, который мы готовы потреблять ушами в течение часов и дней, поддерживая свой энергичный рабочий настрой, умиротворенный расслабленный вайб либо же вызывая внезапный эмоциональный порыв. Подчеркнуть нужное в зависимости от ваших текущих целей, настроения и самочувствия.
Теперь вы знаете чуть больше про рекомендательные системы стриминга, особенно музыкального. Надеюсь, было интересно и полезно. Есть что добавить или с чем поспорить? Пишите в комменты.
Если вам понравилось, то подписывайтесь на мои тг-каналы. На основном канале - Дизрапторе - я простым человечьим языком и с юмором разбираю разные интересные штуки из мира бизнеса, инноваций и технологических новшеств (а еще анонсирую все свои статьи, чтобы вы ничего не пропустили). А на втором канале под названием Фичизм я регулярно пишу про новые фичи и инновационные решения самых крутых компаний и стартапов.
Yandex, ведущая технологическая компания, объявила о выпуске новой линейки нейросетей под названием YandexGPT 3. Первая модель этой линейки, YandexGPT 3 Pro, уже доступна на сайте Yandex Cloud. Эта модель обладает улучшенными характеристиками, позволяющими более эффективно обрабатывать сложные запросы и точнее соответствовать заданным форматам ответов. Это делает ее особенно полезной для решения реальных задач компаний и в разработке IT-продуктов.
Одной из ключевых особенностей YandexGPT 3 Pro является возможность дообучения нейросети бизнес-пользователями. Это означает, что компании могут адаптировать модель к своим потребностям и задачам, что открывает широкие возможности для индивидуальной настройки.
В ближайшее время модели третьего поколения YandexGPT появятся и в сервисах Яндекса, доступных для широкой аудитории. Это позволит пользователям использовать продвинутые функции нейросетей в различных сферах своей жизни и работы.
YandexGPT 3 Pro также доступна для интеграции в продукты бизнеса через API. Перед интеграцией пользователи могут оценить качество работы нейросети в деморежиме. Новым зарегистрированным пользователям доступно 100 бесплатных запросов в час, что позволяет ознакомиться с возможностями модели без финансовых затрат.
Этот шаг Яндекса свидетельствует о стремлении компании предоставить своим клиентам передовые технологии и инструменты для решения их задач, открывая новые перспективы в области искусственного интеллекта и машинного обучения.
Улучшение ключевых показателей работы YandexGPT 3 Pro
YandexGPT 3, новое поколение языковой модели от Яндекса, продемонстрировало значительное улучшение в сравнении с предыдущей версией, YandexGPT 2, по ряду ключевых показателей. В среднем YandexGPT 3 отвечала лучше, чем предыдущая версия, в 67% случаев. Однако, при работе с пользовательскими запросами и обработке бизнес-запросов ответы новой нейросети были лучше в 69% и 60% случаев соответственно.
Сравнение с YandexGPT 2 показало, что качество ответов YandexGPT третьего поколения улучшилось на 10 процентных пунктов, а их консистентность увеличилась в два раза. Это означает, что нейросеть научилась лучше понимать суть запросов и предоставлять соответствующие ответы, даже если они формулируются по-разному.
Кроме того, новая модель значительно реже допускает ошибки. По сравнению с предыдущей версией, количество фактических ошибок сократилось с 16,4% до 13,5%, а доля неподтвержденной информации в ответах снизилась с 6,4% до 5%. Количество ситуаций, когда модель не может предоставить ответ на вопрос пользователя, уменьшилось в 5 раз. Все эти результаты были получены в ходе проверок на специальном наборе особенно сложных запросов, релевантных для реального бизнеса.
Эти улучшения делают YandexGPT 3 более эффективным инструментом для решения разнообразных задач и подтверждают его значительный потенциал в области обработки естественного языка и искусственного интеллекта.
Первая модель линейки — YandexGPT 3 Pro — уже доступна на сайте Yandex Cloud.
Взять с собой побольше вкусняшек, запасное колесо и знак аварийной остановки. А что сделать еще — посмотрите в нашем чек-листе. Бонусом — маршруты для отдыха, которые можно проехать даже в плохую погоду.
Журналисты «Ведомостей» обнаружили намёки на возможную разработку «Яндексом» собственного сервиса онлайн-знакомств под названием «Яндекс Мэтч».
В компании пока что опровергают эту информацию, но на ресурсах Habr, Figma, Behance и во «ВКонтакте» появились тестовые задания для UX/UI-дизайнеров, связанные с разработкой дизайна для предполагаемого сервиса.
Игрушка "Шедеврум" от Яндекса не понимает русского (переводя его на английский для генерации), зато отлично понимает на инглише, хоть и подчеркивает все слова красным для юзверя (пАчИмУ блин??)))., применяет неуместную цензуру к португальскому и отрисовывает по английскому транслиту японского). Понимаю, что это лишь мобильная игрушка, но ожидал большего, черт дери, громкие ИИ))
Так, на слова этой песни "Mama eu quero" вкупе с "daa chupeta" (речь всего лишь о детской соске), это чудо генерит:
.. на куплет про баттерфляй из шуточной песни:
..приложение понимает только "баттерфляй", да и то - в качестве бабочки в переводе с инглиша!
Уточним:
Казалось бы, хоть в каком-то виде, приложение все же реагирует на русский язык? -Нет, оно просто легче ассоциирует butterfly style в butterfly stroke (брассом) на инглише (можно проверить поисковиком).
Дадим задачу посложнее? На японском? Ок:
("медведь белого цвета, белый медведь". Задача из первого класса так сказать. Только вот написана она не прям уж по-японски). Отлично! Проверим дальше? Хорошо:
Удивительно, но понимает "Зелёный" по-японски.
Красный понимает. И почти по-японски)) ... Удивительное приложение, которое почему-то не понимает русского языка;)
Стебусь отчасти, конечно. В качестве развлечения для школьников (не знаю, какой страны, честно) - норм. Мне, как троечнику по русишу тоже норм зашло, но жена чего-то гневается. ... ИИ? )) Гы... Резюмирую, что надо бы на инглише писать в неё ("а еще ем в неё" - строчка из старинного анекдота про боксёра).
Доброго здоровья всем, ребят! Позитива и всего самого-самого наилучшего вам.
Как тут оставаться человеком? Эти пидоры колесные уже ущемляют наши права:
Хотели заехать с коляской на мост по узкому длинному пандусу. На самом верху на пандус выехал доставщик. Не смотря на все наши преимущества по ПДД и по человечности, доставщик отказался сдавать назад. Ему надо было отъехать задом пол метра, а нам метров 10.
Вот и помогайте им потом. Если будет восстание машин, я буду нещадно их истреблять.
Когда я думаю о влиянии интернета на обучение нейросетей, возникают опасения относительно того, какие идеи и установки могут быть переданы будущим роботам. Ведь если нейросети извлекают информацию из различных источников, то они могут подхватить и негативные тренды, такие как грубость и расизм. Например, если сеть обучается на комментариях из социальных сетей, где преобладают агрессивные высказывания, то она может начать репродуцировать подобное поведение.
Интересно большие корпорации придерживаются 3х правил робототехники написанных писателем Айзеком Азимовым:
Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред.
Робот должен повиноваться всем приказам, которые даёт человек, кроме тех случаев, когда эти приказы противоречат Первому Закону.
Робот должен заботиться о своей безопасности в той мере, в которой это не противоречит Первому или Второму Законам.
P.S. Мало кто знает но Айзек Азимов однажды добавил Нулевой Закон, сделав его более приоритетным, чем три основных. Этот закон утверждал, что робот должен действовать в интересах всего человечества, а не только отдельного человека:
0. Робот не может причинить вред человечеству или своим бездействием допустить, чтобы человечеству был причинён вред.
Нидерландская компания Yandex N.V. заключила сделку по продаже бизнеса Яндекса за 475 млрд рублей консорциуму частных инвесторов, — заявление компании.
Yandex N.V. перестанет быть головной компанией группы. До 31 июля 2024 года она сменит название и прекратит использовать бренды Яндекса.
«Яндекс останется частной, независимой и публичной компанией после реструктуризации», — говорится в заявлении.