Нейросети в контактных центрах и как их избежать.

В комментариях к посту про бота мегафон, я упоминал в комментариях, что был на конференции по RPA, ввиду своей специализации. Там был основатель компании представляющий нейросеть обработки голоса.
Это был один из немногих спикеров, который был интересен.
Данная нейросеть на рынке уже достаточно давно и хорошо натренирована. Она понимает несколько языков, при этом Вы в разговоре с ботом можете свободно переключаться между ними и бот все схавает. Технически это реализовано так, что аудиострим режется по отдельным словам и на разные сервера улетает по одному слову, для обработки. Этим обеспечивается скорость обработки, на одно слово не более 0,005 секунд, при том что одновременно нейросеть может обрабатывать более миллиона звонков. На этом же моменте стоит упомянуть вопрос, который был задан спикеру, как соблюдается закон о персональных данных, собственно этим и обеспечивается, что нейросеть не принимает одномоментно весь аудиострим, она принимает и обрабатывает обособленные куски стрим. Так же не обязательно ждать пока бот договорит, в функциях бота реализован разбор частот, то есть бот договаривая фразу так же "слышит" и обрабатывает Ваш аудиострим.
Помимо обработки голоса, нейросеть натренирована передавать "настроение" собеседника, интонацию, по которой как раз и обрабатывается правило, когда разговор переходит на агрессивные рельсы, разговор следует передать на оператора.
З. Ы. не хотите говорить с ботом, начинайте говорить агрессивно, Вас переведут на специально обученного человека.
З. Ы. 2 Ну и собственно про Мегафон, хотите разговаривать с оператором, просто молчите, у этого бота заложен такой алгоритм.

Вы смотрите срез комментариев. Показать все
1
Автор поста оценил этот комментарий

Автор, скажите плиз название фирмы разработчика. Ищем себе в колл центр хорошую нс

раскрыть ветку (14)
Автор поста оценил этот комментарий
А если нужно опыт перенимать живых людей и оцифровывать его, пиши сюда tsarenkopttk@yandex.ru
Автор поста оценил этот комментарий

центр речевых технологий

раскрыть ветку (11)
1
Автор поста оценил этот комментарий

Цртшники хороши, смотрим на них тоже) интересно есть ли аналоги

раскрыть ветку (10)
Автор поста оценил этот комментарий

А они уже научились нормально понимать речь в свободной форме? Я как-то брал у них в тест VoiceNavigator лет 5 назад. Даешь ему словарь - понимает. Что-то за пределами - фиг. В итоге ту же фамилию человека распознать было невозможно. Надеюсь сейчас у них таких проблем нет :)

раскрыть ветку (9)
Автор поста оценил этот комментарий

Ну за 5 лет в любом случае чему-то да научились) войснавигатор хотим вот потестировать и просмотреть . С фамилиями сложно , конечно

раскрыть ветку (8)
Автор поста оценил этот комментарий

Я сейчас глянул, они ссылаются на vxml.ru, а там статьи от 2013 года. В 2014 тестил в связке с астером и unimrcp. В общем, что меня категорически бесит, это необходимость давать ему словарь для распознавания. Я понимаю, у контор типа ржд/аэрофлот все просто - билет, откуда, куда и т.п. А если я хочу от юзера получить эссе на тему, расскажите пару слов о себе? Вот мне как это сделать? Сейчас на рутрекере почитал коменты по поводу их (црт) voco. Жуть и жесть. Эту хреновину надо еще учить. И это не гарантирует, что все будет понимать. Для сравнения - диктовка в айфоне или на андроид - понимает абсолютно все! На айфоне еще понимает аббревиатуры и пишет их капсом. Гоняли по автомобильной тематике, всякие термины и слэнг - практически все хавает. И вот вопрос - црт столько лет потребляет дотации от государства (ага, наши денежки) а на выходе до сих пор нет ничего нормального. Почему apple может нормально понимать свободную русскую речь, а наша контора - нет? Блин, пригорает от этого всего. Мне кажется в итоге дешевле будет поставить пачку айфонов и через них распознавать голос :)

раскрыть ветку (7)
Автор поста оценил этот комментарий

Все системы, независимо от производителя и технологии обучаются на речевых базах, из которых составляются словари. При распознании речи именно в них алгоритм ищет слова подходящие по признакам и контексту. В равных условиях эссе распознает не хуже других технологий. Фамилии, которых в базах нет все одинаково будут пытаться распознать как-то-так, без каких-либо гарантий. ЦРТ по большей части производит продукты для конкретных заказчиков, которые составляют конкретные словари и у этих заказчиков всё работает ожидаемо хорошо. Вы хаете то, о чём даже представления не имеете.

раскрыть ветку (6)
Автор поста оценил этот комментарий

Я имею представление о том, как это работает. Может я не эксперт, но все же. Так вот, я так и написал: тем, у кого словарь ограничен - никаких проблем, все работает. А кому требуется свободная речь - начинаются проблемы. Особенно в связке с unimrcp и asterisk. Возможно с Avaya или Cisco все работает гораздо лучше, но не все такие богатенькие. И вообще. Я человек простой: вижу разницу - об этом и говорю. Почему-то айфон и фамилии воспринимает и адреса и слэнг и аббревиатуры. А от црт 5 лет назад я не смог этого добиться. А судя по отзывам о voco, они и на сегодняшний день не сильно улучшили свои технологии.

И насчет конкретных заказчиков - тогда так бы и писали на своем сайте: voicenavigator для ржд. Или для аэрофлот. А то почитаешь рекламу, так панацея от всех проблем. А начинаешь вникать и выясняется, что "есть нюансы".

раскрыть ветку (5)
1
Автор поста оценил этот комментарий

Сложно конструктивно отвечать на сообщение, фактически являющееся эмоциональным откликом, нежели конструктивной критикой, но меня, как сотрудника компании, задела фраза про «безрезультативное потребление дотаций», поэтому мимо проходить не хочу.

ЦРТ работает с научными алгоритмами с момента своего создания, и начинала это делать в ранние 90е, когда у нас в стране кроме челноков, бандитов, приватизаторов-акционеров и мавроди бизнес не делал никто, тем более технологичный. Все эти годы существовал научный отдел, который работал над инвестиционными задачами не обеспеченными деньгами с дотаций и живых заказов, кстати замечу, что обработка речи это далеко не единственная и даже не основная ветвь их разработок. Итог этого- стабильные призовые места и места в десятке на мировой сцене в целой куче номинаций, в некоторых из которых ЦРТ и вовсе первые. 3 года назад в распознавании слитной речи нас обошёл только IBM и гугл. На Российском рынке мы на пьедестале практически во всём, что касается работы с аудио и видеобиометрией. ЦРТ держит кафедру в ИТМО и проводит бесплатные школы для желающих по научным алгоритмам и тестированию программного обеспечения, в последней я сам являюсь одним из преподавателей. Со всей России хантятся учёные с ключевыми навыками, научный отдел непрерывно растёт.


По поводу конкретной претензии- да, слитная речь на необученной модели распознаётся хуже, чем у компаний поделивших на двоих полтора миллиарда проданных устройств за прошлый год и с помощью шпионских закладок собравших с каждого из них базу для исследований. Кстати не настолько хуже, как вы написали. Статистически разница разумеется есть, но если говорить о разговорной речи и проводить тесты в равных технологических условиях, то она не столь существенна. А вот на обученной модели наше распознавание выигрывает всухую, я вам это точно говорю, лично видел результаты внутренного исследования.

Судя по тому что я прочёл, вы использовали продукт, который создавался для другого сценария работы, да ещё и делали это неправильным образом, а теперь выкладываете свой негативный опыт в публичный доступ с посылами, что это мол очередная распильная бригада, которая ничего путного не делает.

Что касается рекламы- увы, она везде такая, другая реклама, видимо, не продаёт. На это пенять странно.

раскрыть ветку (4)
Автор поста оценил этот комментарий

Мне понятна ваша позиция и тот факт, что вы знаете гораздо больше меня о внутренней кухне црт, позволяет вам оценивать продукт более объективно. Я же пишу о своем личном опыте 5 лет назад. Вот правда, все хорошо, что у вас передовые технологии и вы занимаете призовые места на конкурсах. Я - конечный потребитель. Я хочу получить определенный, конкретный результат от продукта. Я беру asterisk + unimrcp + voicenavigator. И обнаруживаю, что распознавать речь без словаря - нельзя. Никак. По телефону мне это подтвердили. А мне нужны были фамилии. И даже на простейших вариантах типа Иванов/Петров/Сидоров были проблемы (это если без словаря, как-то я тогда исхитрился). А потом я беру в руки айфон/андроид и он все прекрасно понимает. Вот как мне к этому относиться? Я просто взял поддерживаемую конфигурацию и не смог решить свою задачу, которая вроде как должна решаться.  Да, в каком-то ржд, где набор слов ограничен - не вопрос, я понимаю что ваш продукт работает на 5+.

Если считаете, что мой отзыв выше необъективен - давайте я попрошу модератора удалить его. Мне не сложно.

Я сейчас уже не вспомню, давно это было, но мне кажется, что буржуйские системы распознавания английского работают без закрытых словарей и понимают свободную речь достаточно сносно. Я кому-то когда-то поднимал голосовой ivr с opensource софтом и оно у него вполне годно работало. Не помню, что был за софт, но русский тогда точно не понимал. А потом вот попался в руки црт, почитал я рекламу - лучший в русском языке и подумал, ну сейчас все свои проблемы решим одним махом. Но не вышло :(

раскрыть ветку (3)
Автор поста оценил этот комментарий

Простите, что отвечаю с такой задержкой и за то, что наверное излишне резко написал прошлый ответ. Я сам не занимаюсь алгоритмами и речью, но стало "за державу" обидно =)

Нет, конечно отзыв удалять не нужно, это же ваш опыт, а я, в свою очередь передал по адресу обратную связь)

раскрыть ветку (2)
Автор поста оценил этот комментарий
Напишите на sarum.sv@gmail.com сброшу визитку через пару дней
Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку