Ответы на пост «Что скрывает MAX #2: В мессенджер встроена система распознавания ключевых слов во время звонков»

Ответы к посту

Что скрывает MAX #2: В мессенджер встроена система распознавания ключевых слов во время звонков

Ответ на пост «Что скрывает MAX #2: В мессенджер встроена система распознавания ключевых слов во время звонков»⁠⁠

2 месяца назад

Любой компьютер (смарт - это тоже компьютер) с микрофоном, или с камерой за тобой бдит, чтобы своевременно тебе подсунуть "нужную" тебе рекламу - это же очевидные вещи.

Это бдение в ряде случаев поможет бороться с потенциальным терроризмом, а также иными преступлениями.

Как пример, камеры сейчас везде вешают - никто не возмущается, и раскрываемость, кстати, улучшилась заметно.

Случись сейчас с нами какое-то несчастье на улице, мы все чаще и чаще крутим головой в надежде найти камеру, смотрящую на место, где нам причинили ущерб.

Весь мир идет по пути тотальной слежки - чего ты этого боишься, неизбежного и непредотвратимого? Может ты злодей, или глупец, воюющий с ветряными мельницами?

Тебя напрягает, что ты не можешь теперь говорить и делать то, что раньше мог говорить и делать? Даже несмотря на то, что то, что ты говорил и делал нарушало закон (иногда).

Ну так это результат не слежки, а изменения текущих законов в угоду заинтересованных лиц.

Результат слежки - увеличение степени неотвратимости наказания (ответственности).

Мы хотим делать то, что нельзя, но не задумываемся о том, почему это что-то стало нельзя - вот где основной момент - надо из "нельзя" что-то превращать в "можно" путем корректировки соответствующих норм закона, тогда и не будет страхов слежки.

Однако ж мы хотим чтобы можно было безнаказанно делать то, что нельзя, не меняя по сути ничего (хотим сидеть на жопе ровно и возмущаться лишь).

Не хочешь, чтобы за тобой следили - покупай телефон кнопочный без камеры (но и там есть микрофон), передвигайся по канализационным каналам (чтобы камеры не засекли).

Секта "дьявольского номера" ИНН, СНИЛС, паспортного номера и т.п. во все времена будет, я так чувствую.

П.С. в то же время я не удивлюсь, если скоро появится некий "социальный" рейтинг, зависящий от лояльности к чему-то, основанный на слежке за тобой.

И уж совсем из инфантилизма высказывание - ну так меняй критерии определения этого рейтинга в силу своих возможностей.

Показать полностью

SanchesRock

Ответ на пост «Что скрывает MAX #2: В мессенджер встроена система распознавания ключевых слов во время звонков»⁠⁠

2 месяца назад

Заранее извиняюсь, что отдельным постом, но хочу узнать мнение ITшников и просто знающих людей.

Можно ли сделать мессенджер, чтобы он использовал только p2p соединение, не отправляя данные на сервер? То есть если абонент в сети, то сообщение уходит напрямую к нему, если не в сети, то висит только на устройстве отправителя.

Первоначальный коннект совершать с помощью блютуз или используя mac-адрес устройства, либо любым другим физическим способом.

Я не говорю, почему до такого не додумались, я лишь хочу знать какие сложности могут быть в такой реализации.

Заранее спасибо за ответы.

Budoma

Ответ на пост «Что скрывает MAX #2: В мессенджер встроена система распознавания ключевых слов во время звонков»⁠⁠

2 месяца назад

Интересно, а приложение VK ничего подобного не делает, случайно? Если МАХ так шпионит, то почему не приложение VK?

А никто, случайно, не знает, как сделать простенький файл html со всего двумя полями: ввод - "имя канала YouTube" и кнопкой "не рекомендовать видео с этого канала!" ?

А то эти падлы повадились подсовывать в текущий просмотр всякую погань, но отказаться от неё можно только если канал попадет в "мои рекомендации" на главной странице Ютуба, а там этой срани нет, за редчайшим исключением, Ютуб не любит, когда его политические ролики пытаются заигнорить.

Смотрят дети мультик, хренакс - очередной политический высер встал в показ!

Я пытался разобраться, рассмотрев свойства кнопки "не рекомендовать видео с этого канала", но там само действие не задано, только название кнопки. А что происходит по ее нажатию - хез, должен уходить запрос на ютуб с именем калаза и командой блокировки.

Показать полностью

Информационная безопасность Мессенджер MAX Реверс-инжиниринг Распознавание Приватность Ответ на пост Текст YouTube Без рейтинга

8030

p1llag3r

Что скрывает MAX #2: В мессенджер встроена система распознавания ключевых слов во время звонков⁠⁠

Серия Что скрывает MAX

2 месяца назад

Это вторая статья в цикле «Что скрывает MAX»

В первой статье я разобрал как MAX собирает ваш IP, определяет VPN и какие сайты из вашей сети. Как MAX помогает РКН строить железный занавес: VPN-детект, сбор IP и проверки на Госуслуги

Дальше - про звонки. В MAX встроена система распознавания ключевых слов (KWS - Keyword Spotting). Нейросеть, которая прогоняет аудио с микрофона прямо во время разговора.

Сразу важное: это не кликбейт

Я не утверждаю, что MAX прямо сейчас слушает ваши разговоры в поисках слов вроде «Путин», «митинг» или «VPN». Текущая модель распознавания обучена только на фразу «не слышу» - по задумке это для определения плохой связи. Прямо сейчас функция выключена на сервере.

Но....я разобрал архитектуру, проследил весь код от микрофона до отправки на сервер - и вот что важно:

VK может подменить нейронку на любую другую когда захочет (будет проверка на новые слова)
Замена происходит без обновления приложения - достаточно изменить один URL в серверном конфиге или обновить уже существующую (Приложение само подтянет новый набор слов)
При срабатывании - результат улетает на сервер VK
Пользователь ни о чём не знает, согласие никто не спрашивает

TL;DR

Во время звонков в MAX работает система распознавания ключевых слов (KWS) на базе нейросети BC-ResNet
Она подтягивается с серверов VK, работает на устройстве внутри WebRTC (технология для звонков)
Сейчас модель обучена на фразу «не слышу» и выключена сервером ("use": false)
VK может: включить KWS одной настройкой и поменять список слов на проверку, сделать это для конкретного пользователя - без обновления приложения и без уведомления
KWS работает только во время звонков, не в фоне, не на голосовых сообщениях
При срабатывании - автоматический отчёт на сервер VK с уровнем уверенности

Часть 1: Что я нашёл (для всех)

1. Что такое KWS и как это работает

KWS (Keyword Spotting) - распознавание конкретных слов в аудиопотоке. Вы с этим знакомы: «Окей, Google», «Привет, Алиса», «Hey Siri» - всё это KWS.

Принцип простой: нейросеть берёт звук с микрофона, режет на кусочки по 10 миллисекунд и на каждом решает - это ключевое слово или нет?

VK встроил такую штуку прямо в свой модифицированный WebRTC. Нейросеть крутится локально на устройстве и слушает аудио во время звонка.

2. Что делает текущая нейронка

Я скачал модель с серверов VK (https://st.okcdn.ru/static/calls_android/1-0-1/kws_270525.zip), разобрал её архитектуру и запустил.

Текущий функционал:

Архитектура: BC-ResNet (Broadcasted Residual Network) - компактная нейросеть для мобильных устройств
Режим: streaming - обрабатывает аудио в реальном времени, кусочек за кусочком
Задача: ответ да/нет - «это ключевое слово» или «это всё остальное» (тишина, шум, обычная речь)
Ключевое слово: «не слышу» (то есть собеседник жалуется, что плохо слышно)
Размер: 1.17 МБ, ~300 тысяч параметров

Для звонков это имеет смысл: собеседник говорит «не слышу» - значит со связью проблемы, приложение может это подхватить.

3. Почему это не просто «определение качества связи»

Распознавать «не слышу» - безобидно. А вот как это устроено внутри - уже нет.

Нейронка приходит с сервера. KWS не зашит в код приложения. При запуске приложение получает от сервера конфиг с URL модели, забирает файл и грузит в нейросетевой движок. Сервер VK решает:

Какую нейронку загружать (URL файла)
Включена ли KWS вообще (флаг use)
Сколько времени слушать (таймер turn_off_in_ms, сейчас 60 секунд)

VK может подменить модель хоть завтра - на любые другие слова. Обновлять приложение не нужно. Спрашивать пользователя - тоже.

Приложение не проверяет, что именно нейронка распознаёт. Если завтра VK положит на CDN модель, обученную на слово «протест» - приложение скачает её и запустит точно так же.

А что в политике конфиденциальности? Я проверил оба документа - Политику конфиденциальности (legal.max.ru/pp) и Пользовательское соглашение (legal.max.ru/ps). Упоминания KWS или анализа аудио во время звонков - ноль.

При этом в Пользовательском соглашении есть описание того, как голосовые и видеосообщения переводятся в текст.

4. Что происходит при срабатывании

Когда нейронка считает, что услышала ключевое слово, происходит следующее:

Выдаёт уровень уверенности (число от 0 до 1)
Приложение берёт максимальное значение за сессию
Приложение формирует отчёт и отправляет на сервер VK (api.ok.ru/api/log/externalLog) через канал vchat.clientStats

VK видит: в таком-то звонке у такого-то пользователя сработал детектор, уверенность такая-то. Всё привязано к userId как и call_id (vchat.clientStats отправляется в привязке к конкретной VoIP-сессии)

5. Серверный конфиг: то что я перехватил

Во время анализа я перехватил реальный ответ сервера VK с конфигурацией KWS. Вот что сервер присылает приложению:

URL модели: https://st.okcdn.ru/static/calls_android/1-0-1/kws_270525.zip
MD5: 00320292950aa4896ccc057550442789
Включено: НЕТ ("use": false)
Таймаут: 60 секунд на звонок

Я забрал модель по этому URL - без авторизации, без cookies. Любой может это сделать прямо сейчас. MD5 совпадает с тем, что прислал сервер.

Ещё я побрутил CDN в поисках других моделей - перебрал 200+ вариантов путей. Нашёл только одну модель в трёх версиях SDK (1-0-1, 1-0-2, 1-0-3) - все три идентичны (одинаковый MD5). На данный момент VK использует только одну модель для фразы «не слышу».

6. Чего KWS не делает (чтобы не нагнетать)

Работает только во время звонков - закрыли приложение, и всё. Кода для фоновой работы KWS я не нашёл.

С голосовыми сообщениями не связан - те переводятся с аудио в текст на серверах VK, это другой процесс, другой код.

Сейчас выключен (use: false). Нейронка уже на устройствах, но не запущена. И ищет она только «не слышу», а не что-то «опасное».

7. Что ещё я нашёл про звонки

KWS - не единственная интересная вещь в работе звонков MAX:

Все звонки идут через сервер VK. P2P-соединений я не увидел - все медиаданные проходят через TURN-сервер VK. Шифрование DTLS-SRTP есть, но от вас до сервера, не от вас до собеседника. На relay-сервере шифрование заканчивается - ключи у VK.

Флаг записи аудио. В коде есть PMS-ключ calls-sdk-log-audio - если VK его включит, аудио звонка пишется в файл. Управляется с сервера.

Модифицированный WebRTC. VK не использует стандартный WebRTC - они его модифицировали. В модификации добавлены: нативная запись аудио в Opus (nativeAudioStartRecord, nativeAudioWriteFrame), KWS-интеграция, и кастомные параметры.

Часть 2: Доказательства (для тех, кто хочет проверить)

Ниже - код, конфиги и результаты реверс-инжиниринга. Версия APK 26.12.1 (6679).

2.1 Где живёт KWS в коде

KWS встроен в модифицированный WebRTC внутри нативной библиотеки libjingle_peerconnection_so.so. Точка входа - JNI-метод:

Java_org_webrtc_PeerConnectionFactory_nativeSetKeywordSpotterParams

Это вызов из Java в нативный код. Принимает два параметра: isEnabled (включить/выключить) и filePath (путь к модели на устройстве).

Полная цепочка от сервера до нейросети:

Сервер присылает RemoteSettings с конфигом KWS
MLFeaturesManagerImpl забирает модель по URL, проверяет MD5
KwsFeatureDelegate вызывает setKeywordSpotterParams(isEnabled, filePath)
PeerConnectionFactory передаёт параметры в нативный WebRTC
kws_impl.cc загружает TFLite-модель
BCResNetKWS::computeProbs() (в libEnhancementLibShared.so) обрабатывает аудио
KwsBufferizator буферизует фреймы и передаёт через NativeDoubleArrayConsumer
KeywordSpotterManagerImpl получает уровень уверенности, берёт максимум
ConversationKwsStat.onKeyword(maxConfidence) формирует отчёт
Отчёт уходит через vchat.clientStats на серверы VK

Пакет: ru.ok.android.externcalls.sdk.audio - это SDK звонков.

/ru/ok/android/externcalls/sdk/audio/<!--noindex--><a href="https://pikabu.ru/story/chto_skryivaet_max_2_v_messendzher_vstroena_sistema_raspoznavaniya_klyuchevyikh_slov_vo_vremya_zvonkov_13876232?u=http%3A%2F%2FKeywordSpotterManagerImpl.java&t=KeywordSpotterManagerImpl.java&h=0dcae539462c8a125210b5fe7c2c00d207aa7e2a" title="http://KeywordSpotterManagerImpl.java" target="_blank" rel="nofollow noopener">KeywordSpotterManagerImpl.java</a><!--/noindex-->

/ru/ok/android/externcalls/sdk/audio/KeywordSpotterManagerImpl.java

2.2 Архитектура модели

Файл: calls_kws.tflite из kws_270525.zip

Вход: [1, 1, 40] - 1 фрейм × 40 мел-частотны
Выход: [1, 1, 2] - бинарный softmax: [P(фон), P(ключевое_слово)]
Архитектура: BC-ResNet (Broadcasted Residual Network), streaming mode
384 тензора, ~1.17 МБ
Конфиг: algorithm_name = "bcresnet_kws", sample_rate = 16000

Результаты запуска модели на тестовых данных:

Тишина: P(keyword) стремится к 0.0000 после ~40 фреймов тишины
Случайный шум: P(keyword) = 0.0000 - ложных срабатываний нет
Модель уверенно отличает целевую фразу от всего остального

config.cfg

2.3 Полный flow сетевых запросов

Вот полная карта: какие серверы участвуют, какие запросы идут и в каком формате.

Шаг 1 - Получение конфига (при подключении к серверу):

Откуда: api.oneme.ru:443 (постоянное TCP-соединение, MsgPack wire-протокол)
Что: RemoteSettings - серверный конфиг со всеми фичами, включая KWS
Формат: MsgPack binary → расшифровывается в JSON
Ключи KWS в ответе:
"android.wordspotter.config" → {"turn_off_in_ms": 60000}
"android.mlfeatures.ws_0" → {"url": "https://st.okcdn.ru/static/calls_android/1-0-1/kws_270525.zi...", "cs": "00320292950aa4896ccc057550442789", "use": false}

Шаг 2 - Скачивание модели (при первом запуске или обновлении URL):

Откуда: st.okcdn.ru (CDN VK, HTTP GET)
URL: https://st.okcdn.ru/static/calls_android/1-0-1/kws_270525.zi...
Авторизация: никакой - публичный доступ
Формат: ZIP-архив (828 КБ) → внутри calls_kws.tflite (TFLite-модель, 1.17 МБ) + config.cfg
Проверка: MD5 скачанного файла сравнивается с cs из конфига
Сохраняется: {filesDir}/ml_features/ws/calls_kws.tflite + config.cfg

Шаг 3 - Работа KWS (во время звонка, если use: true):

Аудио с микрофона → WebRTC соединение → BCResNetKWS::computeProbs() в libEnhancementLibShared.so
Вся обработка на устройстве, в сеть пока ничего не уходит
Таймаут: turn_off_in_ms (60 секунд) - после этого KWS останавливается

Шаг 4 - Отправка результата (после/во время звонка):

Куда: api.ok.ru/api/log/externalLog (POST, gzip, session_key)
Канал: vchat.clientStats
{"metric": "bad_call_detected_by_audio_spotter", "string_value": "не слышу", "double_value": 0.95} + userId, sessionId, call_id

Медиаданные самого звонка:

Куда: 155.212.206.115:43210 (TURN-сервер VK, UDP)
Шифрование: DTLS-SRTP (end-to-relay, не end-to-end)
Сертификат: QRtpServer 1.1.10

2.4 Отчёт о срабатывании

Файл: defpackage/ConversationKwsStat.java

При срабатывании формируется событие:

metric: "bad_call_detected_by_audio_spotter"
string_value: "не слышу" (захардкожено)
double_value: максимальная уверенность за звонок
Канал: vchat.clientStats

Имя "не слышу" зашито в код - но модель определяется URL с сервера. Если VK ее заменит, код по-прежнему будет отправлять "не слышу" как строку, даже если реальная модель будет детектить совершенно другую фразу. Или VK обновит и код в следующей версии.

/ru/ok/android/externcalls/sdk/stat/kws/<!--noindex--><a href="https://pikabu.ru/story/chto_skryivaet_max_2_v_messendzher_vstroena_sistema_raspoznavaniya_klyuchevyikh_slov_vo_vremya_zvonkov_13876232?u=http%3A%2F%2FConversationKwsStat.java&t=ConversationKwsStat.java&h=7213a34c72e2843e35456d051f1542ef86a94a90" title="http://ConversationKwsStat.java" target="_blank" rel="nofollow noopener">ConversationKwsStat.java</a><!--/noindex-->

/ru/ok/android/externcalls/sdk/stat/kws/ConversationKwsStat.java

2.5 Модель можно скачать прямо сейчас

Проверяйте сами:

curl -O https://st.okcdn.ru/static/calls_android/1-0-1/kws_270525.zip

HTTP 200, 828 КБ
Без авторизации, без cookies, без заголовков
Внутри ZIP: calls_kws.tflite (модель, 1.17 МБ) + config.cfg
MD5 файла: 00320292950aa4896ccc057550442789 - совпадает с серверным конфигом

Содержимое config.cfg:

algorithm_name = "bcresnet_kws"
sample_rate = 16000

Я проверил три версии SDK на CDN:

https://st.okcdn.ru/static/calls_android/1-0-1/kws_270525.zi... - HTTP 200, MD5: 00320292...
https://st.okcdn.ru/static/calls_android/1-0-2/kws_270525.zi... - HTTP 200, тот же MD5
https://st.okcdn.ru/static/calls_android/1-0-3/kws_270525.zi... - HTTP 200, тот же MD5

Одна и та же модель во всех версиях. Имя файла kws_270525 предполагает дату создания 27.05.2025. Просканировал 200+ вариантов путей - других моделей на CDN не нашёл.

2.6 Почему «модель можно заменить» - не теория

Цепочка замены модели:

VK меняет поле url в android.mlfeatures.ws_0 на новый адрес или просто обновляет модель
Сервер пушит обновлённый RemoteSettings через постоянное TCP-соединение
MLFeaturesManagerImpl видит новый URL, тянет новый ZIP
Проверяет MD5 (новый, для нового файла)
Распаковывает .tflite + .cfg в ml_features/ws/
При следующем звонке KwsFeatureDelegate загружает новую модель
BCResNetKWS начинает детектить новые ключевые слова

На стороне приложения нет проверки того, что именно модель распознаёт. Нет whitelist допустимых слов. Нет уведомления пользователя. MD5 проверяет только целостность файла - что скачалось без ошибок.

2.7 Дополнительные аудио-возможности в звонках

Запись аудио через серверный флаг: PMS-ключ calls-sdk-log-audio (key 129) может включить запись аудио звонка в файл. Плюс JNI-методы nativeStartAecDump / nativeStopAecDump позволяют дампить raw-аудио в файловый дескриптор. Всё управляется сервером.

Все звонки через relay VK: Все медиаданные идут через TURN-сервер VK (155.212.206.115:43210). Шифрование DTLS-SRTP - от вас до сервера, не от вас до собеседника. Сертификат сервера: QRtpServer 1.1.10.

Типы ML-фич в конфиге:

WS (WordSpotter) - распознавание ключевых слов ← то, что мы разобрали
NS (Noise Suppression) - подавление шума

MLFeaturesManagerImpl поддерживает несколько типов моделей. Сейчас WS и NS, но подцепить новый тип - дело пары строк.

/ru/ok/tamtam/android/prefs/<!--noindex--><a href="https://pikabu.ru/story/chto_skryivaet_max_2_v_messendzher_vstroena_sistema_raspoznavaniya_klyuchevyikh_slov_vo_vremya_zvonkov_13876232?u=http%3A%2F%2FPmsKey.java&t=PmsKey.java&h=2b4467e91cb8589af5f8a6f8840ba08bd5906314" title="http://PmsKey.java" target="_blank" rel="nofollow noopener">PmsKey.java</a><!--/noindex--> - Коротко и наглядно: вот он, переключатель записи аудио, управляемый с сервера.

/ru/ok/tamtam/android/prefs/PmsKey.java - Коротко и наглядно: вот он, переключатель записи аудио, управляемый с сервера.

/one/video/calls/audio/opus/<!--noindex--><a href="https://pikabu.ru/story/chto_skryivaet_max_2_v_messendzher_vstroena_sistema_raspoznavaniya_klyuchevyikh_slov_vo_vremya_zvonkov_13876232?u=http%3A%2F%2FFileWriter.java&t=FileWriter.java&h=f2315617c732672afaf484f621e07eb24042205c" title="http://FileWriter.java" target="_blank" rel="nofollow noopener">FileWriter.java</a><!--/noindex--> - Это нативная запись аудио в файл.

/one/video/calls/audio/opus/FileWriter.java - Это нативная запись аудио в файл.

Выводы

Если вы дочитали до сюда - вы уже поняли суть.

Скажу одно: разница между «детектором плохой связи» и «детектором произвольных слов» - это один URL в JSON-конфиге. Модель, код, процесс отправки на сервер - всё одно и то же. Меняется только файл на CDN.

Я не знаю, планирует ли VK это использовать иначе. Но я знаю, что в политике конфиденциальности об этом ни слова, согласие не спрашивается, а модель можно скачать и проверить прямо сейчас. Ссылка выше.

Код - вот он. Модель - в открытом доступе. Проверяйте.

Показать полностью 8

[моё] Информационная безопасность Мессенджер MAX Реверс-инжиниринг Распознавание Приватность Длиннопост

1319

Отличная работа, все прочитано!

Это вторая статья в цикле «Что скрывает MAX»

Сразу важное: это не кликбейт

TL;DR

Часть 1: Что я нашёл (для всех)

1. Что такое KWS и как это работает

2. Что делает текущая нейронка

3. Почему это не просто «определение качества связи»

4. Что происходит при срабатывании

5. Серверный конфиг: то что я перехватил

6. Чего KWS не делает (чтобы не нагнетать)

7. Что ещё я нашёл про звонки

Часть 2: Доказательства (для тех, кто хочет проверить)

2.1 Где живёт KWS в коде

2.2 Архитектура модели

2.3 Полный flow сетевых запросов

2.4 Отчёт о срабатывании

2.5 Модель можно скачать прямо сейчас

2.6 Почему «модель можно заменить» - не теория

2.7 Дополнительные аудио-возможности в звонках

Выводы

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества