Распознование эмоций: истории из жизни, советы, новости, юмор и картинки — Все посты

Помогите опознать радиоэлемент (sot23-3)⁠⁠

16 дней назад

Всем доброго дня.
Помогите пожалуйста опознать элемент в корпусе sot23-3.
В общем..
Имеется NAS фирмы Akitio, модель не известна.
В один прекрасный момент из NASa вышел волшебный белый дым и единственный HDD, который стоял в NASe, перестал работать.
Вскрытие показало что вылетел элемент по питанию жесткого диска. В этом NASe можно ставить 2 HDD, после установки харда во второй слот выяснилось что там все нормально, хард работает, при подключению к компу обмен данными идет.
Перебросил такой же элемент со второго канала на первый, результат - все хорошо, HDD завелся.
Осталось самое "простое", найти замену сгоревшему элементу...
И тут меня постигла неудача...
Я ничего не смог найти в инете по маркировке. С помощью LCR-T4 выяснил что это P-E-MOS.
HELP!
Помогите опознать элемент и подобрать аналог.

В желтых овалах 4 одинаковых элемента, сгорел там где красная стрелка, перекинут с места где голубая стрелка.

Маркировка то ли N5GS, то ли N5G5...

Показать полностью 3

user4740118

Вышла новая модель для распознавания речи MiMo-V2.5-ASR⁠⁠

Серия Новости

18 дней назад

Вышла новая модель для распознавания речи MiMo-V2.5-ASR

В серии Xiaomi MiMo появилась передовая открытая модель распознавания речи MiMo-V2.5-ASR (https://huggingface.co/XiaomiMiMo/MiMo-V2.5-ASR).

Она может распознавать китайский и английский, включая диалекты (у, кантонский, хоккиен, сычуаньский и др.), используя кодовое переключение без языковых тегов, распознавать пение даже с аккомпанементом, а также справляться с сильным шумом, далёким захватом и наложением голосов (многоговорящие сценарии). При этом она выдаёт точную транскрипцию сложного контента, включая классическую поэзию, термины, имена и техническую лексику со встроенной смысловой пунктуацией без постобработки.

Обучали её на крупномасштабном mid-training, качественном SFT и новых алгоритмах обучения с подкреплением (RL).

В результате модель хорошо себя показала на публичных и внутренних бенчмарках, превосходя Qwen3-ASR, Seed-ASR 2.0, Whisper Large V3, FunASR-1.5 и Gemini-3.1-Pro по среднему WER во всех категориях.

Показать полностью

[моё] Искусственный интеллект Нейронные сети Распознавание Распознавание голоса Аудио

AndMin

Ответ на пост «Что скрывает MAX #2: В мессенджер встроена система распознавания ключевых слов во время звонков»⁠⁠3

1 месяц назад

Любой компьютер (смарт - это тоже компьютер) с микрофоном, или с камерой за тобой бдит, чтобы своевременно тебе подсунуть "нужную" тебе рекламу - это же очевидные вещи.

Это бдение в ряде случаев поможет бороться с потенциальным терроризмом, а также иными преступлениями.

Как пример, камеры сейчас везде вешают - никто не возмущается, и раскрываемость, кстати, улучшилась заметно.

Случись сейчас с нами какое-то несчастье на улице, мы все чаще и чаще крутим головой в надежде найти камеру, смотрящую на место, где нам причинили ущерб.

Весь мир идет по пути тотальной слежки - чего ты этого боишься, неизбежного и непредотвратимого? Может ты злодей, или глупец, воюющий с ветряными мельницами?

Тебя напрягает, что ты не можешь теперь говорить и делать то, что раньше мог говорить и делать? Даже несмотря на то, что то, что ты говорил и делал нарушало закон (иногда).

Ну так это результат не слежки, а изменения текущих законов в угоду заинтересованных лиц.

Результат слежки - увеличение степени неотвратимости наказания (ответственности).

Мы хотим делать то, что нельзя, но не задумываемся о том, почему это что-то стало нельзя - вот где основной момент - надо из "нельзя" что-то превращать в "можно" путем корректировки соответствующих норм закона, тогда и не будет страхов слежки.

Однако ж мы хотим чтобы можно было безнаказанно делать то, что нельзя, не меняя по сути ничего (хотим сидеть на жопе ровно и возмущаться лишь).

Не хочешь, чтобы за тобой следили - покупай телефон кнопочный без камеры (но и там есть микрофон), передвигайся по канализационным каналам (чтобы камеры не засекли).

Секта "дьявольского номера" ИНН, СНИЛС, паспортного номера и т.п. во все времена будет, я так чувствую.

П.С. в то же время я не удивлюсь, если скоро появится некий "социальный" рейтинг, зависящий от лояльности к чему-то, основанный на слежке за тобой.

И уж совсем из инфантилизма высказывание - ну так меняй критерии определения этого рейтинга в силу своих возможностей.

Показать полностью

Информационная безопасность Мессенджер MAX Реверс-инжиниринг Распознавание Приватность Длиннопост Ответ на пост Текст

SanchesRock

Ответ на пост «Что скрывает MAX #2: В мессенджер встроена система распознавания ключевых слов во время звонков»⁠⁠3

1 месяц назад

Заранее извиняюсь, что отдельным постом, но хочу узнать мнение ITшников и просто знающих людей.

Можно ли сделать мессенджер, чтобы он использовал только p2p соединение, не отправляя данные на сервер? То есть если абонент в сети, то сообщение уходит напрямую к нему, если не в сети, то висит только на устройстве отправителя.

Первоначальный коннект совершать с помощью блютуз или используя mac-адрес устройства, либо любым другим физическим способом.

Я не говорю, почему до такого не додумались, я лишь хочу знать какие сложности могут быть в такой реализации.

Заранее спасибо за ответы.

Budoma

Ответ на пост «Что скрывает MAX #2: В мессенджер встроена система распознавания ключевых слов во время звонков»⁠⁠3

1 месяц назад

Интересно, а приложение VK ничего подобного не делает, случайно? Если МАХ так шпионит, то почему не приложение VK?

А никто, случайно, не знает, как сделать простенький файл html со всего двумя полями: ввод - "имя канала YouTube" и кнопкой "не рекомендовать видео с этого канала!" ?

А то эти падлы повадились подсовывать в текущий просмотр всякую погань, но отказаться от неё можно только если канал попадет в "мои рекомендации" на главной странице Ютуба, а там этой срани нет, за редчайшим исключением, Ютуб не любит, когда его политические ролики пытаются заигнорить.

Смотрят дети мультик, хренакс - очередной политический высер встал в показ!

Я пытался разобраться, рассмотрев свойства кнопки "не рекомендовать видео с этого канала", но там само действие не задано, только название кнопки. А что происходит по ее нажатию - хез, должен уходить запрос на ютуб с именем калаза и командой блокировки.

Показать полностью

Информационная безопасность Мессенджер MAX Реверс-инжиниринг Распознавание Приватность Ответ на пост Текст YouTube Без рейтинга

8026

p1llag3r

Что скрывает MAX #2: В мессенджер встроена система распознавания ключевых слов во время звонков⁠⁠3

Серия Что скрывает MAX

1 месяц назад

Это вторая статья в цикле «Что скрывает MAX»

В первой статье я разобрал как MAX собирает ваш IP, определяет VPN и какие сайты из вашей сети. Как MAX помогает РКН строить железный занавес: VPN-детект, сбор IP и проверки на Госуслуги

Дальше - про звонки. В MAX встроена система распознавания ключевых слов (KWS - Keyword Spotting). Нейросеть, которая прогоняет аудио с микрофона прямо во время разговора.

Сразу важное: это не кликбейт

Я не утверждаю, что MAX прямо сейчас слушает ваши разговоры в поисках слов вроде «Путин», «митинг» или «VPN». Текущая модель распознавания обучена только на фразу «не слышу» - по задумке это для определения плохой связи. Прямо сейчас функция выключена на сервере.

Но....я разобрал архитектуру, проследил весь код от микрофона до отправки на сервер - и вот что важно:

VK может подменить нейронку на любую другую когда захочет (будет проверка на новые слова)
Замена происходит без обновления приложения - достаточно изменить один URL в серверном конфиге или обновить уже существующую (Приложение само подтянет новый набор слов)
При срабатывании - результат улетает на сервер VK
Пользователь ни о чём не знает, согласие никто не спрашивает

TL;DR

Во время звонков в MAX работает система распознавания ключевых слов (KWS) на базе нейросети BC-ResNet
Она подтягивается с серверов VK, работает на устройстве внутри WebRTC (технология для звонков)
Сейчас модель обучена на фразу «не слышу» и выключена сервером ("use": false)
VK может: включить KWS одной настройкой и поменять список слов на проверку, сделать это для конкретного пользователя - без обновления приложения и без уведомления
KWS работает только во время звонков, не в фоне, не на голосовых сообщениях
При срабатывании - автоматический отчёт на сервер VK с уровнем уверенности

Часть 1: Что я нашёл (для всех)

1. Что такое KWS и как это работает

KWS (Keyword Spotting) - распознавание конкретных слов в аудиопотоке. Вы с этим знакомы: «Окей, Google», «Привет, Алиса», «Hey Siri» - всё это KWS.

Принцип простой: нейросеть берёт звук с микрофона, режет на кусочки по 10 миллисекунд и на каждом решает - это ключевое слово или нет?

VK встроил такую штуку прямо в свой модифицированный WebRTC. Нейросеть крутится локально на устройстве и слушает аудио во время звонка.

2. Что делает текущая нейронка

Я скачал модель с серверов VK (https://st.okcdn.ru/static/calls_android/1-0-1/kws_270525.zip), разобрал её архитектуру и запустил.

Текущий функционал:

Архитектура: BC-ResNet (Broadcasted Residual Network) - компактная нейросеть для мобильных устройств
Режим: streaming - обрабатывает аудио в реальном времени, кусочек за кусочком
Задача: ответ да/нет - «это ключевое слово» или «это всё остальное» (тишина, шум, обычная речь)
Ключевое слово: «не слышу» (то есть собеседник жалуется, что плохо слышно)
Размер: 1.17 МБ, ~300 тысяч параметров

Для звонков это имеет смысл: собеседник говорит «не слышу» - значит со связью проблемы, приложение может это подхватить.

3. Почему это не просто «определение качества связи»

Распознавать «не слышу» - безобидно. А вот как это устроено внутри - уже нет.

Нейронка приходит с сервера. KWS не зашит в код приложения. При запуске приложение получает от сервера конфиг с URL модели, забирает файл и грузит в нейросетевой движок. Сервер VK решает:

Какую нейронку загружать (URL файла)
Включена ли KWS вообще (флаг use)
Сколько времени слушать (таймер turn_off_in_ms, сейчас 60 секунд)

VK может подменить модель хоть завтра - на любые другие слова. Обновлять приложение не нужно. Спрашивать пользователя - тоже.

Приложение не проверяет, что именно нейронка распознаёт. Если завтра VK положит на CDN модель, обученную на слово «протест» - приложение скачает её и запустит точно так же.

А что в политике конфиденциальности? Я проверил оба документа - Политику конфиденциальности (legal.max.ru/pp) и Пользовательское соглашение (legal.max.ru/ps). Упоминания KWS или анализа аудио во время звонков - ноль.

При этом в Пользовательском соглашении есть описание того, как голосовые и видеосообщения переводятся в текст.

4. Что происходит при срабатывании

Когда нейронка считает, что услышала ключевое слово, происходит следующее:

Выдаёт уровень уверенности (число от 0 до 1)
Приложение берёт максимальное значение за сессию
Приложение формирует отчёт и отправляет на сервер VK (api.ok.ru/api/log/externalLog) через канал vchat.clientStats

VK видит: в таком-то звонке у такого-то пользователя сработал детектор, уверенность такая-то. Всё привязано к userId как и call_id (vchat.clientStats отправляется в привязке к конкретной VoIP-сессии)

5. Серверный конфиг: то что я перехватил

Во время анализа я перехватил реальный ответ сервера VK с конфигурацией KWS. Вот что сервер присылает приложению:

URL модели: https://st.okcdn.ru/static/calls_android/1-0-1/kws_270525.zip
MD5: 00320292950aa4896ccc057550442789
Включено: НЕТ ("use": false)
Таймаут: 60 секунд на звонок

Я забрал модель по этому URL - без авторизации, без cookies. Любой может это сделать прямо сейчас. MD5 совпадает с тем, что прислал сервер.

Ещё я побрутил CDN в поисках других моделей - перебрал 200+ вариантов путей. Нашёл только одну модель в трёх версиях SDK (1-0-1, 1-0-2, 1-0-3) - все три идентичны (одинаковый MD5). На данный момент VK использует только одну модель для фразы «не слышу».

6. Чего KWS не делает (чтобы не нагнетать)

Работает только во время звонков - закрыли приложение, и всё. Кода для фоновой работы KWS я не нашёл.

С голосовыми сообщениями не связан - те переводятся с аудио в текст на серверах VK, это другой процесс, другой код.

Сейчас выключен (use: false). Нейронка уже на устройствах, но не запущена. И ищет она только «не слышу», а не что-то «опасное».

7. Что ещё я нашёл про звонки

KWS - не единственная интересная вещь в работе звонков MAX:

Все звонки идут через сервер VK. P2P-соединений я не увидел - все медиаданные проходят через TURN-сервер VK. Шифрование DTLS-SRTP есть, но от вас до сервера, не от вас до собеседника. На relay-сервере шифрование заканчивается - ключи у VK.

Флаг записи аудио. В коде есть PMS-ключ calls-sdk-log-audio - если VK его включит, аудио звонка пишется в файл. Управляется с сервера.

Модифицированный WebRTC. VK не использует стандартный WebRTC - они его модифицировали. В модификации добавлены: нативная запись аудио в Opus (nativeAudioStartRecord, nativeAudioWriteFrame), KWS-интеграция, и кастомные параметры.

Часть 2: Доказательства (для тех, кто хочет проверить)

Ниже - код, конфиги и результаты реверс-инжиниринга. Версия APK 26.12.1 (6679).

2.1 Где живёт KWS в коде

KWS встроен в модифицированный WebRTC внутри нативной библиотеки libjingle_peerconnection_so.so. Точка входа - JNI-метод:

Java_org_webrtc_PeerConnectionFactory_nativeSetKeywordSpotterParams

Это вызов из Java в нативный код. Принимает два параметра: isEnabled (включить/выключить) и filePath (путь к модели на устройстве).

Полная цепочка от сервера до нейросети:

Сервер присылает RemoteSettings с конфигом KWS
MLFeaturesManagerImpl забирает модель по URL, проверяет MD5
KwsFeatureDelegate вызывает setKeywordSpotterParams(isEnabled, filePath)
PeerConnectionFactory передаёт параметры в нативный WebRTC
kws_impl.cc загружает TFLite-модель
BCResNetKWS::computeProbs() (в libEnhancementLibShared.so) обрабатывает аудио
KwsBufferizator буферизует фреймы и передаёт через NativeDoubleArrayConsumer
KeywordSpotterManagerImpl получает уровень уверенности, берёт максимум
ConversationKwsStat.onKeyword(maxConfidence) формирует отчёт
Отчёт уходит через vchat.clientStats на серверы VK

Пакет: ru.ok.android.externcalls.sdk.audio - это SDK звонков.

/ru/ok/android/externcalls/sdk/audio/<!--noindex--><a href="https://pikabu.ru/story/chto_skryivaet_max_2_v_messendzher_vstroena_sistema_raspoznavaniya_klyuchevyikh_slov_vo_vremya_zvonkov_13876232?u=http%3A%2F%2FKeywordSpotterManagerImpl.java&t=KeywordSpotterManagerImpl.java&h=0dcae539462c8a125210b5fe7c2c00d207aa7e2a" title="http://KeywordSpotterManagerImpl.java" target="_blank" rel="nofollow noopener">KeywordSpotterManagerImpl.java</a><!--/noindex-->

/ru/ok/android/externcalls/sdk/audio/KeywordSpotterManagerImpl.java

2.2 Архитектура модели

Файл: calls_kws.tflite из kws_270525.zip

Вход: [1, 1, 40] - 1 фрейм × 40 мел-частотны
Выход: [1, 1, 2] - бинарный softmax: [P(фон), P(ключевое_слово)]
Архитектура: BC-ResNet (Broadcasted Residual Network), streaming mode
384 тензора, ~1.17 МБ
Конфиг: algorithm_name = "bcresnet_kws", sample_rate = 16000

Результаты запуска модели на тестовых данных:

Тишина: P(keyword) стремится к 0.0000 после ~40 фреймов тишины
Случайный шум: P(keyword) = 0.0000 - ложных срабатываний нет
Модель уверенно отличает целевую фразу от всего остального

config.cfg

2.3 Полный flow сетевых запросов

Вот полная карта: какие серверы участвуют, какие запросы идут и в каком формате.

Шаг 1 - Получение конфига (при подключении к серверу):

Откуда: api.oneme.ru:443 (постоянное TCP-соединение, MsgPack wire-протокол)
Что: RemoteSettings - серверный конфиг со всеми фичами, включая KWS
Формат: MsgPack binary → расшифровывается в JSON
Ключи KWS в ответе:
"android.wordspotter.config" → {"turn_off_in_ms": 60000}
"android.mlfeatures.ws_0" → {"url": "https://st.okcdn.ru/static/calls_android/1-0-1/kws_270525.zi...", "cs": "00320292950aa4896ccc057550442789", "use": false}

Шаг 2 - Скачивание модели (при первом запуске или обновлении URL):

Откуда: st.okcdn.ru (CDN VK, HTTP GET)
URL: https://st.okcdn.ru/static/calls_android/1-0-1/kws_270525.zi...
Авторизация: никакой - публичный доступ
Формат: ZIP-архив (828 КБ) → внутри calls_kws.tflite (TFLite-модель, 1.17 МБ) + config.cfg
Проверка: MD5 скачанного файла сравнивается с cs из конфига
Сохраняется: {filesDir}/ml_features/ws/calls_kws.tflite + config.cfg

Шаг 3 - Работа KWS (во время звонка, если use: true):

Аудио с микрофона → WebRTC соединение → BCResNetKWS::computeProbs() в libEnhancementLibShared.so
Вся обработка на устройстве, в сеть пока ничего не уходит
Таймаут: turn_off_in_ms (60 секунд) - после этого KWS останавливается

Шаг 4 - Отправка результата (после/во время звонка):

Куда: api.ok.ru/api/log/externalLog (POST, gzip, session_key)
Канал: vchat.clientStats
{"metric": "bad_call_detected_by_audio_spotter", "string_value": "не слышу", "double_value": 0.95} + userId, sessionId, call_id

Медиаданные самого звонка:

Куда: 155.212.206.115:43210 (TURN-сервер VK, UDP)
Шифрование: DTLS-SRTP (end-to-relay, не end-to-end)
Сертификат: QRtpServer 1.1.10

2.4 Отчёт о срабатывании

Файл: defpackage/ConversationKwsStat.java

При срабатывании формируется событие:

metric: "bad_call_detected_by_audio_spotter"
string_value: "не слышу" (захардкожено)
double_value: максимальная уверенность за звонок
Канал: vchat.clientStats

Имя "не слышу" зашито в код - но модель определяется URL с сервера. Если VK ее заменит, код по-прежнему будет отправлять "не слышу" как строку, даже если реальная модель будет детектить совершенно другую фразу. Или VK обновит и код в следующей версии.

/ru/ok/android/externcalls/sdk/stat/kws/<!--noindex--><a href="https://pikabu.ru/story/chto_skryivaet_max_2_v_messendzher_vstroena_sistema_raspoznavaniya_klyuchevyikh_slov_vo_vremya_zvonkov_13876232?u=http%3A%2F%2FConversationKwsStat.java&t=ConversationKwsStat.java&h=7213a34c72e2843e35456d051f1542ef86a94a90" title="http://ConversationKwsStat.java" target="_blank" rel="nofollow noopener">ConversationKwsStat.java</a><!--/noindex-->

/ru/ok/android/externcalls/sdk/stat/kws/ConversationKwsStat.java

2.5 Модель можно скачать прямо сейчас

Проверяйте сами:

curl -O https://st.okcdn.ru/static/calls_android/1-0-1/kws_270525.zip

HTTP 200, 828 КБ
Без авторизации, без cookies, без заголовков
Внутри ZIP: calls_kws.tflite (модель, 1.17 МБ) + config.cfg
MD5 файла: 00320292950aa4896ccc057550442789 - совпадает с серверным конфигом

Содержимое config.cfg:

algorithm_name = "bcresnet_kws"
sample_rate = 16000

Я проверил три версии SDK на CDN:

https://st.okcdn.ru/static/calls_android/1-0-1/kws_270525.zi... - HTTP 200, MD5: 00320292...
https://st.okcdn.ru/static/calls_android/1-0-2/kws_270525.zi... - HTTP 200, тот же MD5
https://st.okcdn.ru/static/calls_android/1-0-3/kws_270525.zi... - HTTP 200, тот же MD5

Одна и та же модель во всех версиях. Имя файла kws_270525 предполагает дату создания 27.05.2025. Просканировал 200+ вариантов путей - других моделей на CDN не нашёл.

2.6 Почему «модель можно заменить» - не теория

Цепочка замены модели:

VK меняет поле url в android.mlfeatures.ws_0 на новый адрес или просто обновляет модель
Сервер пушит обновлённый RemoteSettings через постоянное TCP-соединение
MLFeaturesManagerImpl видит новый URL, тянет новый ZIP
Проверяет MD5 (новый, для нового файла)
Распаковывает .tflite + .cfg в ml_features/ws/
При следующем звонке KwsFeatureDelegate загружает новую модель
BCResNetKWS начинает детектить новые ключевые слова

На стороне приложения нет проверки того, что именно модель распознаёт. Нет whitelist допустимых слов. Нет уведомления пользователя. MD5 проверяет только целостность файла - что скачалось без ошибок.

2.7 Дополнительные аудио-возможности в звонках

Запись аудио через серверный флаг: PMS-ключ calls-sdk-log-audio (key 129) может включить запись аудио звонка в файл. Плюс JNI-методы nativeStartAecDump / nativeStopAecDump позволяют дампить raw-аудио в файловый дескриптор. Всё управляется сервером.

Все звонки через relay VK: Все медиаданные идут через TURN-сервер VK (155.212.206.115:43210). Шифрование DTLS-SRTP - от вас до сервера, не от вас до собеседника. Сертификат сервера: QRtpServer 1.1.10.

Типы ML-фич в конфиге:

WS (WordSpotter) - распознавание ключевых слов ← то, что мы разобрали
NS (Noise Suppression) - подавление шума

MLFeaturesManagerImpl поддерживает несколько типов моделей. Сейчас WS и NS, но подцепить новый тип - дело пары строк.

/ru/ok/tamtam/android/prefs/<!--noindex--><a href="https://pikabu.ru/story/chto_skryivaet_max_2_v_messendzher_vstroena_sistema_raspoznavaniya_klyuchevyikh_slov_vo_vremya_zvonkov_13876232?u=http%3A%2F%2FPmsKey.java&t=PmsKey.java&h=2b4467e91cb8589af5f8a6f8840ba08bd5906314" title="http://PmsKey.java" target="_blank" rel="nofollow noopener">PmsKey.java</a><!--/noindex--> - Коротко и наглядно: вот он, переключатель записи аудио, управляемый с сервера.

/ru/ok/tamtam/android/prefs/PmsKey.java - Коротко и наглядно: вот он, переключатель записи аудио, управляемый с сервера.

/one/video/calls/audio/opus/<!--noindex--><a href="https://pikabu.ru/story/chto_skryivaet_max_2_v_messendzher_vstroena_sistema_raspoznavaniya_klyuchevyikh_slov_vo_vremya_zvonkov_13876232?u=http%3A%2F%2FFileWriter.java&t=FileWriter.java&h=f2315617c732672afaf484f621e07eb24042205c" title="http://FileWriter.java" target="_blank" rel="nofollow noopener">FileWriter.java</a><!--/noindex--> - Это нативная запись аудио в файл.

/one/video/calls/audio/opus/FileWriter.java - Это нативная запись аудио в файл.

Выводы

Если вы дочитали до сюда - вы уже поняли суть.

Скажу одно: разница между «детектором плохой связи» и «детектором произвольных слов» - это один URL в JSON-конфиге. Модель, код, процесс отправки на сервер - всё одно и то же. Меняется только файл на CDN.

Я не знаю, планирует ли VK это использовать иначе. Но я знаю, что в политике конфиденциальности об этом ни слова, согласие не спрашивается, а модель можно скачать и проверить прямо сейчас. Ссылка выше.

Код - вот он. Модель - в открытом доступе. Проверяйте.

Показать полностью 8

[моё] Информационная безопасность Мессенджер MAX Реверс-инжиниринг Распознавание Приватность Длиннопост

1315

484

Nerual.Dreming

Искусственный интеллект

Устал печатать целыми днями - нашёл бесплатный голосовой ввод который работает офлайн в любой программе - Epicenter Whispering⁠⁠

2 месяца назад

Друзья, всем привет! Я печатаю целыми днями - посты, статьи, ответы в чатах - и в какой-то момент запястья просто начинают болеть. Пробовал разные браузерные расширения для голосового ввода вроде Voice In, но это какое-то гиблое дело: то текст не вставляется куда надо, то расширение крашится, то работает только в браузере и всё, то лимит кончается. Короче, обплевался.

Начал искать альтернативу и нашел - Epicenter Whispering. Зажимаешь кнопку, говоришь в микрофон, отпускаешь - текст появляется там, где стоит курсор. В любой программе. Этот пост, кстати, тоже надиктован через неё. И самое главное - никому ни за что не нужно платить и может работать даже без интернета.

Что умеет Epicenter Whispering

Работает на уровне всей ОС. Не привязан к браузеру, вставляет текст в любое активное окно - хоть мессенджер, хоть редактор кода, хоть комментарии на Пикабу. Это прям главное отличие от всяких браузерных расширений.

Устал печатать целыми днями - нашёл бесплатный голосовой ввод который работает офлайн в любой программе - Epicenter Whispering

Локальная работа без интернета. Встроенная поддержка моделей NVIDIA NeMo (Parakeet). Всё крутится на вашем компьютере, приватно и бесплатно. При желании можно подключить облачные API (Groq, OpenAI, ElevenLabs), но для большинства задач хватает локальной модели.

LLM-фильтр на лету. Уникальная киллер-фича! Можно прикрутить промпт, чтобы нейронка моментально переписывала сказанное. Наговариваете на эмоциях: «Е**чие пдорасы, вы меня за**али!»*, а она выдает: «Рад вас видеть сегодня, дорогие коллеги».

Режим активации голосом (VAD). Если не хочется постоянно держать кнопку - есть умная активация, которая сама определяет когда вы говорите.

Гибкий вывод. Текст можно отправлять сразу в активное поле (даже настроить автонажатие Enter после вставки) или просто тихо копировать в буфер обмена.

Как установить и запустить

Переходим на GitHub проекта и скачиваем установщик под свою систему из раздела Releases (есть под Windows, macOS и Linux)
Устанавливаем и идём в Settings → Transcription
В разделе Transcription Service выбираем «Parakeet» (Local) для быстрой оффлайн-работы
В блоке Parakeet Model выбираем «Parakeet TDT 0.6B v3 (INT8)» - весит около 670 МБ, автоматически определяет язык. Жмём Activated для скачивания
Нажимаем горячую клавишу (по умолчанию Ctrl+Shift+;), говорим текст, отпускаем - готово

GitHub проекта: https://github.com/EpicenterHQ/epicenter/tree/main/apps/whispering

Кому подойдёт

Если вы много печатаете и хотите иногда дать пальцам отдохнуть - попробуйте. Если вам надоели глючные браузерные расширения которые работают через раз - тем более. Ну и если хочется поиграться с LLM-фильтром для автоматической обработки надиктованного текста - это вообще отдельное удовольствие.

Это не моя сборка, но реально полезный инструмент который я сам использую каждый день. Такие штуки я регулярно нахожу и выкладываю у себя на канале НЕЙРО-СОФТ - там мы собираем портативные сборки нейросетей, репаки и полезные open-source инструменты, всё на русском и с простыми инструкциями по установке. Если вам заходит такой формат - заглядывайте.

Друзья, поддержите пост плюсиком, если было полезно! А если пользуетесь чем-то похожим для голосового ввода - делитесь в комментариях, интересно сравнить.

А я больше про нейросети рассказываю на YouTube, в телеграм, на Бусти. Буду рад вашей подписке и поддержке, всех обнял и удачных транскрпиций!

Показать полностью 1

[моё] Нейронные сети Искусственный интеллект Голосовое управление Open Source Софт Github Программа Обзор Гайд Инструкция Транскрипция Распознавание Nvidia Продуктивность Автоматизация Технологии Видео Короткие видео Длиннопост

Finder

ИИ с распознаванием фото: ТОП-8 нейросетей распознающих картинки⁠⁠

2 месяца назад

В потоке визуального контента, которым заполнены соцсети, маркетплейсы и рабочие чаты, ИИ с распознаванием фото стал тихим «фильтром», без которого система просто захлебнулась бы в хаосе. Он умеет видеть не только текст и объекты на картинке, но и контекст: тип товара, сцену, эмоции. Для бизнеса это означает меньше ручной работы, быстрее принятые решения и более точную аналитику по визуальным данным.

Я собрал 8 реально рабочих нейросетей для распознавания изображений: от облачных API до готовых инструментов для разработчиков и маркетологов.

ТОП-8 ИИ с распознаванием фото в 2026 году

MashaGPT — русскоязычный чат-бот на базе продвинутых моделей, который точно распознает текст, объекты и лица на фотографиях.
ChatGPT — ИИ от OpenAI, извлекающий текст, описывающий сцены и отвечающий на вопросы по загруженным изображениям.
Study AI — платформа с ИИ-ботами, где можно загружать скрины, фото заданий и документов, а нейросети распознают изображение, решают задачи и помогают с учебой и работой.
Gemini — мультимодальный ИИ от Google, который распознает изображения, ищет информацию по фото и отличает сгенерированные ИИ картинки от реальных.
SmartBuddy — сервис для OCR-распознавания текста с изображений, документов и сканов.
GoGPT — агрегатор нейросетей, которые поддерживают фотоанализ: извлекают текст, описывают содержимое и генерируют идеи на основе загруженных картинок.
ruGPT — инструмент для распознавания текста с русских изображений, мемов и документов с высокой точностью кириллицы.
GPTunneL — нейро-офис объединяет сотню+ моделей и позволяет в одном интерфейсе распознавать, анализировать и генерировать изображения для рабочих и креативных задач.

1. MashaGPT

Российский онлайн‑сервис, который дает доступ к моделям GPT (включая GPT‑4o‑mini и более продвинутые варианты) без зарубежных карт. В разделе чата пользователи могут просто начать диалог с ИИ, задавать вопросы, решать задачи, а также загружать файлы и изображения для анализа. Сервис позиционируется как «единое окно» к ИИ‑ассистенту для текста, фото, документов и креатива.

Стоимость: от 990 ₽/мес
Бесплатный доступ: есть бесплатный доступ к облегченной модели GPT‑4o‑mini
Функции: распознавание объектов, OCR-текст, описание сцен, анализ эмоций, распознавание графиков, анализ документов, идентификация растений/животных, мультимодальный диалог с уточнениями по фото, решение задач по изображениям перечислить через запятую именно про распознавание изображений

Плюсы:

Поддержка русского языка «из коробки» и адаптация под российскую аудиторию.
Есть бесплатный порог входа для тестирования.
Умеет работать не только с текстом, но и с изображениями и файлами.

Минусы:

В отзывах встречаются жалобы на техподдержку.

Перейти на сайт >>>

2. ChatGPT

Универсальный ИИ для распознавания изображений и работы с текстом. Пользователь может загрузить фото, скриншот или документ, а модель проанализирует содержимое, опишет картинку, найдет ошибки, прочитает текст и ответит на вопросы по изображению. Текущие версии (GPT‑4o и GPT‑5.2 в веб‑интерфейсе) поддерживают мультимодальный режим: текст + картинка в одном диалоге.

Стоимость: от $20/мес
Бесплатный доступ: ограничен 10 сообщениями каждые 5 часов
Функции: распознавание текста (OCR), описание сцен и объектов, анализ эмоций/лиц, извлечение данных из графиков/документов, ответы на вопросы по фото, генерация идей/редактирование изображений, интеграция с Sora для видео из фото

Плюсы:

Сильная мультимодальная модель: хорошо понимает как объекты на фото, так и контекст (подписи, интерфейсы, диаграммы).
Удобный и простой интерфейс: достаточно перетащить картинку в чат и задать вопрос.
Работает в браузере и мобильных приложениях, без сложной настройки.

Минусы:

Строгие лимиты на тарифах Free/Go, очереди в пике на Plus.

Перейти на сайт >>>

3. Study AI

Платформа с набором ИИ‑ботов, которая закрывает задачи от учебы до контента. Сервис распознает задания по снимкам (рукописный и печатный текст), помогает решать задачи по картинке и работает с документами и тестами по скриншотам. Отдельные боты отвечают за генерацию и обработку изображений: от улучшения качества до оживления фото в короткие видео. Все нейросети собраны в одном интерфейсе, а умный поиск подбирает нужный бот под конкретную задачу.

Стоимость: от 199 ₽/нед
Бесплатный доступ: 50 приветственных токенов после регистрации для 1–3 запросов
Функции: распознавание текста и формул с фото, решение задач по изображениям, анализ скриншотов/рукописных заметок, извлечение данных из графиков/диаграмм, описание учебных материалов

Плюсы:

Один аккаунт дает доступ сразу к множеству ботов: и для учебы, и для работы с изображениями.
Умеет распознавать сложные задания по фото (включая рукописный текст), что удобно для школьных и вузовских задач.
Интерфейс и поддержка заточены под русскоязычную аудиторию.

Минусы:

Лимиты токенов быстро исчерпываются на пробном доступе.

Перейти на сайт >>>

4. Gemini

Мультимодальная нейросеть Google, которая в 2026 году лидирует в анализе изображений благодаря моделям Gemini 2.5 Flash и 3 Pro с функцией Agentic Vision. Нейросеть с функцией распознавания фото позволяет загружать изображение для детального распознавания объектов, текста и сцен, а также проверки на AI-генерацию через SynthID. Сервис интегрируется с поиском Google, пдходит для поиска информации по фото и творческих задач.

Стоимость: $20/мес
Бесплатный доступ: неограниченный анализ изображений на Gemini 2.0 Flash
Функции: распознавание объектов и сцен, OCR-текст, анализ эмоций/лиц, проверка AI-генерации (SynthID), выделение элементов по запросу, Agentic Vision для детального зума/поворота фото, извлечение данных из графиков/документов

Плюсы:

Бесплатный мощный Vision без лимитов.
Интеграция с Google Search и высокой точностью SynthID.
Быстрый анализ сложных изображений.

Минусы:

Полноценный доступ к самым мощным моделям и расширенным лимитам требует платной подписки Google One AI / Gemini Advanced.

Перейти на сайт >>>

5. SmartBuddy

Российская платформа с 100+ нейросетями, включая Claude, Gemini и GPT для анализа изображений. Она фокусируется на OCR-распознавании текста с фото, сканов и документов, поддерживая русский язык. Сервис подходит для бизнеса, учебы и креатива: извлекает данные из таблиц, схем и графиков. Дополнительно генерирует диаграммы, переводит и анализирует файлы в одном интерфейсе.

Стоимость: привязана к количеству запросов и используемым моделям
Бесплатный доступ: 3 бесплатных запроса без регистрации
Функции: OCR-текст с фото/сканов, распознавание объектов/эмоций, анализ диаграмм/графиков, подсчет предметов, поиск дефектов/различий, извлечение данных из таблиц/документов

Плюсы:

Очень простой вход: можно протестировать сервис без регистрации и с бонусом после создания аккаунта.
Поддерживается работа с множеством форматов файлов (PDF, изображения, офисные документы), что удобно для документооборота.
Нейросеть для OCR встроена в более широкую экосистему: распознанный текст сразу можно перевести, проанализировать или переписать.

Минусы:

Нет прозрачного публичного прайсинга.

Перейти на сайт >>>

6. GoGPT

Агрегатор нейросетей, предоставляющий доступ к ChatGPT, Claude, Gemini и другим моделям, которые делают анализ изображений: вы загружаете фото, а ИИ делает поиск по фото, распознает текст или дает описание за секунды. Она подходит для повседневных задач, от генерации контента до анализа файлов и ссылок, с удобным чатом и готовыми промптами.

Стоимость: от 699 ₽/мес
Бесплатный доступ: 10–20 запросов в день на базовых моделях
Функции: распознавание объектов и текста на фото, описание сцен, анализ изображений для идей/редактирования, извлечение данных из графиков, поддержка FaceSwap и стилизации

Плюсы:

Доступ к нескольким сильным vision‑моделям и генераторам картинок в одном сервисе.
Гибкая система GoCoin: видно примерную стоимость каждого запроса, неиспользованный баланс переносится при продлении тарифа.
Можно в одном окне и распознавать изображения, и сразу генерировать/дорабатывать новые.

Минусы:

Лимиты на бесплатном быстро исчерпываются при частом использовании.

Перейти на сайт >>>

7. ruGPT

Платформа на русском языке, через которую каждый месяц проходит свыше 200 000 изображений. Сервис использует передовые алгоритмы ИИ для точного распознавания содержимого фотографий: сервис извлекает текст со сканов и снимков, анализирует визуальный контент и мгновенно преобразует информацию с картинок в цифровой формат — от рукописных заметок до сложных документов и инфографик. Простой и понятный интерфейс разработан с учётом потребностей аудитории из России и стран СНГ.

Стоимость: от 165 ₽/мес
Бесплатный доступ: бесплатный тариф с 10 стартовыми запросами
Функции: OCR-текст с фото/сканов, распознавание объектов/сцен, анализ задач/формул, извлечение данных из документов/графиков, ответы на вопросы по изображениям

Плюсы:

Бесплатный мощный OCR для кириллицы без лимитов.
Агрегатор топ-моделей в РФ с оплатой рублями.
Простой интерфейс для студентов/бизнеса.

Минусы:

Очереди в пике на бесплатных моделях.

Перейти на сайт >>>

8. GPTunneL

Агрегатор более 100 нейросетей (ChatGPT, Claude, Midjourney, Gemini), предоставляющий туннельный доступ для создания контента. Платформа поддерживает Vision-функции для поиска по фото с помощью ИИ: от OCR и описания сцен до генерации/редактирования фото и видео. Подходит для бизнеса и креатива с удобным интерфейсом, загрузкой файлов (PDF, изображения) и корпоративными аккаунтами.

Стоимость: оплата по факту за количество генераций
Бесплатный доступ: есть бесплатный доступ к ChatGPT
Функции: OCR-текст/объекты с фото, описание сцен/эмоций, анализ документов/графиков, редактирование изображений, FaceSwap, стилизация/генерация из фото

Плюсы:

100+ ИИ‑моделей в одном месте: можно комбинировать распознавание, генерацию и видео без переключения сервисов.
Бонусы/промокоды, низкие цены для РФ.
Поддерживает локальные способы оплаты: СБП, карты, SberPay.

Минусы:

Нет одного фиксированного тарифа или подписки.

Перейти на сайт >>>

FAQ

1. Чем ИИ с распознаванием фото отличается от обычного «поиска по картинке» в браузере?

«Поиск по картинке» обычно ищет похожие изображения в интернете и страницы, где они встречаются. ИИ с распознаванием фото сначала «понимает» само изображение: что на нем находится, какой текст, какой контекст сцены, а уже потом может по запросу описать картинку, выделить нужные элементы, решить задачу, переписать текст, найти ошибки в верстке и т.д. Проще говоря, браузер ищет картинку в сети, а нейросеть анализирует ее содержимое и работает с ним как с данными.

2. Можно ли загружать в такие сервисы фотографии людей и документы с личными данными — что с безопасностью и приватностью?

Технически — да, большинство сервисов это позволяют, но с точки зрения безопасности это всегда риск. Часть платформ хранит загруженные данные для дообучения моделей или внутренней аналитики, пусть и в обезличенном виде; другие (обычно платные бизнес‑тарифы) обещают не использовать ваши данные для обучения. В идеале в публичные ИИ‑сервисы не стоит загружать паспорта, банковские карты, меддокументы и чужие лица без согласия — для таких задач лучше использовать локальные решения или корпоративные продукты с формальными договорами и DPA.

3. Насколько точно ИИ распознает текст на фото (сканы, рукописные конспекты, скриншоты тестов)?

С печатным текстом на качественных сканах и скриншотах современные OCR‑модели дают точность, близкую к «человеческой» — отдельные ошибки чаще всего в мелочах (символы, знаки, редкие шрифты). Со сканами плохого качества, перекошенными фотографиями страниц и особенно с рукописными конспектами точность резко падает: часть текста может искажаться или пропадать. Скриншоты тестов и интерфейсов в целом распознаются хорошо, но разметку (варианты ответов, таблицы, сложную верстку) иногда приходится вручную поправлять.

4. Можно ли с помощью этих нейросетей решать задачи по фото (математика, тесты, техдокументация) и не будет ли это считаться «списыванием»?

Да, многие модели уверенно распознают условие по фото и выдают готовое решение или даже пошаговое объяснение. Вопрос «списывания» — это уже не про технологии, а про правила конкретной школы, вуза или экзамена: где‑то ИИ прямо запрещен, где‑то допускается как «калькулятор на стероидах», а для домашних заданий учителя все чаще сами рекомендуют использовать ИИ как помощника. Безопасный подход — использовать нейросеть как объяснитель и проверяющий: попросить разобрать решение, подсказать ход мысли, а не просто выдавать ответ и сдавать его как свой.

5. Как ИИ справляется с «сложными» картинками — плохо освещенными фото, маленьким шрифтом, рукописным текстом, коллажами?

Плохое освещение, шум, размытие. Модели могут «дотянуть» до читабельного уровня, но ошибки резко растут: буквы путаются, мелкий текст теряется, куски пропадают.
Маленький шрифт. Если его сложно прочитать глазами, нейросеть почти наверняка тоже будет ошибаться; помогает переснять ближе или увеличить картинку.
Рукописный текст. Здесь все сильно зависит от почерка: аккуратная «школьная» печатная рукопись распознается терпимо, быстрые записи с кривым почерком — плохо.
Коллажи и «захламленные» изображения. ИИ может понимать общую сцену, но при большом количестве мелких элементов, наложенного текста и графики растет шанс перепутать структуру (что к чему относится, где подпись, где часть картинки). В таких случаях лучше либо упростить изображение, либо загружать его частями.

Мы живем в момент, когда «понимание картинок» больше не привилегия человека — его уверенно перенимают нейросети. Обозрев восемь разных ИИ с распознаванием фото, можно увидеть общую тенденцию: распознавание изображений становится не отдельным продуктом, а встроенной функцией во все — от учебных помощников до комплексных ИИ‑платформ. Это открывает простор для автоматизации: задания по фото, сканы документов, каталоги товаров, визуальная аналитика — все это можно обрабатывать быстрее и точнее.

Показать полностью 10

Искусственный интеллект Нейронные сети Распознавание Распознавание лица Длиннопост Блоги компаний

Посты не найдены

1 2 3 4 5 6 7 8 9 10 11 20 30 40

Это вторая статья в цикле «Что скрывает MAX»

Сразу важное: это не кликбейт

TL;DR

Часть 1: Что я нашёл (для всех)

1. Что такое KWS и как это работает

2. Что делает текущая нейронка

3. Почему это не просто «определение качества связи»

4. Что происходит при срабатывании

5. Серверный конфиг: то что я перехватил

6. Чего KWS не делает (чтобы не нагнетать)

7. Что ещё я нашёл про звонки

Часть 2: Доказательства (для тех, кто хочет проверить)

2.1 Где живёт KWS в коде

2.2 Архитектура модели

2.3 Полный flow сетевых запросов

2.4 Отчёт о срабатывании

2.5 Модель можно скачать прямо сейчас

2.6 Почему «модель можно заменить» - не теория

2.7 Дополнительные аудио-возможности в звонках

Выводы

Что умеет Epicenter Whispering

Как установить и запустить

Кому подойдёт

ТОП-8 ИИ с распознаванием фото в 2026 году

FAQ

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги