1. Меню пуск настроено под себя без всякого софта, в целом прям из коробки удобно. 2. секунды тоже есть из коробки уже последние пол года или больше. 3. в EDGE есть alt+tab, но по факту работая в двух браузерах не нашел повода ставить отдельно не понятное ПО для вкладок. 4. Может быть, но как говорил классик "а зачем?" ломать масштаб разрешения ? 5. Может быть, но как говорил классик "а зачем?" 6. В любом плеере так меняется громкость, зачем в системе?
7. У вас бывало большое меню которое просто вызывало не удобство? у меня да, одно нажатие и не нужно не чего лишнего устанавливать. 8. Очень не удобно. та как тогда будет сокращать значения - точные размеры помогают 9. 2 монитора никогда такой проблемы не было, а так можно забыться и ещё и за курсором следить где он. 10. В целом полезно. Чисто моё мнение, софт который дополнительно не чего не даёт толком, а в некоторых случаях только хуже, это лишняя нагрузка и вообще зачем ставить "сомнительное ПО" WIn11 получилась максимально удобной, с октября 2021 года использую, сначала было так себе, но сейчас это уже очень сформированный продукт.
Решил серьезно взяться за свою Windows и настроить систему так, чтобы она работала на меня, а не наоборот. Собрал подборку из 10 мощнейших модов, которые реально прокачивают удобство и функционал ОС.
Теперь прямо на панели задач можно видеть не только время с секундами, но и загрузку процессора, оперативной памяти и скорость интернета. Удобно мониторить ресурсы без диспетчера задач.
Мастхэв, если у вас два монитора и больше. Окно переключения Alt+Tab появляется на том экране, где находится курсор, и показывает программы только с этого монитора. Никакой каши из окон.
Всем привет! Команда Microsoft Research выложила в открытый доступ VibeVoice-ASR — нейросетевую модель для распознавания речи с диаризацией (разделением) спикеров. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.
Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А ещё я собрал портативную версию VibeVoice ASR под Windows и успел её как следует протестировать.
Whisper которому уже года три
Я сам пользуюсь Whisper уже много лет — делаю транскрипции своих видео, чтобы потом собрать оглавление для YouTube и использовать материал в текстовых статьях. И скажу честно — никогда не был полностью доволен результатом. Да, Whisper быстрый. Но на этом его достоинства для меня заканчивались.
Поэтому к изучению VibeVoice ASR я подошёл со всей ответственностью — протестировал на разных записях, сравнил качество, покрутил настройки.
Главная особенность системы в том, что она обрабатывает до 60 минут аудио за один проход без нарезки на чанки. На выходе — структурированная транскрипция с указанием кто говорит, когда и что именно сказал. И всё это работает локально на вашем компьютере.
Как это работает
В основе VibeVoice-ASR лежит архитектура на базе Qwen 2.5 (~9 млрд параметров). Ключевая инновация — двойная система токенизации с ультранизким frame rate 7.5 Hz: акустический и семантический токенизаторы.
Такой подход позволяет модели работать с контекстным окном в 64K токенов — это и даёт возможность обрабатывать целый час аудио без потери контекста. Для сравнения: Whisper режет аудио на 30-секундные кусочки и теряет связность на границах сегментов.
На выходе модель генерирует Rich Transcription — структурированный поток с тремя компонентами:
{"Start":1.51,"End":7.49,"Speaker":0,"Content":"У неё преждевременное сохранять невозможно, родила, начала сразу родильная деятельность."},
{"Start":7.51,"End":9.41,"Speaker":1,"Content":"Марина, что с ней?"},
{"Start":10.28,"End":16.22,"Speaker":0,"Content":"У неё преждевременное сохранять невозможно, отошли годы, начала, начала сразу родовая деятельность."},
{"Start":16.22,"End":18.02,"Speaker":1,"Content":"Марина, что с ней?"},
{"Start":18.13,"End":27.94,"Speaker":0,"Content":"Она рожает, привезли в ближайшую больницу родовую. В каком состоянии ребёнок ещё хуже, срок маленький."},
Помимо спикеров, модель размечает неречевые события: [Music], [Silence], [Noise], [Human Sounds] (смех, кашель), [Environmental Sounds], [Unintelligible Speech]. Это сделано чтобы модель не галлюцинировала текст во время пауз или фоновой музыки.
Обработка длинных записей: до 60 минут аудио за один проход без потери контекста. Идеально для митингов, подкастов, лекций.
Диаризация спикеров: автоматическое определение кто говорит в каждый момент времени. Работает на записях с несколькими участниками.
Временные метки: точные таймкоды для каждого сегмента речи. Готовый материал для субтитров.
Customized Hotwords: вот что меня реально зацепило — возможность задать пользовательский контекст. Перед распознаванием указываешь список слов: фамилии, названия продуктов, термины, сокращения. Всё то, что обычно произносится нестандартно и превращается в кашу. Если в видео часто звучит "ArtGeneration" или "НЕЙРО-СОФТ" — просто добавляешь в контекст, и модель ВСЕГДА распознаёт корректно. Для технического контента — просто спасение.
51 язык: включая русский, хотя основной фокус на английском и китайском.
Набор языков отличный
Модели
Помимо оригинальной модели от Microsoft, сообщество уже сделало квантованные версии для видеокарт с меньшим объёмом памяти.
Полная модель — microsoft/VibeVoice-ASR Размер 17.3 GB, требует ~8 ГБ VRAM. Лучшее качество распознавания.
4-bit квантизация — scerz/VibeVoice-ASR-4bit Требует ~4 ГБ VRAM, немного медленнее. Подходит для видеокарт с меньшим объёмом памяти.
В моей портативке доступны обе версии — можно выбрать прямо в интерфейсе. Также есть эмуляция 4-bit квантизации для полной модели, если хотите попробовать оригинал, но памяти впритык.
Текущие ограничения
К сожалению, не все задачи система решает одинаково хорошо:
Перекрывающаяся речь: если два человека говорят одновременно, модель не разделит их корректно.
Короткие фрагменты: диаризация плохо работает на высказываниях менее 1 секунды.
Только batch processing: нет real-time режима, только обработка готовых файлов.
Ресурсоёмкость: требует достаточно мощную видеокарту для комфортной работы.
Я с каналом Нейро-Софт подготовил портативную сборку VibeVoice ASR Portable RU. В ней:
Русифицированный интерфейс
Установка в один клик (install.bat)
Поддержка полной и 4-bit моделей
Парсер результатов с фильтрацией — можно отдельно включать/выключать временные метки, спикеров, дескрипторы (музыка, шум, тишина). Удобно когда нужен только чистый текст без разметки
Фильтр по спикерам — можно вывести текст только конкретного участника разговора
Выбор видеокарты и установка нужной версии CUDA
Flash Attention 2 для RTX 30xx/40xx/50xx
Поддержка всех форматов аудио и видео через FFmpeg
Тёмная тема интерфейса
Всё необходимое уже включено в дистрибутив, просто распакуйте и запускайте, есть версия с готовым окружением под win 11 и RTX4090. Забирайте архив тут.
NVIDIA GPU с 8+ ГБ видеопамяти (или 4+ ГБ для 4-bit модели)
Windows 10/11 64-bit
16 ГБ оперативной памяти
10 ГБ свободного места на диске
Распакуйте в любую папку (путь без кириллицы), запустите install.bat, выберите видеокарту из списка. Модели скачаются при первом запуске.
Рассказывайте в комментариях как вы могли бы использовать такой инструмент и чего не хватает.
Я рассказываю больше о нейросетях у себя на YouTube, в Телеграм и на Бусти. Буду рад вашей подписке и поддержке. На канал Нейро-Софт тоже подпишитесь, чтобы не пропустить полезные репаки. Всех обнял. Удачных транскрипций!
Называется AltSendme. Суть проста, но гениальна: полная децентрализация. Здесь нет облачных хранилищ, чужих серверов или посредников. Работает по принципу P2P — файлы отправляются напрямую с вашего устройства на устройство получателя.
Почему это сейчас актуально:
Вы не скармливаете свои данные БигТеху (Google, Dropbox и прочие). Никто не сможет просканировать ваши файлы, продать статистику рекламодателям или внезапно закрыть доступ к аккаунту.
Что под капотом:
✅ Безопасность: Сквозное шифрование (QUIC + TLS 1.3). Даже если перехватят трафик, расшифровать его не получится.
✅ Скорость: Передача данных ограничена только шириной вашего канала.
✅ Свобода: Абсолютно никаких ограничений на размер файла или формат. Хотите передать папку на 100 Гб? Пожалуйста.
✅ Надежность: Если интернет приуныл, загрузка не сбросится, а продолжится с того же места.
Инструмент полностью бесплатный и с открытым исходным кодом.
Привет! Знакомая история? Пятница, пиццу заказали, легли на диван, и тут:
— Что смотрим? — Выбирай — Ну, давай комедию какую-нибудь — Не хочу комедию — А что хочешь? — Не знаю, что-нибудь — Ок, вот «Начало» Нолана — Смотрели уже! — Ты ж говорила, что не помнишь!
И понеслась )
Полчаса листаем Кинопоиск, не можем определиться, какой фильм с Райаном Гослингом посмотреть. Потом ругаемся, в итоге либо пересматриваем «Пиратов Карибского моря» в десятый раз, либо расходимся -- я в компьютерные игры, она в ютуб.
У нас с девушкой так было почти каждые выходные. В какой-то момент меня это реально достало. Хочу просто кино посмотреть, а не час выбирать что смотреть. Я продуктовый дизайнер, код писать не умею. Но с нейронками сейчас можно сделать почти что угодно. Подумал:
А что, если сделать Tinder, но для фильмов? Оба свайпаем, совпало -- смотрим
Сделал -- работает. Выкладываю, может кому пригодится.
Хочу поделиться одной из первых версий, которую опубликовал. Смотрю -- глаз дергается, но лучшее враг хорошего.
Полное олицетворение моей радости, когда проект действительно работает, криво-косо, но работает!
Я продолжал дорабатывать продукт и сейчас он уже на другом уровне!
1/6
Как использовать:
Открываешь в браузере или сразу в телеге (это мини-апп, ничего качать не надо). Создаёшь комнату, скидываешь ссылку или показываешь QR-код. Выбираете фильмы и сериалы, все что лайкните будет сохраняться в профиле, что лайкните оба -- будет вашим выбором на вечер. Готово)
Весь процесс -- минуты 2-3. Вместо получаса споров и мук выбора.
Что еще?
Можно и одному свайпать, без партнера. Ну и в целом это такой киножурнал -- списки «хочу посмотреть» и «просмотрел». Можно ставить оценки: жалко времени, на один раз, можно пересматривать. После просмотра бот в чате спросит оценку. Сериалы тоже есть -- отмечаешь какие серии и сезоны глянул, бот напомнит когда выйдет новый сезон или сообщит о релизе фильма из твоего списка. Также регулярные новости с анонсами ожидаемых фильмов.
Ну и по мелочи — есть какая-то геймификация с уровнями, но это так, для прикола.
Проекту три недели, юзают человек 80. Я продолжаю пилить, но уже не знаю что добавлять — свои хотелки закончились. Так что если попробуете — пишите в группу чего не хватает, что бесит, какие баги словили. Ну или просто пообсуждать кино зайти.
А вообще меня зовут Дима Овсяник, мне 26 лет, я дизайнер интерфейсов и хочу создавать новые продукты. Если интересно как непрограммист пилит продукт на нейронках — веду блог, там про процесс, дизайн и всякие мысли.