Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
#Круги добра
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Лото - традиционная настольная игра родом из детства. Онлайн игры с другими игроками, разнообразные режимы игры, общение с другими игроками и рейтинги

Наше лото

Настольные, Симуляторы

Играть

Топ прошлой недели

  • SpongeGod SpongeGod 1 пост
  • Uncleyogurt007 Uncleyogurt007 9 постов
  • ZaTaS ZaTaS 3 поста
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
0 просмотренных постов скрыто
71
empenoso
empenoso
10 дней назад
Программирование на python

Как сделать умный диктофон бесплатно: превращаем аудио в текст без подписок⁠⁠

В новостях всё чаще говорят об «ИИ‑диктофонах» — гаджетах, которые записывают каждый ваш разговор в течение дня, отправляют аудио в облако, превращают его в текст и даже готовят краткую сводку по итогам. Звучит футуристично, но такие решения стоят дорого, требуют постоянной подписки и вызывают вопросы о приватности.

Как сделать умный диктофон бесплатно: превращаем аудио в текст без подписок Программирование, Диктофон, Python, Длиннопост

Лично мне идея тотальной записи кажется избыточной. Зато куда практичнее другая задача: получить точную текстовую расшифровку лекции, доклада или публичного выступления. Чтобы потом не переслушивать часы аудио, а быстро найти нужную цитату или мысль простым поиском по тексту.

Как сделать умный диктофон бесплатно: превращаем аудио в текст без подписок Программирование, Диктофон, Python, Длиннопост

Мой купленный за 2 т.р. диктофон с возможностью подключения внешнего микрофона на фоне коробки с ESP32

В этой статье я покажу, как построить такую систему без платных подписок и полностью под вашим контролем. Всё, что нужно — обычный диктофон за 1–3 тыс. рублей или даже просто приложение на телефоне — тогда затраты вообще равны нулю, и набор бесплатных, открытых программ, которые работают на вашем компьютере. Я купил диктофон для теста и поделюсь результатами.

Сердцем решения станет OpenAI Whisper — мощная технология распознавания речи от создателей ChatGPT. Главное её преимущество — она может работать полностью автономно на вашем ПК, не отправляя никуда ваши данные. К тому же Whisper распространяется как open‑source: исходный код и модели доступны бесплатно — вы можете скачать, использовать и при необходимости даже модифицировать.

Мои скрипты выложены на GitHub.

Теоретическая часть: что, почему и как?

За последние пару лет появилось немало open‑source решений для распознавания речи, но именно Whisper стал фактическим стандартом. Его модели обучены на колоссальном массиве данных, что обеспечивает высокую точность распознавания. По сравнению с другими бесплатными движками, Whisper даёт результат ближе всего к коммерческим сервисам вроде Google Speech‑to‑Text и при этом работает автономно. Важный плюс — мультиязычность. Русский язык поддерживается «из коробки».

Модели Whisper бывают разных размеров: от tiny до large. На данный момент наиболее актуальной и точной является large-v3. Главный принцип здесь — компромисс между скоростью, точностью и требуемыми ресурсами (в первую очередь, видеопамятью). У меня видеокарта NVIDIA GeForce RTX 5060 Ti 16 ГБ, поэтому на тестах использую large модель, она требует ~10 ГБ VRAM, но можно начать и со small модели — для неё достаточно ~2 ГБ VRAM.

Не стоит забывать и о приватности: все данные остаются у вас на компьютере. Никаких облачных серверов, никаких подписок. Что понадобится для запуска?

Железо: компьютер с Linux (я использую Ubuntu, но у меня стоит двойная загрузка Windows & Linux через rEFInd Boot Manager). Рекомендуется видеокарта NVIDIA — GPU многократно ускоряет работу, хотя на CPU тоже всё запустится, только медленнее. В качестве источника звука я тестировал обычный диктофон за пару тысяч рублей.

Как сделать умный диктофон бесплатно: превращаем аудио в текст без подписок Программирование, Диктофон, Python, Длиннопост

Диктофон за 1–3 тыс. рублей. Много их

Софт:

  • Python — язык, на котором работает весь стек.

  • FFmpeg — универсальный конвертер аудио/видео.

  • PyTorch — фреймворк, на котором обучены модели.

  • NVIDIA Drivers и CUDA — для связи с видеокартой.

Практическая часть: пошаговая инструкция

Теперь перейдём от теории к практике и соберём рабочую систему распознавания. Я разбил процесс на несколько шагов — так будет проще повторить.

Шаг 1. Подготовка окружения

Когда‑то я собирал dlib с поддержкой CUDA для для того чтобы распознать лица всех соседей с камеры в подъезде. Тогда я прошёл через несовместимости, конфликты версий и ручную сборку библиотек. Поэтому к установке Whisper я уже был подготовлен.

Чтобы избавить вас от всего этого «удовольствия», я написал универсальный bash‑скрипт setup_whisper.sh. Он берёт на себя всю грязную работу по настройке окружения на Ubuntu 24:

  • обновляет систему и ставит базовые пакеты, включая Python и FFmpeg;

  • проверяет драйверы NVIDIA и при необходимости устанавливает их;

  • подтягивает CUDA Toolkit;

  • создаёт виртуальное окружение Python и внутри него ставит PyTorch (учитывая модель видеокарты);

  • загружает сам Whisper и полезные библиотеки;

  • запускает тест, проверяющий, что GPU действительно работает.

Запуск прост:

chmod +x setup_whisper.sh
./setup_whisper.sh

Как сделать умный диктофон бесплатно: превращаем аудио в текст без подписок Программирование, Диктофон, Python, Длиннопост

Запуск ./setup_whisper.sh

Полный код setup_whisper.sh на Гитхабе.

Шаг 2. Запись и подготовка аудио

Чем лучше исходная запись, тем меньше ошибок. Записывайте ближе к источнику звука, избегайте шумных помещений и треска. Whisper работает с самыми популярными форматами: mp3, wav, m4a, так что конвертировать вручную не придётся.

Шаг 3. Массовая расшифровка всех подряд записей

Здесь в игру вступает мой второй скрипт — whisper_transcribe.py. Он:

  • автоматически находит все аудиофайлы в папке;

  • использует GPU (если доступен), ускоряя работу в десятки раз;

  • сохраняет результат в нескольких форматах:

    • .txt для текста,

    • .srt с таймкодами (можно открыть как субтитры),

    • all_transcripts.txt — общий файл со всеми расшифровками.

Пример использования:

# Активируем окружение
source .venv/bin/activate

# Запуск по умолчанию (ищет аудио в текущей папке)
python3 whisper_transcribe.py

# Указываем папку с файлами, модель и папку для результатов
python3 whisper_transcribe.py ./audio large ./results

Полный код whisper_transcribe.py на Гитхабе.

Как сделать умный диктофон бесплатно: превращаем аудио в текст без подписок Программирование, Диктофон, Python, Длиннопост

python3 whisper_transcribe.py ./audio large ./results

Шаг 4. Анализ результатов

После обработки вы получите полный набор файлов. Например:

  • some_lecture.txt — текст лекции;

  • some_lecture.srt — субтитры вида:

    12 00:04:22,500 --> 00:04:26,200 Здесь спикер рассказывает о ключевой идее...

  • all_transcripts.txt — всё сразу в одном документе.

Я проверил систему на часовом файле. Модель large на моей RTX 5060 Ti справилась за ~8 минут.

Разделение по спикерам (диаризация) - почему это сложно?

А если записывать не лекцию, а совещание? На записи говорят пять человек, и вам нужно понять, кто именно что сказал. Обычный Whisper выдаёт сплошной текст без указания человека. Здесь на помощь приходит диаризация — технология, которая анализирует голосовые характеристики и помечает фрагменты как «Спикер 1», «Спикер 2» и так далее.

Для этого существует WhisperX — расширенная версия Whisper с поддержкой диаризации. Однако при попытке установки я опять столкнулся с классической проблемой ML‑экосистемы: конфликтом зависимостей. WhisperX требует определённые версии torchaudio, которые несовместимы с новыми драйверами NVIDIA для RTX 5060 Ti.

Решение мне подсказали: Docker‑контейнеры NVIDIA. По сути, это готовые «коробки» с предустановленным софтом для машинного обучения — разработчики уже решили все проблемы совместимости за вас. NVIDIA поддерживает целую экосистему таких контейнеров через NGC (NVIDIA GPU Cloud), а сообщество создает специализированные образы под конкретные задачи. Вместо многочасовой борьбы с зависимостями достаточно одной команды docker pull, и вы получаете полностью рабочую среду с предустановленным WhisperX, настроенным PyTorch и всеми библиотеками. В данном случае контейнер ghcr.io/jim60105/whisperx включает диаризацию из коробки и отлично работает с современными GPU.

Как сделать умный диктофон бесплатно: превращаем аудио в текст без подписок Программирование, Диктофон, Python, Длиннопост

Диаризация откроет новые возможности: автоматическую генерацию протоколов встреч с указанием авторства реплик, анализ активности участников дискуссий, создание интерактивных расшифровок с навигацией по спикерам.

Это тема для отдельной статьи, которую планирую выпустить после тестирования Docker‑решения на реальных многоголосых записях.

Заключение

Мы собрали систему, которая позволяет бесплатно и полностью автономно расшифровывать лекции, выступления, а в перспективе и совещания. В основе — OpenAI Whisper, а все настройки и запуск упрощают мои open source скрипты. Достаточно один раз подготовить окружение — и дальше вы сможете регулярно получать точные транскрипты без подписок и риска приватности.

Следующий шаг — диаризация. Это позволит автоматически разделять текст по спикерам и превращать расшифровку совещания в полноценный протокол с указанием авторства.

Автор: Михаил Шардин
🔗 Моя онлайн‑визитка
📢 Telegram «Умный Дом Инвестора»

2 сентября 2025

Показать полностью 5
[моё] Программирование Диктофон Python Длиннопост
13
AIvengo.news
AIvengo.news
1 месяц назад
Искусственный интеллект

Непонятный бум популярности ИИ-диктофонов, которые массово используют айтишники и инвесторы⁠⁠

ИИ-диктофоны - это специальные устройства, автоматически записывающих и анализирующих разговоры. Они выпускаются в различных видах — браслеты, кулоны, заколки. И продаются по цене от $99 до $199, ещё и с годовой подпиской от $50 до $168.

Эти устройства поддерживают множество языков, создают расшифровки и краткие сводки с возможностью полнотекстового поиска.

Вот примеры использования:

Основатель стартапа Buddi Анит Патель: "Когда на встрече больше десяти человек, сложно всё удержать в голове. Лучше записать".

Руководитель Accelr8 Пэт Сантьяго: "ИИ замечает детали, ускользающие от человеческого внимания".

Директор компании Mostly Serious Джарад Джонсон: "Есть тенденция к корпоративным закупкам этих устройств для целых отделов, особенно в сфере продаж".

Почему-то есть у меня устойчивое мнение, что это всё просто очередные понты 😎.

--

Мой тг-канал: Новости ИИ by AIvengo, пишу каждый день про ИИ

[моё] Искусственный интеллект Диктофон Текст
5
Kuchka70
Kuchka70
2 месяца назад

Занятная штукенция⁠⁠

Компьютерная мышка Тачпад Гаджеты Видео Вертикальное видео Короткие видео Диктофон Лазерная указка
48
Tehnic2012
Tehnic2012
2 месяца назад
Серия Изобретения прошлого

Как упрямство одного человека заставило мир звучать⁠⁠

Друзья, вспомним сегодня старину Эдисона. Того самого изобретателя лампочки и фонографа.

Того, кто оставил после себя мир иным.

Как упрямство одного человека заставило мир звучать Изобретения, Звук, Плеер, Музыка, Диктофон, Томас Эдисон, Лампа Эдисона, Фонограф, Граммофон, Длиннопост

Т.А. Эдисон

С высоты нашего времени сложно понять весь гений этого человека. А был ли он гением на самом деле? Об этом и пойдет наш рассказ.

Представьте: 1877 год. Нет айфонов, ютюба и даже радио. Мир звучит скрипуче, как плохо смазанная телега, а музыка "живет" лишь в концертных залах.

И вдруг один одержимый технарь решил, что звук можно записать, а потом воспроизвести.

И тут главный вопрос: как это сделать?

Телеграф, который заговорил

Эдисон не сразу сел записывать голоса. Сперва он ковырялся в телеграфе, пытаясь улучшить передачу сигналов. По ходу этой работы его осенило: если игла, бегающая по спирали углубления барабана сможет оставлять не только точки и тире, но и издавать вибрации звука с помощью специальной мембраны?

Первые эксперименты провалились. Мембрана рвалась, иглы гнулись, а звук больше напоминал скрежет и скрип.

Но Эдисон не сдавался. Он перешел на оловянную фольгу, обернутую вокруг того же барабана.

В течение 15-20 часов ежедневно изобретатель диктует на барабан одно и то же слово. Слово было — "спешиал" ("особенный" — с английского). Аппарат повторял в ответ лишь невнятное: "пешиа"...

Так повторялось долгие 7 месяцев.

Было от чего сойти с ума!

Попробуйте повторить любое слово хотя бы 10 раз. Потом попытайтесь делать это каждый день почти без сна и отдыха.

Но он достиг главного. Слово, произнесенное 1000 раз подряд со скоростью 150 слов в минуту было примерно с той же скоростью воспроизведено фонографом.

Это был прорыв покруче искусственного интеллекта современности!

Потом была демонстрация записи популярной детской песенки "У Мери был барашек" в редакции одной из газет. Эдисон в одно мгновение стал знаменит. Его даже окрестили "волшебником из Менло Парк".

Как упрямство одного человека заставило мир звучать Изобретения, Звук, Плеер, Музыка, Диктофон, Томас Эдисон, Лампа Эдисона, Фонограф, Граммофон, Длиннопост

Фонограф Эдисона. Изображение из открытого доступа

Фонограф 1.0 был хрупким: оловянная фольга рвалась после пары воспроизведений. Эдисон перепробовал десятки материалов, пока не остановился на воске.

Это был долгий путь проб и ошибок.

А что потом?
Фонограф стал предком всего: от граммофонов до сервиса Spotify. Но самое смешное — сам Эдисон считал его "секретарской машинкой". Он думал, что главное применение устройства — диктовка писем. Как же он ошибся в итоге!

История фонографа — история безграничного упрямства. А Эдисон — не гений-одиночка. Это был обычный человек, почти без образования. В одном он отличался от большинства: полным отсутствием боязни пробовать снова и снова...

Если вам интересно каждый день узнавать об интересной технике, искренне приглашаю вас по ссылке ниже.

Канал "Причуды техники..."

Показать полностью 2
[моё] Изобретения Звук Плеер Музыка Диктофон Томас Эдисон Лампа Эдисона Фонограф Граммофон Длиннопост
5
12
DELETED
DELETED
4 месяца назад

Рабочие страсти, Или "сказка для взрослых"⁠⁠

Нашла я тут в тумбочке со старой техникой — диктофон, верный мой спутник до того, как на смену ему пришел салага Т9. Который спит и видит меня в другой профессии. Диктофон же фиксировал все как есть и нисколечко не искажал записанную реальность.

Раньше с ним, в бытность мою редактором газет, моя работа выглядела такой эээ... эротичной что ли.

Ну, вот, допустим, включаю я диктофонную запись, чтобы расшифровать интервью, а беседа была с начальником ДЕЗа и то, что было на записи, запросто могло вогнать непосвященного человека в краску.

— А сколько жилых домов в районе? — бодрым звенящим голосом задаю я вопрос.

— Не знаю, — почему-то шепотом признается мне начальник, и также шепотом продолжает, — я не помню.

— Ну, ладно, это не столь важно, — фыркаю я, — давайте перейдем к другому…

Слышен шорох, что-то елозит, выдох, удар, всхлип, протяжный вздох, смех, шебуршание.

— Вы чем там занимались? – округлив глаза, интересовалась коллега, став свидетелем расшифровки записи.

— Да он просто пододвинул к себе папку, чтобы посмотреть данные, а на ней лежал диктофон, диктофон упал на пол, мы нагнулись, стукнулись лбами, похихикали над этим — вот и все.

— Да этим «вот и все» только фильмы озвучивать определенного содержания!

Или я там дальше продолжаю:

— Давайте вы представите, что я восемнадцатилетний подросток, — это я предлагаю рассказать мне про непонятную облицовку труб так, чтобы понял и ребенок.

Слышится сопение, звук расстегивающейся молнии, затем как будто отлетает пуговица, странное трение и полушепот, полувыдох:

— Ну, где же это?

Брови коллеги удивленно ползут вверх и я, опережая вопрос:

— Это он полез искать документы, сначала открыл одну папку на молнии, потом другую, на кнопке, перебрал листы, но так и не нашел то, что искал.

А еще, вы знаете, как двусмысленно слышится на диктофоне виброзвонок, снятие пиджака, одновременное отодвигание стула и шлепок печати на бумаге, звук «чпок» при отрывании брелока на присоске от стола, скрип кресел и почесывание ноги?

Практически не интервью каждый раз выходило, а «сказка для взрослых».

P.S. Больше историй из жизни — в моем Telegram-канале "Яжевика" — https://t.me/vikaavtor

Показать полностью
[моё] Юмор Работа Журналисты Интервью Диктофон Текст
1
IdealTechnoNews
IdealTechnoNews
5 месяцев назад
GeekNews

Диктофон с искусственным интеллектом⁠⁠

Продается на Али и на Яндекс Маркете.

Диктофон Вертикальное видео Технологии Инновации Изобретения Полезное Техника Искусственный интеллект Видео Короткие видео
1
baykar
baykar
5 месяцев назад

Жизненный анекдот)))⁠⁠

Короче решил я девушке послать утром ММСку с диктофонной записью. Ну что-то вроде "доброе утро, малыш, целую тебя". Сижу в комнате с коллегами и как-то не по себе при них надиктовывать. Что делать? Для таких случаев есть туалет и там кабинка! Иду в туалет, закрываюсь в кабинке, включаю диктофон, начинаю говорить. Говорю, все в порядке вроде, отправляю... Выхожу из кабинки, два чувака стоят руки моют и ржут... Представляю что они подумали, когда услышали из кабинки "доброе утро, малыш..."

Анекдот Юмор Текст Ммс Сообщения Диктофон Туалет Туалетный юмор
8
0
IdealTechnoNews
IdealTechnoNews
5 месяцев назад
GeekNews

Диктофон капсула⁠⁠

Продается на Али и на Яндекс Маркете.

Техника Технологии Изобретения Инновации Полезное Диктофон Вертикальное видео Видео Короткие видео
3
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии