Как создать ИИ-секретаря, который превратит запись совещания в готовый протокол
Привет, Пикабу! Недавно столкнулся с проблемой, которая знакома каждому, кто хоть раз участвовал в рабочих совещаниях: после каждой встречи кому-то нужно составлять протокол. Обычно эта "честь" достается младшему сотруднику, который сидит и судорожно записывает "кто что сказал", а потом полдня приводит это в читаемый вид.
Подумал: а что если научить искусственный интеллект делать это за нас? Результат превзошел ожидания, и сейчас расскажу, что получилось.
Что задумал
Идея простая: записал совещание на диктофон, скинул аудиофайл в Telegram-бот, получил готовый протокол по шаблону. Никаких мучений с расшифровкой и форматированием.
Основные фишки системы:
Загружаешь аудиозапись в телеграм-бот
Система автоматически расшифровывает речь
ИИ структурирует информацию по заданному шаблону
Получаешь готовый документ
Все протоколы сохраняются в базе данных
Доступ только авторизованным пользователям
Два пути развития
Когда начал прикидывать техническую реализацию, вышло два принципиально разных подхода:
Вариант 1: Используем облачные API
Плюсы:
Быстро запустить
Высокая скорость: час записи обрабатывается за 2-10 минут
Не нужно покупать железо
Простое масштабирование
Минусы:
Постоянные расходы на API (от 30 до 125 рублей за час записи)
Аренда сервера 1150 рублей в месяц
Данные уходят на внешние сервисы
Технологии: Python + aiogram + SQLite + Docker + API Яндекс/Сбер/OpenAI
Вариант 2: Все на своих серверах
Плюсы:
Полная конфиденциальность данных
После закупки железа - минимальные операционные расходы
Полный контроль над процессом
Минусы:
Стартовые вложения 720 тысяч рублей (2 сервера + 2 видеокарты 4090)
Электричество 6-8 тысяч рублей в месяц
Сложная разработка
Медленнее: час записи обрабатывается 12-20 минут
Технологии: Python + Ollama + Whisper v3 + локальные LLM модели(GPT-OSS-20b)
Подводные камни
Самая большая проблема - качество распознавания речи. Даже у лучших сервисов процент ошибок (WER) составляет от 5% до 30%, в зависимости от:
Качества записи
Количества помех
Четкости речи говорящих
Наличия специфической терминологии
По исследованиям, лучший результат показывает ElevenLabs с WER 3,1%, но он требует VPN для доступа из России.
Что в итоге
Для большинства задач оптимальным видится облачный вариант:
Быстрый запуск
Приемлемая стоимость
Достаточное качество
Локальный вариант имеет смысл только если:
Критична конфиденциальность
Большие объемы обработки (от 100+ часов в месяц)
Есть бюджет на железо
Реальность vs ожидания
Ожидание: Включил запись, получил идеальный протокол
Реальность: Получил хорошую основу, которую нужно подкорректировать
Но даже с учетом необходимости правки, экономия времени колоссальная. Вместо 2-3 часов на составление протокола - 15 минут на проверку и корректировку.
Планы на будущее
Думаю добавить:
Автоматическое определение говорящих
Выделение ключевых решений и action items
Интеграцию с календарем для автоматического создания задач
Возможность редактирования шаблонов протоколов
Выводы
Технологии ИИ уже сейчас могут существенно облегчить рутинные задачи. Главное - правильно выбрать баланс между стоимостью, качеством и скоростью.
А у вас есть рабочие задачи, которые хочется автоматизировать с помощью ИИ? Делитесь в комментариях!
P.S. Если кому-то интересна техническая реализация или хотите обсудить детали - пишите в комментах, сделаю продолжение с кодом и архитектурой системы.