Секретное оружие против клавиатуры: как я написал локальный голосовой ввод VoxBee, чтобы вообще не шевелить кожаными сосисками
Привет, Пикабу.
На связи Secret Agent 007.
Из шпионского у меня только:
никнейм,
хроническая паранойя насчёт приватности,
и способность зайти «на 5 минут поправить баг», а выйти из IDE уже в следующем времени года.
А ещё я очень ленивый.
Нет.
Не так.
Я настолько ленивый, что потратил несколько месяцев на разработку программы, чтобы лишний раз не тянуться к клавиатуре.
Потому что настоящий инженер не ищет лёгких путей.
Он автоматизирует их настолько, что потом боится вставать с дивана — вдруг придётся ещё что-то оптимизировать.
Как меня унизила клавиатура
Сидел я как-то ночью, печатал очередное:
«ок, ща посмотрю»
И внезапно понял:
На дворе 2026 год.
Нейросети уже:
рисуют фильмы,
пишут код,
генерируют людей,
заменяют половину LinkedIn,
скоро начнут оформлять ипотеку без человека,
а я всё ещё долблю пластиковые кнопки как бухгалтер из 2007-го.
Это был личный кризис.
Я почувствовал себя пещерным человеком, который палкой тыкает в мамонта, когда рядом уже летают дроны.
Начал искать голосовой ввод
И тут рынок сказал мне:
Вариант №1:
«Конечно, мы распознаем ваш голос!
Просто отправьте ВСЕ свои разговоры в наше облако™».
Очень удобно.
Особенно если вы:
параноик,
айтишник,
или хотя бы один раз читали пользовательское соглашение.
Вариант №2:
Опенсорсный проект, который:
запускается только в полнолуние,
требует 14 библиотек,
конфликтует с драйвером принтера,
и в README есть фраза:
“works on my machine”
После чего автор исчез 3 года назад.
Тогда я сделал своё
Так появился VoxBee — полностью локальный голосовой ввод для Windows.
Работает оффлайн.
Бесплатно.
Без регистрации.
Без облака.
Без «создайте аккаунт чтобы продолжить дышать».
Как работает эта шайтан-машина
Внутри сидит whisper.cpp.
Всё крутится прямо у вас на компе.
Ваши голосовые сообщения:
не улетают в облако,
не слушаются индусами-модераторами,
не участвуют в обучении «улучшенной AI-модели 18.4 Turbo Ultra Plus».
Ваш ПК сам превращает звуки в текст, как настоящий домашний шаман.
Главная фишка — режим «Невидимка»
Сценарий:
Открываете Телегу / браузер / VS Code.
Ставите курсор.
Просто начинаете говорить.
ВСЁ.
Текст появляется сам.
Программа сама понимает:
когда вы начали говорить,
когда закончили,
когда задумались о смысле жизни,
и когда просто жуёте чипсы возле микрофона.
После недели использования печатать руками ощущается примерно как:
стирать вещи в проруби,
добывать огонь трением,
или вставать переключать канал без пульта.
Фишки спецагента
🎤 Смесь языков без нервного тика
Можно спокойно сказать:
«Добавь в README команду git push и проверь endpoint»
И программа:
не ломается,
не рожает кракозябры,
не устраивает истерику из-за раскладки.
Для бывших пользователей Punto Switcher это примерно как выйти из токсичных отношений.
🫡 Голосовые команды
Самый ленивый сценарий:
Вы надиктовали простыню текста в ChatGPT.
И вместо:
двигать рукой,
искать Enter,
совершать физическую активность,
вы просто шепчете:
«окей»
И программа нажимает Enter за вас.
Следующий этап эволюции — чтобы она ещё и кофе приносила.
🖱 Управление мышкой голосом
Можно говорить:
«клик»
«вправо»
«назад»
«копировать»
И курсор послушно ползёт выполнять приказ.
Идеально в ситуациях:
руки в шаурме,
кот уснул на запястье,
вы лежите как тюлень,
или просто достигли максимального уровня лени.
Честно о косяках
Это бета.
То есть иногда программа ведёт себя как:
«я понял задачу… но по-своему».
Проблема №1 — сосед с перфоратором
Если сосед начинает сверлить стену, нейросеть пытается это распознать.
Однажды она выдала мне:
«кровавый портал открылся, владыка бездна ждет вас!
Хотя я просто сказал:
«скинь фотку».
Проблема №2 — режим цифр
Есть режим для паролей и чисел.
Типа:
«один два три»
→ 123
Но иногда он впадает в экзистенциальный кризис и решает, что:
«семь восемь»
это:
78 000
Почему?
Никто не знает.
Возможно, внутри живёт дух бухгалтера.
Проблема №3 — железо
На NVIDIA с CUDA всё летает как:
«говоришь → текст уже появился».
На обычном процессоре:
«говоришь → нейросеть задумалась → вспомнила детство → появился текст».
AMD/Vulkan версия уже пилится в секретной лаборатории.
Иногда работает.
Иногда смотрит в душу.
Как попробовать
Интернет нужен ровно один раз:
скачать,
установить,
загрузить модель.
Дальше можете уходить в цифровое подполье и диктовать тексты хоть в бункере.
Проект полностью открытый.
Без:
рекламы,
подписок,
NFT,
токенов,
и курсов «как стать AI-предпринимателем за 3 дня и заработать миллион долларов».
Репозиторий:
Релизы:
P.S.
Этот пост я надиктовал лёжа на диване.
Кажется, человечество всё-таки движется к светлому будущему, где человек не работает, а только говорит компьютеру:
«ну сделай уже сам».