Транскрипция аудио нейронной сетью
Иногда случается так, что нужно быстро и качественно транскрибировать текст без лишних телодвижений. Я пытался справиться с этой задачей, жаря свой ноутбук и страдая от долгого перевода аудио подкаста в текст. Прошло почти три часа, пока я закончил это мучение. Через час я нашел решение - сайт. Это та же нейронная сеть, но она работает на Tesla A100, которая стоит миллион рублей. Я разобрал двухчасовое своё видео за 10 секунд! Я чувствовал себя двояко. С одной стороны, это было круто, что нашёлся такой инструмент. С другой стороны, обидно, что я не нашел его тремя часами раньше.
Я хотел написать пост про этот сайт, но он иногда выдает ошибку. Может быть, видеокарта используется для других целей... Но это не всегда происходит, сайт периодически работает. Я настроился на написание поста, поэтому расскажу вам о том, как можно транскрибировать аудио в Google Colab. Скорость там конечно не такая быстрая, как за 10 секунд для двухчасового видео, но все же она гораздо быстрее, чем при использовании CPU: 12-го поколения Intel i7-12700H (20) @ 4.600GHz. К примеру, 16-минутное аудио может быть транскрибировано за 3-4 минуты.
Заходим сюда видим что-то такое.
Нажимаем на плэй, появится кнопка на месте квадратных скобок [ ] эта волшебная фиговина подгрузит что ей там надо появится зелёная галочка
Дальше меняем на свою ссылку на видео ютуб youtube.com/watch?v=dQw4w9WgXcQ если вам будет эта тема интересна и не сильно заминусуете, напишу как в колаб закидывать свои аудиофайлы, поменяли нажимаем плэй.
Дальше можно указать модель нейронки large medium small base tiny
Чем меньше тем соответсвенно быстрее транскрибирует но хуже начинает понимать русский, к стати если язык указать --language любой другой не важно на каком языке аудио то она сразу будет переводить в целевой язык, причём перевод на уровне, лучше гугл переводчика.
Ютуб ссылку прикреплю чтоб вы поняли масштабы качества текста которое нейронка распознавала, к стати транскрибировал вайшнавские очень сложные тексты с санскритскими терминами и нейронка справлялась великолепно. Понимаю тут не хабр, если тема кому-то будет интересна запилю второй пост как туда засовывать свои аудио файлы.



