Нужна нейросетка с такой функцией

Чтобы переводила всю речь в видео в текст.