немного еще в панамку ИИ накидаю технички
1. llama 3 70b при 4битном квантовании даже на 5090 не поместится, куда там 4090
2. еще whisper занимает мин 1-2гб при самой легкой модели в памяти видяхи
3. распознавание ответа - запрос ответ от LLMки - генерация голоса - ну не верю в 1.1с, у него должен стоять не 4090, а 10шт H200. Это еще не учитывается все нарастающий контекст на 30 минутном вызове, он там как снежный ком растет.
Иначе это реально будет дед, который забудет через минуту о чем разговаривали в начале разговора
4. системный промт вангую что огромный получится при таких параметрах, а еще надо окно контекста еще больше держать и все это на 4090, лол
идея норм, реализация не очень, ни разу не видел еще модель Text-to-speech которая умеет говорить как дед так чтобы мошенник за 8 минут в среднем не понял что разговаривает с ИИшкой
в целом на 4080 сам делал Speech-to-text, удалось достичь скорости распознавания в 30х от реальной