РЕКОРДНАЯ OPEN-SOURCE LLM ДЛЯ КОДА



MoonshotAI выкатили Kimi-Dev-72B — мощную open-source модель, которая обошла всех в SWE-bench Verified: 60.4% точности. Это лучше, чем у многих закрытых моделей, которые в 10 раз больше.
Фишка — архитектура из двух специалистов:
🔴 BugFixer сам находит баги и фиксит, прогоняя через тесты в Docker
🔴 TestWriter пишет юнит-тесты, которые сначала падают, а потом проходят — только если баг устранён
То есть она сама находит и чинит баги, делает тесты и локализует проблемные файлы. А ещё всё это в open-source: MIT лицензия, код и веса на GitHub и Hugging Face
Kimi-Dev-72B училась на 150 млрд токенов из GitHub issues и PR. Патчи и тесты проходят самооценку и отбор по принципу: «либо всё работает, либо в корзину».
Правда, моделька на 72B параметров, поэтому требует мощного железа.
🖥 Github
Источник: 🎯 НЕЙРО-ПУШКА ● НОВОСТИ И ОБЗОРЫ НЕЙРОСЕТЕЙ





