📖 Итак, сравниваем нейросетки ещё разок на финальной задаче. Теперь необходимо прочитать все txt-файлы из текущей рабочей директории (это книги), по каждой книги построить облако слов и найти две самые похожие книги из имеющихся.
С заданием полноценно справились 5 моделей, традиционные лидеры.
🔸GPT3.5 корректно сделала векторизацию текстов через TfidfVectorizer и нашла расстояния между векторами через косинусное сходство. Код при этом не декомпозирован, никакой предобработки текстов не делалось (хотя это уточнялось в запросе).
🔸GPT4 сделала всё примерно так же, при этом реализовала предобработку текстов (лемматизацию, очистку от небуквенных символов, удаление стоп-слов). Графики получились мелкими и не очень читаемыми, но это не критично.
🔸Bing полностью разбил код на функции, отлично построил графики, но не реализовал никакую предобработку кроме очистки от стоп-слов.
🔸Sage построил графики не в сетке, алгоритм сопоставления книг не самый оптимальный (через вложенные циклы).
🔸Claude+ все сделал отлично, кроме финального сравнения, где за максимальное сходство выдал сравнение книги с самой собой. Предобработки текстов так же нет, код макаронный.
😟Bard, к сожалению, зафейлился на этапе сравнения книг :( Графики построил корректно, но не в сетку (это уточнялось в запросе).
Ну и все остальные модели написали код, который валится с ошибками по разным причинам.
Решил дать 2 балла только GPT4, т.к. все требования реализованы, хоть и без хорошей декомпозиции. Остальные работающие варианты – 1 балл.
👉🏻Все ответы моделей тут.
📊 Итоговые результаты после 5 раундов:
🥇 GPT4 – 8;
🥈Bing – 7;
🥉GPT3.5 – 5;
😗 Bard, Sage – 4;
😗 Claude+, Claude Instant – 3;
😗 Koala – 1;
💩 Остальные по нулям.
🌚 Какие выводы? Не очень удивительные 👇🏻
🔹Ни одна модель не справилась со всеми задачами.
🔹GPT4 решает. Bing работает на ней же, небольшую разницу в результатах можно списать на вариативность в ответах.
🔹Чуть похуже справляется GPT3.5, гугловский Bard, Sage и модели Claude.
🔹Все остальное, в т.ч. весь возможный опенсорс-зоопарк, просто не пригодно для использования с точки зрения задач программирования.
🤖Посмотрим, как всё будет развиваться дальше, но уже сейчас для ускорения работы эти инструменты, конечно, можно использовать.