Китайские нейросети уделали американские по цене и качеству. Прогнал 5 штук через свой тест
Прогнал пять свежих нейросетей через свой тест на генерацию текста по-русски. Google наконец догнал OpenAI по качеству и стоит в 2.5 раза дешевле. А по соотношению цена/качество вообще все верхние места заняли китайцы — DeepSeek, Tencent, Qwen. Плюс честно расскажу, как полгода считал цены с ошибкой в два раза и сам не замечал.
Я уже год гоняю нейросети через свой собственный тест. Не тот, который меряет «кто умнее вообще», а свой, практический: какая модель лучше всех пишет нормальный текст на русском — уроки, методички, бизнес-разборы. Мы на этом реально работаем, генерим контент для клиентов, тысячи запросов в месяц. И каждый лишний цент за запрос превращается в тысячи долларов в месяц. Поэтому выбор модели для нас — это не «вау, новинка», а чистая бухгалтерия.
В этот раз прогнал пять штук: два американских флагмана (GPT-5.5 от OpenAI и Gemini-3.5-flash от Google) и три китайских. И знаешь что? Расклад на рынке поменялся так, что я аж присвистнул.
Сначала про американцев
Раньше картина была простая: топ по качеству держат американцы — OpenAI и Anthropic (это которые Claude). Google вечно плёлся на итерацию позади. В прошлый раз их модель набрала вообще 57 баллов из 100 — это уровень «ну, сойдёт для черновика».
А тут Gemini-3.5-flash взял 97 из 100. Ровно столько же, сколько новейший GPT-5.5. Впервые на моём тесте Google встал ровно рядом с OpenAI. За полтора месяца прыжок с 57 до 97 — это не «доработали», это будто другую модель выкатили.
Но дальше начинается интересное — цена. GPT-5.5 за один запрос берёт примерно $0.23. Gemini за тот же результат — $0.09. В 2.5 раза дешевле. На наших объёмах (10 тысяч запросов в месяц) это $2290 против $898. Разница — почти полторы тысячи баксов в месяц. За одно и то же качество. Ну и зачем мне тогда переплачивать?
А теперь про китайцев, которые всех уделали
Вот тут самое сочное. Если смотреть не на голое качество, а на соотношение цена/качество — верхние места занимают вообще не американцы.
Смотри сам:
DeepSeek V4 Pro — качество 87 из 100, цена меньше половины цента за запрос
Tencent Hy3 (да, тот самый Tencent, который WeChat и игрушки) — качество 81, а цена вообще $0.0017. Это в 134 раза дешевле GPT-5.5. В СТО ТРИДЦАТЬ ЧЕТЫРЕ раза, я не опечатался
Qwen от Alibaba — тоже крепкий середнячок по качеству
То есть американцы держат вершину по чистому качеству — тут не поспоришь, 97 баллов это их территория. Но как только начинаешь считать деньги, оказывается, что лучшие по балансу — китайские. И это, по-моему, отлично. Должна быть конкуренция, должен быть выбор. А то привыкли, что «ну есть OpenAI, ну есть Claude, и всё».
Отдельная история про DeepSeek, который меня и порадовал, и расстроил
DeepSeek V4 Pro я гонял уже третий раз за два месяца. И вот что обидно: качество как стояло на 87-89, так и стоит. Я честно ждал, что модель дозреет, станет умнее. Не стала. На длинном русском тексте она пишет грамотно, но суховато — как методичка, без огонька.
Зато китайцы взяли и уронили цену в 5 с лишним раз. Просто снизили тариф. И вот эта самая модель, которую в апреле я считал «дорогой и не оправдавшей ожиданий», теперь снова в деле — не потому что поумнела, а потому что подешевела. Иногда так тоже бывает: модель та же, а решение по ней — другое. Чисто из-за ценника.
А вот Qwen меня знатно расстроил
На Qwen 3.7 Max у меня были большие надежды. Предыдущая версия, 3.6, была хороша — и по качеству, и, главное, без косяков. А новая взяла и выдала фокус, от которого я схватился за голову.
Она вставляет китайские иероглифы прямо в русский текст. Не в отдельный блок, а прямо в середину слова. Вот реальная цитата из теста:
«Денежная мотивация имеет предел边际ной полезности»
Видишь вот эти закорючки в слове «предельной»? Это китайское слово «marginal», которое модель воткнула прямо в русское слово. Она как бы «думает» по-китайски внутри, и иногда китайский токен прорывается наружу.
И самое обидное — в прошлой версии, 3.6, этого не было. То есть они умеют это чинить, видели у них уже починенным. А в новой версии оно вернулось. При том что Qwen стоит как премиум — в 40 раз дороже того же Tencent. Дорого, и с тараканами. Пас. Будем надеяться, в следующей версии починят.
Теперь про мой собственный косяк. Снимаю панамку
Дальше будет история, за которую мне немножко стыдно, но рассказать надо — потому что она полезная.
Пока я собирал этот тест, полез перепроверить старые цены в своей базе. И обнаружил, что полгода считал стоимость запросов по кривой формуле. Я брал примерную прикидку: мол, столько-то текста на входе, столько-то на выходе, умножаем на тариф. Прикидка была удобная, но неправильная — для русского текста с разметкой, формулами и таблицами она занижала реальную цену на 50–140%.
То есть я полгода рассказывал людям цены, которые были занижены местами в два с лишним раза. И никто не замечал — включая меня. Потому что относительный расклад (кто дешевле, кто дороже) оставался плюс-минус правильным, а вот абсолютные цифры врали.
Спалился случайно: сравнивал новые данные со старыми, и они не сошлись. Полез разбираться — а там вон оно что. Теперь беру реальные цифры расхода напрямую от сервиса, а не прикидываю на глазок. Неприятно было это обнаружить, но публиковать новый тест и молчать про старый косяк — это уже не честный тест, а самолюбование. Так что вот, рассказал.
Непопулярное мнение, готов снять панамку
Раз пошла такая пьянка — выскажу то, за что меня, может, и минуснут.
В 90% случаев вам НЕ нужна самая дорогая модель. Вот это вот «давайте поставим GPT-5 или Claude Opus, чтобы наверняка» — это чаще всего просто слив денег. Для большинства задач (сгенерить текст, ответить в поддержке, разобрать документ) разница между топовой моделью за 23 цента и нормальной за 0.3 цента не видна обычному человеку. Оба текста пройдут как «нормально». А счёт за месяц отличается в сто раз.
Но есть и обратная крайность, тоже дурная: воткнуть самую дешёвую модель, не проверив. И потом удивляться, почему клиенту в текст налезли китайские иероглифы (привет, Qwen) или почему сгенерилась какая-то дичь. Дёшево — не значит хорошо, как и дорого — не значит хорошо.
Правильный путь скучный: берёшь, тестируешь на СВОИХ задачах, считаешь деньги. И почти всегда оптимум оказывается где-то посередине. А посередине сейчас, сюрприз, сидят китайцы.
Где это всё НЕ работает (честно)
Чтобы не выглядело, будто я тут продаю «китайские нейросети — топ»:
Мой тест — про длинный текст на русском. Если тебе нужен код, математика или английский — расклад будет другой, и там американцы скорее всего рулят.
Качество я мерю одной моделью-судьёй (Claude). Это не идеально, у любого судьи свои загибы.
«Лучше по цене/качеству» не равно «лучше вообще». Если деньги не считаешь и нужен максимум качества — бери американский флагман, тут вопросов нет.
Это срез на конкретный месяц. Через два месяца выйдет что-то новое, и таблица снова переедет. Так каждый раз.
Зачем я вообще это рассказываю
Главная мысль простая: рынок нейросетей меняется так быстро, что вчерашний лидер сегодня уже не лидер. И если ты строишь что-то на нейросетях — закладывай возможность легко поменять модель. Не прибивай её гвоздями к коду. Через пару месяцев выйдет что-то лучше и дешевле, и ты захочешь переключиться одной кнопкой, а не переписывать половину проекта.
А ещё — не верь чужим тестам слепо. Включая мой. Прогони на своих задачах сам. Это как ботинки: пока не примеришь, не поймёшь, жмут или нет.
Дисклеймер. Звучит, может, как будто я топлю за китайцев — но нет. Я просто считаю деньги и показываю цифры. Завтра американцы уронят цены или выкатят что-то открытое и бесплатное — расклад поменяется, и я честно напишу про это. Никакой рекламы тут нет, ничего не продаю, просто делюсь тем, что намерил сам.
Полный лидерборд со всеми цифрами держу в своём телеграм-канале — там же выкладываю новые тесты по мере выхода моделей: t.me/maslennikovigor. Если хочешь поспорить или рассказать свой опыт — пиши в личку @maslennikovig, отвечаю.
Если сам гонял нейросети на русском тексте — кидай в комменты, что у тебя выходило. Особенно интересно, ловил ли кто иероглифы у других моделей.






































