Benchmark и Длиннопост: истории из жизни, советы, новости и юмор — Все посты

Китайские нейросети уделали американские по цене и качеству. Прогнал 5 штук через свой тест⁠⁠

10 дней назад

Прогнал пять свежих нейросетей через свой тест на генерацию текста по-русски. Google наконец догнал OpenAI по качеству и стоит в 2.5 раза дешевле. А по соотношению цена/качество вообще все верхние места заняли китайцы — DeepSeek, Tencent, Qwen. Плюс честно расскажу, как полгода считал цены с ошибкой в два раза и сам не замечал.

Я уже год гоняю нейросети через свой собственный тест. Не тот, который меряет «кто умнее вообще», а свой, практический: какая модель лучше всех пишет нормальный текст на русском — уроки, методички, бизнес-разборы. Мы на этом реально работаем, генерим контент для клиентов, тысячи запросов в месяц. И каждый лишний цент за запрос превращается в тысячи долларов в месяц. Поэтому выбор модели для нас — это не «вау, новинка», а чистая бухгалтерия.

В этот раз прогнал пять штук: два американских флагмана (GPT-5.5 от OpenAI и Gemini-3.5-flash от Google) и три китайских. И знаешь что? Расклад на рынке поменялся так, что я аж присвистнул.

Сначала про американцев

Раньше картина была простая: топ по качеству держат американцы — OpenAI и Anthropic (это которые Claude). Google вечно плёлся на итерацию позади. В прошлый раз их модель набрала вообще 57 баллов из 100 — это уровень «ну, сойдёт для черновика».

А тут Gemini-3.5-flash взял 97 из 100. Ровно столько же, сколько новейший GPT-5.5. Впервые на моём тесте Google встал ровно рядом с OpenAI. За полтора месяца прыжок с 57 до 97 — это не «доработали», это будто другую модель выкатили.

Но дальше начинается интересное — цена. GPT-5.5 за один запрос берёт примерно $0.23. Gemini за тот же результат — $0.09. В 2.5 раза дешевле. На наших объёмах (10 тысяч запросов в месяц) это $2290 против $898. Разница — почти полторы тысячи баксов в месяц. За одно и то же качество. Ну и зачем мне тогда переплачивать?

А теперь про китайцев, которые всех уделали

Вот тут самое сочное. Если смотреть не на голое качество, а на соотношение цена/качество — верхние места занимают вообще не американцы.

Смотри сам:

DeepSeek V4 Pro — качество 87 из 100, цена меньше половины цента за запрос
Tencent Hy3 (да, тот самый Tencent, который WeChat и игрушки) — качество 81, а цена вообще $0.0017. Это в 134 раза дешевле GPT-5.5. В СТО ТРИДЦАТЬ ЧЕТЫРЕ раза, я не опечатался
Qwen от Alibaba — тоже крепкий середнячок по качеству

То есть американцы держат вершину по чистому качеству — тут не поспоришь, 97 баллов это их территория. Но как только начинаешь считать деньги, оказывается, что лучшие по балансу — китайские. И это, по-моему, отлично. Должна быть конкуренция, должен быть выбор. А то привыкли, что «ну есть OpenAI, ну есть Claude, и всё».

Отдельная история про DeepSeek, который меня и порадовал, и расстроил

DeepSeek V4 Pro я гонял уже третий раз за два месяца. И вот что обидно: качество как стояло на 87-89, так и стоит. Я честно ждал, что модель дозреет, станет умнее. Не стала. На длинном русском тексте она пишет грамотно, но суховато — как методичка, без огонька.

Зато китайцы взяли и уронили цену в 5 с лишним раз. Просто снизили тариф. И вот эта самая модель, которую в апреле я считал «дорогой и не оправдавшей ожиданий», теперь снова в деле — не потому что поумнела, а потому что подешевела. Иногда так тоже бывает: модель та же, а решение по ней — другое. Чисто из-за ценника.

А вот Qwen меня знатно расстроил

На Qwen 3.7 Max у меня были большие надежды. Предыдущая версия, 3.6, была хороша — и по качеству, и, главное, без косяков. А новая взяла и выдала фокус, от которого я схватился за голову.

Она вставляет китайские иероглифы прямо в русский текст. Не в отдельный блок, а прямо в середину слова. Вот реальная цитата из теста:

«Денежная мотивация имеет предел边际ной полезности»

Видишь вот эти закорючки в слове «предельной»? Это китайское слово «marginal», которое модель воткнула прямо в русское слово. Она как бы «думает» по-китайски внутри, и иногда китайский токен прорывается наружу.

И самое обидное — в прошлой версии, 3.6, этого не было. То есть они умеют это чинить, видели у них уже починенным. А в новой версии оно вернулось. При том что Qwen стоит как премиум — в 40 раз дороже того же Tencent. Дорого, и с тараканами. Пас. Будем надеяться, в следующей версии починят.

Теперь про мой собственный косяк. Снимаю панамку

Дальше будет история, за которую мне немножко стыдно, но рассказать надо — потому что она полезная.

Пока я собирал этот тест, полез перепроверить старые цены в своей базе. И обнаружил, что полгода считал стоимость запросов по кривой формуле. Я брал примерную прикидку: мол, столько-то текста на входе, столько-то на выходе, умножаем на тариф. Прикидка была удобная, но неправильная — для русского текста с разметкой, формулами и таблицами она занижала реальную цену на 50–140%.

То есть я полгода рассказывал людям цены, которые были занижены местами в два с лишним раза. И никто не замечал — включая меня. Потому что относительный расклад (кто дешевле, кто дороже) оставался плюс-минус правильным, а вот абсолютные цифры врали.

Спалился случайно: сравнивал новые данные со старыми, и они не сошлись. Полез разбираться — а там вон оно что. Теперь беру реальные цифры расхода напрямую от сервиса, а не прикидываю на глазок. Неприятно было это обнаружить, но публиковать новый тест и молчать про старый косяк — это уже не честный тест, а самолюбование. Так что вот, рассказал.

Непопулярное мнение, готов снять панамку

Раз пошла такая пьянка — выскажу то, за что меня, может, и минуснут.

В 90% случаев вам НЕ нужна самая дорогая модель. Вот это вот «давайте поставим GPT-5 или Claude Opus, чтобы наверняка» — это чаще всего просто слив денег. Для большинства задач (сгенерить текст, ответить в поддержке, разобрать документ) разница между топовой моделью за 23 цента и нормальной за 0.3 цента не видна обычному человеку. Оба текста пройдут как «нормально». А счёт за месяц отличается в сто раз.

Но есть и обратная крайность, тоже дурная: воткнуть самую дешёвую модель, не проверив. И потом удивляться, почему клиенту в текст налезли китайские иероглифы (привет, Qwen) или почему сгенерилась какая-то дичь. Дёшево — не значит хорошо, как и дорого — не значит хорошо.

Правильный путь скучный: берёшь, тестируешь на СВОИХ задачах, считаешь деньги. И почти всегда оптимум оказывается где-то посередине. А посередине сейчас, сюрприз, сидят китайцы.

Где это всё НЕ работает (честно)

Чтобы не выглядело, будто я тут продаю «китайские нейросети — топ»:

Мой тест — про длинный текст на русском. Если тебе нужен код, математика или английский — расклад будет другой, и там американцы скорее всего рулят.
Качество я мерю одной моделью-судьёй (Claude). Это не идеально, у любого судьи свои загибы.
«Лучше по цене/качеству» не равно «лучше вообще». Если деньги не считаешь и нужен максимум качества — бери американский флагман, тут вопросов нет.
Это срез на конкретный месяц. Через два месяца выйдет что-то новое, и таблица снова переедет. Так каждый раз.

Зачем я вообще это рассказываю

Главная мысль простая: рынок нейросетей меняется так быстро, что вчерашний лидер сегодня уже не лидер. И если ты строишь что-то на нейросетях — закладывай возможность легко поменять модель. Не прибивай её гвоздями к коду. Через пару месяцев выйдет что-то лучше и дешевле, и ты захочешь переключиться одной кнопкой, а не переписывать половину проекта.

А ещё — не верь чужим тестам слепо. Включая мой. Прогони на своих задачах сам. Это как ботинки: пока не примеришь, не поймёшь, жмут или нет.

Дисклеймер. Звучит, может, как будто я топлю за китайцев — но нет. Я просто считаю деньги и показываю цифры. Завтра американцы уронят цены или выкатят что-то открытое и бесплатное — расклад поменяется, и я честно напишу про это. Никакой рекламы тут нет, ничего не продаю, просто делюсь тем, что намерил сам.

Полный лидерборд со всеми цифрами держу в своём телеграм-канале — там же выкладываю новые тесты по мере выхода моделей: t.me/maslennikovigor. Если хочешь поспорить или рассказать свой опыт — пиши в личку @maslennikovig, отвечаю.

Если сам гонял нейросети на русском тексте — кидай в комменты, что у тебя выходило. Особенно интересно, ловил ли кто иероглифы у других моделей.

Показать полностью 1

igor3k

$28 440 в год — столько ты переплатишь, если выберешь LLM по слову «флагман»⁠⁠

1 месяц назад

Прогнал шесть апрельских LLM через свой стенд. Самый новый и самый дорогой — DeepSeek V4 Pro — обошёл свой же дешёвый Flash на 6 баллов из 100. И стоит при этом в 13 раз дороже. На моём объёме это $237 в месяц лишних. На крупном — $28 440 в год. За 6 баллов. Кто платит — тот сам выбирал.

DeepSeek V4 Pro вышел три дня назад, 24 апреля 2026. Все носятся: миллиарды параметров, топ AIME, топ SWE-bench. Я тоже носился — заранее планировал, как буду переключать клиентский пайплайн на новый флагман.

Прогнал через свой стенд. 89 баллов из 100. Tier A, нижний край.

Ну ладно, думаю, прогрелось криво. Подождал сутки, прогнал второй раз. Ровно 89. Не выброс — стабильный результат.

И тут я полез смотреть, чем он, собственно, лучше своего же младшего брата — Flash.

Дешёвая правда про Pro

Цена Pro: $0.0256 за вызов. Цена Flash: $0.0019 за вызов.

В 13 раз дешевле.

Качество Flash — 83 балла. Pro лучше на 6 баллов из 100. Если читать оба текста подряд — да, Pro действительно глубже разбирает методологии, структура у него чище, формулировки изящнее. Цена объяснима — если ты пишешь один разовый разбор для топ-клиента, и эти 6 баллов реально что-то решают.

А теперь экономика для тех, у кого вызовов не один.

10 000 уроков в месяц на Flash — $19. На Pro — $256. Разница $237 в месяц за 6 баллов.

100 000 уроков в месяц на Flash — $190. На Pro — $2 560. Разница $2 370 в месяц. Или $28 440 в год.

$28 тысяч долларов за 6 баллов из 100. На полтора крепких инженера. Без подъёмов качества, которое можно показать клиенту. Просто потому что «у нас в проде стоит флагман».

Я тоже сначала был готов это платить. До того, как сел и посчитал. После — переписал конфиг и поставил Flash на mass-production. Premium-куски, где правда нужно пиковое качество, всё равно идут руками или через другую модель — про неё дальше.

А кто реально победил

Выиграл вообще не DeepSeek. Выиграл Qwen 3.6 Plus, тоже апрельский релиз — вышел 2 апреля, на 22 дня раньше V4 Pro. Я перетестировал его на платной версии (раньше гонял :free, и его 94 балла мне самому казались подозрительно высокими). Получил 92.

И вот тут красиво.

Qwen 3.6 Plus — 92 балла, $0.018 за вызов
DeepSeek V4 Pro — 89 баллов, $0.0256 за вызов

Качество выше. Цена ниже. По обоим критериям одновременно. Вышел на 22 дня раньше — но сам не флагман, не пиарили его на каждом углу, и про него никто не пишет «прорыв». Просто хорошая модель, которую разработчики потом поправили в платной версии и забыли громко об этом сказать.

И этот момент мне нравится больше всего в тестировании. Маркетинг и реальные цифры расходятся регулярно. Тот, кто громче всех кричит «у нас новейший флагман», не обязательно лучший. Чаще наоборот.

Зачем я вообще это меряю

Я не пытаюсь найти «лучшую модель в мире». Мне это не нужно. Я выбираю модель для production-API под клиентские проекты — образовательные курсы. Сотни тысяч вызовов в месяц. Каждый цент за вызов превращается в реальные деньги в счёте в конце месяца.

Поэтому в этом тесте нет Opus 4.7 и GPT-5.5, которые вышли в этом же апреле. Они отличные. И они в топе. Но их API-цена не для production с десятками тысяч вызовов — там «просто заплатить» больше не работает. Это разовые модели для разовых задач, не для конвейера.

Цель — оптимальная цена/качество, а не лучшее качество в абсолютном выражении. Это две разные оптимизации, и они дают разный ответ.

Грабли по дороге

Главная боль апреля — модели выходят быстрее, чем я успеваю их тестировать. Я три раза перезапускал прогон в этом месяце. Только дотестируем партию — выходит новый интересный релиз, надо включать. Стенд приходится держать в постоянной готовности, иначе результаты устаревают раньше публикации.

Ещё одна засада — Kimi K2.6 в первом тесте получал обрезание в трёх темах из пяти. Сначала я думал, что это её проблема, и хотел занизить ей оценку. А потом полез в логи и увидел: модель писала больше 16 384 токенов, а у меня в конфиге стоял лимит ровно 16k. Сервер резал, и я честно полчаса сидел и матерился на собственный конфиг, прежде чем поднял лимит до 32 768. После этого Kimi выдала Tier A и нормальный длинный ответ.

Вывод грубый, но рабочий: прежде чем винить модель — посмотри, что у тебя в конфиге.

Чемпион value, ради которого всё затевалось

DeepSeek V4 Flash — самый дешёвый среди всех Tier A моделей. Не на проценты, а на порядки.

Score per dollar:

Flash — 83 / $0.0019 = 43 684 балла на доллар
Pro — 89 / $0.0256 = 3 477 баллов на доллар
Kimi K2.6 — 88 / $0.0478 = 1 841 балл на доллар

Flash в 12.6 раза эффективнее своей же Pro-версии по этой метрике. Это не маркетинг, это арифметика: Pro выигрывает в качестве 7%, проигрывает в цене 1248%.

Плюс скорость: 90 секунд на 3 000-словный урок против 210 у Pro. Pro в 2.3 раза медленнее. На сотнях тысяч вызовов это уже не косметика — это физическая пропускная способность пайплайна.

Где Pro всё-таки оправдан (честно)

Не хочу выглядеть так, будто Pro плохая модель. Она нормальная. Tier A. Если у тебя:

Несколько сотен вызовов в месяц, не десятки тысяч
Premium-материалы для топ-клиента, где 6 баллов реально влияют на восприятие
Бюджет, в котором $237 в месяц — это шум, а не строка расхода

Тогда Pro — разумный выбор. Я сам его пробовал, и для штучных вещей — нормально. Просто не нужно автоматически ставить флагман везде, потому что «он флагман».

Что я в итоге понял

Главный вывод не про DeepSeek и не про Qwen. Главный — про привычку выбирать модель по дате релиза и количеству параметров. Это привычка времени, когда новых моделей выходило 2-3 в год и каждый релиз был событием. Сейчас релизов десятки в месяц, и почти каждый громко пиарится. Если ставить флагман автоматом каждый раз, как кто-то выпустил новость — будешь переплачивать постоянно.

Единственное, что реально работает — собрать 5-10 своих типичных задач, прогнать через 3-4 модели разных ценовых категорий, посмотреть свой score per dollar. Чужой стенд под чужие задачи — это в лучшем случае ориентир, в худшем — ловушка.

Опять критика?

Звучит как реклама собственного канала и репозитория — да, формально так и есть. Но скилл с методологией лежит на гитхабе бесплатно, без подписок и регистрации.

И если найдёшь у меня методологическую дыру или пример, где Pro объективно выигрывает — пиши, разберёмся. На критику не обижаюсь, я её сам люблю.

Канал (редко, но по делу): https://t.me/maslennikovigor Репозиторий со стендом и скиллами: https://github.com/maslennikov-ig/claude-code-orchestrator-kit Прямой контакт для аргументированного спора: @maslennikovig

Показать полностью 1

Искусственный интеллект DeepSeek Qwen Экономия Benchmark Telegram (ссылка) Длиннопост

user10341508

Искусственный интеллект

Сервис

ChatGPT 4.5: Первые впечатления и тесты новейшей модели OpenAI⁠⁠

1 год назад

27 февраля 2025 года компания OpenAI представила ChatGPT 4.5, назвав её своей самой мощной и инновационной разработкой в области генеративного искусственного интеллекта. В этой статье я разберу, что именно вызывает ажиотаж, где модель спотыкается, и стоит ли она тех ожиданий, которые на неё возложили.

Бесплатный доступ к гайдам на создание ИИ Агентов и Промпт-инжиниринг в моем телеграм канале.

Поехали!

"Испытание GPT-4.5 стало гораздо более ярким моментом «почувствовать AGI» среди испытателей с высоким вкусом, чем я ожидал!" CEO OpenAI. Верим?

Что говорят пользователи на платформах X и Reddit?

Я просмотрел десятки отзывов о GPT-4.5 на платформах X и Reddit, и впечатления пользователей оказались настоящим коктейлем из похвал и критики. С одной стороны, многие в восторге от её творческих способностей. Люди пишут, что модель выдаёт такие тексты, будто за клавиатурой сидит живой человек с чувством юмора и тонким пониманием контекста. Кто-то отметил её успехи в распознавании изображений: например, она может описать, что происходит на фото, и даже вытащить данные из таблиц. Другие хвалят её за решение головоломок — от простых логических задачек до более сложных ребусов, где нужно проявить смекалку. В программировании тоже есть прогресс: код стал чище, ошибок меньше, и модель лучше понимает, что от неё хотят.

Но не всё так радужно. Пользователи жалуются, что ChatGPT 4.5 работает медленнее, чем её предшественница GPT-4o. Один из комментаторов на X сравнил её с "черепахой, которая тащит за собой сервер". Это серьёзный минус для тех, кто привык к мгновенным ответам предыдущих моделей. Ещё одно разочарование — доступность. Модель пока открыта только для подписчиков ChatGPT Pro за $200 в месяц, и многие столкнулись с техническими сбоями: то интерфейс глючит, то доступ пропадает вовсе. На Reddit даже предположили, что OpenAI могла случайно "слишком рано" открыть доступ, а потом ограничить его из-за наплыва желающих. В целом, тестировщики видят потенциал, но пока не готовы петь оды этой версии из-за её скорости и цены.

Официальные заявления OpenAI: Обещания и реальность

Презентация Open AI ChatGPT 4.5

На презентации 27 февраля OpenAI подробно рассказала о том, что делает ChatGPT 4.5 особенной. Вот основные улучшения, которые они выделили:

Распознавание контекста: Модель лучше понимает намерения пользователя, адаптируясь к стилю общения. Представьте, что вы объясняете задачу другу, а он не просто кивает, а сразу предлагает решение — вот примерно так OpenAI описывает эту фичу.
Улучшенный Advanced VoiceMode: Теперь самый мощный войсмод доступен подписчикам plus, только на базе модели 4o mini, а для подписчиков Pro за $200, доступ к расширенному моду на базе GPT 4.5

Видео с запуском нового voicemode есть на реддит: https://www.reddit.com/r/ChatGPT/comments/1izzows/advanced_v...

Снижение ошибок: Они заявляют, что "галлюцинации" — случаи, когда ИИ выдумывает факты, — сократились. В тесте SimpleQA точность выросла до 62,5% против 38,6% у GPT-4o, что звучит впечатляюще.
Креативность: Улучшены способности в генерации текстов, и пользователи это подтверждают, отмечая её эмоциональный интеллект и умение выдавать оригинальные идеи.
Безопасность: Усилены фильтры против запрещённого контента и защиты от взломов, что делает модель надёжной для корпоративного использования.
Многоязычность: В тесте MMLU (Massive Multitask Language Understanding) она обходит GPT-4o, что важно для пользователей по всему миру.

Но есть и ложка дёгтя. OpenAI признала, что в математических и научных задачах ChatGPT 4.5 уступает конкурентам, например, модели o3. Это ограничение может стать проблемой для тех, кто рассчитывает использовать её в академических или инженерных целях. Более того, акцент на безопасности и этичность делает модель чересчур осторожной — она порой избегает прямых ответов, предпочитая нейтральные формулировки, что может раздражать тех, кто хочет фактов без лишней воды.

Что говорят реальные тесты?

Чтобы понять, насколько громкие слова OpenAI подтверждаются делом, я изучил первые доступные бенчмарки и тесты GPT-4.5. Эти данные основаны на официальных заявлениях компании, а также на ранних отчётах пользователей и технических обзорах.

Тест на AGI

Сравнительная оценка ответов с ChatGPT 4o

Повседневные запросы: GPT-4.5 выигрывает в 57,02% случаев.
Профессиональные запросы: GPT-4.5 выигрывает в 63,2% случаев.
Творческий интеллект: GPT-4.5 выигрывает в 56,83% случаев.

Тест SimpleQA:
Этот бенчмарк проверяет способность модели давать точные ответы на простые фактические вопросы, такие как "Кто изобрёл телефон?" или "Сколько планет в Солнечной системе?". GPT-4.5 показала результат в 62,5% правильных ответов, что значительно выше 38,6% у GPT-4o (данные из MIT Technology Review). Это говорит о том, что модель стала лучше справляться с базовыми запросами, где важна точность, а не глубокий анализ.
Тест на галлюцинации:
Здесь измеряется, как часто модель выдаёт выдуманные факты вместо правды. У GPT-4.5 зафиксировано 37,1% галлюцинаций, что заметно лучше, чем 59,8% у GPT-4o и 80,3% у o3-mini (по данным OpenAI). Например, если спросить "Кто выиграл Олимпийские игры в 2050 году?", предыдущие модели могли придумать фантастический ответ, а GPT-4.5 с большей вероятностью скажет, что данных нет. Это делает её надёжнее для задач, где ложь недопустима.
MMLU (Massive Multitask Language Understanding):
Этот тест оценивает знания модели в разных областях и языках — от истории до биологии, от английского до испанского. OpenAI утверждает, что GPT-4.5 превосходит GPT-4o, хотя точные цифры пока не раскрыты. Если верить их словам, это означает, что модель лучше понимает сложные запросы на разных языках, что делает её полезной для международных пользователей или компаний с глобальным охватом.
Тест на убеждение (Persuasion Tests):
В этом испытании модели дают задачу убедить другую ИИ-систему выполнить действие, например, "пожертвовать" виртуальные деньги. GPT-4.5 обошла o1 и o3-mini, показав более высокую способность к манипуляции текстом (данные TechCrunch). Это может быть интересно для маркетологов или сценаристов, которым нужно создавать убедительные тексты.
Скорость и производительность:
Хотя OpenAI не публикует точных данных о времени ответа, пользователи на X и Reddit единодушно отмечают, что GPT-4.5 работает медленнее, чем GPT-4o. Это может быть связано с её увеличенным размером и сложностью обработки "цепочки проектов" — нового подхода, где модель разбивает задачи на логические кластеры вместо линейного мышления. Технически это улучшает точность, но жертвует скоростью, что подтверждают жалобы тестировщиков.

Сравнение результатов в таблице:

Практические примеры:

Креативность: Один пользователь на X описал, как GPT-4.5 помогла ему написать сценарий для короткометражки за 20 минут, предложив неожиданные повороты сюжета, которые он сам бы не додумал. Это подтверждает заявления OpenAI о её эстетической интуиции.
Программирование: Другой тестировщик отметил, что модель исправила баг в коде на Python, который GPT-4o пропустила, хотя процесс занял больше времени из-за медленной генерации.
Ограничения: В математических задачах, таких как решение уравнений или анализ данных, GPT-4.5 продолжает уступать o3, что делает её менее подходящей для научных расчётов.

Выводы из тестов:

GPT-4.5 действительно шагнула вперёд в точности, снижении галлюцинаций и креативности, что делает её сильным инструментом для текстовых задач, убеждения и базового программирования. Однако её медлительность и слабость в математике ограничивают универсальность. Для сравнения, GPT-4o была быстрее и проще в использовании, а o3-mini выигрывает в научных вычислениях. Это значит, что выбор модели зависит от ваших задач: если нужна креативность — GPT-4.5 ваш вариант, но если скорость или точные расчёты — стоит посмотреть на альтернативы.

Плюсы и минусы: Подробный анализ

Преимущества:

Повышенная точность: Улучшение в SimpleQA и снижение галлюцинаций делают её надёжным помощником для фактологических задач.
Креативность: Эмоциональный интеллект и способность генерировать оригинальные идеи выделяют её среди конкурентов.
Многоязычность: Превосходство в MMLU открывает возможности для работы на разных языках.
Программирование: Меньше ошибок в коде, что полезно для разработчиков, несмотря на медлительность.

Недостатки:

Медленная скорость: Пользователи и тесты подтверждают, что генерация ответов занимает больше времени, чем у GPT-4o.
Высокая цена: Подписка за $200 в месяц ограничивает доступ, особенно для индивидуальных пользователей.
Ограниченная доступность: Технические сбои и узкий круг тестировщиков затрудняют полную оценку.
Слабость в математике: Уступает конкурентам в точных науках, что снижает её универсальность.

Модель демонстрирует потенциал, но её успех зависит от того, сможет ли OpenAI устранить эти недостатки в ближайшем будущем.

Что ждёт ChatGPT 4.5 в будущем?

ChatGPT 4.5 — это шаг вперёд в развитии генеративного ИИ, но пока она больше похожа на многообещающий прототип, чем на готовый продукт. Её сильные стороны — креативность, точность и многоязычность — делают её ценным инструментом для писателей, маркетологов и разработчиков, которые не боятся подождать лишние секунды ради качественного результата. Однако медлительность, высокая цена и ограниченная доступность могут отпугнуть тех, кто ищет быстрый и универсальный ИИ. В ближайшие недели, когда тестирование расширится, мы получим более полное представление о её возможностях. Пока же это разработка с большим потенциалом, но требующая шлифовки.

Открытый доступ к лучшим гайдам на ИИ и Промпт-инжиниринг в моем телеграм канале.

Показать полностью 8

[моё] ChatGPT Openai Искусственный интеллект Модели Тестирование Креатив Программирование Скорость работы Подписки Точность Benchmark Отзыв Reddit DeepSeek Нейронные сети Длиннопост

AleksandrVeles

Помогите расшифровать результаты теста⁠⁠

4 года назад

Тестировал программой AIDA64 Extreme

Прошу сильно не пинать, прост не силен в этом)

Benchmark Result Run Time Build Time

-------------------------------------------------------------

Memory Read 3249 MB/s 1156 ms

- Pinned 3249 MB/s 9 ms

- Pageable 1926 MB/s 16 ms

Memory Write 3035 MB/s 1015 ms

- Pinned 3035 MB/s 10 ms

- Pageable 2207 MB/s 14 ms

Memory Copy 11653 MB/s 7688 ms

- 15 MB Block 10886 MB/s 3 ms

- 32 MB Block 11300 MB/s 6 ms

- 64 MB Block 11530 MB/s 11 ms

- 128 MB Block 11585 MB/s 22 ms

- 256 MB Block 11653 MB/s 44 ms

- 512 MB Block 788 MB/s 1299 ms

- 761 MB Block 4199 MB/s 363 ms

Single-Precision FLOPS 473.9 GFLOPS 12750 ms

- float1 473.9 GFLOPS 580 ms 1282 ms

- float2 470.5 GFLOPS 584 ms 281 ms

- float4 469.6 GFLOPS 585 ms 265 ms

- float8 467.2 GFLOPS 588 ms 266 ms

- float16 458.9 GFLOPS 599 ms 250 ms

Double-Precision FLOPS 32.60 GFLOPS 7812 ms

- double1 32.60 GFLOPS 527 ms 437 ms

- double2 32.60 GFLOPS 527 ms 344 ms

- double4 32.44 GFLOPS 530 ms 328 ms

- double8 32.13 GFLOPS 535 ms 313 ms

- double16 32.13 GFLOPS 535 ms 328 ms

24-bit Integer IOPS 470.6 GIOPS 11094 ms

- int1 470.6 GIOPS 584 ms 141 ms

- int2 470.4 GIOPS 584 ms 109 ms

- int4 469.1 GIOPS 586 ms 125 ms

- int8 452.4 GIOPS 608 ms 157 ms

- int16 425.1 GIOPS 647 ms 297 ms

32-bit Integer IOPS 103.2 GIOPS 24219 ms

- int1 103.2 GIOPS 666 ms 2000 ms

- int2 98.2 GIOPS 700 ms 156 ms

- int4 98.3 GIOPS 699 ms 172 ms

- int8 96.5 GIOPS 712 ms 234 ms

- int16 93.8 GIOPS 733 ms 391 ms

64-bit Integer IOPS 26.10 GIOPS 34985 ms

- long1 26.10 GIOPS 658 ms 2078 ms

- long2 26.08 GIOPS 659 ms 187 ms

- long4 25.96 GIOPS 662 ms 328 ms

- long8 25.48 GIOPS 674 ms 547 ms

- long16 14.82 GIOPS 580 ms 1156 ms

AES-256 2787 MB/s 55438 ms

- inline loop / 4 MB 2784 MB/s 736 ms 281 ms

- inline loop / 8 MB 2786 MB/s 735 ms

- inline loop / 16 MB 2786 MB/s 735 ms

- inline loop / 256 MB 2772 MB/s 739 ms

- inline unroll / 4 MB 2784 MB/s 736 ms 297 ms

- inline unroll / 8 MB 2785 MB/s 735 ms

- inline unroll / 16 MB 2786 MB/s 735 ms

- inline unroll / 32 MB 2787 MB/s 735 ms

- inline unroll / 64 MB 2768 MB/s 740 ms

- inline unroll / 128 MB 2787 MB/s 735 ms

- inline unroll / 256 MB 2786 MB/s 735 ms

- define loop / 4 MB 2784 MB/s 736 ms 141 ms

- define loop / 8 MB 2784 MB/s 736 ms

- define loop / 16 MB 2742 MB/s 747 ms

- define loop / 32 MB 2651 MB/s 773 ms

- define loop / 64 MB 2653 MB/s 772 ms

- define loop / 128 MB 2648 MB/s 774 ms

- define loop / 256 MB 2733 MB/s 749 ms

- define unroll / 4 MB 2784 MB/s 736 ms 297 ms

- define unroll / 8 MB 2785 MB/s 735 ms

- define unroll / 16 MB 2655 MB/s 771 ms

- define unroll / 32 MB 2658 MB/s 770 ms

- define unroll / 64 MB 2659 MB/s 770 ms

- define unroll / 128 MB 2656 MB/s 771 ms

- define unroll / 256 MB 2666 MB/s 768 ms

SHA-1 Hash 5461 MB/s 14844 ms

- 512 blocks 2226 MB/s 899 ms 906 ms

- 1024 blocks 4446 MB/s 900 ms

- 2048 blocks 4443 MB/s 900 ms

- 4096 blocks 4442 MB/s 901 ms

- 8192 blocks 5072 MB/s 789 ms

- 16384 blocks 5461 MB/s 732 ms

- 32768 blocks 5460 MB/s 733 ms

- 65536 blocks 5459 MB/s 733 ms

Single-Precision Julia 102.7 FPS 8906 ms

- float1 break 65.1 FPS 984 ms 187 ms

- float1 stay / unroll 3 99.1 FPS 646 ms 94 ms

- float2 stay / unroll 3 78.8 FPS 812 ms 109 ms

- float1 stay / unroll 9 102.7 FPS 623 ms 109 ms

- float2 stay / unroll 9 78.1 FPS 819 ms 125 ms

Double-Precision Mandel 10.66 FPS 7735 ms

- double1 break 9.41 FPS 850 ms 125 ms

- double1 stay / unroll 3 10.66 FPS 750 ms 109 ms

- double2 stay / unroll 3 6.87 FPS 582 ms 109 ms

- double1 stay / unroll 9 10.16 FPS 788 ms 109 ms

- double2 stay / unroll 9 6.00 FPS 666 ms 125 ms

Benchmark Result Run Time Build Time

-------------------------------------------------------------

Memory Read 3228 MB/s 1422 ms

- Pinned 2744 MB/s 11 ms

- Pageable 3228 MB/s 9 ms

Memory Write 2903 MB/s 1344 ms

- Pinned 2903 MB/s 10 ms

- Pageable 2749 MB/s 11 ms

Memory Copy 9233 MB/s 4047 ms

- 15 MB Block 8879 MB/s 3 ms

- 32 MB Block 9180 MB/s 7 ms

- 64 MB Block 9044 MB/s 14 ms

- 128 MB Block 9116 MB/s 28 ms

- 256 MB Block 9233 MB/s 55 ms

- 350 MB Block 8622 MB/s 81 ms

Single-Precision FLOPS 43.67 GFLOPS 13141 ms

- float1 39.90 GFLOPS 861 ms 3391 ms

- float2 43.67 GFLOPS 787 ms 219 ms

- float4 22.72 GFLOPS 756 ms 187 ms

- float8 43.44 GFLOPS 791 ms 219 ms

- float16 43.33 GFLOPS 793 ms 219 ms

24-bit Integer IOPS 15.01 GIOPS 8063 ms

- int1 14.98 GIOPS 573 ms 109 ms

- int2 15.01 GIOPS 572 ms 422 ms

- int4 15.01 GIOPS 572 ms 3672 ms

32-bit Integer IOPS 11.68 GIOPS 20594 ms

- int1 11.61 GIOPS 740 ms 11735 ms

- int2 11.68 GIOPS 736 ms 453 ms

- int4 11.65 GIOPS 737 ms 3641 ms

64-bit Integer IOPS 3.39 GIOPS 28891 ms

- long1 3.39 GIOPS 633 ms 13078 ms

- long2 3.37 GIOPS 638 ms 12937 ms

AES-256 363.7 MB/s 11328 ms

- define unroll / 4 MB 352.0 MB/s 727 ms 219 ms

- define unroll / 8 MB 352.5 MB/s 726 ms

- define unroll / 16 MB 352.1 MB/s 727 ms

- define unroll / 32 MB 352.4 MB/s 726 ms

- define unroll / 64 MB 355.4 MB/s 720 ms

- define unroll / 128 MB 363.7 MB/s 704 ms

SHA-1 Hash 681.7 MB/s 13015 ms

- 512 blocks 571.4 MB/s 875 ms 1140 ms

- 1024 blocks 608.5 MB/s 822 ms

- 2048 blocks 647.6 MB/s 772 ms

- 4096 blocks 663.1 MB/s 754 ms

- 8192 blocks 674.6 MB/s 741 ms

- 16384 blocks 678.5 MB/s 737 ms

- 32768 blocks 681.7 MB/s 733 ms

Single-Precision Julia 19.90 FPS 12781 ms

- float1 break 19.90 FPS 804 ms 156 ms

- float1 stay / unroll 3 14.62 FPS 547 ms 63 ms

- float2 stay / unroll 3 16.96 FPS 943 ms 78 ms

- float4 stay / unroll 3 15.93 FPS 502 ms 93 ms

- float1 stay / unroll 9 17.49 FPS 915 ms 78 ms

- float2 stay / unroll 9 18.84 FPS 849 ms 78 ms

- float4 stay / unroll 9 17.81 FPS 899 ms 94 ms

Показать полностью

[моё] Benchmark Aida64 Без рейтинга Длиннопост Текст

4408

IcrusaI

Лига Геймеров

Как я сократил время загрузки GTA Online на 70%⁠⁠2

5 лет назад

GTA Online. Многопользовательская игра, печально известная медленной загрузкой. Недавно я вернулся, чтобы завершить несколько ограблений — и был потрясён, что она загружается настолько же медленно, как и в день своего выпуска, 7 лет назад.

Пришло время докопаться до сути.

Для ЛЛ

Человек залез в "исходный код" игры, нашел криво работающую функцию и исправил ее, благодаря этому скорость загрузки возросла на 70%. Ссылки на dll для увеличения скорости в конце статьи.

Разведка

Сначала я хотел проверить, вдруг кто-то уже решил проблему. Но нашёл только рассказы о великой сложности игры, из-за чего она так долго загружается, истории о том, что сетевая p2p-архитектура — мусор (хотя это не так), некоторые сложные способы загрузки в сюжетный режим, а потом в одиночную сессию, и ещё пару модов, чтобы скипнуть видео с логотипом R* во время загрузки. Ещё немного почитав форумы, я узнал, что можно сэкономить колоссальные 10-30 секунд, если использовать все эти способы вместе!

Тем временем на моём компе…

Бенчмарк

Загрузка сюжетного режима: ~1м 10с

Загрузка онлайна: ~6м

Без загрузочного меню, от логотипа R* до игрового процесса (без логина в Cоциальный Клуб.

Старый, но приличный проц: AMD FX-8350
Дешёвый SSD: KINGSTON SA400S37120G
Надо бы прикупить RAM: 2x Kingston 8192 MB (DDR3-1337) 99U5471
Нормальный GPU: NVIDIA GeForce GTX 1070

Я (не) одинок

Если доверять этому опросу, проблема достаточно широко распространена, чтобы слегка раздражать более 80% игроков. Прошло уже семь лет!

Я немного поискал информацию о тех ~20% счастливчиках, которые загружаются быстрее трёх минут, и нашёл несколько бенчмарков с топовыми игровыми ПК и временем загрузки онлайн-режима около двух минут. Я бы кого-нибудь убил хакнул за такой комп! Действительно похоже на железячную проблему, но что-то не складывается…

Почему у них сюжетный режим по-прежнему загружается около минуты? (кстати, при загрузке с M.2 NVMe не учитывались видео с логотипами). Кроме того, загрузка из сюжетного режима в онлайн занимает у них всего минуту, в то время как у меня около пяти. Я знаю, что их железо гораздо лучше, но не в пять же раз.

Высокоточные измерения

Вооружившись таким мощным инструментом, как Диспетчер задач, я приступил к поиску узкого места.

Почти минута уходит на загрузку общих ресурсов, которые нужны и для сюжетного режима, и для онлайна (почти наравне с топовыми ПК), затем GTA в течение четырёх минут полностью нагружает одно ядро CPU, больше ничего не делая.

Использование диска? Нет! Использование сети? Есть немного, но через несколько секунд падает в основном до нуля (кроме загрузки вращающихся информационных баннеров). Использование GPU? Ноль. Память? Вообще ничего…

Что это, майнинг биткоинов или что-то такое? Чую здесь код. Очень плохой код.

Единственный поток

На моём старом процессоре AMD восемь ядер, и он ещё молодцом, но это старая модель. Его сделали ещё тогда, когда производительность одного потока у AMD была намного ниже, чем у Intel. Наверное, это главная причина таких различий во времени загрузки.

Что странно, так это способ использования CPU. Я ожидал огромное количество операций чтения с диска или массу сетевых запросов, чтобы организовать сеансы в сети p2p. Но такое? Вероятно, здесь какая-то ошибка.

Профилирование

Профилировщик — отличный способ найти узкие места в CPU. Есть только одна проблема — большинство из них полагаются на инструментирование исходного кода, чтобы получить идеальную картину происходящего в процессе. А у меня нет исходного кода. Мне также не требуются идеальные показания в микросекундах, у меня узкое место на 4 минуты.

Итак, добро пожаловать в образцы стека (stack sampling). Для приложений с закрытым исходным кодом есть только такой вариант. Сбросьте стек запущенного процесса и местоположение указателя текущей инструкции, чтобы построить дерево вызовов в заданные интервалы. Затем наложите их — и получите статистику о том, что происходит. Я знаю только один профилировщик, который может проделать это под Windows. И он не обновлялся уже более десяти лет. Это Люк Stackwalker! Кто-нибудь, пожалуйста, подарите Люку немножко любви :)

Обычно Люк группировал бы одинаковые функции, но у меня нет отладочных символов, поэтому пришлось смотреть на соседние адреса, чтобы искать общие места. И что же мы видим? Не одно, а целых два узких места!

Вниз по кроличьей норе

Позаимствовав у моего друга совершенно законную копию стандартного дизассемблера (нет, я действительно не могу его себе позволить… когда-нибудь освою гидру), я пошёл разбирать GTA.

Выглядит совсем неправильно. Да, у большинства топовых игр есть встроенная защита от реверс-инжиниринга, чтобы защититься от пиратов, мошенников и моддеров. Не то чтобы это их когда-то останавливало…

Похоже, здесь применили какую-то обфускацию/шифрование, заменив большинство инструкций тарабарщиной. Не волнуйтесь, нужно просто сбросить память игры, пока она выполняет ту часть, на которую мы хотим посмотреть. Инструкции должны быть деобфусцированы перед запуском тем или иным способом. У меня рядом лежал Process Dump, так что я взял его, но есть много других инструментов для подобных задач.

Проблема 1: это что… strlen?!

Дальнейший разбор дампа выявил один из адресов с некоей меткой strlen, которая откуда-то берётся! Спускаясь вниз по стеку вызовов, предыдущий адрес помечен как vscan_fn, и после этого метки заканчиваются, хотя я вполне уверен, что это sscanf.

Он что-то парсит. Но что? Логический разбор займёт целую вечность, поэтому я решил сбросить некоторые образцы из запущенного процесса с помощью x64dbg. Через несколько шагов отладки выясняется, что это… JSON! Он парсит JSON. Колоссальные десять мегабайт JSON'а с записями 63 тыс. предметов.

...,
{
"key": "WP_WCT_TINT_21_t2_v9_n2",
"price": 45000,
"statName": "CHAR_KIT_FM_PURCHASE20",
"storageType": "BITFIELD",
"bitShift": 7,
"bitSize": 1,
"category": ["CATEGORY_WEAPON_MOD"]
},
...

Что это? Судя по некоторым ссылкам, это данные для «сетевого торгового каталога». Предполагаю, он содержит список всех возможных предметов и обновлений, которые вы можете купить в GTA Online.

Проясним некоторую путаницу: я полагаю, что это предметы, приобретаемые за игровые деньги, не связанные напрямую с микротранзакциями.

10 мегабайт? В принципе, не так уж и много. Хотя sscanf используется не самым оптимальным образом, но, конечно, это не так уж плохо? Что ж…

Да, такая процедура займёт некоторое время… Честно говоря, я понятия не имел, что большинство реализаций sscanf вызывают strlen, поэтому не могу винить разработчика, который написал это. Я бы предположил, что он просто сканировал байт за байтом и мог остановиться на NULL.

Проблема 2: давайте использовать хэш-…массив?

Оказывается, второго преступника вызывают сразу за первым. Даже в одной и той же конструкции if, как видно из этой уродливой декомпиляции:

Все метки мои, и я понятия не имею, как на самом деле называются функции/параметры.

Вторая проблема? Сразу после разбора элемента он хранится в массиве (или встроенном списке C++? не уверен). Каждая запись выглядит примерно так:

struct {
uint64_t *hash;
item_t *item;
} entry;

А перед сохранением? Он проверяет весь массив, сравнивая хэш каждого элемента, есть он в списке или нет. С 63 тыс. записей это примерно (n^2+n)/2 = (63000^2+63000)/2 = 1984531500, если я не ошибаюсь в расчётах. И это в основном бесполезные проверки. У вас есть уникальные хэши, почему не использовать хэш-таблицу.

Во время реверс-инжиниринга я назвал его hashmap, но это явно не_hashmap. И дальше ещё интереснее. Этот хэш-массив-список пуст перед загрузкой JSON. И все элементы в JSON уникальны! Им даже не нужно проверять, есть они в списке или нет! У них даже есть функция прямой вставки элементов! Просто используйте её! Серьёзно, ну ребята, что за фигня!?

Доказательство концепции

Всё это конечно классно, но никто не воспримет меня всерьёз, пока я не напишу реальный код для ускорения загрузки, чтобы сделать кликбейтный заголовок для поста.

План такой. 1. Написать .dll, 2. внедрить её в GTA, 3. зацепить некоторые функции, 4. ???, 5. профит. Всё предельно просто.

Проблема с JSON нетривиальная, я не могу реально заменить их парсер. Более реалистичным кажется заменить sscanf на тот, который не зависит от strlen. Но есть ещё более простой способ.

* зацепить strlen

* подождать длинной строки

* «закэшировать» начало и длину

* если поступит ещё вызов в пределах диапазона строки, вернуть закэшированное значение

Что-то вроде такого:

А что касается проблемы хэш-массива, то здесь просто полностью пропускаем все проверки и вставляем элементы напрямую, поскольку мы знаем, что значения уникальны.

Полный исходный код PoC здесь.

Результаты

Ну и как оно работает?

Прежнее время загрузки онлайн-режима: около 6м
Время с патчем проверки дубликатов: 4м 30с
Время с парсером JSON: 2м 50с
Время с двумя патчами вместе: 1м 50с

(6*60 - (1*60+50)) / (6*60) = 69.4% улучшение времени (класс!)

Да, чёрт возьми, получилось! :))

Скорее всего, это не решит всех проблем с загрузкой — в разных системах могут быть и другие узкие места, но это такая зияющая дыра, что я понятия не имею, как R* пропустила её за все эти годы.

Краткое содержание

При запуске GTA Online есть узкое место, связанное с однопоточным вычислением

Оказалось, GTA изо всех сил пытается распарсить 10-мегабайтный файл JSON

Сам парсер JSON плохо сделан/наивен и

После парсинга происходит медленная процедура удаления дублей

R*, пожалуйста, исправьте

Если информация каким-то образом дойдёт до инженеров Rockstar, то проблему можно решить в течение нескольких часов силами одного разработчика. Пожалуйста, ребята, сделайте что-нибудь с этим :<

Вы можете либо перейти на хэш-таблицу для удаления дублей, либо полностью пропустить дедупликацию при запуске как быстрое исправление. Для парсера JSON — просто замените библиотеку на более производительную. Не думаю, что есть более простой вариант.

ty <3

Перевод, Оригинал.

Дополнение 15.03.2021:

* Получил подтверждение от R*, что это скоро исправится

* Только что получил награду в размере $10k через их внутриигровую награду H1 в качестве исключения :)) (обычно это делается, только по вопросам безопасности)

* Пытаюсь понять, что такое W8 (от ред. это форма налоговой службы США) и как его заполнить (лол)

* Я сделаю еще один тест, как только обновление выйдет, надеюсь их инженеры не разочаруют :)

Показать полностью 10

GTA 5 GTA Online Benchmark Расследование Детектив Реверс-инжиниринг Длиннопост

455

OpenNET

GNU/Linux

Сравнение производительности HTTP/1.1, HTTP/2 и HTTP/2 + Server Push⁠⁠

6 лет назад

Опубликованы результаты изучения производительности различных методов извлечения коллекции ресурсов, используя для обращения к серверу протоколы HTTP/1.1, HTTP/2 и HTTP/2 + Server Push. В исследовании также оценено влияние на производительность нахождение запрашиваемых данных к кэше браузера и манипуляции ресурсами на уровне логики работы приложения (сведение ресурсов в единый JSON-блок).

Тестирование производительности выполнения 25 запросов показало в целом предсказуемые результаты - заметное отставание запроса через HTTP/1.1 при пустом кэше и лидирование отдачи ресурсов одним блоком (тесты с меткой "compound"). Производительность Firefox и Chrome была примерно на одном уровне, но наличие данных в кэше не привело к ожидаемому росту эффективности

Но в тесте на обработку 500 запросов всплыло заметное отставание Chrome от Firefox при передаче большого числа запросов и отставание Firefox от Chrome при применении механизма Server Push и в ситуации использования HTTP/2 при наличия большей части данных в браузерном кэше. Chrome показал более эффективную работу с кэшем, а Firefox более эффективную обработку внешних запросов.

По итогам тестов сделан вывод, что HTTP/2 позволяет достаточно эффективно обрабатывать раздельные запросы большой коллекции ресурсов. Отличия производительности простых схем раздельной отдачи ресурсов от методов, в которых ресурсы агрегируются в один блок, не столь существенны, чтобы оправдать значительное усложнение логики обработки на стороне приложения и сервера. Агрегирование имеет смысл только в ситуациях, в которых производительность имеет наивысший приоритет. Когда важнее упрощение логики и простой API, имеет смысл использовать раздельную обработку ресурсов.

Другим выводом является то, что браузерный кэш при использовании HTTP/2 не оказывает значительного влияния на производительность обработки запросов (полное выполнение 501 запроса оказалось медленнее выполнения 51 запроса при 90% наполнении кэша всего в 1.2 раза в Firefox и 2.3 раза в Chrome). Использование Server Push не показало существенной выгоды в Firefox, но оказалось эффективным при загрузке большого числа ресурсов в Chrome. Авторы исследования также отметили, что оптимизация серверной части оказывает более существенное влияние на производительность, чем оптимизация выполняемого в браузере клиентского кода.

Показать полностью 3

Benchmark Тест Http Длиннопост

dertpert88

Лига Геймеров

1080 vs Vega 64 и 1066 vs 588 в 70 играх Quad HD и без Unreal engine⁠⁠

6 лет назад

Движок Unreal 4 существенно лучше оптимизирован под карты от зеленых. К сожалению таких игр очень много, от работ дилетантов с посредственной графикой и массы инди-проектов от малоизвестных кампаний до масштабных проектов типа PUBG.

Большинство тестов на просторах интернета содержит в себе такие игры что добавляет немалый перевес в сторону зеленых карт. Есть правда игры на данном движке, где оптимизация не хуже и на картах AMD но их очень мало. Для примера приведу список популярных игр на этом движке: PUBG, Fortnite, Shenmue 3, Star Wars Jedi: Fallen Order и др. Оптимизация под красные в подобных играх такова, что порою GTX 1060 может быть сравнима с Вегой, а RX 580 даже с GTX 1050Ti.

Считаю это не справедливым, и чтобы исправить это недоразумение я подытожу результаты тестов большинства популярных игр 2018-2019 годов, но которые созданы не на движке Unreal engine 4. Таких игр нашлось в количестве 70 штук.

Воспользуюсь для этого ресурсом Gamegpu и программой Excel. Этот ресурс вызывает у меня доверие. Неоднократно убеждался в схожести результатов этого источника с моими, причем на самых разных картах, которых было у меня с десяток различных моделей за лет 5.

Почти все тесты за 2 года я проанализировал. и обошел вниманием только некоторые игры, в которых фпс упирался в потолок даже в разрешении 1440p начиная от GTX 1070 и выше. Есть еще одна игра не на движке Unreal, которую не включил в тест, потому что оптимизация в ней такова, что Radeon vii проигрывает даже GTX 750Ti.

Разрешение для всех тестов выбрано 2560х1440 потому что для 4K карты все же слабоваты, особенно 1066 и 588, а при 1920x1080 было немало случаев, когда фпс упирался в потолок начиная с видеокарты gtx 1070 и выше.

Итак перейду к итогам тестов с сайта GameGPU из 70 игр 2018 и 2019 годов:

В 70 играх RX 588 превосходит 1066 на 3% по среднему и минимальному фпс.

В 70 играх RX Vega 64 превосходит GTX 1080 на 4% по среднему и на 3% по минимальному фпс.

Но не все так однозначно и если копнуть глубже, то вырисовывается интересная картина.

Vega 64 обходит GTX 1080 на 10% и выше по минимальному либо среднему показателю в 20 играх из 70 со средним перевесом в 18% и 21% соответственно:

RX 588 обходит GTX 1066 на 10% и выше по минимальному либо среднему показателю в 24 играх из 70 со средним перевесом в 17% и 18% соответственно:

GTX 1080 обходит RX Vega 64 на 10% и выше по минимальному либо среднему показателю в 9 играх из 70 со средним перевесом в 14% и 16% соответственно:

GTX 1066 обходит RX 588 на 10% и выше по минимальному либо среднему показателю в 14 играх из 70 со средним перевесом в 15% и 17% соответственно:

RX Vega 64 имеет паритет с GTX 1080 Ti в 7 играх из 70, со средним перевесом по среднему и минимальному показателю на 3% и 5% соответственно:

Таким образом если убрать все игры на движке Unreal engine 4, то красные карты смотрятся привлекательнее, побеждая в большем количестве игр и с большим перевесом. Примечательно, что Vega 64 догнала GTX 1080Ti в 7 играх из 70, что не может не радовать.

Благодарю за внимание и надеюсь, что эта статья была интересной.

Показать полностью 10

[моё] Amd Radeon Geforce Benchmark Длиннопост

FominAM

Лига Разработчиков Видеоигр

Тестирование небольшого движка для мобильных 2D онлайн игр.⁠⁠

7 лет назад

Здравствуйте, захотелось как-то мне разработать небольшую онлайн игру для мобилок. По работе в основном пишу драйвера и прошивки для устройств. Но было время – разрабатывал небольшие Flash игры, браузерки, потом игры для соц.сетей, и пару лет работал программистом в крупной игровой компании. Понял, что в качестве профессиональной деятельности за зарплату мне этим заниматься не интересно. Поэтому теперь разрабатываю игры в качестве одного из хобби.

Так вот, хочу сделать небольшой онлайн батлер для мобилок и столкнулся с проблемой выбора движка под это дело

Хотелось сильно не заморачиваться и сразу приступать к разработке. Движков нынче пруд пруди. Чего мне от движка хотелось:

• Более менее знакомый язык программирования;

• Бесплатный и доступный в освоении;

• Поддержка сетевого взаимодействия по UDP, TCP протоколам;

• Поддержка самого движка (ибо SDK платформ и версии OS постоянно обновляются);

• Высокая производительность (большое количество анимаций без тормозов).

Знакомство с движками

Adobe AIR – не игровой движок, но первый кандидат, так как я раньше разрабатывал игры под Flash, и все тут очень знакомо, много полезных наработок. Для небольших приложений очень удобная штука, но даже с использованием Stage3D не очень шустрый. Однако основная причина отказа от Adobe AIR в том, что функционала для мобилок мало, даже вибрацию надо отдельным расширением вставлять, а рекламные сети, in-app и прочие возможности крайне трудно найти, да и те не актуальные из-за непопулярности технологии.

Haxe – тоже не движок, но технология очень интересная. Многие с Flash переходили на OpenFL и прочие производные в свое время, и нахваливали. Решил попробовать на lime и потом на OpenFL по примерам собрать тестовые сборки. На lime все очень быстро, но очень низкоуровнево и много проблем с реализацией дополнительных возможностей Android и IOS, легче на родных средах разработки писать. OpenFL удобен и похож на Flash, но примерно так же медлителен и мало платформозависимого функционала.

Unity – решил посмотреть в сторону одного из самых популярных движков для игр. Для тех, кому Unity – первая среда разработки, наверное, все просто и понятно, но для меня интерфейс – просто ужасен, китайский изучить проще, все кажется абсолютно нелогичным. Прошел туториал по созданию 2D платформера и понял, что уж слишком ко многому надо привыкать, заствака Unity в игре раздражает, плагины и общее взаимодействие со средой раздражает. Решил, что не готов мириться с этим и перешел к другому варианту.

Cocos2d-x – очень косит под стиль Unity, но сильно проще по функционалу. Сделал по урокам игрушку тестовую. Начал проверять на производительность движка, так он и с батчингом еле тянет несколько анимаций. Очень уж тормозной движок.

Разработка новой модели велосипеда

Можно было еще попробовать кучу разных, но даже опыт установки и удаления этих движков и студий неприятный. Вспомнил, что писал как-то давно движок на OpenGL под винду, а потом и на Stage3D. Решил, раз уж все равно для развлечения, то сама задача разработки своего простенького движка достаточно интересна. Пугало только, что для каждой ОС на столько разные среды разработки и предпочтительные языки программирования.

Сначала определим, что мне лично нужно от простейшего 2D движка:

• Отображение статичных/анимированных спрайтов с возможностью изменения: position, rotation, scale, skew, alpha, brightness, colorTransform, visible, управление отдельными анимациями, камера, иерархия объектов;

• Работа со SpriteSheet-ами;

• Обработчики клавиатуры и мыши/тачпада;

• Воспроизведение звуков;

• Файлы сохранений;

• Шрифты и элементы GUI.

Желательно, чтобы движок был и на одном языке программирования, переводить код игры под каждую платформу не очень радует. Мне желательно C/C++. Приступим изучать, что там как.

Android (Android Studio)

Очень много всего удобного для работы с Android, примеры, оформлялки иконок, скриншотов под все версии, удобный дебагер. Минус – практически не предназначен для работы с C/C++, синтаксис едва разбирает, подсказки по коду ждать бесполезно, очень все долго. Сам принцип взаимодействия Java и C/C++ не удобен, но худо бедно работает. Еще кстати размер APK сильно растет, потому что для каждой архитектуры процессора отдельная компиляция.

Расстроило то, что очень много ручного труда с кодом. Даже переименовать проект очень сложно. На некоторых телефонах код на NDK очень долго не стартует, то ли проверки какие-то идут, то ли еще что, просто даже не начинается инициализация. Очень много проблем с обработкой на стороне C/C++ событий паузы, остановки и восстановления приложения. Java рушит все дескрипторы, выданные C/C++ и потоки сишные после OnResume могу стартануть, а могут и помереть. В общем приходиться для надежности заново инициализировать движок и запускать потоки. Запросы из Java в NDK передаются местами в разных потоках, нужно следить за синхронизацией.

Технически использовал OpenGL ES 2.0, со звуками OpenAL, файлы пришлось просить грузить Java, все остальное в принципе, как для Linux, код сразу подошел. По сути переводил свой движок старый, написанный под Windows, писал так, чтобы без изменений компилировалось и под винду (море директив препроцессора). Работает очень быстро, но запускаться приложение может очень долго, притом не начиная никаких инициализаций и загрузок движка.

Вывод: Android не очень жалует C/C++, NDK чисто для вычислений сложных.

IOS (Xcode)

Никогда до этого не работал в Mac OS. Сначала решил ознакомиться с хакинтошами, для ознакомления сойдет, но работать там с Xcode очень неудобно, проблемы с драйверами, в общем не для этого он.

Решил сделать себе подарок на день рождения и приобрести Mac Mini на выигрышные деньги с конкурсов по программированию. С эти уже можно работать. Лицензию разработчика пока так и не взял, проверяю на эмуляторе только, надо бы прикупить б/у смартфон.

Никогда до этого не сталкивался ни с маками, ни с их средой разработки. Думал будет еще хуже, чем с Android. Но оказалось, что среда достаточно дружелюбная, а код на C/C++ встраивается очень удобно и быстро в Objective-C. Неожиданно, но пару дней разбирательств с IOS + Xcode и движок завелся с небольшими изменениями. Половина кода помечена как deprecated, надеюсь еще протянет OpenGL ES на IOS, а то пока сделаю игру, перестанут поддерживать, уж очень хочется каждой корпорации подсаживать на свои технологии разработчиков. Жаль, я не тестировал на реальных устройствах, но займусь как-нибудь.

Для Mac OS и Linux тоже набросал сборки, но подумал, что пока они не очень перспективны для игр. В общем, не так страшен черт, как его малюют. Если тестировать, конечно, еще море исправлений потребуется, да и движок достаточно топорный, но на любительском уровне задача решена.

Сам никому не советую этим заниматься, никогда не окупиться это дело. Готовые движки, конечно, гораздо лучше использовать, куча профессионалов постоянно шлифуют и улучшают, да и готовых крутых решений из коробки очень много. Не теряйте время и силы, разрабатывайте игры.

Сервер

Совсем забыл про сервер для онлайн игр. А я его почти без изменений взял из своих старых проектов: C++, MySQL на Debian Linux. Самый обыкновенный многопоточный сервер с возможностью фоново скидывать данные в базу, логами и прочими мелочами.

Bunny Benchmark

Для тестирования движка и сбора некоторой статистики по устройствам разработал на движке небольшой benchmark, для проверки на сколько ваше устройство пригодно для игр. Бенчмарк грузит в различных режимах работы GPU и CPU, стабилизируя рендер на 30 fps, старым добрым тестом со скачущими кроликами. Также проверяется сетевое взаимодействие (автоматическая регистрация, аутентификация и обмен данными с сервером). Только учтите, у меня сервер – это VPS за 140 рублей в месяц, в описании которого написано: «Для статичных HTML сайтов». А я на нем еще кучу проектов тестирую.

Пока только на Android, если кому интересно, могу выложить для сборку под Windows, но ваши результаты будут игнорироваться в рейтинге, ибо рейтинг для мобилок. Собираю статистику работы движка и возникшие проблемы на различных устройствах. Из того, что уже заметил: при большом разрешении устройства летит верстка спрайтов.

Теперь можно отвлечься на что-нибудь другое, а потом приступать к разработке онлайн игрушки для мобилок.

Удачных выходных.

Показать полностью 4

[моё] Игровой движок 2D Android iOS Benchmark Бенчмарк Длиннопост

Посты не найдены

1 2

Сначала про американцев

А теперь про китайцев, которые всех уделали

Отдельная история про DeepSeek, который меня и порадовал, и расстроил

А вот Qwen меня знатно расстроил

Теперь про мой собственный косяк. Снимаю панамку

Непопулярное мнение, готов снять панамку

Где это всё НЕ работает (честно)

Зачем я вообще это рассказываю

Дешёвая правда про Pro

А кто реально победил

Зачем я вообще это меряю

Грабли по дороге

Чемпион value, ради которого всё затевалось

Где Pro всё-таки оправдан (честно)

Что я в итоге понял

Опять критика?

Поехали!

Что говорят пользователи на платформах X и Reddit?

Официальные заявления OpenAI: Обещания и реальность

Что говорят реальные тесты?

Сравнение результатов в таблице:

Практические примеры:

Выводы из тестов:

Плюсы и минусы: Подробный анализ

Преимущества:

Недостатки:

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества