Nvidia и Компьютерная графика: презентации, отзывы пользователей, приколы — Горячее

3 месяца назад

Технологии : "NVIDIA" тензорные ядра, что это и с чем едят?⁠⁠

Выпуск серии видеокарт RTX20 в свое время стал важнейшим событием в сфере компьютерных технологий. Десктопные видеокарты впервые получили отдельные тензорные ядра. Что это такое? Как работают эти ядра и для чего используются?

CUDA и тензорные ядра

Работа с графикой — специфическая задача для компьютерного «железа». Здесь требуется выполнять довольно однообразные команды с большим объемом данных. Архитектура CPU для этого подходит плохо. Из-за ограниченного числа ядер и АЛУ (арифметико-логических устройств) процессоры не могут быстро делать объемные операции по сложению и умножению.

Был необходим максимальный параллелизм — одновременная обработка данных. Одним из решений стали CUDA-ядра — технология, созданная Nvidia больше десяти лет назад. Эти ядра создали специально для параллельной работы. На чипе помещались сотни и тысячи CUDA-ядер, а их число стало одним из критериев оценки производительности видеокарты.

CUDA-ядра имеют высокоскоростной доступ к видеопамяти, так что обработка выполняется с минимальными задержками. Это важнейший показатель для быстрого вывода подготовленных кадров на монитор.

Однако обработка больших объемов данных нужна не только при выводе графики. Она требуется для научных вычислений, моделирования физических процессов и машинного обучения. Во всех этих задачах одна из главных операций — перемножение матриц.

Задача непростая. Скажем, для решения вышеописанного примера нужны целых 64 умножения и 48 сложений. Не говоря о том, что промежуточные результаты нужно еще где-то хранить. Для операций чтения и записи нужны дополнительные регистры и достаточно скоростная кэш-память.

Может ли с этой задачей справиться CPU? Вообще-то, да. Специально для таких вычислений в процессорах начали появляться инструкции MMX, SSE и (самые совершенные) AVX. Однако видеокарты с их многочисленными CUDA-ядрами — более предпочтительный вариант. Они могут распараллелить большую часть простых операций сложения и умножения. Но даже для них задача просчета матриц оставалась трудоемкой. Решением стали тензорные ядра.

Одно такое ядро способно перемножить две матрицы за один такт. В то время как CUDA-ядрам требуется несколько тактов.

Первое тензорное ядро представляло собой микроблок, выполнявший суммирование-произведение матриц 4x4. Могли использоваться значения FP16 (числа с плавающей запятой размером 16 бит) или умножение FP16 с добавлением FP32.

Размерность рабочих матриц невелика. Ядра при обработке реальных наборов данных обрабатывают небольшие блоки более крупных матриц, в итоге формируя окончательный ответ.

Решение оказалось крайне эффективным. Специалисты из Anandtech провели замеры производительности топовых решений от Nvidia — без тензорных ядер и с ними.

В операциях перемножения матриц (GEMM) прирост производительности с использованием тензорных ядер колоссальный.

Применение тензорных ядер

Научные вычисления

Тензорная математика активно используется в физике и инженерии для решения всех видов сложных вычислений. Например, в механике жидкостей, электромагнетизме, астрофизике, медицине и климатологии. В суперкомпьютерах для этих задач обычно используют крупные кластеры с тысячами высокопроизводительных процессоров уровня Xeon Platinum или AMD Epyc. Однако видеоускорители стали неотъемлемой частью практически любого суперкомпьютера. Подавляющее число машин из рейтинга Top500 работают на базе решений от Nvidia.

Машинное обучение

Задача глубокого обучения в самом простом смысле — это работа с математическими выражениями. Простейший вариант — нейронная сеть, состоящая из одного слоя с двумя нейронами и линейными функциями активации. Представлена она вот таким умножением вектора на матрицу:

Задача обучения сводится к поиску наилучших коэффициентов W. То есть предполагаются матричные операции.

На практике нейросети чаще всего многослойные, и математические выражения получаются куда сложнее. Однако принципиально используются все те же действия — умножение и сложение матриц. Тензорные ядра как раз ориентированы на эти действия.

Самый яркий пример — суперкомпьютер, созданный Microsoft совместно c OpenAI. В нем использовали 10 тысяч графических процессоров Nvidia V100. Именно этот компьютер применили для обучения ChatGPT-3. Продукты Nvidia можно найти в Microsoft Azure, Oracle Cloud и Google Cloud.

Илон Маск для своего ИИ Grok также задействует продукцию Nvidia. Изначально это был кластер на 20 тысяч графических процессоров H100. Недавно для обучения версии GROK 3 миллиардер запустил суперкомпьютер с сотней тысяч NVIDIA H100! Теперь вы можете понять, почему NVIDIA стала самой дорогой компанией и продолжает наращивать прибыль.

Инференс нейросети

Инференс — это запуск уже обученной модели, «скармливание» данных и получение результата. Процесс менее требователен к вычислительной мощности. Но здесь все так же используются матричные операции. Сюда входит распознавание текста (например, в голосовых помощниках), поиск объектов на изображении (распознавание лиц, номерных знаков), шумоподавление и не только.

Тензорные ядра и здесь предлагают высокую производительность. Они позволяют запускать «легкие» нейросети прямо на домашних видеокартах средневысокого ценового сегмента. Например, запустить Chat with RTX — тут достаточно RTX 30 или 40 серии с минимум 8 ГБ видеопамяти. Stable Diffusion также можно запустить локально на видеокартах. Однако производительность каждой модели зависит еще и от ПО. Оно не всегда в полной мере задействует те же тензорные или CUDA-ядра.

DLSS (Deep Learning Super Sampling)

Один из самых доступных вариантов инференса нейросетей — технология DLSS. Специально обученная на игре нейросеть запускается на тензорных ядрах видеокарты, повышая разрешение картинки в реальном времени. Игрок, в свою очередь, получает более высокий FPS. DLSS 3 работает только на видеокартах серии RTX40.

Где имеются тензорные ядра

Nvidia

Поскольку это авторская разработка «зеленых», то именно «тензорные ядра» можно найти лишь в продукции этой компании.

Впервые появились в Nvidia TITAN V в 2017 году — карта имела 640 ядер. После этого ядра стали неотъемлемой частью профессиональных ускорителей

С каждой новой архитектурой появлялось усовершенствованное поколение тензорных ядер. Так что сравнивать их число в рамках разных поколений некорректно. Есть и различия в поддерживаемых форматах данных. Первые ядра могли складывать матрицы с данными только FP16, а современные имеют поддержку куда больших форматов.

В десктопных и мобильных видеокартах технология стала доступна с приходом серии RTX20.

Именно благодаря тензорным ядрам пользовательские карты RTX можно использовать для работы с нейросетями. А также получить апскейл с использованием ИИ. Альтернативные технологии вроде XeSS и FSR базово специальных ядер не требуют.

AMD

Компания «красных» на рынок ИИ вышла относительно недавно. Аналогом тензорных ядер у них является Matrix Core Technologies, которая появилась в архитектуре CDNA 3.

Ядра Matrix Core Technologies пока встречаются только в AMD Instinct MI300A (912 штук) и MI300X (1216 штук). Новые ИИ-ускорители планируют поставить в немецкие суперкомпьютеры Hunter и Herder — в 2025 и 2027 годах соответственно. Сейчас же у немцев работают суперкомпьютеры Hawk и JUWELS на базе Nvidia A100.

Intel

У «синих» используются ядра XMX (Xe Matrix Extensions), созданные специально для матричных вычислений. На них аппаратно работает и фирменный апскейлер Intel XeSS. Встретить ядра XMX можно в линейке видеокарт ARC.

Ядра XMX используются и в Intel Xᵉ HPC 2, установленных в Data Center GPU Max. Графика Xe2-LPG будет встроена в процессоры Lunar Lake. Там также будут использоваться XMX-ядра для задач, связанных с работой ИИ.

Google

В компании не стали изобретать отдельные ядра, а нацелились сразу же на разработку полноценных плат. Они получили название TPU — Tensor Processing Unit. Эти платы специализируются на обработке матриц. Они подходят как для тренировки, так и выполнения нейросетей.

Показать полностью 23

180

MajorLettuce

5 месяцев назад

Лига Геймеров

У них даже прически одинаковые⁠⁠

А вы знали, что глава Nvidia Дженсен Хуанг и глава AMD Лиза Су — двоюродные племянники?

Nvidia AMD IT Компьютерная графика Искусственный интеллект Короткопост Текст Повтор

TechSavvyZone

5 месяцев назад

Технологии: Эволюция графики "AMD/ATI" путь развития Часть Первая⁠⁠

AMD. Второй по величине производитель дискретных графических процессоров, давний и бессменный противник NVIDIA. Как появились и развивались видеокарты AMD/ATI.

Wonder и Mach: 2D, ничего более

Компания ATI была основана задолго до NVIDIA — в 1985 году. О 3D-ускорителях графики тогда речи не шло, под «графической картой» понималась плата для вывода 2D-изображения.

Дебютной серией карт ATI стала линейка, позже получившая название Wonder. Первая модель, выпущенная в 1986 году, имела 64 КБ памяти и могла выводить как монохромное, так и цветное изображение. В первом случае поддерживалось разрешение до 720x348 точек, во втором — 320×200 при четырех цветах или вдвое меньше при 16 цветах.

Последняя модель серии под названием Wonder XL24 была выпущена в 1992 году. Она имела до 1 МБ памяти и поддерживала изображение разрешением 800x600 при 16-битной глубине цвета. Для подключения карт Wonder к системе использовалась шина ISA.

С начала 90-х линейку Wonder постепенно сменила серия 2D-ускорителей Mach, которые были призваны разгрузить ЦП системы от «рисования» интерфейса системы и программ. Новые модели Mach выпускались вплоть до 1996 года. Последняя модель Mach 64 имела от 1 до 4 МБ видеопамяти и поддерживала вывод картинки с разрешением до 1280x1024. Ранние модели использовали шину ISA, более поздние перешли на PCI.

3D Rage: переход в 3D

Первая карта с поддержкой 3D-ускорения была выпущена ATI в апреле 1996 года под именем 3D Rage. Чип карты производился по техпроцессу 500 нм и работал на частоте 40 МГц. Он сочетал в себе блок работы с 2D-графикой от Mach 64 с 3D-ускорителем, в составе которого один пиксельный конвейер, растровый блок (ROP) и текстурный модуль (TMU). По 64-битной шине чип соединялся с 2 МБ памяти EDO RAM, обладавшей пропускной способностью чуть больше 500 МБ/c.

Как и поздние Mach 64, карта имела исполнение PCI. В отличие от NVIDIA STG-2000, модель работала с треугольными полигонами. 3D Rage стала одной из первых карт с поддержкой DirectX 5, но OpenGL для игровых приложений был недоступен. Для демонстрации способностей карты была разработана специальная версия игры MechWarrior 2: 31st Century Combat, использующая ускорение Direct3D.

Спустя пять месяцев была выпущена обновленная 3D Rage II. Частоту ядра увеличили в полтора раза, а в качестве памяти могла использоваться как EDO RAM, так и более быстрые SGRAM/SDRAM объемом от 2 до 8 МБ. Благодаря этим изменениям и обновленным драйверам под новую (на тот момент) Windows 95, модель до двух раз опережала предшественника. Наряду с PCI карте добавили поддержку шины AGP 1x. К тому же графический чип 3D Rage II распаивался и на материнские платы — это был первый прообраз встроенной графики ATI.

3D Rage Pro: эпоха DirectX 6

В марте 1997 года ATI представила новую модель — 3D Rage Pro. Чип, лежавший в основе карты, получил новый движок полигонального рендеринга, поддержку прозрачности, тумана и бликов, таким образом став одним из первых с поддержкой DirectX 6. Он производился по техпроцессу 350 нм, что позволило достичь частоты в 75 МГц. Как и предшественник, карта могла использовать один из трех типов памяти, объем которой варьировался от 4 до 16 МБ.

Хотя 3D Rage Pro поддерживала шину PCI, она проектировалась в первую очередь для нового интерфейса AGP. Первые модели работали в режиме AGP 1x, но с выходом RIVA 128 от NVIDIA компания решила задействовать режим AGP 2x, чтобы лучше противостоять сопернику.

По производительности 3D Rage Pro был на уровне конкурента, однако сырые драйвера досаждали просадками производительности в Direct3D, а поддержка OpenGL для игр все также отсутствовала. Доработанные драйвера вышли позже, когда RIVA 128 и другая конкурирующая карта Voodoo Graphics от 3dfx стали массовыми. В итоге 3D Rage Pro не удалось завоевать популярность, хотя технически модель была достаточно продвинутой для своего времени.

В августе 1998 года была выпущена Rage XL, представляющая собой недорогую карту на базе 3D Rage Pro с памятью SDRAM.

3D Rage 128: упор на 32-битный цвет

К началу 1998 года карты Voodoo пользовались огромной популярностью. В феврале была выпущена Voodoo 2, продолжившая дело первой модели. В июне NVIDIA ответила на нее своей RIVA TNT. Конкурент от ATI вышел на рынок последним — это была пара моделей Rage 128.

В чипе Rage 128 было удвоено количество конвейеров, ROP и TMU — точно так же, как и в RIVA TNT. Благодаря новой технологии SuperScalar Rendering чип обрабатывает два пикселя в двух конвейерах одновременно. Rage 128 имеет два отдельных кэша для текстур и пикселей, повышающих эффективность работы подсистемы памяти.

За счет техпроцесса 250 нм частота ядра достигла 100 МГц. Шину памяти расширили до 128 бит, вследствие чего полоса пропускания возросла до 1.6 ГБ/c у старшей модели Rage 128 GL. Младшая Rage 128 VR получила урезанную до 64 бит шину. Карты оснащались от 8 до 32 МБ памяти SGRAM или SDRAM. Помимо дискретных карт, чип Rage 128 VR распаивался на материнские платы в качестве встроенной графики.

Rage 128 показывала сравнимую с RIVA TNT производительность, а при использовании 32-битного цвета даже опережала ее. К тому же поддержка OpenGL в этот раз имелась уже со старта. Погубило модель слишком позднее появление: выйди карта на полгода раньше, ей удалось бы отвоевать гораздо большую часть рынка.

В начале 1999 года появились более быстрые RIVA TNT2 и Voodoo 3, на что ATI ответила новыми моделями Rage 128 с приставками Pro и Ultra — но опять с опозданием в полгода. Картам добавили поддержку шины AGP 4x, ускорили ядро и память на четверть, что помогло приблизиться к оппоненту. Однако на носу была гораздо быстрая GeForce 256, и ATI нужно было чем-то ответить прямо здесь и сейчас…

Этим ответом стала первая двухчиповая карта компании — Rage Fury MAXX, выпущенная в октябре 1999 года. Два чипа от Rage 128 Pro рендерили кадры по очереди, что позволяло практически вдвое повысить производительность. Каждый из чипов имел 32 МБ памяти SDRAM.

Производительность карты приближалась к GeForce 256, но последняя все же была быстрее и выглядела предпочтительнее за счет поддержки аппаратной трансформации и освещения (T&L) и DirectX 7, которого у ATI еще не было.

Первый Radeon: DirectX 7, и даже немного больше

Битва с GeForce 256 была проиграна, но ATI не собиралась сдаваться. В ее недрах кипела разработка нового графического ядра, которое было быстрее GeForce 256 и с успехом соревновалось бы со следующим поколением конкурента. Встречайте, первый чип для карт нового семейства Radeon — R100.

R100 получил новый геометрический движок Charisma Engine, имеющий некоторые возможности более поздних вершинных шейдеров, что позволяло ATI заявлять о поддержке шейдерных эффектов. В Charisma Engine входит аппаратный блок T&L, движки смешения вершин и интерполяции по ключевым кадрам. У чипа два пиксельных конвейера, на каждый из которых приходится один блок ROP и три TMU.

Чип производился по техпроцессу 180 нм и работал на частоте до 183 МГц. ГП обладал полной совместимостью с DirectX 7, но также поддерживал некоторые функции DirectX 8: глубину резкости, размытие в движении и полноэкранное сглаживание. Шина памяти 128-битная, возможно использование как SDRAM, так и вдвое более быстрой DDR c пропускной способностью до 5.8 ГБ/c. Она используется более эффективно благодаря технологии сжатия Z-буфера под названием Hyper-Z. Radeon с памятью DDR была выпущена в апреле 2000 года, одновременно с первыми GeForce 2. Карта обладала 32 или 64 МБ памяти и чаще всего была наравне с продуктами NVIDIA при использовании 32-битного цвета, но отставала при 16-битном. Спустя два месяца была выпущена более медленная модель с памятью SDR, которая превосходила GeForce 2 MX. Позже для того, чтобы отличить карты от более новых моделей, обе Radeon вдобавок к имени получили цифровой индекс 7200.

Voodoo 4 и 5 в этот раз появились позже конкурентов. К тому времени многие игры научились использовать аппаратный T&L, которого у карт от 3dfx не было. В итоге новые модели от 3dfx чаще всего были медленнее конкурирующих решений при более высокой цене. NVIDIA воспользовалась упадком компании и в конце 2000 года купила 3dfx. С того момента на рынке остались только два серьезных конкурента — NVIDIA и ATI.

В феврале 2001 года была выпущена бюджетная Radeon VE, позже получившая номер 7000. В ее основе упрощенный чип RV100 c 64-битной шиной памяти, который является «половинкой» R100 без движка Charisma Engine и блока T&L.

Radeon 8500: продвинутый DirectX 8

В феврале 2001 года NVIDIA выпускает первую карту с поддержкой DirectX 8 — GeForce 3. В ответ на это спустя полгода ATI выпускает две новые модели: Radeon 7500 и 8500.

В составе Radeon 7500 обновленный чип RV200. Он представляет из себя R100, перенесенный на техпроцесс 150 нм, за счет чего удалось в полтора раза повысить частоту ядра. Использование памяти более быстрой DDR позволило увеличить полосу пропускания до 7.3 ГБ/c.

А вот основой Radeon 8500 стала действительно новая разработка. Чип R200 получил движок Charisma Engine II, в котором нестандартные средства для работы с геометрией сменили два вершинных шейдера. На каждый из четырех конвейеров приходится по одному блоку ROP и пиксельному шейдеру версии 1.4, которые позволяют заявлять о полной поддержке DirectX 8.1. Таким образом, R200 обладает более совершенной программируемой шейдерной архитектурой, чем его конкурент NV20.

ГП получил поддержку TruForm — технологии, позволяющей увеличивать геометрическую сложность сцены посредством разбиения существующих полигонов на более мелкие. По сути, TruForm является собственной реализацией N-патчей DirectX 8 и предком современной тесселяции. Чип обзавелся поддержкой адаптивного сглаживания SmoothVision. А 128-битная шина памяти с быстрыми чипами DDR позволили достигнуть пропускной способности в 8.8 ГБ/c. Благодаря обновленной технологии Hyper-Z II чип более эффективно распоряжается ей по сравнению с предшественниками.

Radeon 8500 и его слегка замедленная версия 8500LE навязали соперничество семейству GeForce 3, хотя топовая модель Ti 500 была немного быстрее. Обе карты выпускались в двух версиях — с 64 и 128 МБ памяти.

Radeon 9700: первый DirectX 9

Следующих новинок ATI пришлось ждать целый год. К августу 2002 года семейство GeForce 4 уже распространилось, и пара новых моделей Radeon 9000 как раз противопоставлялась младшим GeForce 4 MX.

ATI не стала повторять ошибки NVIDIA с отсутствием шейдеров в бюджетной видеокарте. Чип RV250 получил вдвое меньше вершинных блоков и TMU по сравнению с R200, но сохранил 128-битную шину памяти, а также четыре пиксельных конвейера с ROP и пиксельным шейдером на каждом. Это позволяло ему быть быстрее конкурента при сохранении поддержки новых игр, использующих DirectX 8. А вот прямого конкурента GeForce 4 Ti компания разрабатывать не стала. Эпоха DirectX 8 подходила к закату, и ATI решила сосредоточить силы на новом чипе с поддержкой DirectX 9, который превосходил бы текущий топ NVIDIA и составил конкуренцию следующему. Встречайте, первая карта с поддержкой DirectX 9: Radeon 9700 Pro на базе чипа R300.

R300 получил восемь пиксельных и четыре вершинных шейдера, которые значительно переработаны для поддержки шейдерной модели 2.0. Компанию им составляют восемь блоков ROP, столько же TMU и 256-битная шина памяти DDR с пропускной способностью 17.3 ГБ/c. Чип получил более качественную анизотропную фильтрацию и поддержку шины AGP 8x. Теперь доступно адаптивное сглаживание SmoothVision 2.0 на базе MSAA, которое работает значительно быстрее более ранних методов. Из-за энергопотребления, превысившего возможности шины AGP, карте впервые понадобилось дополнительное питание с помощью разъема MOLEX.

В октябре 2002 года линейка карт на чипе расширяется обычным Radeon 9700 и парой Radeon 9500/9500 Pro. Первая модель отличается от 9700 более низкими частотами, а 9500 Pro — еще и урезанной до 128 бит шиной. Radeon 9500 без приставки Pro «пострадал» больше всего: количество пиксельных шейдеров, ROP и TMU ему урезали вдвое. Впрочем, карты этого поколения славились возможностью разблокировки нерабочих блоков: программно или с помощью перепаивания резисторов. Таким образом, благодаря ловкости рук младшую карту можно было превратить в аналог старшей.

Ответ NVIDIA последовал лишь в начале 2003 года. Линейка GeForce FX5000 также поддерживала DirectX 9 и технически даже в чем-то превосходила оппонента из-за усовершенствованной шейдерной модели 2.0a. Однако перегнать топовые Radeon 9700 в новом API первые карты серии не смогли. Лишь в мае 2003 года с выходом FX5900 на чипе NV35 картам на базе R300 пришлось «подвинуться». Однако за два месяца до этого на рынке уже появился его преемник R350 с более высокими частотами.

R350 представляет собой оптимизированную и разогнанную версию R300. На нем основан обновленный флагман компании — Radeon 9800 Pro. Помимо более высоких частот чипа и памяти, карты отличаются объемом памяти: модели с 64 МБ теперь нет, зато доступна новая с 256 МБ. Старшая версия встречается с как с памятью DDR, так и с новой GDDR2. Вместе с топом был выпущен и Radeon 9800SE, повторяющий конфигурацию Radeon 9500. Чуть позже появились модели Radeon 9800 и 9800XL с полным чипом, но сниженными относительно флагмана частотами.

За средний сегмент «отдувался» упрощенный чип RV350, представляющий собой «половинку» от R300/350 по всем блокам. Память у него 128-битная. На RV350 основаны Radeon 9600 Pro, 9600 и 9550. Radeon 9550 SE и 9600 SE также используют RV350, но с урезанной до 64 бит шиной памяти. Бюджетные модели серии Radeon 9200 базируются на RV280, который поддерживает лишь DirectX 8.1 — это реинкарнация чипа RV250, использовавшегося в Radeon 9000.

В сентябре 2003 года выходит Radeon 9800XT на чипе R360, который отличается от R350 только частотой. Ядро достигает 412 МГц, а память — пропускной способности в 23.2 ГБ/c, что помешало стать лидером выпущенной спустя месяц GeForce FX 5950 Ultra. Со сниженной частотой R360 нашел применение и в поздних Radeon 9800 Pro.

Radeon X: появление CrossFire

Карты следующего поколения вышли у конкурентов почти одновременно. В конце апреля 2004 года NVIDIA выпускает первых представителей топовой линейки GeForce 6800, на что ATI в начале мая отвечает новинками серии Radeon X800. В отличие от NVIDIA, которая использовала чип-мост HSI для реализации карт с новомодным интерфейсом PCI-E, ATI создала две версии одного чипа с разными интерфейсами — R420 (AGP 8x) и R423 (PCI-E x16). Отличались и способы подвода дополнительного питания: для AGP-карт — пара MOLEX, для PCI-E карт — один разъем 6-pin.

Внутреннее устройство новых ГП ATI достаточно схоже с конкурирующим NV40 от NVIDIA. Пиксельные шейдеры имеют по два вычислительных векторных ALU. Четыре таких шейдера и четыре TMU сгруппированы в пулы квадов, которые работают с фрагментами картинки размером 2х2 пикселя. В чипе четыре пула, что дает 16 пиксельных шейдеров и 16 TMU. Компанию им составляют шесть вершинных шейдеров и 16 блоков ROP — точно так же, как и в NV40.

Интерфейс памяти 256-битный. Используется GDDR3, пропускная способность которой у топовой модели достигает 35.8 ГБ/c. Чип получил поддержку шейдеров версии 2.0b, временного сглаживания на базе MSAA и метода компрессии текстур 3Dc, предназначенного для сжатия карт нормалей. Благодаря 130 нм техпроцессу потолок частот ГП удалось увеличить до 520 МГц, что вкупе с увеличенным количеством блоков ускорило новые карты до двух раз по сравнению с прошлым поколением.

Старшие модели X800 XT и X800 XT PE были наравне с конкурентной GeForce 6800 Ultra в большинстве новых игр, но иногда уступали в старых проектах. Для обеспечения превосходства по производительности в сентябре 2004 года ATI выпускает линейку Radeon X850 на чипе R480 (а через полгода — на его AGP-клоне R481), который является оптимизированным и разогнанным вариантом R420/R423. Модели серии X850 первыми получили поддержку технологии CrossFire, которая позволяла объединить две карты для увеличения графической производительности. Для этого требовалась особая карта CrossFire Edition, которая соединялась с обычной картой посредством специального кабеля.

Одновременно был выпущен чип R430, представляющий еще одну вариацию R420/R423, перенесенную на 110 нм техпроцесс. Он стал основой обычной X800, а также X800XL — первой карты компании, получившей разновидность с 512 МБ памяти. ГП обладает нативной поддержкой интерфейса PCI-E, а для реализации AGP-вариантов используется чип-мост Rialto.

Таким образом, линейка Radeon X800 стала довольно обширной: различные модели основывались на четырех разных чипах R4xx, отличаясь между собой частотами и количеством активных блоков. Основная масса карт оснащалась 256 МБ памяти, хотя встречались и модели со 128 МБ.

Вместе с серией X850 ATI запускает бюджетные линейки карт X600 и X300. В их основе чипы RV380 и RV370, которые являются слегка улучшенным вариантом RV350, применявшимся в прошлых сериях Radeon 9600 и 9500. В отличие от предшественника, оба чипа обладают интерфейсом PCI-E, а RV370 вдобавок производится по более тонкой 110 нм технологии. Интересной особенностью RV370 была поддержка технологии HyperMemory, позволяющей использовать для нужд ГП часть системной оперативной памяти. В середине 2005 года на базе RV370 была выпущена пара бюджетных карт Radeon X550 c интерфейсом AGP.

В декабре 2004 года компания анонсирует первые модели линейки X700 на базе нового чипа RV410. Он является «половинкой» R430 по всем блокам, за исключением вершинных шейдеров — их, как и в старшем чипе, шесть штук. Шина памяти 128-битная. Основная масса карт X700 получила полный чип, упрощению подверглись лишь модели с приставками LE и SE: обе получили 64-битную шину, а вторая — еще и урезанный по блокам чип. В январе 2007 года на базе X700 SE были выпушены две бюджетные модели серии Radeon X550 с интерфейсом PCI-E.

Radeon X1000: запоздалый DirectX 9.0c

Большинство карт прошлой серии были немного быстрее GeForce 6000, но в козырях последней была поддержка шейдеров версии 3.0, которые спустя год после выхода конкурирующих линеек понемногу станут появляться в играх. В июле 2005 NVIDIA выпустила следующее поколение карт GeForce 7000. Тогда ATI стало окончательно ясно, что пора прекращать делать ставку на шейдеры 2.x и начинать ориентироваться на третьи шейдеры.

ATI запустила новую линейку карт с поддержкой DirectX 9.0c и шейдеров версии 3.0 в октябре 2005 года, представив сразу семь видеокарт линеек X1800, X1600 и X1300. В их основе три разных чипа: бюджетный RV515, средний RV530 и старший RV520. Все ГП получили поддержку адаптивного сглаживания прозрачных текстур.

Строение чипов подобно предшественникам, хотя есть и несколько важных отличий. У топового чипа R520 все также четыре пула квадов. В каждом из которых четверка TMU и пиксельных шейдеров, которые стали сложнее: теперь в каждом из них, помимо пары векторных ALU, имеется еще два скалярных ALU для простых операций. Используются пулы более эффективно благодаря новому блоку Ultra-Threading Dispatch Processor, который распределяет работу между ними.

Число вершинных шейдеров в чипе возросло до восьми, хотя блоков ROP 16. Контроллер памяти получил внутреннюю двунаправленную кольцевую 512-битную шину, позволившую передавать данные с меньшими задержками, но внешняя шина памяти осталась 256-битной. Применение более быстрых чипов GDDR3 увеличило полосу пропускания до 48 ГБ/c. Чипы производились по 90 нм техпроцессу, что позволило достичь 625 МГц ядру топовой модели.

R520 лег в основу топовой линейки Radeon X1800. Карты на его основе оснащались 256 или 512 МБ памяти и полным чипом, за исключением вышедшей позднее X1800 GTO с одним отключенным пулом квадов. В отличие от прошлой линейки, в этот раз топовые модели обоих производителей получились примерно равными по силам: 7800GTX и X1800 XT опережали друг друга с переменным успехом.

Средний чип RV530 получил 12 пиксельных и 5 вершинных шейдеров, 4 ROP и 4 TMU. Шина памяти у него 128-битная, возможно использование как GDDR3, так и DDR2. ГП стал основой пары моделей серии Radeon X1600. Младший RV515 имел аналогичную шину памяти и столько же блоков ROP и TMU, но намного меньше шейдеров: 4 пиксельных и 2 вершинных. Чип применялся в линейке карт Radeon X1300, младшая из которых получила урезанную до 64 бит шину. Карты линейки использовали память DDR или DDR2.

В январе 2006 года компания решает усилить свои позиции запуском карт новой серии Radeon X1900. Они базируются на новом чипе R580, основное отличие которого от R520 — увеличение количества пиксельных шейдеров с 16 до 48. Это обеспечило рост производительности в новых играх со сложной графикой. Спустя два месяца последовал ответ от NVIDIA в лице 7900 GTX, который вновь уравнял обоих конкурентов.

В конце августа ATI выпускает первую модель серии Radeon X1950 на чипе R580+. Главное отличие от обычного R580 — новая память GDDR4, которая позволила увеличить полосу пропускания до 64 ГБ/c. В октябре выходят еще две карты серии на этом чипе, а также модели на новых 80 нм чипах.

RV570 и RV560 представляют собой упрощенный R580 на новом техпроцессе 80 нм с меньшим количеством активных блоков — 36 пиксельных шейдеров и 12 ROP/TMU у старшей модели и 24 пиксельных шейдера вкупе с 8 ROP/TMU у младшей. Новые чипы получили отдельный интерфейс для CrossFire, благодаря которому отпала необходимость в главной карте и стало возможным объединить любые модели с поддержкой технологии и одинаковым ГП специальными мостиками.

RV570 стал основой карт X1950 с приставками PRO и GT, RV560 — моделей X1650 с суффиксами GT и XT, а также X1700 SE.

Бюджетные чипы также получили обновления по 80 нм технологии. RV530 превратился в RV535, а RV515 — в RV516. На базе первого была выпущена X1650 PRO, второй нашел применение в X1550 и X1650SE.

Линейка Radeon X1000 стала последней с раздельными пиксельными и вершинными шейдерами. Следующая линейка карт получила суффикс HD, и обзавелась универсальной шейдерной архитектурой.

ПРОДОЛЖЕНИЕ СЛЕДУЕТ...

Показать полностью 20

Компьютерное железо Компьютер Технологии Инженер IT Игровой ПК Видеокарта Производство Изобретения Компьютерная графика Компьютерные игры История развития Электроника Процессор AMD Nvidia Микроконтроллеры Длиннопост

TechSavvyZone

5 месяцев назад

NVIDIA: "RTX Neural Rendering" Предназначение⁠⁠

В последние годы наблюдается бум развития нейросетей. Не прошел он и мимо 3D-графики реального времени. Еще в 2018 году NVIDIA впервые применила нейросеть для работы масштабирования DLSS. А недавно компания представила целый комплекс новых графических технологий, основанных на нейросетевой обработке — Neural Rendering. Что это такое, зачем нужно и как работает?

Новый уровень графики

В начале века 3D-графика в играх развивалась стремительными темпами. Наиболее заметный скачок был совершен с появлением программируемых шейдеров. Благодаря им можно было реализовать сложные графические эффекты, которые ощутимо преображали картинку из набора плоских текстур.

Шейдеры совершенствовались из года в год, принося с собой возможность создавать новые и все более сложные эффекты. Но вычислительной мощности видеокарт не хватало, чтобы использовать все их возможности «по полной» в момент появления. К концу 2000-х развитие шейдеров замедлилось, а видеокарты стали наращивать «мускулы». Благодаря этому еще десяток лет графика развивалась — уже медленнее, но все так же планомерно.

С каждым новым поколением ГП разработчикам игр в реальном времени становились доступны эффекты, которые за несколько лет до этого можно было реализовать лишь со скоростью пары кадров в секунду. Поэтому, несмотря на отсутствие «прорывных» технологий, качество графики в играх понемногу росло. Но в 2018 году компания NVIDIA решила, что этот процесс слишком замедлился и настала пора революционных изменений. Тогда она представила технологию трассировки лучей в реальном времени и дебютную серию видеокарт RTX 2000, необходимую для ее работы. В последние шесть лет все усилия разработчиков игр направлены именно на трассировку. Но NVIDIA, кажется, нашла способ сделать графику в играх еще реалистичнее. В январе 2025 года вместе с видеокартами серии RTX 5000 она представила нейронные шейдеры, которые должны стать очередным «столпом» для развития графических технологий в ближайшее время.

Что такое Neural Rendering

Ключом к работе технологии масштабирования DLSS стали тензорные ядра, появившиеся в видеокартах серии RTX 2000. С течением времени она дорабатывалась, обеспечивая все более высокое качество. А когда появились линейка RTX 4000, тензорные ядра стали использоваться и для генерации кадров в DLSS 3.

В отличие от этих технологий, концепция Neural Rendering предлагает задействовать тензорные ядра не для всяческих улучшений уже отрендеренных кадров, а для использования подобных расчетов внутри самого конвейера рендеринга. Для этого NVIDIA предлагает следующие «трюки»:

RTX Neural Texture Compression

Сжатие текстур с помощью нейросети. Текстуры анализируются на предмет схожих или повторяющихся фрагментов, чтобы создать их представление в нейронном виде — своеобразный архив из кода. При том же качестве, что у традиционно сжатых, нейронные текстуры занимают до семи раз меньше памяти. Благодаря этому можно «поймать двух зайцев» одновременно: и качество самих текстур увеличить, и в небольшие объемы видеопамяти вписаться.

RTX Neural Materials

Использование нейросети для воспроизведения сложных поверхностей. Например, шелка, меха или фарфора. При их традиционной обработке с помощью универсальных шейдеров приходилось идти на компромиссы и упрощения, иначе производительность просаживалась довольно сильно. Тензорные ядра позволяют в несколько раз ускорить эти расчеты, благодаря чему подобные материалы можно сделать реалистичнее без пагубного влияния на FPS.

RTX Neural Radiance Cache

Трассировка пути — метод, позволяющий получить более реалистичное освещение, чем обычная трассировка лучей. Но он гораздо сильнее влияет на производительность, потому что видеокарте приходится просчитывать заметно большее количество переотражений лучей от разных поверхностей. Neural Radiance Cache — технология, призванная упростить трассировку пути для оборудования. При ее использовании только лишь пара отскоков лучей от поверхностей просчитывается RT-блоками. Дальнейший процесс возлагается на плечи нейросети. Она динамически обучается после первых «увиденных» отражений, чтобы просчитывать дальнейшие отскоки лучей самостоятельно.

Поддержка оборудованием

Главный плюс Neural Rendering в том, что это не проприетарная технология NVIDIA. Его компоненты станут доступны в ближайшем обновлении графического API DirectX в виде функции «Кооперативные векторы» (Cooperative Vectors). При разработке стандарта Microsoft проводила консультации не только с NVIDIA, но и с другими разработчиками графических процессоров для Windows — AMD, Intel и даже Qualcomm. Ожидается, что графика каждого из них будет совместима с Neural Rendering. Но пока нет точной информации, какие это будут поколения видеокарт — нынешние или будущие.

Что до NVIDIA, то функции Neural Rendering будут доступны для всех видеокарт семейства RTX — от 2000 до 5000 серии. Но нужно учитывать, что наиболее оптимизированной для нее будет только последняя линейка RTX 5000.

Только ее графические чипы имеют аппаратный планировщик AI Management Processor, который эффективно распределяет вычисления между универсальными шейдерными процессорами и тензорными ядрами.

У прошлых поколений графики NVIDIA такого планировщика нет, поэтому его функционал будет реализован программно. Вдобавок к этому, их возможности работы с нейронными шейдерами ограничены заметно меньшим темпом тензорных вычислений. У RTX 5000 за счет поддержки низкой точности FP4 он в два с лишним раза выше, чем у RTX 4000 и RTX 3000. А явный аутсайдер в этом плане — дебютная линейка RTX 2000, которая поддерживает лишь FP16.

Для эффективной работы нейронных шейдеров линейка RTX 5000 также обзавелась планировщиком переупорядочивания выполнения шейдеров второго поколения (Shader Execution Reordering, SER). Он перегруппировывает различные операции по типам, чтобы они выполнялись на шейдерных процессорах и тензорных ядрах более эффективно.

В линейке RTX 4000 этот планировщик тоже присутствует, но работает только с операциями для универсальных шейдерных процессоров. А вот в RTX 3000 и RTX 2000 похожего блока нет вовсе.

Если объединить совокупность всех ограничивающих факторов, то можно сказать следующее: чем новее поколение графического процессора RTX, тем быстрее оно будет работать с функциями Neural Rendering. Скорее всего, в случае со старыми видеокартами эта технология не раскроет всех своих преимуществ из-за слишком медленного темпа вычислений и программной реализации некоторых этапов.

Заключение

Neural Rendering — новая глава в развитии 3D-рендеринга реального времени. Его гибридный подход сочетает объединение традиционных шейдерных вычислений высокой точности (FP32) с работой локальных нейросетей, для которых подходят и вычисления низкой точности (FP4/FP8/FP16). За счет их помощи можно сократить потребление видеопамяти, улучшить качество текстур и сделать технологии трассировки менее затратными для оборудования.

Важно то, что благодаря функции Cooperative Vectors нейронный рендеринг станет стандартной возможностью API DirectX. Поэтому в будущем он будет работать не только на ГП NVIDIA с тензорными ядрами, но и на решениях от AMD, Intel и Qualcomm. Вполне возможно, что многие его функции будут работать и на уже существующем оборудовании. Например, в современных ГП Qualcomm Adreno для этой цели могут использоваться блоки FP16, которых вдвое больше, чем обычных FP32. А в линейке видеокарт AMD RX 7000 вычислительные блоки могут переключаться в режим матричного ускорения, которое как раз подходит для работы с нейронным рендерингом.

Однако стоит учитывать, что реализация нейронных шейдеров на графических процессорах, появившихся до концепции нейронного рендеринга, никогда не будет такой же быстрой, как на специально заточенных под это графических архитектурах — таких, как NVIDIA Blackwell в видеокартах RTX 5000. Поэтому рассчитывать на «магическое» повышение качества текстур и повсеместное внедрение трассировки пути в играх ближайшего будущего все-таки не стоит.

Как и в случае с трассировкой лучей в свое время, фишки нейронного рендеринга будут в первую очередь появляться в наиболее технологичных ААА-проектах. А вот станут ли они стандартными в течение нескольких лет учитывая то, что графические процессоры консолей текущего поколения для них не приспособлены — вопрос пока открытый.

Показать полностью 11

Технологии IT Компьютерное железо Компьютер Nvidia Компьютерная графика Видеокарта Игровой ПК Электроника Компьютерные игры Длиннопост

259

CRNET

6 месяцев назад

Лига Геймеров

Наглядный результат казни 32-битного PhysX в RTX 5000-й серии⁠⁠

Значит так, Nvidia взяла и выпилила 32-битный PhysX, который юзали дохрена старых (и не очень) игр. Итог? На дедовской GTX 980 + i5 4-го поколения Борда 2-я работает как надо, а вот на ультра-машине с RTX 5080 + 9800X3D игра превращается в слайдшоу, если осмелиться включить PhysX. Вот такие пироги....

Карт 4000 линейки и старше, выпил физикса не коснулся. Купи 5000 линейку и получи даунгрейд в подарок.

Nvidia RTX Physx Geforce Компьютерное железо Компьютерная графика Видео Короткие видео Nvidia

CRNET

7 месяцев назад

Лига Геймеров

RTX5090 аутсайдер по приросту за последние 20 лет среди флагманов Nvidia⁠⁠

Сортировка от лидера к аутсайдеру

Сортировка по годам

Показать полностью 2

[моё] Nvidia Rtx 3090 Rtx 4090 Rtx 2080Ti Компьютерное железо Компьютерная графика Видеокарта

ARCHiGAME

7 месяцев назад

Нейронный рендеринг появится в DirectX⁠⁠

⚡️ Microsoft объявила о планах улучшить DirectX, чтобы возможности API соответствовали новым веяниям в области рендеринга графики. Скоро в DirectX появится нейронный рендеринг.

🎫 Нейронный рендеринг — это стек технологий ИИ, которые повышают качество отображения текстур, света и отражений, также в процессе снижается вычислительная нагрузка на ГПУ. Мелкомягкие из Microsoft хотят разработать структуру с открытым исходным кодом, которую разработчики смогут легко встраивать в свои игры через API DirectX.

📊 За счет умножения матриц с векторами произвольного размера оптимизируются матрично-векторные операции, которые используются при тренировке ИИ. Таким образом ускоряется работа генераторов кадров, апскейлеров и других технологий на базе ИИ. Мелкомягкие сообщили, что кооперативные векторы используют тензорные ядра видеокарт RTX 5000.

🔻 Точная дата релиза нейронного рендеринга в DirectX пока неизвестна.

#DirectX #Microsoft #Nvidia

🎙 Подписывайтесь на ARCHiTECH

Нейронный рендеринг появится в DirectX Инновации, Игры, Компьютерные игры, Графика, Компьютерная графика, Directx, Новинки, Microsoft, Digital, Nvidia, Искусственный интеллект, Нейронные сети, API

Инновации Игры Компьютерные игры Графика Компьютерная графика Directx Новинки Microsoft Digital Nvidia Искусственный интеллект Нейронные сети API

104

TechSavvyZone

7 месяцев назад

NVIDIA: "Графические процессоры" Часть Третья⁠⁠

GeForce 900: начало эпохи DirectX 12
GeForce 1000
GeForce 2000: трассировка лучей и DLSS
GeForce 3000
GeForce 4000: технология DLSS 3

GeForce 900: начало эпохи DirectX 12

Основой серии GeForce 900 стала архитектура Maxwell, но первыми ее получили карты предыдущей линейки — GTX750 и GTX750 Ti. Из-за задержек с новым техпроцессом NVIDIA пришлось использовать «старые» 28 нм для производства чипов нового поколения. Поэтому сначала было решено обкатать новую архитектуру на бюджетном чипе GM107.

С точки зрения графических возможностей, первое поколение Maxwell почти не отличается от Kepler. Однако внутреннее устройство чипов значительно переработано. Это позволило добиться увеличения производительности при снижении энергопотребления.

GM107 состоит из одного GPC, внутри которого пять SM. В каждом из них движок Polymorph Engine третьего поколения и 128 SP, поделенных на четыре раздела. У каждого из разделов свой планировщик, буфер инструкций и регистровый файл. Блоки, обслуживающие меньшее количество SP, гораздо проще и занимают меньше места на чипе — именно поэтому такое разделение эффективнее. Чип использует более быстрый тайловый рендеринг, который заключается в разбиении кадра на плитки. Это потребовало значительного увеличения кэша второго уровня.

ГП содержит 16 ROP и 40 TMU, а также 640 SP, производительность которых повысилась примерно на треть по сравнению с Kepler. GTX750 Ti имеет полный чип, GTX750 — урезанный. Карты оснащаются 1 или 2 ГБ 128-битной GDDR5 с полосой пропускания до 86 ГБ/c, но новая архитектура распоряжается ею эффективнее прошлой.

В сентябре 2014 года были выпущены GTX980 и GTX970 на базе архитектуры Maxwell второго поколения. Она принесла поддержку DirectX 12.1 и ряда новых технологий для эффективной работы в VR. Основой карт стал чип GM204, увеличивший потолок частот до 1.2 ГГц при невысоком энергопотреблении — не более 165 Вт.

GM204 имеет четыре GPC, в каждом из которых четыре SM. Полный чип содержит 64 ROP, 128 TMU и 2048 SP. Используется 256-битная шина, пропускная способность которой достигает 224 ГБ/c. Флагманская GTX980 имела полную версию ГП и 4 ГБ памяти. В GTX970 была отключена часть блоков, а шина поделена на 224-битный и 32-битный сегменты, вследствие чего 512 МБ памяти из общего объема в 4 ГБ работали медленнее.

AMD к этому времени подтянула производительность серии R9 290 драйверами, и лишь в июне 2015 года представила «новых» противников картам NVIDIA: R9 390 и R9 390X — переименованные модели старой серии с увеличенным до 8 ГБ объемом памяти. Впрочем, и сами GTX970 и 980 на тот момент недалеко ушли от GTX780 и 780 Ti. Производительности даже прошлых флагманов с лихвой хватало для большинства игровых проектов, за редкими исключениями.

В январе 2015 года увидела свет GTX960. Ее основой стал чип GM206, представляющий собой «половинку» от GM204 со 128-битной шиной. Карта выпускалась в двух вариантах — с 2 и 4 ГБ памяти GDDR5. Спустя полгода была выпущена GTX950 с 2 ГБ памяти, которая растеряла четверть SM от полного чипа.

В марте 2015 года был выпущен новый король 3D-графики — GTX Titan X. Он построен на чипе GM200. Внутреннее строение по сравнению с GM204 не изменилось, но вместо четырех GPC стало шесть. Кратно возросло количество всех блоков — у новинки 96 ROP, 192 TMU, 3072 SP и 384-битная шина памяти с пропускной способностью в 336 ГБ/c.

Объем памяти GTX Titan X достиг 12 ГБ, а энергопотребление — 250 Вт. Спустя три месяца NVIDIA выпускает GTX980 Ti с 6 ГБ памяти, но более доступную по цене. В ее основе — все тот же GM200, но слегка урезанный по блокам. AMD отвечает на это новой моделью R9 Fury X с 4 ГБ памяти. Производительность обоих решений оказывается близка, но из-за малого объема памяти флагман AMD вскоре сдаст свои позиции.

GeForce 1000

Новая серия карт получила архитектуру Pascal. Она достаточно схожа с Maxwell, но принесла ощутимый рост производительности за счет техпроцесса 16 нм, который помог увеличить количество блоков чипа и достичь более высоких частот. Pascal получила поддержку асинхронных вычислений DirectX 12 и ряд оптимизаций для повышения производительности в VR-режиме.

Первой картой стала GTX1080, выпущенная в мае 2016 года. В ее основе чип GP104, в составе которого четыре GPC. Внутри каждого из них пять кластеров текстурной обработки (TPC), которые содержат по одному SM и блоку Polymorph Engine четвертого поколения. Сами мультипроцессоры кардинальных изменений не получили: как и в случае с Maxwell, они имеют 128 SP, которые поделены на четыре раздела.

Полный GP104 содержит 64 ROP, 160 TMU и 2560 SP. Подсистема памяти 256-битная. Теперь ее формируют восемь 32-битных каналов, а не четыре 64-битных, что позволило использовать новую GDDR5X. Объем памяти составил 8 ГБ, а пропускная способность возросла до 320 ГБ/c. Технология GPU Boost была обновлена до версии 3.0, которая более эффективно увеличивает частоту в зависимости от напряжения. Частота ГП в бусте превысила планку в 1700 МГц. По сравнению с предшественником карта стала быстрее на две трети при чуть более высоком TDP — 180 Вт.

Следом чип GP104 получила и GTX1070, но количество активных SP в ней сократили на четверть. Карта имеет 8 ГБ обычной GDDR5. GTX1070 Ti появилась в 2017 году. Она отличается от предшественницы гораздо менее урезанным чипом. Чуть раньше нее появились запоздалые конкуренты от AMD — карты Vega 64 и Vega 56. При паритете по производительности они обладали более высоким энергопотреблением.

В июле 2016 года свет увидела GTX1060, ставшая популярной картой среднего ценового сегмента. В ее основу лег чип GP106 с 1280 SP и 192-битной шиной памяти. Версия карты с 6 ГБ GDDR5 использует полную версию ГП, а версия с 3 ГБ — урезанную по блокам. Позже появились GTX1060, основанные на отбраковке старшего чипа GP104.

Топовым решением этого поколения стал чип GP102, который превышал возможности GP104 ровно в полтора раза. В его арсенале шесть GPC, 96 ROP, 240 TMU, 3840 SP и 384-битная память GDDR5X. В августе 2016 года был выпущен Titan X Pascal со слегка урезанным чипом и 12 ГБ памяти. В апреле 2017 года появилось еще две карты на основе GP104: Tital XP c полным чипом, и «гражданская» GTX1080 Ti, у которой, помимо чипа, сократили шину памяти и ее объем — до 352 бит и 11 ГБ, соответственно. AMD нечего было противопоставить этой карте вплоть до 2019 года, когда были выпущены Radeon VII и RX5700XT.

Октябрь 2016 года принес новинки на бюджетном чипе GP107, который получил 768 SP и 128-битную шину памяти. Полным чипом оснащалась GTX1050 Ti, урезанным — обычная GTX1050. Кроме этого, карты отличались разным объемом памяти: 4 ГБ у старшей модели, 2 ГБ у младшей. Спустя полтора года линейку дополнила GTX1050 с 3 ГБ памяти. У нее полный чип, но урезанная до 96 бит шина.

В мае 2017 года свет увидела младшая карта новой линейки — GT1030. В ее основу лег чип GP108, «половинка» от GP107 с 64-битной шиной памяти. Изначально использовалась GDDR5, но позже появился второй вид карты с DDR4.

GeForce 2000: трассировка лучей и DLSS

История карт NVIDIA RTX начинается с архитектуры Turing. GeForce 2000 стали первыми картами с поддержкой трассировки лучей и DirectX 12 Ultimate. Для этого потребовалось внести множество изменений во внутреннее устройство ГП, включая новые блоки трассировки лучей и тензорные ядра.

Первой картой серии стала RTX2080, выпущенная в сентябре 2018 года. Она построена на 12 нм чипе TU104, содержащем шесть GPC. В каждом из них четыре кластера TPC. Внутри TPC — блок Polymorph Engine и два SM, поделенные на четыре раздела с собственными блоками управления.

Число SP, выполняющих операции с плавающей запятой (FP32), в одном мультипроцессоре сокращено до 64. Компанию им составляют 64 блока целочисленных операций (INT32). За счет этого SM может производить оба вида расчетов одновременно, тогда как в прошлых архитектурах за раз можно было выполнять лишь одну из операций.

В каждой части SM имеются два тензорных ядра второго поколения. Они обеспечивают шумоподавление при трассировке лучей, а также работу новой технологии масштабирования DLSS (а позже — и DLSS 2). Один SM содержит 64 SP, 8 тензорных ядер и блок RT для трассировки лучей.

Полный чип TU104 содержит 64 ROP, 192 TMU и 3072 SP. Компанию им составляют 48 блоков RT и 384 тензорных ядра. Ширина и организация шины памяти не изменилась с прошлого поколения, но вместо GDDR5X стала применяться GDDR6, увеличившая пропускную способность в полтора раза — до 448 ГБ/c.

RTX2080 имеет немного урезанный по блокам чип. В 2019 году на базе TU104 были выпущены еще две видеокарты: RTX2070 Ti и RTX2080 Super. Первая имеет ГП с еще большим количеством отключенных блоков, а вторая — полную версию чипа. Объединяет все карты одинаковая память — 8 ГБ 256-битной GDDR6.

Конкурент от AMD и в этот раз появился с опозданием — лишь летом 2019 года. Но, в отличие от прошлой задержки, противостояния не получилось: RX5700XT была медленнее RTX2080, не поддерживала трассировку лучей и технологию DLSS. Однако и ее стоимость была куда скромнее.

Трассировкой лучей заинтересовались многие разработчики игр. Первой игрой с ее поддержкой стала Battlefield V, но в ней технология используется лишь для отражений. Metro Exodus, ставшая второй игрой с поддержкой трассировки, использует ее для освещения, в результате чего картинка преображается куда больше.

Через неделю после RTX2080 была представлена топовая карта семейства — RTX2080 Ti на чипе TU102. Этот ГП содержит ровно в полтора раза больше блоков, чем TU104, и имеет 384-битную шину памяти. В основу RTX2080 Ti лег слегка урезанный чип с 352-битной шиной и 11 ГБ памяти.

Полный чип и 12 ГБ памяти спустя три месяца получила карта Titan RTX. Она же стала последней картой серии Titan. Карты на основе TU102 и TU104 получили поддержку NVLink — новой технологии объединения ГП, которая пришла на смену SLI.

Спустя месяц после старших карт свет увидела RTX2070. Ее «сердце» — младший TU106, который получил 2304 SP и 256-битную шину памяти. В январе 2019 года урезанная версия TU106 стала основой RTX2060. Она получила 192-битную шину и 6 ГБ памяти, в отличие 8 ГБ у старшей модели. Выпущенной спустя полгода RTX2060 Super сократили количество отключенных блоков, вернули полную шину и 8 ГБ памяти.

Производство чипов с блоками трассировки лучей и тензорными ядрами было достаточно дорого из-за крупных кристаллов. Поэтому NVIDIA решила исключить их из ГП для бюджетных карт: результатом стали чипы TU116 и TU117. Карты Turing без поддержки трассировки лучей вошли в серию GeForce 16xx.

ГП TU116 имеет получил 1536 SP вкупе с 192-битной шиной. Первой картой на основе полного чипа стала GTX1660 Ti, выпущенная в феврале 2019 года. За ней последовала обычная GTX1660 с частью отключенных блоков и памятью GDDR5. В октябре свет увидела GTX1660 Super, отличающаяся от обычной версии памятью GDDR6. Последней картой стала GTX1650 Super, которая получила еще более урезанный чип, 128-битную шину и всего 4 ГБ памяти против 6 ГБ у старших «сестер».

Младший TU117 имеет 896 SP и 128-битную шину. Полная версия чипа использовалась в GTX1650, у которой также есть две версии — с памятью GDDR5 и GDDR6. Урезанный чип попал в GTX1630. Обе карты имеют 4 ГБ памяти.

GeForce 3000

Линейка GeForce 3000 построена на архитектуре Ampere, которая основана на предшествующей Turing, но имеет пару важных отличий для достижения более высокой производительности. Несмотря на более современный техпроцесс 8 нм, частоты выросли ненамного. Модели новой линейки поддерживают интерфейс PCI-E 4.0, в очередной раз удваивающий пропускную способность между картами и системой.

В сентябре 2020 года были представлены RTX3080 и RTX3090, в основу которых лег чип GA102. У него семь GPC, в каждом из которых по шесть блоков TPC. Внутри каждого GPC два мультипроцессора, которые подверглись переработке. В их составе блок RT второго поколения, который ускорился вдвое, и 128 SP двух видов: одна половина работает над вычислениями с плавающей запятой (FP32), а другая дополнительно поддерживает и целочисленные (INT32).

Таким образом, в одном SM теперь вдвое больше блоков, работающих с вычислениями FP32. Учитывая большее количество SM в чипе, вычислительная мощность GA102 в два с половиной раза превосходит таковую у TU102. Тензорные ядра третьего поколения стали вдвое быстрее, но теперь их вдвое меньше — по одному в каждой части SM. Ядра получили оптимизации, ускоряющие их работу в определенных режимах.

GA102 содержит 112 ROP, 336 TMU, 10752 SP, а также 84 RT-блока и 336 тензорных ядер. Чип имеет 384-битную шину. К ней подключается память GDDR6X, достигающая пропускной способности в 1 ТБ/c.

Первая версия RTX3080 получила урезанную версию GA102 с 320-битной шиной и 10 ГБ памяти. Старшая RTX 3090 оснащается менее урезанным чипом, полной шиной и 24 ГБ памяти — эта карта призвана занять место Titan.

Спустя полтора года на базе GA102 появляются еще три видеокарты: обновленная RTX3080 с 12 ГБ памяти и полной шиной, RTX3080 Ti с таким же объемом и менее урезанным чипом, и RTX 3090 Ti — обновление RTX3090 со всеми активными блоками в чипе. Пара RTX3090 единственная из новых карт получила поддержку NVLink. Карты на GA102 способны потреблять свыше 350 Вт.

AMD спустя два месяца ответила новой серией RX6000. Топовые RX6800XT и RX6900XT обладают сравнимой производительностью с RTX3080 и RTX3090, за исключением трассировки лучей, в которой продукты AMD медленнее. К тому же, преимуществом карт NVIDIA была технология DLSS 2, тогда как AMD полагалась на менее качественную технологию масштабирования FSR. Но, как и обычно, карты AMD были дешевле, а недостаток в виде отсутствия DLSS 2 год спустя компенсировало появление сравнимой по качеству FSR 2.

Вслед за «большим» Ampere был выпущен более скромный GA104. Шина памяти сокращена до 256 бит, а количество SP — до 6144. В конце 2020 года носителем урезанного чипа стали RTX3070 и RTX3060 Ti с 8 ГБ памяти GDDR6. Спустя полгода свет увидела RTX3070 Ti на базе полного чипа и с более быстрой GDDR6X, а в 2022 году с такой памятью появилась и разновидность RTX3060 Ti.

В феврале 2021 выходит RTX3060 с 12 ГБ памяти. В ее основе слегка урезанная версия чипа GA106, имеющего 3840 SP и 192-битную шину памяти. В 2022 году чип становится основой еще двух карт: RTX3050 и RTX3060 с 8 ГБ памяти. У обеих 128-битная шина, а в RTX3050 чип «пострадал» еще больше — активными остались всего две трети блоков. К тому же, младшая карта получила урезанный интерфейс PCI-E 4.0 x8.

В конце 2022 года был выпущен младший GA107. Чип имеет две трети блоков GA106, и предназначен для очередной версии RTX3050.

GeForce 4000: технология DLSS 3

Карты этой серии основаны на архитектуре Ada Lovelace, в которой сразу видны «корни» Ampere. Перенос на техпроцесс 5 нм позволил разместить в чипах больше блоков, а также поднять их частоты. Первая карта серии была выпущена в октябре 2022 года. Ей стала RTX4090, основанная на чипе AD102.

AD102 по внутреннему устройству достаточно схож с GA102. Главное отличие — 12 GPC против семи у предшественника. Остальные уровни организации SP не претерпели изменений.

Отличия — внутри. Тензорные процессоры относятся к четвертому поколению, а блок трассировки — к третьему. Его работа вновь ускорилась вдвое, и теперь выполняется эффективнее благодаря двум новым блокам: движку микрокарты непрозрачности и движку смещенной микросетки.

Еще одной новинкой стал обновленный движок ускорения оптического потока. Благодаря ему ГП получил поддержку нового вида масштабирования DLSS 3. К тому же, значительно возрос размер кэша L2. При этом подсистема памяти не изменилась: все те же 24 ГБ 384-битной GDDR6X с пропускной способностью в районе 1 ТБ/c.

Полный AD102 имеет 192 ROP, 576 TMU и 18432 SP. У ГП 144 RT-блока и 576 тензорных ядер. В RTX4090 часть блоков отключена, но вкупе с возросшей на треть частотой чипа, рост производительности по сравнению с предшественницей достиг двукратного. При этом значительно возросло TDP карты. Оно достигло 450 Вт, что потребовало установки нового разъема 12VHPWR для подвода питания.

RTX4080 получила собственный чип AD103. Он имеет 10240 SP и 256-битную шину памяти, но в карте также отключена часть блоков. Модель имеет 16 ГБ памяти GDDR6X. В декабре 2022 года AMD запускает новую линейку RX7000, топовой моделью которой становится RX7900XTX. Карта противопоставляется RTX4080, что соответствует действительности — RTX4080 и RX7900XTX близки друг другу, не учитывая трассировку лучей, которая у AMD все так же медленнее.

Впрочем, RX7900XTX стоит дешевле — ведь модель NVIDIA с индексом xx80 впервые получила четырехзначный долларовый ценник. Однако у RTX4080 есть козырь в виде DLSS 3: с ее распространением разрыв производительности в новых играх может стать намного выше, пока свет не увидит конкурентная технология FSR3.

Январь 2023 года принес с собой RTX4070 Ti — первую карту на AD104. В составе чипа 7680 SP и 192-битная шина памяти. Спустя три месяца появилась и обычная RTX4070. Она, в отличие от старшей модели, использует неполный чип c четвертью отключенных блоков. Обе карты оснащаются 12 ГБ GDDR6X.

Запущенная в мае 2023 года RTX4060Ti основывается на ГП AD106. Он имеет 4608 SP и 128-битную шину памяти, но в карте используется слегка урезанная версия чипа. В отличие от старших «сестер», здесь используется обычная GDDR6 объемом 8 или 16 ГБ. К тому же, чип ограничен интерфейсом PCI-E 4.0 x8, как это уже было в случае с RTX3050.

В конце июня готовится к запуску обычная RTX4060 на другом чипе — AD107. Как и у AD106, у него 128-битная шина памяти и интерфейс PCI-E 4.0 x8, но в полтора раза меньше SP. RTX4060 получит полную версию чипа, а версия с частью отключенных блоков найдет применение в будущей RTX4050.

Nvidia представила новые графические адаптеры в рамках стратегии развития AI PC. Три новые модели выпущены в рамках линейки GeForce RTX™ 40 SUPER Series, это GeForce RTX 4080 SUPER, GeForce RTX 4070 Ti SUPER и GeForce RTX 4070 SUPER. В начале января на выставке CES в Лас-Вегасе компания сообщила о том, что новые технологии помогут геймерам, дизайнерам и другим категориям пользователей эффективнее использовать возможности искусственного интеллекта на персональных компьютерах, не прибегая к помощи облачных сервисов.

Характеристики

Итак, для начала таблица всех известных на текущий момент моделей RTX 40 вышедших и не очень:

Блоки ядра и RT

Интересная ситуация в новом поколении видеокарт NVIDIA оказалось и с блоками ядра. После изучения и сопоставления этих данных, некоторые даже называли единственной новой картой RTX 4090. И вот почему:

Если сравнить количество блоков в старых и новых видеокартах, мы увидим, что и тут «не все так однозначно». Идеально показывает себя RTX 4090, только у нее неоспоримое и весомое преимущество над предшественницей (причем, как обычной RTX 3090 так и RTX 3090 Ti) более 50% в любом из типов блоков. Новая мощная карта RTX 4080 показала незначительное преимущество блоков над RTX 3080, а все прочие устройства в линейке были наделены меньшим числом блоков, хотя бы в одной из дисциплин.

На общем фоне, хуже всего себя показали RTX 4060 Ti и RTX 4060, в которых оказалось на 11-15% меньше блоков, чем у карт предыдущего поколения. Некоторые даже ждали, что они окажутся медленнее серий прошлого поколения. Разумеется, этого не могло произойти, количество блоков компенсировалось изменениями в частотах и новой архитектурой.

Компания NVIDIA остановила производство почти всех графических процессоров из линейки GeForce RTX 40, за исключением RTX 4050 и 4060.

NVIDIA полностью закрыла производственную линию видеочипа AD106, утверждают источники. Компания перераспределила все свои мощности на выпуск графических процессоров для видеокарт из линейки RTX 50. Производственная линия чипов AD107 для RTX 4050 и 4060 временно продолжает работать.

CES 2025 в Лас-Вегасе NVIDIA представила новые видеокарты серии GeForce RTX 50

NVIDIA официально представила свою новую флагманскую видеокарту GeForce RTX 5090, которая стала первым потребительским ускорителем с 32 ГБ памяти GDDR7 и частотой 30 ГГц. В основе устройства лежит GPU GB202-300-A1 с 21 760 ядрами CUDA и TBP 575 Вт. Видеокарта поддерживает PCIe Gen 5.0 и DisplayPort 2.1b UHBR20 (8K 165 Гц).

Согласно данным NVIDIA, GeForce RTX 5090 в два раза быстрее GeForce RTX 4090 при использовании DLSS 4 в таких играх, как Cyberpunk 2077, Alan Wake 2 и Black Myth Wukong. В Far Cry 6, даже без DLSS, производительность увеличивается на 30–40%. Технология DLSS 4, основанная на Tensor Core, снижает задержку и улучшает качество изображения, а DLSS Multi Frame Generation позволяет генерировать до трёх дополнительных кадров на каждый честно отрендеренный кадр, увеличивая FPS до 8 раз.

Обновление DLSS 4 включает крупнейшие изменения в ИИ-моделях с момента выхода DLSS 2.0 в 2020 году. Новые функции, такие как DLSS Ray Reconstruction, суперразрешение DLSS и DLAA, основаны на архитектуре «трансформеров», подобной GPT и Gemini. Это значительно улучшает стабильность и детализацию, снижая количество ореолов.

GeForce RTX 5090 отличается компактным размером: Founders Edition занимает два слота и имеет длину 304 мм. Её стоимость составила $2000. GeForce RTX 5080 построена на GPU GB203-400-A1 с 10 752 ядрами CUDA и 16 ГБ памяти GDDR7. Пропускная способность памяти составляет 960 ГБ/с, TBP — 360 Вт, а цена — 1000 долларов, что на 200 долларов меньше цены GeForce RTX 4080 на старте продаж.

GeForce RTX 5070 Ti оснащена 16 ГБ памяти GDDR7 и 8960 ядрами CUDA, её стоимость 750 долларов. Эта модель построена на урезанном GPU GB203 с пропускной способностью памяти 896 ГБ/с и максимальной частотой GPU 2,45 ГГц. Производительность, с учётом DLSS, в два раза выше, чем у GeForce RTX 4070 Ti.

GeForce RTX 5070, самая доступная видеокарта в линейке, стоит 550 долларов. Она построена на GPU GB205 с 6144 ядрами CUDA и 12 ГБ памяти GDDR7 с частотой 28 ГГц и шириной шины памяти 192 бита. TBP составляет 250 Вт. NVIDIA утверждает, что GeForce RTX 5070 быстрее RTX 4090 при использовании DLSS 4.

В плане производительности при работе с искусственным интеллектом, GeForce RTX 5090 предоставляет 3352 триллионов операций в секунду (3352 AI TOPS), а GeForce RTX 5080 — 1801 AI TOPS. Модели RTX 5070 Ti и RTX 5070 предлагают 1406 AI TOPS и 988 AI TOPS соответственно.

На этом история развития графики NVIDIA заканчивается. Более чем за 30-летнюю историю компании сменилось более 20 поколений графических процессоров, каждое из которых радовало увеличенной производительностью и приносило какие-то новшества. Этого игроки будут ждать и от следующих поколений RTX........!

СПАСИБО ВСЕМ КТО ДОЧИТАЛ ДО КОНЦА!!!

Показать полностью 24

Технологии IT Компьютерное железо Компьютер Видеокарта Чип Nvidia Процессор Компьютерная графика История развития Электроника Микрочип Инновации Изобретения Игровой ПК Длиннопост

Посты не найдены

1 2 3 4