Немного истории
47 постов
47 постов
10 постов
180 постов
4 поста
GeForce 900: начало эпохи DirectX 12
GeForce 1000
GeForce 2000: трассировка лучей и DLSS
GeForce 3000
GeForce 4000: технология DLSS 3
Основой серии GeForce 900 стала архитектура Maxwell, но первыми ее получили карты предыдущей линейки — GTX750 и GTX750 Ti. Из-за задержек с новым техпроцессом NVIDIA пришлось использовать «старые» 28 нм для производства чипов нового поколения. Поэтому сначала было решено обкатать новую архитектуру на бюджетном чипе GM107.
С точки зрения графических возможностей, первое поколение Maxwell почти не отличается от Kepler. Однако внутреннее устройство чипов значительно переработано. Это позволило добиться увеличения производительности при снижении энергопотребления.
GM107 состоит из одного GPC, внутри которого пять SM. В каждом из них движок Polymorph Engine третьего поколения и 128 SP, поделенных на четыре раздела. У каждого из разделов свой планировщик, буфер инструкций и регистровый файл. Блоки, обслуживающие меньшее количество SP, гораздо проще и занимают меньше места на чипе — именно поэтому такое разделение эффективнее. Чип использует более быстрый тайловый рендеринг, который заключается в разбиении кадра на плитки. Это потребовало значительного увеличения кэша второго уровня.
ГП содержит 16 ROP и 40 TMU, а также 640 SP, производительность которых повысилась примерно на треть по сравнению с Kepler. GTX750 Ti имеет полный чип, GTX750 — урезанный. Карты оснащаются 1 или 2 ГБ 128-битной GDDR5 с полосой пропускания до 86 ГБ/c, но новая архитектура распоряжается ею эффективнее прошлой.
В сентябре 2014 года были выпущены GTX980 и GTX970 на базе архитектуры Maxwell второго поколения. Она принесла поддержку DirectX 12.1 и ряда новых технологий для эффективной работы в VR. Основой карт стал чип GM204, увеличивший потолок частот до 1.2 ГГц при невысоком энергопотреблении — не более 165 Вт.
GM204 имеет четыре GPC, в каждом из которых четыре SM. Полный чип содержит 64 ROP, 128 TMU и 2048 SP. Используется 256-битная шина, пропускная способность которой достигает 224 ГБ/c. Флагманская GTX980 имела полную версию ГП и 4 ГБ памяти. В GTX970 была отключена часть блоков, а шина поделена на 224-битный и 32-битный сегменты, вследствие чего 512 МБ памяти из общего объема в 4 ГБ работали медленнее.
AMD к этому времени подтянула производительность серии R9 290 драйверами, и лишь в июне 2015 года представила «новых» противников картам NVIDIA: R9 390 и R9 390X — переименованные модели старой серии с увеличенным до 8 ГБ объемом памяти. Впрочем, и сами GTX970 и 980 на тот момент недалеко ушли от GTX780 и 780 Ti. Производительности даже прошлых флагманов с лихвой хватало для большинства игровых проектов, за редкими исключениями.
В январе 2015 года увидела свет GTX960. Ее основой стал чип GM206, представляющий собой «половинку» от GM204 со 128-битной шиной. Карта выпускалась в двух вариантах — с 2 и 4 ГБ памяти GDDR5. Спустя полгода была выпущена GTX950 с 2 ГБ памяти, которая растеряла четверть SM от полного чипа.
В марте 2015 года был выпущен новый король 3D-графики — GTX Titan X. Он построен на чипе GM200. Внутреннее строение по сравнению с GM204 не изменилось, но вместо четырех GPC стало шесть. Кратно возросло количество всех блоков — у новинки 96 ROP, 192 TMU, 3072 SP и 384-битная шина памяти с пропускной способностью в 336 ГБ/c.
Объем памяти GTX Titan X достиг 12 ГБ, а энергопотребление — 250 Вт. Спустя три месяца NVIDIA выпускает GTX980 Ti с 6 ГБ памяти, но более доступную по цене. В ее основе — все тот же GM200, но слегка урезанный по блокам. AMD отвечает на это новой моделью R9 Fury X с 4 ГБ памяти. Производительность обоих решений оказывается близка, но из-за малого объема памяти флагман AMD вскоре сдаст свои позиции.
Новая серия карт получила архитектуру Pascal. Она достаточно схожа с Maxwell, но принесла ощутимый рост производительности за счет техпроцесса 16 нм, который помог увеличить количество блоков чипа и достичь более высоких частот. Pascal получила поддержку асинхронных вычислений DirectX 12 и ряд оптимизаций для повышения производительности в VR-режиме.
Первой картой стала GTX1080, выпущенная в мае 2016 года. В ее основе чип GP104, в составе которого четыре GPC. Внутри каждого из них пять кластеров текстурной обработки (TPC), которые содержат по одному SM и блоку Polymorph Engine четвертого поколения. Сами мультипроцессоры кардинальных изменений не получили: как и в случае с Maxwell, они имеют 128 SP, которые поделены на четыре раздела.
Полный GP104 содержит 64 ROP, 160 TMU и 2560 SP. Подсистема памяти 256-битная. Теперь ее формируют восемь 32-битных каналов, а не четыре 64-битных, что позволило использовать новую GDDR5X. Объем памяти составил 8 ГБ, а пропускная способность возросла до 320 ГБ/c. Технология GPU Boost была обновлена до версии 3.0, которая более эффективно увеличивает частоту в зависимости от напряжения. Частота ГП в бусте превысила планку в 1700 МГц. По сравнению с предшественником карта стала быстрее на две трети при чуть более высоком TDP — 180 Вт.
Следом чип GP104 получила и GTX1070, но количество активных SP в ней сократили на четверть. Карта имеет 8 ГБ обычной GDDR5. GTX1070 Ti появилась в 2017 году. Она отличается от предшественницы гораздо менее урезанным чипом. Чуть раньше нее появились запоздалые конкуренты от AMD — карты Vega 64 и Vega 56. При паритете по производительности они обладали более высоким энергопотреблением.
В июле 2016 года свет увидела GTX1060, ставшая популярной картой среднего ценового сегмента. В ее основу лег чип GP106 с 1280 SP и 192-битной шиной памяти. Версия карты с 6 ГБ GDDR5 использует полную версию ГП, а версия с 3 ГБ — урезанную по блокам. Позже появились GTX1060, основанные на отбраковке старшего чипа GP104.
Топовым решением этого поколения стал чип GP102, который превышал возможности GP104 ровно в полтора раза. В его арсенале шесть GPC, 96 ROP, 240 TMU, 3840 SP и 384-битная память GDDR5X. В августе 2016 года был выпущен Titan X Pascal со слегка урезанным чипом и 12 ГБ памяти. В апреле 2017 года появилось еще две карты на основе GP104: Tital XP c полным чипом, и «гражданская» GTX1080 Ti, у которой, помимо чипа, сократили шину памяти и ее объем — до 352 бит и 11 ГБ, соответственно. AMD нечего было противопоставить этой карте вплоть до 2019 года, когда были выпущены Radeon VII и RX5700XT.
Октябрь 2016 года принес новинки на бюджетном чипе GP107, который получил 768 SP и 128-битную шину памяти. Полным чипом оснащалась GTX1050 Ti, урезанным — обычная GTX1050. Кроме этого, карты отличались разным объемом памяти: 4 ГБ у старшей модели, 2 ГБ у младшей. Спустя полтора года линейку дополнила GTX1050 с 3 ГБ памяти. У нее полный чип, но урезанная до 96 бит шина.
В мае 2017 года свет увидела младшая карта новой линейки — GT1030. В ее основу лег чип GP108, «половинка» от GP107 с 64-битной шиной памяти. Изначально использовалась GDDR5, но позже появился второй вид карты с DDR4.
История карт NVIDIA RTX начинается с архитектуры Turing. GeForce 2000 стали первыми картами с поддержкой трассировки лучей и DirectX 12 Ultimate. Для этого потребовалось внести множество изменений во внутреннее устройство ГП, включая новые блоки трассировки лучей и тензорные ядра.
Первой картой серии стала RTX2080, выпущенная в сентябре 2018 года. Она построена на 12 нм чипе TU104, содержащем шесть GPC. В каждом из них четыре кластера TPC. Внутри TPC — блок Polymorph Engine и два SM, поделенные на четыре раздела с собственными блоками управления.
Число SP, выполняющих операции с плавающей запятой (FP32), в одном мультипроцессоре сокращено до 64. Компанию им составляют 64 блока целочисленных операций (INT32). За счет этого SM может производить оба вида расчетов одновременно, тогда как в прошлых архитектурах за раз можно было выполнять лишь одну из операций.
В каждой части SM имеются два тензорных ядра второго поколения. Они обеспечивают шумоподавление при трассировке лучей, а также работу новой технологии масштабирования DLSS (а позже — и DLSS 2). Один SM содержит 64 SP, 8 тензорных ядер и блок RT для трассировки лучей.
Полный чип TU104 содержит 64 ROP, 192 TMU и 3072 SP. Компанию им составляют 48 блоков RT и 384 тензорных ядра. Ширина и организация шины памяти не изменилась с прошлого поколения, но вместо GDDR5X стала применяться GDDR6, увеличившая пропускную способность в полтора раза — до 448 ГБ/c.
RTX2080 имеет немного урезанный по блокам чип. В 2019 году на базе TU104 были выпущены еще две видеокарты: RTX2070 Ti и RTX2080 Super. Первая имеет ГП с еще большим количеством отключенных блоков, а вторая — полную версию чипа. Объединяет все карты одинаковая память — 8 ГБ 256-битной GDDR6.
Конкурент от AMD и в этот раз появился с опозданием — лишь летом 2019 года. Но, в отличие от прошлой задержки, противостояния не получилось: RX5700XT была медленнее RTX2080, не поддерживала трассировку лучей и технологию DLSS. Однако и ее стоимость была куда скромнее.
Трассировкой лучей заинтересовались многие разработчики игр. Первой игрой с ее поддержкой стала Battlefield V, но в ней технология используется лишь для отражений. Metro Exodus, ставшая второй игрой с поддержкой трассировки, использует ее для освещения, в результате чего картинка преображается куда больше.
Через неделю после RTX2080 была представлена топовая карта семейства — RTX2080 Ti на чипе TU102. Этот ГП содержит ровно в полтора раза больше блоков, чем TU104, и имеет 384-битную шину памяти. В основу RTX2080 Ti лег слегка урезанный чип с 352-битной шиной и 11 ГБ памяти.
Полный чип и 12 ГБ памяти спустя три месяца получила карта Titan RTX. Она же стала последней картой серии Titan. Карты на основе TU102 и TU104 получили поддержку NVLink — новой технологии объединения ГП, которая пришла на смену SLI.
Спустя месяц после старших карт свет увидела RTX2070. Ее «сердце» — младший TU106, который получил 2304 SP и 256-битную шину памяти. В январе 2019 года урезанная версия TU106 стала основой RTX2060. Она получила 192-битную шину и 6 ГБ памяти, в отличие 8 ГБ у старшей модели. Выпущенной спустя полгода RTX2060 Super сократили количество отключенных блоков, вернули полную шину и 8 ГБ памяти.
Производство чипов с блоками трассировки лучей и тензорными ядрами было достаточно дорого из-за крупных кристаллов. Поэтому NVIDIA решила исключить их из ГП для бюджетных карт: результатом стали чипы TU116 и TU117. Карты Turing без поддержки трассировки лучей вошли в серию GeForce 16xx.
ГП TU116 имеет получил 1536 SP вкупе с 192-битной шиной. Первой картой на основе полного чипа стала GTX1660 Ti, выпущенная в феврале 2019 года. За ней последовала обычная GTX1660 с частью отключенных блоков и памятью GDDR5. В октябре свет увидела GTX1660 Super, отличающаяся от обычной версии памятью GDDR6. Последней картой стала GTX1650 Super, которая получила еще более урезанный чип, 128-битную шину и всего 4 ГБ памяти против 6 ГБ у старших «сестер».
Младший TU117 имеет 896 SP и 128-битную шину. Полная версия чипа использовалась в GTX1650, у которой также есть две версии — с памятью GDDR5 и GDDR6. Урезанный чип попал в GTX1630. Обе карты имеют 4 ГБ памяти.
Линейка GeForce 3000 построена на архитектуре Ampere, которая основана на предшествующей Turing, но имеет пару важных отличий для достижения более высокой производительности. Несмотря на более современный техпроцесс 8 нм, частоты выросли ненамного. Модели новой линейки поддерживают интерфейс PCI-E 4.0, в очередной раз удваивающий пропускную способность между картами и системой.
В сентябре 2020 года были представлены RTX3080 и RTX3090, в основу которых лег чип GA102. У него семь GPC, в каждом из которых по шесть блоков TPC. Внутри каждого GPC два мультипроцессора, которые подверглись переработке. В их составе блок RT второго поколения, который ускорился вдвое, и 128 SP двух видов: одна половина работает над вычислениями с плавающей запятой (FP32), а другая дополнительно поддерживает и целочисленные (INT32).
Таким образом, в одном SM теперь вдвое больше блоков, работающих с вычислениями FP32. Учитывая большее количество SM в чипе, вычислительная мощность GA102 в два с половиной раза превосходит таковую у TU102. Тензорные ядра третьего поколения стали вдвое быстрее, но теперь их вдвое меньше — по одному в каждой части SM. Ядра получили оптимизации, ускоряющие их работу в определенных режимах.
GA102 содержит 112 ROP, 336 TMU, 10752 SP, а также 84 RT-блока и 336 тензорных ядер. Чип имеет 384-битную шину. К ней подключается память GDDR6X, достигающая пропускной способности в 1 ТБ/c.
Первая версия RTX3080 получила урезанную версию GA102 с 320-битной шиной и 10 ГБ памяти. Старшая RTX 3090 оснащается менее урезанным чипом, полной шиной и 24 ГБ памяти — эта карта призвана занять место Titan.
Спустя полтора года на базе GA102 появляются еще три видеокарты: обновленная RTX3080 с 12 ГБ памяти и полной шиной, RTX3080 Ti с таким же объемом и менее урезанным чипом, и RTX 3090 Ti — обновление RTX3090 со всеми активными блоками в чипе. Пара RTX3090 единственная из новых карт получила поддержку NVLink. Карты на GA102 способны потреблять свыше 350 Вт.
AMD спустя два месяца ответила новой серией RX6000. Топовые RX6800XT и RX6900XT обладают сравнимой производительностью с RTX3080 и RTX3090, за исключением трассировки лучей, в которой продукты AMD медленнее. К тому же, преимуществом карт NVIDIA была технология DLSS 2, тогда как AMD полагалась на менее качественную технологию масштабирования FSR. Но, как и обычно, карты AMD были дешевле, а недостаток в виде отсутствия DLSS 2 год спустя компенсировало появление сравнимой по качеству FSR 2.
Вслед за «большим» Ampere был выпущен более скромный GA104. Шина памяти сокращена до 256 бит, а количество SP — до 6144. В конце 2020 года носителем урезанного чипа стали RTX3070 и RTX3060 Ti с 8 ГБ памяти GDDR6. Спустя полгода свет увидела RTX3070 Ti на базе полного чипа и с более быстрой GDDR6X, а в 2022 году с такой памятью появилась и разновидность RTX3060 Ti.
В феврале 2021 выходит RTX3060 с 12 ГБ памяти. В ее основе слегка урезанная версия чипа GA106, имеющего 3840 SP и 192-битную шину памяти. В 2022 году чип становится основой еще двух карт: RTX3050 и RTX3060 с 8 ГБ памяти. У обеих 128-битная шина, а в RTX3050 чип «пострадал» еще больше — активными остались всего две трети блоков. К тому же, младшая карта получила урезанный интерфейс PCI-E 4.0 x8.
В конце 2022 года был выпущен младший GA107. Чип имеет две трети блоков GA106, и предназначен для очередной версии RTX3050.
Карты этой серии основаны на архитектуре Ada Lovelace, в которой сразу видны «корни» Ampere. Перенос на техпроцесс 5 нм позволил разместить в чипах больше блоков, а также поднять их частоты. Первая карта серии была выпущена в октябре 2022 года. Ей стала RTX4090, основанная на чипе AD102.
AD102 по внутреннему устройству достаточно схож с GA102. Главное отличие — 12 GPC против семи у предшественника. Остальные уровни организации SP не претерпели изменений.
Отличия — внутри. Тензорные процессоры относятся к четвертому поколению, а блок трассировки — к третьему. Его работа вновь ускорилась вдвое, и теперь выполняется эффективнее благодаря двум новым блокам: движку микрокарты непрозрачности и движку смещенной микросетки.
Еще одной новинкой стал обновленный движок ускорения оптического потока. Благодаря ему ГП получил поддержку нового вида масштабирования DLSS 3. К тому же, значительно возрос размер кэша L2. При этом подсистема памяти не изменилась: все те же 24 ГБ 384-битной GDDR6X с пропускной способностью в районе 1 ТБ/c.
Полный AD102 имеет 192 ROP, 576 TMU и 18432 SP. У ГП 144 RT-блока и 576 тензорных ядер. В RTX4090 часть блоков отключена, но вкупе с возросшей на треть частотой чипа, рост производительности по сравнению с предшественницей достиг двукратного. При этом значительно возросло TDP карты. Оно достигло 450 Вт, что потребовало установки нового разъема 12VHPWR для подвода питания.
RTX4080 получила собственный чип AD103. Он имеет 10240 SP и 256-битную шину памяти, но в карте также отключена часть блоков. Модель имеет 16 ГБ памяти GDDR6X. В декабре 2022 года AMD запускает новую линейку RX7000, топовой моделью которой становится RX7900XTX. Карта противопоставляется RTX4080, что соответствует действительности — RTX4080 и RX7900XTX близки друг другу, не учитывая трассировку лучей, которая у AMD все так же медленнее.
Впрочем, RX7900XTX стоит дешевле — ведь модель NVIDIA с индексом xx80 впервые получила четырехзначный долларовый ценник. Однако у RTX4080 есть козырь в виде DLSS 3: с ее распространением разрыв производительности в новых играх может стать намного выше, пока свет не увидит конкурентная технология FSR3.
Январь 2023 года принес с собой RTX4070 Ti — первую карту на AD104. В составе чипа 7680 SP и 192-битная шина памяти. Спустя три месяца появилась и обычная RTX4070. Она, в отличие от старшей модели, использует неполный чип c четвертью отключенных блоков. Обе карты оснащаются 12 ГБ GDDR6X.
Запущенная в мае 2023 года RTX4060Ti основывается на ГП AD106. Он имеет 4608 SP и 128-битную шину памяти, но в карте используется слегка урезанная версия чипа. В отличие от старших «сестер», здесь используется обычная GDDR6 объемом 8 или 16 ГБ. К тому же, чип ограничен интерфейсом PCI-E 4.0 x8, как это уже было в случае с RTX3050.
В конце июня готовится к запуску обычная RTX4060 на другом чипе — AD107. Как и у AD106, у него 128-битная шина памяти и интерфейс PCI-E 4.0 x8, но в полтора раза меньше SP. RTX4060 получит полную версию чипа, а версия с частью отключенных блоков найдет применение в будущей RTX4050.
Nvidia представила новые графические адаптеры в рамках стратегии развития AI PC. Три новые модели выпущены в рамках линейки GeForce RTX™ 40 SUPER Series, это GeForce RTX 4080 SUPER, GeForce RTX 4070 Ti SUPER и GeForce RTX 4070 SUPER. В начале января на выставке CES в Лас-Вегасе компания сообщила о том, что новые технологии помогут геймерам, дизайнерам и другим категориям пользователей эффективнее использовать возможности искусственного интеллекта на персональных компьютерах, не прибегая к помощи облачных сервисов.
Итак, для начала таблица всех известных на текущий момент моделей RTX 40 вышедших и не очень:
Интересная ситуация в новом поколении видеокарт NVIDIA оказалось и с блоками ядра. После изучения и сопоставления этих данных, некоторые даже называли единственной новой картой RTX 4090. И вот почему:
Если сравнить количество блоков в старых и новых видеокартах, мы увидим, что и тут «не все так однозначно». Идеально показывает себя RTX 4090, только у нее неоспоримое и весомое преимущество над предшественницей (причем, как обычной RTX 3090 так и RTX 3090 Ti) более 50% в любом из типов блоков. Новая мощная карта RTX 4080 показала незначительное преимущество блоков над RTX 3080, а все прочие устройства в линейке были наделены меньшим числом блоков, хотя бы в одной из дисциплин.
На общем фоне, хуже всего себя показали RTX 4060 Ti и RTX 4060, в которых оказалось на 11-15% меньше блоков, чем у карт предыдущего поколения. Некоторые даже ждали, что они окажутся медленнее серий прошлого поколения. Разумеется, этого не могло произойти, количество блоков компенсировалось изменениями в частотах и новой архитектурой.
NVIDIA полностью закрыла производственную линию видеочипа AD106, утверждают источники. Компания перераспределила все свои мощности на выпуск графических процессоров для видеокарт из линейки RTX 50. Производственная линия чипов AD107 для RTX 4050 и 4060 временно продолжает работать.
NVIDIA официально представила свою новую флагманскую видеокарту GeForce RTX 5090, которая стала первым потребительским ускорителем с 32 ГБ памяти GDDR7 и частотой 30 ГГц. В основе устройства лежит GPU GB202-300-A1 с 21 760 ядрами CUDA и TBP 575 Вт. Видеокарта поддерживает PCIe Gen 5.0 и DisplayPort 2.1b UHBR20 (8K 165 Гц).
Согласно данным NVIDIA, GeForce RTX 5090 в два раза быстрее GeForce RTX 4090 при использовании DLSS 4 в таких играх, как Cyberpunk 2077, Alan Wake 2 и Black Myth Wukong. В Far Cry 6, даже без DLSS, производительность увеличивается на 30–40%. Технология DLSS 4, основанная на Tensor Core, снижает задержку и улучшает качество изображения, а DLSS Multi Frame Generation позволяет генерировать до трёх дополнительных кадров на каждый честно отрендеренный кадр, увеличивая FPS до 8 раз.
Обновление DLSS 4 включает крупнейшие изменения в ИИ-моделях с момента выхода DLSS 2.0 в 2020 году. Новые функции, такие как DLSS Ray Reconstruction, суперразрешение DLSS и DLAA, основаны на архитектуре «трансформеров», подобной GPT и Gemini. Это значительно улучшает стабильность и детализацию, снижая количество ореолов.
GeForce RTX 5090 отличается компактным размером: Founders Edition занимает два слота и имеет длину 304 мм. Её стоимость составила $2000. GeForce RTX 5080 построена на GPU GB203-400-A1 с 10 752 ядрами CUDA и 16 ГБ памяти GDDR7. Пропускная способность памяти составляет 960 ГБ/с, TBP — 360 Вт, а цена — 1000 долларов, что на 200 долларов меньше цены GeForce RTX 4080 на старте продаж.
GeForce RTX 5070 Ti оснащена 16 ГБ памяти GDDR7 и 8960 ядрами CUDA, её стоимость 750 долларов. Эта модель построена на урезанном GPU GB203 с пропускной способностью памяти 896 ГБ/с и максимальной частотой GPU 2,45 ГГц. Производительность, с учётом DLSS, в два раза выше, чем у GeForce RTX 4070 Ti.
GeForce RTX 5070, самая доступная видеокарта в линейке, стоит 550 долларов. Она построена на GPU GB205 с 6144 ядрами CUDA и 12 ГБ памяти GDDR7 с частотой 28 ГГц и шириной шины памяти 192 бита. TBP составляет 250 Вт. NVIDIA утверждает, что GeForce RTX 5070 быстрее RTX 4090 при использовании DLSS 4.
В плане производительности при работе с искусственным интеллектом, GeForce RTX 5090 предоставляет 3352 триллионов операций в секунду (3352 AI TOPS), а GeForce RTX 5080 — 1801 AI TOPS. Модели RTX 5070 Ti и RTX 5070 предлагают 1406 AI TOPS и 988 AI TOPS соответственно.
На этом история развития графики NVIDIA заканчивается. Более чем за 30-летнюю историю компании сменилось более 20 поколений графических процессоров, каждое из которых радовало увеличенной производительностью и приносило какие-то новшества. Этого игроки будут ждать и от следующих поколений RTX........!
СПАСИБО ВСЕМ КТО ДОЧИТАЛ ДО КОНЦА!!!
GeForce 8000: DirectX 10 и универсальные шейдеры
GeForce 9000
GeForce 200
GeForce 400: DirectX 11 и тесселяция
GeForce 500
GeForce 600
GeForce 700
В ноябре 2006 года были выпущены первые видеокарты новой 8000 серии — GeForce 8800GTS и 8800GTX. Их сердцем стал чип G80, первенец новой архитектуры Tesla с поддержкой DirectX 10 и шейдеров версии 4.0.
Графическая архитектура была кардинально переработана. G80 состоит из восьми вычислительных блоков, именуемых кластерами текстурной обработки (TPC). Внутри TPC два потоковых мультипроцессора (SM), в каждом из которых два TMU и восемь универсальных скалярных шейдерных процессоров (SP). Равномерно распределяет работу между блоками диспетчер потоков Thread Engine. Помимо работы с графикой, поддерживаются расчеты с помощью нового API СUDA, разработанного NVIDIA.
Растровые блоки сгруппированы по четыре, и привязаны к 64-битному контроллеру памяти. У G80 шесть таких контроллеров. Таким образом, он обладает 384-битной шиной памяти, 24 ROP, 32 TMU и 128 SP. Для сравнения: в современном флагмане RTX4090 - 16384 SP, ровно в 128 раз больше. Шейдерные процессоры в новой архитектуре работают на собственной частоте. Она более чем вдвое превышает частоту ядра и масштабируется вместе с ней. Флагманская карта получила 768 МБ памяти GDDR3 с пропускной способностью 86 ГБ/c.
G80 обеспечивал качественную анизотропную фильтрацию с меньшим штрафом производительности, и поддерживал новые режимы сглаживания — MSAA 8x и CSAA. Тепловыделение чипа достигло 150 Вт. Для запаса по разгону модели оснащались двумя разъемами дополнительного питания 6-pin. Появилась поддержка 3-Way SLI, позволяющего объединить три новые карты в тандем.
В апреле 2007 года выпущено еще два чипа для младших карт серии. Первый — G84 с 32 SP, ставший основой серии GeForce 8600. Второй — G86 с 16 SP, предназначенный для карт 8500GT и 8400GS. Серия GeForce 8600 оснащалась двумя видами памяти: GDDR3 и DDR2. Более бюджетные карты использовали только DDR2. Обе линейки карт имели 256 или 512 МБ памяти.
Карты на флагманском G80 опережали конкурирующую серию Radeon HD 2900, но были очень дороги. G84 был лишь четвертинкой от старшего чипа, и не мог обеспечить хорошей скорости в DirectX 10. Серии требовались не слишком дорогие, но производительные карты, которые стали бы массовыми. В недрах NVIDIA уже кипела разработка еще одного чипа, который решил эту проблему. Встречайте — G92.
В основу G92 лег чип G80 с переносом на 65 нм техпроцесс и серией доработок. Конфигурация памяти была упрощена: осталось четыре 64-битных контроллера из шести. Таким образом, количество ROP сократилось до 16, а шина памяти стала 256-битной. Количество TMU было увеличено до 64 штук. G92 получил поддержку шины PCI-E 2.0, которая удваивает скорость «общения» карты с системой.
Первая модель 8800GT на основе нового ГП, слегка урезанного по блокам, была выпущена в октябре 2007 года. Спустя два месяца увидела свет 8800GTS 512 на полной версии чипа G92. Новые карты пользовались популярностью за счет высокой производительности: первая приближалась к 8800GTX, а вторая часто обгоняла ее. В январе 2008 года успешный чип лег в основу новой младшей карты серии 8800 — 8800GS.
GeForce 8800 на чипе G92 имели большой успех, но разрыв в производительности между ними и «середнячками» GeForce 8600 был очень большим. Эту ошибку исправила первая карта новой серии — GeForce 9600GT, основой которой стал чип G94. В его арсенале 16 ROP и 256-битная шина памяти, как и у G92, но вдвое меньшее количество SP и TMU. Невысокая цена вкупе с хорошей производительностью сделали карту не менее популярной, чем ее предшественники высокого класса.
Среди одночиповых решений NVIDIA лидировала, и ей некуда было торопиться. Конкурирующая серия Radeon HD3800 была медленнее, но выпуск двухчиповой 3870X2 в январе 2008 года подорвал позиции лидера. Поэтому в марте была представлена первая двухчиповая карта на архитектуре Tesla — 9800GX2. По сути, модель представляла собой пару объединенных 8800GTS 512 с пониженными частотами. Tепловыделение такого «бутерброда» составило 197 Вт.
Позже чип G92 стал основой карт других карт серии GeForce 9800, а также модели 9600GSO. ГП G94 лег в основу 9600GSO 512 и 9600GS. Основная часть моделей имела 512 МБ или 1 ГБ памяти GDDR3, а модели со 192-битной шиной — 768 МБ.
Для бюджетного сегмента был выпущен новый чип G96, представляющий собой «половинку» от G94 со 128-битной шиной памяти. Он использовался в моделях 9500GT и 9400GT, у которых встречались варианты как c памятью GDDR3, так и с DDR2.
В конце 2008 года NVIDIA перенесла удачные чипы G92 и G94 на более тонкий техпроцесс 55 нм. Обновленные версии заменили старые чипы в картах линеек GeForce 9600 и 9800, снизив их энергопотребление.
В июне 2008 года, параллельно с расширением графической линейки GeForce 9000, NVIDIA представляет флагманские видеокарты следующего поколения — GTX260 и GTX280.
Чип GT200, используемый в картах, основан на архитектуре Tesla с некоторыми доработками. Шейдерным процессорам добавлена возможность одновременного исполнения двух инструкций, а части из них — поддержка вычислений FP64. ГП получил ускоренный темп работы с геометрическими шейдерами и увеличенное количество одновременно обрабатываемых потоков. Алгоритмы сжатия памяти стали более эффективными.
Строение чипа претерпело некоторые изменения. Теперь в каждом TPC не два, а три SM. Количество TPC увеличено с 8 до 10, вследствие чего полный чип имеет 32 ROP, 80 TMU и 240 SP. Восемь 64-битных контроллеров составляют 512-битную шину памяти GDDR3, которая в топовой карте имела пропускную способность свыше 140 ГБ/c. GT200 был крайне горяч и прожорлив, умудряясь потреблять до 236 Вт. Для его питания понадобилась комбинация из двух коннекторов — 6-pin и 8-pin.
ATI Radeon серии HD4000 были куда успешнее предшественников. Старшая HD4870 могла конкурировать с GTX260 при меньшем энергопотреблении, а двухчиповая HD4870X2 не оставляла камня на камне от GTX280 в играх, оптимизированных под CrossFire.
В конце 2008 года NVIDIA перенесла GT200 на техпроцесс 55 нм, тем самым немного остудив его горячий нрав. Эта версия нашла применение в обновленных моделях GTX260 216, GTX 275, GTX285, а также GTX295 — нового двухчипового короля графики, ставшего ответом на HD4870X2. Все карты на чипе GT200, за исключением GTX280 и GTX285 с 1ГБ, обладают нестандартным объемом памяти 896 МБ — это следствие урезанной до 448 бит шины памяти.
В 2009 году была представлена GTS250 на базе чипа G92, уже знакомого по предыдущим сериям. На моделях бюджетного ценового сегмента NVIDIA решила обкатать технологию производства 40 нм, выпустив три новых ГП: GT215, GT216 и GT218. Они получили слегка доработанную версию архитектуры Tesla с поддержкой DirectX 10.1 и шейдерной модели 4.1. Карты выпускались в двух вариантах — с 512 МБ и 1 ГБ памяти.
Старший чип GT215 с 96 SP лег в основу модели GT240, которая первой из карт компании получила версию с памятью GDDR5. Средний GT126 с 48 SP использовался в модели GT220. Оба чипа получили 128-битную шину памяти, в отличие от младшего ГП GT218 с шиной 64 бит. Он использовался в картах GeForce 205 и 210, и имеет всего 16 SP.
Первые карты серии GeForce 400 с поддержкой DirectX 11, основными новшествами которого являются поддержка тесселяции и вычислений DirectCompute, были представлены в марте 2010 года. В их основу легла новая архитектура Fermi и уже обкатанный техпроцесс 40 нм. Конкуренты в этот раз выпустили новые карты быстрее — линейка Radeon HD5000 появилась на рынке на полгода раньше.
Дебютной новинкой стала карта GTX480 на чипе GF100. Он состоит из четырех вычислительных графических кластеров (GPC). В каждом из них находятся по четыре SM. Один SM содержит 32 SP и блок Polymorph Engine, предназначенный для работы тесселяции.
Полный GF100 имеет 48 ROP, 64 TMU и 512 SP. Шина имеет ширину в 384 бита, а в качестве памяти используется 1.5 ГБ GDDR5 с полосой пропускания 177 ГБ/c. Чип был очень сложным, трудно было добиться малого количества брака. Поэтому в топовой GTX480 использовалась урезанная версия GF100, TDP которого даже в таком виде достигло 250 Вт. ГП поддерживает технологию 4-way SLI, которая позволяет объединить силы сразу четырех карт.
Модель GTX470 вдобавок к еще более урезанному чипу получила меньшую ширину шины — 320 бит, из-за чего объем памяти составил нетипичные 1280 МБ. Младшая GTX465 получила 1ГБ 256-битной памяти, и растеряла львиную долю SP — их осталось всего две трети.
Карты на GF100 опережали предыдущее поколение до полутора раз, но стоили недешево, требовали мощного питания и хорошего охлаждения. В июле 2010 года была представлена GTX460: карта среднего ценового сегмента, получившая популярность. В ее основе чип GF104, получивший 384 SP и 256-битную шину. Он получил улучшения TMU, позволяющие обрабатывать текстуры FP16 вдвое быстрее.
GTX 460 имела две разновидности: с полной 256-битной шиной и урезанной до 192 бит. В первом случае объем памяти составил 1 ГБ, во втором — 768 МБ. Чип был немного урезан по блокам в обеих картах, но больше всего — в появившейся позже GTX460 SE.
По чистой производительности GeForce 400 были сравнимы с серией Radeon HD5000, но значительно опережали их при использовании тесселяции — соответствующий блок у карт ATI был слабее.
Осень 2010 года принесла с собой бюджетные новинки. Чип GF106 — половина от полного GF104, стал основой GTS450. Она имеет 1 ГБ 128-битной GDDR3 или GDDR5, хотя ГП поддерживает 192-битный интерфейс памяти.
GT440 получила две разновидности. Первая основана на урезанном по блокам GF106, но со 192-битной памятью GDDR3. Вторая — на чипе GF108, младшем в линейке. Он содержит всего 96 SP и обладает 128-битной шиной. Помимо GT440, этот же чип использует младшая GT430.
Линейка GeForce 500 представляет собой обновление GeForce 400, и использует ту же архитектуру Fermi. Прирост производительности в этом поколении небольшой.
Чип GF110 пришел на смену GF100, повторяя его по устройству и количеству различных блоков. ГП получил удвоенный темп обработки текстур формата FP16, аналогично GF104 из прошлой линейки. К тому же, он научился более эффективно отбрасывать полигоны, невидимые в кадре. Благодаря отлаженному производству удалось повысить частоты и сохранить все блоки чипа активными во флагмане GTX580. Совокупность изменений ускорила карту на 15–20% по сравнению c GTX480.
GTX580 увидела свет в ноябре 2010 года. Как и предшественник, карта оснащалась 1.5 ГБ 384-битной GDDR5, хотя позже появились и варианты с 3 ГБ. Пропускная способность памяти возросла до 192 ГБ/c. GTX570 основана на том же чипе, но с частью отключенных блоков. Шину памяти урезали до 320 бит, а объем — до 1280 или 2560 МБ. Позже на основе еще более урезанного чипа были выпущены две модели GTX 560 Ti, отличающиеся различным количеством активных SP.
В январе 2011 года на сцену выходит GTX560 Ti на основе ГП GF114, являющегося ближайшим родственником GF104. Как и в случае с GTX580, старшая карта теперь имеет полный чип. Память 256-битная, аналогично предшественнику. Позже в продажу поступили GTX560 и GTX560SE, обладающие меньшим количеством активных SP, но сохранившие полную шину. Объем памяти всех моделей линейки — 1 или 2 ГБ.
Двухчиповая Radeon HD5970 конкурента в прошлом поколении осталась без ответа. В марте AMD, которая уже перестала использовать в названиях карт бренд ATI, запускает следующую «двухголовую» карту HD6990. На этот раз NVIDIA подготовила ответную меру: ей стала GTX590, представляющая собой склейку из двух GTX580 со сниженными частотами. TDP достиг внушительных 365 Вт, вследствие чего карта впервые потребовала двух дополнительных разъемов питания 8-pin.
Одновременно с GTX590 появилась GeForce GTX 550 Ti на базе наследника GF106 — чипа GF116. В отличие от предшественницы, она получила 1 ГБ 192-битной памяти. Это стало возможным благодаря микросхемам памяти с разной плотностью. Позже на базе того же чипа вышла GT545 с 1.5 ГБ GDDR3.
Младший чип получил название GF119. Имеющий всего 48 SP и 64-битную шину, он нашел пристанище в самой бюджетной карте серии — GT520.
Первой картой новой серии стала GTX680, выпущенная в марте 2012. В ее основе лежит архитектура Kepler, которая получила внутреннюю реорганизацию и поддерживает часть возможностей DirectX 11.1/11.2.
В ГП архитектур Tesla и Fermi шейдеры работают на своей частоте не просто так: на старых техпроцессах было невозможно «впихнуть» в чип большое количество SP, вместо этого увеличивали их частоту. Чипы Kepler перешли на 28 нм техпроцесс, который позволил разместить больше SP на той же площади, а также преодолеть барьер частоты ядра в 1 ГГц. Поэтому от старой схемы отказались, приведя к единой частоты работы ядра и шейдеров.
Основой GTX680 стал чип GK104. У него четыре GPC, но мультипроцессоров в каждом не по четыре, а по два. Теперь они содержат в себе гораздо большее количество SP — 192. Блок тесселяции Polymorph Engine 2.0 стал быстрее. Полный чип содержит 32 ROP, 128 TMU и 1536 SP. ГП получил поддержку шины PCI-E 3.0, удваивающей скорость обмена данными между картой и системой.
Ширину шины сократили до 256 бит, но за счет более быстрой GDDR5 пропускная способность осталась на уровне GTX580. Появилась технология GPU Boost — теперь частота ядра не фиксированная, а динамическая, в зависимости от нагрузки на ГП и его энергопотребления. Последнее стало довольно скромным — 195 Вт.
Карта конкурировала с ранее представленной Radeon HD7970, обгоняя ее в старых проектах. А вот в новых все было не так однозначно: представительница AMD получила новую архитектуру GCN, в которой устранили слабые места прошлого поколения, и с каждой новой игрой разрыв между картами только сокращался.
Вскоре появилась GTX690 — двухчиповая карта с парой GK104 и TDP 300 Вт. За ней последовала GTX670 со слегка урезанным чипом. Младший вариант на GK104 — GTX660 Ti. Как и прочие карты на чипе, она имеет 2 ГБ памяти GDDR5, но отличается 192-битной шиной.
GTX 660 появилась через полгода после выхода флагмана. В ее основу лег чип GK106 с 960 SP, а память представляли 2 ГБ 192-битной GDDR5. Чуть позже свет увидели две версии GTX650 Ti на том же чипе: обычная с урезанной до 128 бит шиной, и версия «Boost» с полной шиной памяти. Часть блоков в этих картах была отключена. К тому же, в отличие от старшей, они были доступны в двух версиях: с 1 и 2 ГБ памяти.
Младшим чипом GK107 оснащались две карты, GTX650 и GT640. Обе имели полную версию чипа с 384 SP, отличия в частотах и типе памяти: первая оснащалась GDDR5, вторая — GDDR3. Бюджетные карты GT630, GT620 и GT610 были построены на чипах архитектуры Fermi: GF108 и GF119.
В феврале 2013 года была выпущена карта GTX Titan, с которой началась история GeForce 700, хотя номинально в эту линейку модель не входила.
GK110, ставший основой карты, построен на той же архитектуре Kepler. По сравнению с GK104, чип разросся «вширь». Новый ГП имеет пять GPC, в каждом из которых три SM. В каждом SM значительно возросло число блоков FP64, обычно используемых для неигровых вычислений — с 8 до 32.
Полный чип имеет 48 ROP, 240 TMU и 2880 SP. При этом количество активных блоков в карте было слегка сокращено. GK110 обладает 384-битной шиной памяти, которую у GTX Titan представляют 6 ГБ GDDR5. Ее пропускная способность достигла 288 ГБ/c. Технология GPU Boost была обновлена до версии 2.0, позволяющей эффективней повышать частоту с учетом температуры чипа. TDP карты достиг 288 Вт.
GTX Titan предназначался в первую очередь для неграфических вычислений, но на некоторое время получил статус самого быстрого игрового решения. Спустя три месяца NVIDIA выпустила первую игровую карту на чипе GK110 — GTX 780. Чтобы не составлять конкуренцию GTX Titan, чип был урезан еще сильнее, а cкорость вычислений FP64 ограничена. Карта получила 3 ГБ памяти, хотя иногда встречались и варианты с 6 ГБ.
Спустя год эту пару на посту сменили GTX Titan Black и GTX 780 Ti, обладающие чипами GK110 со всеми активными блоками. В мае 2014 NVIDIA представила двухчиповый GTX Titan Z, ставший кульминационной точкой развития архитектуры Kepler и последней картой компании с двумя ГП.
AMD ответила картами серии R9 290. Как и в случае с парой GTX680/HD7970, новая пара GTX780 Ti/R9 290X с переменным успехом «бодалась» друг с другом. Флагман NVIDIA на старте был быстрее и стоил дороже, но со временем карта AMD стала его обгонять.
Ступенькой ниже карт на GK110 расположились модели на уже знакомом нам GK104. GTX 680 «превратилась» в GTX770. GTX 760 получила на четверть урезанный чип, но за счет 256-битной шины памяти, хорошей производительности и гуманной цены карта стала очень популярным решением. Обе карты оснащались 2 или 4 ГБ памяти.
Февраль 2014 года принес с собой новинки: GTX750 и GTX750 Ti. В отличие от прочих решений GeForce 700, в них использовался новый ГП архитектуры Maxwell — GM107, подробнее о котором мы расскажем в третьей части истории.
Более бюджетные карты серии использовали как старые чипы GK107 и GF108, так и новый бюджетный чип архитектуры Kepler — GK208. Аналогично GK107, он имеет 384 SP, но обладает вдвое меньшим количеством растровых и текстурных блоков. Шина памяти сокращена до 64-битной, а интерфейс подключения к системе ограничен режимом PCI-E 2.0 x8. Полный чип лег в основу GT730, версия с половиной активных SP использовалась в GT720 и GT710.
С появлением ОС Windows 10 линейки видеокарт GeForce 400, 500, 600 и 700 получили частичную поддержку DirectX 12. Но полностью соответствуют функциям нового API только более современные поколения видеокарт, которые поддерживают его изначально.
ПРОДОЛЖЕНИЕ СЛЕДУЕТ...
NVIDIA. Давний и бессменный лидер рынка дискретных графических процессоров. Рассмотрим, как появились и развивались видеокарты NVIDIA. Первая часть повествует о становлении графики компании в период до появления DirectX 10.
STG-2000: неоднозначный первенец
RIVA 128: совместимость с DirectX
RIVA TNT: мультитекстурирование
GeForce 256: аппаратная трансформация и освещение
GeForce 2
GeForce 3: шейдеры
GeForce 4
GeForce FX5000: ранний DirectX 9
GeForce 6000: DirectX 9.0c и HDR
GeForce 7000
NVIDIA была основана в 1993 году. Тогда происходил рост популярности трехмерных игр, который делал перспективным разработку 3D-ускорителей. Именно этим и занялась новая компания.
В течение двух лет NVIDIA разрабатывала свой первый продукт, и, наконец, представила его в мае 1995 года. Это была мультимедийная карта STG-2000 на базе чипа NV1. Плата имела разъем PCI и объединяла в себе 3D-ускоритель, блок работы с 2D-графикой и звуковую карту.
NV1 стал первым графическим чипом для IBM-PC совместимых компьютеров с поддержкой аппаратного текстурирования. Он имел по одному текстурному модулю (TMU), пиксельному конвейеру и растровому блоку (ROP). Чип производился по техпроцессу 500 нм и работал на частоте 12 МГц. В качестве памяти использовалось 2 или 4 МБ EDO RAM с пропускной способностью 600 МБ/c.
Особенностью NV1 стала работа с четырехугольными примитивами, аналогично приставке Sega Saturn. Несколько игр с этой приставки, такие как Virtua Fighter и Panzer Dragoon, были портированы на ПК и успешно работали на STG-2000.
Вскоре после выхода STG-2000 компания Microsoft представила API DirectX, работающий с треугольными полигонами. В итоге чип NV1 остался не у дел. NV2, разрабатываемый в недрах компании для приставки Sega Dreamcast, был отменен.
В 1996 году NVIDIA приступила к работе над 3D-ускорителем, работающим с треугольными полигонами. В приоритете была максимальная совместимость с графическими API DirectX 5 и OpenGL 1.0. В основе ускорителя лежит доработанная архитектура прошлого чипа, получившая название Fahrenheit. Разработка увидела свет в августе 1997 года — тогда компания представила карту RIVA 128.
Сердцем модели стал чип NV3, выпускаемый по техпроцессу 350 нм. Как и предшественник, он имел по одному пиксельному конвейеру, ROP и TMU, но обладал гораздо более высокими частотами чипа и памяти — оба работали на 100 МГц. Память представляла SGRAM объемом 4 МБ. Ее полоса пропускания увеличилась до 1.6 ГБ/c благодаря 128-битной шине. Буфер кадра и текстуры могли храниться в системной ОЗУ. Чип NV3 одним из первых получил поддержку шины AGP 2x, но выпускались и PCI-карты.
RIVA 128 стала первым популярным продуктом компании благодаря совместимости с DirectX, неплохой производительности, а также сочетанию обработки 2D-изображения и 3D-ускорителя в одной карте — конкурирующая Voodoo Graphics от 3dfx Interactive для своей работы требовала дополнительной 2D-карты. Другой конкурент, ATI 3D Rage Pro, обладала сравнимой с RIVA 128 функциональностью, но часто была медленнее, и вдобавок не поддерживала OpenGL.
В феврале 1998 года NVIDIA выпускает обновленную RIVA 128 ZX. Объем памяти возрос до 8 МБ, а ее частота увеличилась на четверть.
На фоне усиливающейся конкуренции со стороны Voodoo 2, NVIDIA понадобилось более производительное решение. Им стала RIVA TNT на базе чипа NV4, выпущенная в июне 1998 года. Модель получила поддержку мультитекстурирования, которое стало одним из главных нововведений DirectX 6 и OpenGL 1.2.
Конвейеров, ROP и TMU в NV4 стало по два. Чип научился работать с 32-битным цветом и 24-битным Z-буфером, в отличие от конкурирующей Voodoo 2, и получил более качественную фильтрацию текстур. Память представляли 8 или 16 МБ SDRAM. Модели все чаще стали оснащаться активным охлаждением, хотя чип еще мог обходиться и без него.
Voodoo 2 была популярнее и показывала более высокую производительность при использовании собственного API Glide, который к тому времени получил большое распространение в играх. Но Riva TNT привлекла внимание к DirectX и OpenGL. Единственная модель не способствовала популярности, поэтому в начале 1999 года NVIDIA решила расширить линейку новыми моделями RIVA TNT2.
Карты серии TNT2 основаны на чипе NV5. Новый техпроцесс 250 нм позволил повысить частоты до полутора раз. Чип получил поддержку шины AGP 4x, 32-битного буфера и текстур разрешением 2048х2048. Карты серии TNT2 оснащались 16 или 32 МБ памяти SDRAM. Для сравнения: у современной RTX4090 24 ГБ памяти. Или, по меркам 1998 года, 24576 МБ.
Бюджетные модели основывались на NV6, упрощенном варианте NV5 с 64-битной шиной. Самой быстрой картой с ним стала Riva TNT2 M64. Младшие модели со сниженными частотами получили названия Vanta и Vanta LT.
Главным конкурентом линейки TNT2 стала Voodoo 3. Несмотря на меньшие продажи и более низкую производительность, линейка RIVA TNT2 за счет разнообразия моделей нашла применение в компьютерах разных ценовых сегментов, тем самым поспособствовав популяризации 3D-игр.
Развитие 3D-ускорителей в 90-е годы происходило бурно, но большую часть обработки графики все так же выполнял ЦП компьютера. В сентябре 1999 года Microsoft выпустила DirectX 7, который принес поддержку аппаратной трансформации и освещения (T&L) с помощью видеокарты.
В октябре 1999 года NVIDIA дает старт карте GeForce 256. В ее основе графическая архитектура Celsius. Чип NV10 имеет аппаратный блок T&L и четыре пиксельных конвейера, к каждому из которых привязано по одному ROP и TMU. 128-битная шина поддерживает два вида памяти — SDRAM и DDR. Пропускная способность модели с DDR была почти вдвое выше, чем у версии с SDRAM: 4.8 ГБ/c против 2.6 ГБ/c. Имелись версии с 32 и 64 МБ памяти.
На внедрение аппаратного T&L в игры потребовалось время, и на момент выхода дороговизна GeForce 256 не оправдывала чистого роста производительности без учета этой технологии. С оптимизированными играми в системах со слабым процессором карта могла значительно превосходить предшественников и конкурентов, но такое применение было маловероятно.
В апреле 2000 года была выпущена первая карта серии GeForce 2 на базе чипа NV15, переведенного на техпроцесс 180 нм.
Новшеством по сравнению с NV10 стало два TMU на конвейер. TMU работают совместно с новым блоком Nvidia Shading Rasterizer, который смешивает текстуры для реализации эффектов мультитекстурирования. Таким образом, реализованы некоторые функции DirectX 8, хотя шейдеров у ГП еще нет. Используется память DDR. Ее полоса пропускания возросла до 7.3 ГБ/c.
В июне свет увидела бюджетная серия GeForce 2 MX. В ее основу лег чип NV11, получивший вдвое меньше блоков, чем NV15, но сохранивший 128-битную шину. Большинство карт серии оснащались памятью SDRAM, хотя существуют и варианты с 64-битной DDR.
С появлением GeForce 2 и первых Radeon от ATI, поддержка аппаратного T&L в играх стала распространяться все больше. Voodoo 4 и 5 появились позже, и уже не могли обогнать конкурентов по производительности при гораздо большей цене. В итоге, в конце 2000 года NVIDIA купила 3dfx Interactive, тем самым положив конец одному из конкурентов.
В отличие от прошлой линейки, карты серии GeForce 2 стали по-настоящему массовыми. Игры положительно откликались на удвоенное количество TMU, но производительность все чаще стала упираться в пропускную способность памяти.
В феврале 2001 года была представлена GeForce 3. В ее основу лег чип NV20 на архитектуре Kelvin, производимый по 150 нм техпроцессу. Главным улучшением стала программируемая шейдерная архитектура с поддержкой DirectX 8.0.
Конфигурация NV20 схожа с предшественником: 4 ROP и 8 TMU. На каждый из четырех конвейеров приходится по пиксельному шейдеру. Еще один шейдер используется для обработки вершин, он совмещен с блоком T&L. 128-битная шина памяти стала использоваться более эффективно благодаря технологии сжатия Lightspeed Memory Architecture. GeForce 3 оснащаются 64 или 128 МБ памяти DDR.
NV20 получил поддержку сглаживаний MSAA и Quincunx, которые значительно быстрее доступного ранее SSAA. Работа анизотропной фильтрации улучшена, добавлена поддержка текстур разрешением 4096х4096. ГП поддерживает технологию RT-Patches, являющуюся одним из предков современной тесселяции, но так и не получившую распространения.
Производительность GeForce 3 в старых играх, не использовавших шейдеры, была на уровне или даже ниже прошлой линейки GeForce 2. Как и конкурирующий Radeon 8500 на чипе R200, карты стали раскрываться только с приходом игр с поддержкой DirectX 8. К тому времени компания выпустила следующее поколение карт, обладающее повышенной производительностью — GeForce 4.
В феврале 2002 года были представлены GeForce 4 — новые представители архитектуры Kelvin, распространившие ее в массы. Чип NV25 схож с NV20, но имеет два вершинных шейдера, которые могли работать как сдвоенный блок T&L. Добавилась поддержка пиксельных шейдеров версии 1.3, требующаяся для совместимости с DirectX 8.0a. Сглаживание теперь отнимало меньше производительности. Ядру покорились 300 МГц частоты, а память ускорилась на четверть, хотя объем не изменился.
NV25 использовался в производительной линейке GeForce 4 Ti. В бюджетной линейке GeForce 4 MX использовался другой чип — NV17, который из-за отсутствия шейдеров ограничен DirectX 7. Он достаточно схож с NV11, использовавшимся в GeForce 2 MX, и немного быстрее него за счет частоты и поддержки технологии сжатия памяти.
В конце 2002 года появились модели на чипах NV28 и NV18. Они повторяли прежний ассортимент, но получили поддержку шины AGP 8x.
Ti-модели были дорогими, MX — дешевыми. Поэтому GeForce 4 MX пользовались популярностью. Но с появлением игр, которые задействовали шейдеры, их пользователи остались не у дел: в ранних проектах не отображались некоторые эффекты, а более поздние отказывались запускаться. Благо, после этой серии производитель избавился от подобной практики, и современные Ti-модели по функциональности не отличаются от обычных карт серии.
У ATI не было адекватного ответа на топовые GeForce 4 Ti до июля 2002 года, когда была выпущена гораздо более быстрая Radeon 9700 Pro с поддержкой DirectX 9. Но спустя полгода NVIDIA ответила новой линейкой — GeForce FX5000.
В январе 2003 года NVIDIA выпускает первые карты линейки GeForce FX5000, рассчитанные на работу с DirectX 9. В их основе новая архитектура Rankine.
Потребляемая мощность превысила возможности слота AGP, поэтому GeForce FX потребовали дополнительного питания с помощью разъема MOLEX. Появилось автоматическое управление вентилятором в зависимости от температуры ГП.
Первыми стали карты серии FX5800 на основе 130 нм чипа NV30. 4 ROP и 8 TMU соседствуют с четырьмя пиксельными и тремя вершинными шейдерами, которые переработаны для поддержки шейдерной модели 2.0a и управления потоком команд. К 128-битной шине подключалось 128 МБ памяти нового типа — GDDR2. Качество сглаживания и анизотропной фильтрации улучшилось. К тому же, они стали меньше влиять на производительность.
Карты серий FX5600 и FX5200 вышли спустя два месяца. В их основе — чипы NV31 и NV34. По сравнению со старшим NV30, у них вдвое меньше TMU. Младший NV31 имеет несколько упрощений в работе конвейеров. В отличие от старшей карты, здесь использовалась обычная память DDR объемом 64, 128 или 256 МБ.
Во второй половине 2003 года NVIDIA выпустила обновленные чипы NV35 и NV36, пришедшие на смену NV30 и NV31. Пиксельные процессоры получили усовершенствования, повышающие производительность. NV36 лег в основу карт серии FX5700, которые комплектовались памятью DDR, GDDR2 или GDDR3. NV35 использовал обычную DDR, но за счет 256-битной шины превосходил NV36 по пропускной способности памяти в два раза. Этот чип использовался в серии карт FX5900.
Выпущенный позже NV38 представлял копию NV35, оптимизированную для достижения высокой частоты. Его обладателем стала топовая FX 5950 Ultra. В начале 2004 года NVIDIA выпускает модели серии с интерфейсом PCI-E x16, который реализуется с помощью чипа-моста HSI. Эти карты получают новый суффикс «PCX».
Несмотря на поддержку DirectX 9, серия FX работала с ним достаточно медленно из-за малого количества шейдерных блоков. Конкурирующие Radeon на базе чипов серии R300 в этом плане были быстрее. Повышение производительности в новом API принесет следующая серия карт — GeForce 6000 на новой архитектуре Curie.
Первые карты нового семейства выпустили в мае 2004 года — за несколько месяцев до прихода DirectX 9.0c, поддержкой которого они могли похвастать. Обновленный DirectX принес рендеринг в расширенном динамическом диапазоне (HDR) и шейдеры версии 3.0.
Большинство моделей линейки выпускались со 128 или 256 МБ памяти, за исключением топовой 6800 Ultra, которая имела вариант с 512 МБ. Эти карты первыми получили поддержку технологии SLI, позволяющей объединять силы двух ГП для ускорения работы игр.
Шейдерные процессоры получили множество улучшений и изменения в организации. Каждый пиксельный шейдер содержит в себе два ALU, занимающихся вычислениями. По четыре шейдера и TMU сгруппированы в пулы квадов, которые работают с фрагментами изображения 2х2 пикселя. В дебютном чипе NV40 четыре пула — то есть, 16 шейдеров и 16 TMU.
Помимо этого, в чипе шесть вершинных шейдеров, а также 16 блоков ROP. Интерфейс памяти 256-битный. Он способен работать с DDR, DDR2 и GDDR3, пиковая пропускная способность которой достигла 35 ГБ/c. NV40 используется в серии видеокарт GeForce 6800.
Практически каждая модель серии имела два вида: с интерфейсами AGP 8x и PCI-E x16. Мост HSI, ранее распаиваемый на плате, интегрировали на подложку ГП. AGP-варианты получали дополнительное питание через разъемы MOLEX, а для PCI-E карт стал использоваться привычный и сегодня разъем питания 6-pin.
Чип NV40 получил несколько обновлений. В NV41 был интегрирован мост HSI для реализации PCI-E варианта. NV42 перенесли на более тонкие нормы 110 нм, как и младшие модели чипов. NV45 остался на техпроцессе 130 нм, но получил оптимизации для достижения более высоких частот. Конкурирующая серия Radeon X800 превосходила GeForce 6800 при использовании шейдеров версии 2.0, но более современные шейдеры версии 3.0 не поддерживала.
Старшие карты были хороши, но достаточно дороги. В августе 2004 года NVIDIA выпускает видеокарту среднего ценового сегмента, сразу же ставшую хитом — 6600GT. Несмотря на более простой чип NV43, содержащий лишь 4 ROP, половину шейдерных процессоров и TMU от полного NV40, карта показывала хорошую производительность. Свою роль в этом сыграла быстрая память GDDR3, хотя шина памяти у нового ГП была урезана до 128 бит.
На основе NV43 вышли и другие модели серий 6600 и 6200, в которых была заблокирована часть имеющихся блоков. В младшем чипе NV44 осталась лишь половина блоков от NV43, за исключением трех вершинных процессоров. Этот ГП использовался в картах серии GeForce 6200 и 6500.
Серия GeForce 7000 также основана на архитектуре Curie, но с некоторыми доработками Карты получили улучшения в поддержке сглаживания: стали доступны гамма-коррекция и Transparency AA, за счет комбинации методов сглаживающий полупрозрачные текстуры.
Первенец серии GeForce 7800 был выпущен в июне 2005 года. Чип G70 получил шесть пулов квадов, 24 TMU и столько же пиксельных шейдеров. В состав последних, помимо векторных ALU, вошли два небольших скалярных ALU для простых операций. Это дало прирост производительности при выполнении сложных шейдеров.
Вершинные шейдеры изменений не претерпели, но их количество увеличилось до восьми. Аналогично NV40, у G70 16 блоков ROP и 256-битная шина памяти. Карты GeForce 7800 оснащались 256 или 512 МБ памяти GDDR3, которая обеспечивала полосу пропускания до 54 ГБ/c. Интерфейс PCI-E x16 теперь был интегрирован в чип, а для реализации шины AGP применялся «развернутый» мост HSI.
Среди продуктов NVIDIA эта линейка карт последней получила AGP-модели. После этого по сей день все видеокарты для соединения с системой используют только интерфейс PCI-E, в том числе современные NVIDIA RTX. В марте 2006 года на смену G70 пришел G71. Он производился по более тонкому техпроцессу 90 нм, который снизил TDP и увеличил рабочие частоты. На основе G71 были выпущены карты серии GeForce 7900, в том числе первые двухчиповые модели компании — 7900GX2 и 7950GX2.
Одночиповые GeForce 7900 модели конкурировали с картами серии Radeon X1800 и X1900, которые где-то превосходили, а где-то наоборот уступали продукции NVIDIA. Связка двух карт этих серий в CrossFire противопоставлялась двухчиповым 7900GX2 и 7950GX2.
В отличие от топовых, карты среднего и младшего ценового сегмента серии GeForce 7000 имели 128 или 256 МБ памяти. Средний сегмент представлял G73 — «половинка» старшего чипа, не считая еще один вершинный шейдер. К 128-битной шине памяти подключалась память DDR2 или GDDR3. Полный чип стал основой серии GeForce 7600, а урезанная версия — модели 7300GT.
Младший G72 использовался в сериях GeForce 7300 и 7200. Его характеристики по сравнению с G73 урезали вдвое. Ширина шины памяти у разных моделей — 64 или 32 бита. В основе модели 7100GS — чип прошлого поколения NV44.
GeForce 7000 стала последней линейкой с отдельными пиксельными и вершинными шейдерами. Следующая линейка GeForce 8000 принесла универсальные шейдеры, которые и до сих пор используются в любой современной видеокарте
ПРОДОЛЖЕНИЕ СЛЕДУЕТ...
TX-2 в Массачусетском технологическом институте
В MIT проводится множество компьютерных экспериментов. Иван Сазерленд использует TX-2 для написания Sketchpad, прародителя графических программ для автоматизированного проектирования.
JCR Licklider пишет меморандумы о своей концепции Межгалактической сети, где все на планете связаны между собой и могут получать доступ к программам и данным в любом месте из любой точки мира. Он общается со своей собственной «Межгалактической сетью» исследователей по всей стране. В октябре «Лик» становится первым руководителем программы компьютерных исследований в ARPA, которую он называет Офисом методов обработки информации (IPTO).
Консоли SAGE
Леонард Клейнрок завершает докторскую диссертацию в Массачусетском технологическом институте по теории очередей в сетях связи и становится доцентом Калифорнийского университета в Лос-Анджелесе.
SAGE (Semi Automatic Ground Environment), основанная на более ранних работах MIT и IBM, полностью развернута как североамериканская система раннего оповещения. Операторы «консолей управления оружием» используют световой пистолет для идентификации движущихся объектов, которые появляются на экранах их радаров. Площадки SAGE используются для управления противовоздушной обороной. Этот проект дает опыт в разработке системы бронирования авиабилетов SABRE и более поздних систем управления воздушным движением.
Ликлайдер начинает общаться с Ларри Робертсом из Lincoln Labs, директором проекта TX-2, Айвеном Сазерлендом, экспертом по компьютерной графике, которого он нанял для работы в ARPA, и Бобом Тейлором, который присоединяется к ARPA в 1965 году. Лик заключает контракты с MIT, UCLA и BBN, чтобы начать работу над своим видением.
Спутник SYNCOM в производстве
Запущен первый синхронный спутник связи Syncom. Сборка спутника NASA осуществляется на заводе Hughes Aircraft Company в Калвер-Сити, Калифорния. Общая полезная нагрузка составляет 55 фунтов.
Часть алфавита ASCII
Совместный отраслево-правительственный комитет разрабатывает ASCII (Американский стандартный код для обмена информацией), первый универсальный стандарт для компьютеров. Он позволяет машинам разных производителей обмениваться данными. 128 уникальных 7-битных строк обозначают либо букву английского алфавита, либо одну из арабских цифр, либо один из набора знаков препинания и символов, либо специальную функцию, например возврат каретки.
Одновременная работа над безопасными сетями пакетной коммутации ведется в Массачусетском технологическом институте, корпорации RAND и Национальной физической лаборатории Великобритании. Пол Баран, Дональд Дэвис, Леонард Клейнрок и другие продолжают параллельные исследования. Баран одним из первых опубликовал работу On Data Communications Networks. Диссертация Клейнрока также опубликована как основополагающий текст по теории очередей.
Статья Барана о безопасных сетях с коммутацией пакетов
Новые компьютеры IBM System 360 выходят на рынок и устанавливают фактический мировой стандарт 8-битного байта, делая 12-битные и 36-битные текстовые машины практически мгновенно устаревшими. Инвестиции IBM в размере 5 миллиардов долларов в это семейство из шести взаимно совместимых компьютеров окупаются, и в течение двух лет заказы на System 360 достигают 1000 в месяц.
IBM360
Онлайн-обработка транзакций дебютирует в системе бронирования авиабилетов IBM SABRE для American Airlines. SABRE (полуавтоматическая среда бизнес-исследований) связывает 2000 терминалов в шестидесяти городах посредством телефонных линий.
Ликлайдер покидает ARPA, чтобы вернуться в MIT, а Иван Сазерленд переходит в IPTO. При финансировании IPTO проект MAC MIT приобретает компьютер GE-635 и начинает разработку операционной системы с разделением времени Multics.
DEC представляет PDP-8, первый коммерчески успешный мини-компьютер. Достаточно маленький, чтобы разместиться на рабочем столе, он продается за 18 000 долларов — одну пятую стоимости недорогого мэйнфрейма IBM/360. Сочетание скорости, размера и стоимости позволяет устанавливать мини-компьютер на тысячах производственных предприятий, в офисах и научных лабораториях.\nБлагодаря финансированию ARPA Ларри Робертс и Томас Марилл создают первое сетевое соединение с глобальной сетью.
ДЕК ПДП-8
Они подключают TX-2 в Массачусетском технологическом институте к Q-32 в Санта-Монике через выделенную телефонную линию с акустическими соединителями. Система подтверждает подозрения исследователей Межгалактической сети о том, что телефонные линии работают для данных, но неэффективны, расточительны по пропускной способности и дороги. Как предсказывает Клейнрок, коммутация пакетов предлагает наиболее перспективную модель для связи между компьютерами.
В конце года Иван Сазерленд нанимает Боба Тейлора из NASA. Тейлор собирает воедино идеи о сетях, которые набирают обороты среди подрядчиков-компьютерщиков IPTO.
ДЖОСС
Финансируемая ARPA система JOSS (Johnniac Open Shop System) в корпорации RAND выходит в онлайн. Система JOSS позволяет решать вычислительные задачи в режиме онлайн на нескольких удаленных консолях электрических пишущих машинок. Стандартные электрические пишущие машинки IBM Model 868 модифицированы небольшой коробкой с индикаторными лампами и активирующими переключателями. Вводимые пользователем данные отображаются зеленым цветом, а JOSS отвечает выводом черным цветом.
Тейлор становится преемником Сазерленда на посту третьего директора IPTO. В его собственном офисе есть три разных терминала, которые он может подключить по телефону к трем различным исследовательским центрам компьютерных систем по всей стране. Почему они все не могут общаться друг с другом? Его проблема — метафора того, что стоит перед сообществом компьютерных исследований ARPA.
Ларри Робертс
Тейлор встречается с Чарльзом Герцфельдом, главой ARPA, чтобы изложить свои проблемы. Двадцать минут спустя у него есть миллион долларов, которые он может потратить на сетевое взаимодействие. Идея состоит в том, чтобы связать всех подрядчиков IPTO. После нескольких месяцев обсуждений Тейлор убеждает Ларри Робертса покинуть MIT, чтобы начать сетевую программу ARPA.
Дональд Дэвис
В это же время английский изобретатель пакетной коммутации Дональд Дэвис в Британской национальной физической лаборатории (NPL) разрабатывает теорию о создании сети компьютеров для проверки своих концепций пакетной коммутации.
Honeywell представляет миникомпьютер DDP-516 и демонстрирует его прочность с помощью кувалды. Это привлекает внимание Робертса.
Ларри Робертс созывает конференцию в Энн-Арборе, штат Мичиган, чтобы собрать вместе исследователей ARPA. В заключение Уэсли Кларк предлагает, чтобы сеть управлялась взаимосвязанными «процессорами интерфейсных сообщений» перед основными компьютерами. Называемые IMP, они эволюционируют в современные маршрутизаторы.
Пол Баран
Робертс составляет свой план для ARPANET. Отдельные направления исследований начинают сходиться. Дональд Дэвис, Пол Баран и Ларри Робертс узнают о работе друг друга на конференции ACM, где они все встречаются. От Дэвиса принимается слово «пакет», а предлагаемая скорость линии в ARPANET увеличивается с 2,4 Кбит/с до 50 Кбит/с.
Акустически связанный модем, изобретенный в начале шестидесятых, был значительно усовершенствован Джоном ван Гином из Стэнфордского исследовательского института (SRI). Он представляет приемник, который может надежно обнаруживать биты данных среди шипения, слышимого при междугородних телефонных соединениях.
Робертс и команда ARPA уточняют общую структуру и спецификации для ARPANET. Они выпускают RFQ на разработку IMP.
В компании Bolt, Beranek and Newman (BBN) Фрэнк Харт возглавляет команду, которая подает заявку на проект. Боб Кан играет важную роль в формировании общего дизайна BBN. BBN выигрывает проект в декабре.
ILLIAC IV
Робертс работает с Говардом Фрэнком и его командой в Network Analysis Corporation, проектируя топологию и экономику сети. Команда Клейнрока готовит систему измерения сети в Калифорнийском университете в Лос-Анджелесе, которая должна стать местом расположения первого узла.
ILLIAC IV, крупнейший суперкомпьютер своего времени, строится в Burroughs по контракту с NASA. Более 1000 транзисторов втиснуты в его чип RAM, произведенный Fairchild Semiconductor Corporation, что обеспечивает в 10 раз большую скорость при размере в одну сотую эквивалентной основной памяти. ILLIAC-IV будет подключен к ARPANET, чтобы удаленные ученые могли получить доступ к его уникальным возможностям.
Фрэнк Харт собирает команду для написания программного обеспечения, которое будет запускать IMP, и для указания изменений в Honeywell DDP-516, которые они выбрали. В команду входят Бен Баркер, Берни Коселл, Уилл Кроутер, Боб Кан, Северо Орнштейн и Дейв Уолден.
Схема первых двух узлов ARPANET
Выбраны четыре сайта. На каждом из них группа начинает работу над созданием программного обеспечения, которое позволит компьютерам и IMP общаться. В Калифорнийском университете в Лос-Анджелесе, на первом сайте, Винт Серф, Стив Крокер и Джон Постел работают с Клейнроком, чтобы подготовиться. 7 апреля Крокер рассылает меморандум под названием «Запрос комментариев». Это первый из тысяч RFC, документирующих проект ARPANET и Интернета.
Схема ARPANET с 4 узлами
Команда называет себя Сетевой рабочей группой (RFC 10) и видит свою задачу в разработке «протокола», набора программ, который впоследствии станет известен как NCP (протокол управления сетью).
Вторая площадка — Стэнфордский исследовательский институт (SRI), где Дуг Энгельбарт увидел эксперимент ARPA как возможность изучить широкомасштабное распределенное сотрудничество, используя свою систему NLS, прототип «цифровой библиотеки». SRI поддерживал Сетевой информационный центр, возглавляемый Элизабет (Джейк) Фейнлер и Доном Нильсоном.
Фрагмент журнала UCLA IMP, демонстрирующий успешное подключение к SRI
В Калифорнийском университете в Санта-Барбаре (UCSB) Глен Каллер и Бертон Фрид исследуют методы отображения математических функций с использованием дисплеев с памятью для решения проблемы обновления экрана по сети. Их исследование компьютерной графики предоставляет существенные возможности для представления научной информации.
Arpanet была первой настоящей сетью, работающей на основе технологии коммутации пакетов (новой на тот момент).
После установки в сентябре рукописные журналы UCLA показывают, что первое соединение хост-хост, от UCLA к SRI, было установлено 29 октября 1969 года.
29 октября 1969 года компьютеры в Стэнфорде и Калифорнийском университете в Лос-Анджелесе впервые соединились. По сути, они стали первыми хостами того, что однажды станет Интернетом. Первым сообщением, отправленным по сети, должно было быть «Login», но, как сообщается, связь между двумя колледжами прервалась на букве «g». Первая попытка «входа в систему» приводит к сбою хоста SRI, но следующая попытка срабатывает!
Продолжение следует...
NVIDIA — крупнейший разработчик графических процессоров. Это одна из самых дорогих компаний в мире, долгий путь которой начался более 30 лет назад. За это время она прошла множество технологических войн с конкурентами, а также сделала большие шаги в развитии ранее неизведанных направлений. О самых интересных моментах истории NVIDIA рассказываем в нашем материале.
В далеком 1993 году в США три инженера решили открыть собственную компанию. Это были Дженсен Хуанг, являющийся руководителем одного из подразделений LSI Logic, Кертис Прэм, который ранее был разработчиком графических чипов в IBM и Sun Microsystems, а также Крис Малаховски, на тот момент еще работавший в Sun.
Всех троих объединяло общее видение перспектив компьютерной области. Основатели будущей компании верили, что прорыва в скорости вычислений можно будет добиться только с помощью аппаратного ускорения. Они заметили, что игры были одной из самых сложных задач для ПК и имели высокие объемы продаж, поэтому решили сфокусироваться на разработке 3D-ускорителей.
Датой появления NVIDIA считается 5 апреля 1993 года. Тогда Дженсен Хуанг в роли генерального директора подписал ее первый устав. Компания начала свою работу с начальным капиталом всего в 40 000 долларов, но уже в первые годы получила 20 миллионов долларов на развитие от других компаний-инвесторов.
Своим именем NVIDIA обязана выражению «Next Version» (следующая версия). Именно так соучредители обозначали всю документацию компании в процессе подготовки ее проекта. Когда дошло дело до выбора названия, сначала было предложено «NVision». Но оказалось, что оно уже занято другой компанией. Поэтому Хуанг предложил заменить его на «Nvidia» — производное от латинского слова «invidia» (зависть).
В мае 1995 года компания представила свой первый продукт — мультимедийную карту STG-2000 на базе чипа NV1. В ней были объединены ускорители 3D- и 2D-графики, а также звуковая карта. NVIDIA работала в бесфабричной модели — для выпуска чипов была привлечена компания SGS-Thomson Microelectronics.
NV1 работал с четырехугольными примитивами. Такую же технологию использовала приставка Sega Saturn. NVIDIA помогла в портировании нескольких игр с Saturn на ПК, и Sega предложила ей заняться разработкой графического чипа для своей следующей приставки Sega Dreamcast. Однако ставка на четырехугольники оказалась ошибочной. Sony и Nintendo в своих приставках использовали треугольные полигоны. А вскоре после выхода NV1 Microsoft представила графический API DirectX, который тоже работал только с треугольниками.
NVIDIA в это время разрабатывала чип NV2 для Dreamcast, но столкнулась с проблемами и никак не могла получить от него необходимую производительность. В итоге президент Sega Сеитиро Иримадзири сообщил Хуангу, что компания уже работает с другим разработчиком графических чипов. Однако Сеитиро не потерял веру в NVIDIA и убедил руководство Sega инвестировать в эту компанию 5 миллионов долларов.
Получив инвестиции и понимая бесперспективность первых чипов, Хуанг решает начать разработку 3D-ускорителей заново. В 1996 году он уволил более половины работников, а оставшихся усадил за работу над новым чипом NV3, которые должен был стать совместимым с DirectX 5 и работать с треугольными полигонами.
NV3 стал сердцем карты RIVA 128, увидевшей свет в августе 1997 года. На момент ее выпуска в NVIDIA осталось около 40 сотрудников, а оставшегося бюджета хватало им только на один месяц заработной платы. Эта ситуация породила выражение «Наша компания в тридцати днях от банкротства», которое стало неофициальным девизом компании. И много лет спустя презентации для сотрудников NVIDIA Хуанг начинал именно с этих слов.
За четыре месяца было реализовано около миллиона RIVA 128. Карта стала альтернативой для Voodoo Graphics от 3dfx, в отличие от нее предлагая 2D и 3D на одной плате. На конец 1997 года компании принадлежало около четверти рынка графических решений — весомая доля, учитывая множество производителей карт в те годы.
NVIDIA инвестировала полученную прибыль в разработку следующих моделей с поддержкой DirectX 6 — RIVA TNT, а потом и RIVA TNT 2. Производством новых чипов занялась компания TSMC. Обе карты стали успешнее предшественницы, способствуя массовому распространению как моделей компании, так и графического API от Microsoft. Конкурирующие Voodoo 2 и Voodoo 3 были производительнее, но и стоили дороже. За 1998 год чистая прибыль NVIDIA достигла 4,1 миллиона долларов, позволив ей развиваться дальше и проектировать новые графические чипы.
В январе 1999 года компания стала публичной и разместила свои акции на бирже. Это принесло NVIDIA около 42 миллионов долларов, так как цена на акции только за первый день выросла в полтора раза. Благодаря этому рыночная капитализация компании уже на тот момент достигла 626 миллионов долларов.
В августе 1999 года NVIDIA анонсирует следующий продукт, который впервые называет GPU — графическим процессором. За несколько часов до его презентации на сайте компании появилась надпись: «Через 18 часов мир изменится». Этим продуктом стала видеокарта GeForce 256. Она получила блок аппаратной трансформации и освещения (T&L). Он был необходим для разгрузки ЦП от этой работы и поддерживался в новом на тот момент DirectX 7.
GeForce 256 увидела свет в конце 1999 года, положив начало новому поколению графики NVIDIA. Карта была дорога, а игр с поддержкой T&L на тот момент практически не было. Но именно она дала толчок этой технологии. Увидев потенциал NVIDIA, Microsoft выбрала их в качестве контрактного производителя графического чипа для своей консоли Xbox, снабдив и без того не бедствующую компанию авансом в 200 миллионов долларов.
Месяцем позже NVIDIA представила первую карта новой серии Quadro, предназначенную для использования на рабочих станциях для автоматизированного проектирования. Карта была основана на GeForce 256, но обладала удвоенным объемом памяти и собственными драйверами, оптимизированными для рабочих нагрузок. Таким образом компания разделила рынок игровых и профессиональных моделей, позволяя получать с последнего более высокую прибыль. Подход оказался успешным, поэтому карты Quadro стали выпускаться и на основе каждого следующего поколения графики NVIDIA.
GeForce 256 пробыла королем недолго. Уже в апреле 2000 года компания запускает линейку карты GeForce 2, а в июне — бюджетные GeForce 2 MX, распространившие T&L в массы. К тому же GeForce 2 стали первыми картами производителя, которые попали в виде дискретной графики в ноутбуки. Там они получили приставку «Go».
Voodoo 4 и 5 задержались, имели худшие характеристики и не смогли противостоять второй линейке GeForce ни в топовом, ни в бюджетном сегментах. В итоге в декабре 2000 года NVIDIA выкупила активы 3dfx за 70 миллионов долларов, получив в собственность все их прежние наработки. С этого момента на рынке дискретных видеокарт основными остались только две компании — NVIDIA и ATI.
В 2001 году NVIDIA расширила свою деятельность, занявшись разработкой и выпуском чипсетов nForce для материнских плат на платформе AMD. Их особенностью стало встроенное видеоядро на базе GeForce 2 и качественный звуковой кодек. Чипсеты были тепло встречены публикой, поэтому после дебютных моделей новые решения выпускались каждый год.
Параллельно компания выпустила первую видеокарту с программируемой шейдерной архитектурой и поддержкой DirectX 8 — GeForce 3. Годом позже выходит линейка GeForce 4, сочетающая как производительные модели с шейдерами, так и бюджетные без шейдеров.
Популярность видеокарт и контракт с Microsoft принесли NVIDIA хорошую прибыль. Часть ее она вложила в новые разработки, часть — в покупку других компаний. Основные из них:
2002 год — Exluna Inc., занимающаяся ПО для рендеринга.
2003 год — MediaQ, разрабатывающая графические технологии для мобильных телефонов и КПК.
2004 год — iReady, занимающаяся сетевыми решениями и контроллерами для накопителей.
2005 год — ULI Electronics, производящая интегральные микросхемы.
2006 год — Hybrid Graphics, имеющая опыт в разработке игровых движков и графических библиотек.
NVIDIA росла «вширь», пробуя все новые и новые направления. Однако в графике она не всегда была лидером. Первые карты с поддержкой DirectX 9 в конце 2002 года представила конкурирующая ATI. Компания в попытке догнать их поторопилась с выпуском серии GeForce FX. Карты этой серии медленно работали в новом API, а стоили достаточно дорого. Поэтому с середины 2003 года доля рынка графики NVIDIA стала потихоньку падать. Этот момент совпал с уходом одного из основателей компании — Кертиса Прэма, который занимал должность главного технического директора.
В 2004 году NVIDIA выпускает линейку видеокарт GeForce 6000. Они стали первыми решениями с поддержкой DirectX 9.0c и избавились от низкой производительности благодаря новой графической архитектуре. Многие модели линейки получили технологию SLI, позволяющую объединять две карты для ускорения работы.
Несмотря на это, в середине 2004 года ATI впервые обгоняет компанию по количеству видеокарт на рынке. Однако NVIDIA удалось подписать контракт с Sony на разработку графического чипа для PlayStation 3, что дало ей дополнительные финансовые возможности для разработки следующих поколений видеокарт.
Чаша весов немного склоняется в сторону NVIDIA только спустя год, в середине 2005 года. Это происходит после выпуска линейки GeForce 7000, в архитектуре которой были устранены некоторые узкие места. Однако большого отрыва NVIDIA в тот момент достигнуть не удалось. Параллельно компания продолжает развивать чипсеты nForce, впервые представив их разновидности для платформы Intel LGA775. Но главный прорыв ждет NVIDIA впереди.
Конец 2006 года стал ключевой точкой для NVIDIA по двум причинам. Первая из них — AMD купила компанию ATI. Intel не собиралась сотрудничать со своим прямым конкурентом, поэтому контракты на поставки дискретной и интегрированной графики, ранее приносившие ATI более половины дохода, теперь перешли к NVIDIA.
Вторая причина — запуск видеокарт серии GeForce 8000. Их главной особенностью стала универсальная шейдерная архитектура. Помимо заметного повышения производительности и совместимости с DirectX 10, она принесла с собой возможности неграфических вычислений. В феврале 2007 года NVIDIA представила собственный API CUDA, предназначенный именно для таких расчетов. С помощью CUDA компанией был разработан движок OptiX, служащий для визуализации методом трассировки лучей.
В мае были выпущены первые карты семейства Tesla, специально предназначенного для CUDA-вычислений. Tesla использовали графический процессор G80 от игровой карты 8800GTX: в C870 он был один, в D870 — два, а в S870 — целых четыре. Серверы на их основе обладали высокой производительностью в ряде задач, поэтому быстро стали популярными. С этого момента, помимо игровых и профессиональных карт, NVIDIA выпускала серверные решения на каждом поколении новых чипов.
После выхода GeForce 8000 доля дискретных карт NVIDIA начала расти, перешагнув отметку в 60 % уже к середине 2007 года. Топовые карты ATI были медленнее. Однако они стоили дешевле, что позволило конкуренту удержать треть рынка. Следующие линейки GeForce 9000 и GeForce 200 на той же архитектуре распространились годом позже и помогли NVIDIA удержать былые позиции. В 2007 году NVIDIA приобретает компанию PortalPlayer, которая занималась разработкой медиапроцессоров для плееров iPod. С этого момента появляется новое направление компании — разработка мобильных систем на чипе Tegra. Первая из них увидела свет уже год спустя.
В 2008 году состоялось приобретение Ageia — компании, разработавшей физический движок PhysX и плату-ускоритель для него. NVIDIA адаптировала полученные наработки, приспособив для просчетов физических эффектов свои ГП с ядрами CUDA — GeForce 8000 и более новые.
В 2009 году компания решает свернуть разработку чипсетов для материнских плат по ряду причин. Во-первых, Intel воспрепятствовала появлению сторонних чипсетов для своих новых платформ LGA1366 и LGA1156. Во-вторых, AMD после покупки ATI превратилась в главного конкурента, который снабжал собственные платформы графикой Radeon. Видя это, NVIDIA прекращает разработку nForce, переведя освобожденные ресурсы на другие направления.
В сентябре 2009 года вместе с Windows 7 Microsoft запускает новый графический API — DirectX 11. Одновременно AMD выпускает новые карты с его поддержкой. NVIDIA не успевает закончить разработку новых карт к сроку и выпускает их только через полгода.
Новинки вошли в серию GeForce 400. Они были сравнимы с конкурирующими Radeon в чистой производительности, а в тесселяции даже превосходили. Однако старшие карты были чрезмерно горячими и потребляли огромное количество энергии, поэтому многие пользователи сочли их неудачными. В конце 2010 года была представлена обновленная серия GeForce 500, но это был скорее легкий апгрейд — основные проблемы линейки хоть и стали мягче, но не исчезли.
В 2012 году NVIDIA меняет стратегию по разработке графических чипов. Для GeForce 600 серии она разрабатывает новую графическую архитектуру с прицелом не только на производительность, но и на энергоэффективность. Это впервые за долгие годы позволяет картам NVIDIA стать экономичнее аналогов от AMD.
2013 год приносит миру обновленную линейку GeForce 700. В ней впервые была представлена видеокарта серии Titan — топовая модель с большим объемом памяти для энтузиастов, балансирующая по стоимости между игровыми GeForce и профессиональными Quadro.
Параллельно дискретным видеокартам, NVIDIA продолжала развивать мобильные процессоры Tegra. Они нашли применение в нескольких смартфонах и планшетах, однако особой популярности так и не добились.
Несмотря на достижения компании в области графики, первые поколения Tegra использовали устаревшую графическую архитектуру, схожую с GeForce FX. И лишь в 2014 году NVIDIA выпускает два процессора Tegra K1 с графикой на архитектуре GeForce 600 серии. Примечательно то, что один из SoC впервые получил 64-битные ядра Denver. Они разрабатывались NVIDIA с 2008 года и стали одними из первых ядер, совместимых с 64-битной архитектурой ARM v8.
Denver на лету рекомпилирует код во внутреннюю систему команд, таким образом позволяя добиться высокой производительности. Изначально NVIDIA собиралась представить трансляторы и для ARM, и для x86-кода. Но лицензии на x86 так и не удалось добиться. Поэтому Denver, как и все последующие ядра, разработанные компанией, остались только ARM-совместимыми. Tegra K1 не светило широкое распространение на рынке гаджетов. Однако NVIDIA нашла своим разработкам другое применение, которое было гораздо перспективнее. В 2015 году компания запустила платформу Drive, предназначенную для бортовых компьютеров автомобилей. C ее помощью на ходу анализируются данные с камер и прочих датчиков. На основе них водителю предоставляются «умные» функции — такие, как помощь в управлении или контроль полосы. Вдобавок к этому платформа могла служить для воспроизведения мультимедии и прочих развлечений.
Чипы Tegra нашли применение в игровом планшете NVIDIA Shield и портативной консоли Nintendo Switch. Но после 2016 года в их линейке больше не было новых разработок. В 2020 году NVIDIA пыталась купить ARM. Случись это, компания захватила бы рынок ARM-серверов, и, вполне вероятно — мобильных SoC. Однако антимонопольные органы Великобритании выступили против сделки, поэтому она так и не состоялась.
Дело Tegra живо и сегодня в платформах серии Drive. Они разрабатываются и выпускаются до сих пор. Drive различных поколений можно встретить в автомобилях Mercedes, Hyundai, Kia, Toyota и Genesis. C 2023 года NVIDIA также выпускает собственные многоядерные ARM-чипы серии Grace — они используются в серверах.
Вычислительная мощность видеокарт NVIDIA еще с начала 2010-х годов привлекала компании, задачи которых слишком медленно выполнялись на центральных процессорах. В 2012 году на двух GTX580 была обучена нейросеть AlexNet, предназначенная для распознавания изображений. Она давала ошибочные результаты лишь в 15-16 % случаев, что на тот момент было очень хорошим результатом. Это всколыхнуло интерес к нейросетям, и через несколько лет даст огромный толчок к использованию ГП NVIDIA для их работы.
В 2014 году компания представляет видеокарты GeForce 900, обладающие поддержкой DirectX 12. Двумя годами позже на смену пришла серия GeForce 1000. Обе получились удачными, а на флагманскую модель второй линейки AMD впервые за последние годы не смогла ответить картой схожей производительности. Популярность NVIDIA устремилась ввысь — в 2015-2016 годах ее доля рынка дискретных ГП превысила 70 %.
Технологии глубокого обучения, ярким примером которых являются нейросети, не нуждаются в высокой точности вычислений. Видя рост их популярности, NVIDIA задумывается о модернизации своих графических процессоров специальными блоками, ускоряющими подобные вычисления. В декабре 2017 года компания представляет видеокарту Titan V на новой архитектуре. Ее ключевое отличие — отдельные тензорные ядра, специально заточенные для вычислений половинной точности.
Titan в этот раз стал лишь побочным продуктом. За полгода до ее презентации NVIDIA опробовала аналогичную архитектуру в вычислительных картах Tesla. На их основе были представлены компактные серверы NVIDIA DGX (Deep GPU Xceleration), обновленные версии которых компания выпускает с появлением каждой новой графической архитектуры.
В сентябре 2018 года NVIDIA представляет новую линейку игровых видеокарт GeForce RTX 2000. Их главные новшества — выделенные блоки для трассировки лучей и более производительные тензорные ядра второго поколения, которые научились работать с различными видами вычислений малой точности. В игровом применении эти ядра задействуются для работы технологии повышения производительности DLSS, а в вычислительном — заметно повышают темп работы технологий глубокого обучения.
2019 год ознаменовался еще одной крупной покупкой. NVIDIA приобрела Mellanox Technologies, разрабатывающую коммуникационные технологии для вычислительных кластеров. Ее наработки помогли компании еще больше укрепиться в среде высокопроизводительных вычислений. Последние поколения дискретной графики NVIDIA выпустила в 2020 и 2022 годах. GeForce RTX 3000 и 4000 серии, помимо повышения чистой производительности, принесли с собой в очередной раз усовершенствованные тензорные ядра и ускоренную трассировку лучей. Как и прежде, новые графические архитектуры были задействованы не только в пользовательских видеокартах и профессиональных решениях, но и в их аналогах, предназначенных для вычислений.
В 2023 году Nvidia выходит на первый план на рынке ИИ после того, как становится известно, что платформа OpenAI ChatGPT построена на базе 10 тыс. графических процессоров компании. Процессорами H100 компании для нужд ИИ заинтересовались другие крупные игроки. В мае Nvidia презентовала мощный суперкомпьютер DGX GH200 и платформу ACE, которая позволяет использовать генеративный ИИ в разработке видеоигр.
В феврале 2024 года стало известно, что компания создаст подразделение, которое будет изготавливать такие чипы на заказ. Кроме того, Nvidia представила новые продукты для AI PC (компьютеров с искусственным интеллектом), которые позволяют выполнять задачи искусственного интеллекта прямо на устройстве.
Путь NVIDIA начинался с разработки графических карт для компьютеров в те времена, когда вокруг было множество конкурентов. Несмотря на это, компания вышла из гонки победителем и уже много лет является лидером на рынке дискретной графики. В последние годы ее доля превышает 80 %.
С появлением универсальной шейдерной архитектуры и API СUDA многие вычисления стало возможным выполнять на графических процессорах NVIDIA. А с появлением тензорных ядер чипы компании стали во много раз производительнее в задачах глубокого обучения. Поэтому уже полтора десятка лет высокий доход компании приносят не только игровые видеокарты, но и вычислительные решения для серверов. Благодаря недавнему буму технологий искусственного интеллекта выручка NVIDIA в этой сфере значительно возросла. В 2022 финансовом году она впервые сравнялась с доходами от игрового направления, а за последние пару лет — значительно превысила их.
Вследствие таких изменений в июне 2024 года капитализация NVIDIA впервые достигла 3 триллионов долларов, а капитал основателя и генерального директора Хуанга — 100 миллиардов долларов. Все эти годы он оставался на своем посту, как и Крис Малаховски, который является старшим руководителем по технологиям компании.
Учитывая эти факты, неудивительно, что в последние годы в приоритетах компании именно серверное направление, а не игровое. Впрочем, на игровом рынке NVIDIA действительно некуда торопиться. В трассировке лучей ее решения все так же быстрее, чем конкурирующие от AMD. Периодическое отсутствие топовых видеокарт в линейках «красных» тоже положительно влияет на «зеленых»: взгляды пользователей чаще всего обращены на битву флагманских решений двух компаний, даже если к покупке планируется бюджетная карта.
Помимо основных видов деятельности, NVIDIA продолжает заниматься решениями для профессиональной визуализации и автомобильными платформами. При этом часть из своих доходов компания постоянно финансирует в разработки новых чипов, что позволяет ей стабильно оставаться одним из лидеров полупроводниковой индустрии.
Ключевые достижения компании NVIDIA
В развитии Nvidia можно выделить несколько ключевых этапов.
1997 — выпуск первого 128-битного 3D-процессора RIVA 128;
1999 — изобретение графического процессора (GPU);
2001 — разработка собственной архитектуры NFORCE для процессоров;
2006 — выпуск платформы Compute Unified Device Architecture (CUDA), которая обеспечила параллельные вычисления на базе графических процессоров;
2007 — презентация ускорителей вычислений под названием Tesla для научных исследований;
2008 — запуск мобильного процессора Tegra или SoC для небольших устройств, таких как автомобильные компоненты, смартфоны и портативная электроника;
2010 — предоставление мощностей для запуска самого быстрого на планете суперкомпьютера Tianhe-1А;
2012 — запуск собственной нейросети для классификации изображений AlexNet;
2018 — выпуск первого графического процессора RTX, поддерживающего трассировку лучей в реальном времени;
2020 — запуск бета-версии платформы Omniverse, которая предназначена для разработки 3D-графики, дизайна и проектирования метавселенных;
2023 год — презентация ускорителя вычислений Hopper H100 NVL в дата-центрах для нужд ChatGPT;
2024 год — выпуск платформы GR00T (Generalist Robot 00 Technology) для обучения роботов-гуманоидов, которая позволит им понимать человеческую речь и воспроизводить движения людей.
Это лишь краткая история развития компании, и сюда не вместилась подробная история развития ее графических процессоров. История их развития будет рассмотрена в следующих статьях...
ПРОДОЛЖЕНИЕ СЛЕДУЕТ....
Процессоры из года в год становятся быстрее. Тактовые частоты растут, но основной прирост быстродействия приносят именно улучшения процессорной микроархитектуры. Заглянем во «внутреннюю кухню» современных процессоров чтобы понять, почему новые поколения быстрее старых на одной частоте.
Производительность центральных процессоров повышается ежегодно. Неискушенный пользователь замечает в первую очередь рост тактовых частот и количества ядер. Но чаще всего наиболее существенный прирост скорости достигается за счет улучшений в процессорной микроархитектуре. Благодаря им увеличивается количество исполняемых инструкций за один такт (Instruction Per Clock, IPC). В результате роста IPC процессор успевает производить большее количество вычислений за единицу времени. Как следствие, даже на одной частоте новая модель оказывается быстрее предыдущей.
Центральный процессор — сложное электронное устройство. В его состав входят различные блоки вычислительных ядер, несколько уровней кэш-памяти, шины обмена данными, встроенная графика и прочие блоки. За счет чего же растет то самое IPC? Чтобы объяснить это, пройдем краткий экскурс внутреннего устройства современного центрального процессора.
Инструкции, полученные процессором, поступают на исполнительный конвейер. От количества и скорости работы разнообразных исполнительных блоков, имеющихся в нем, зависит скорость исполнения инструкций. В каждом новом поколении количество таких блоков увеличивается, а также улучшается эффективность их работы. Сначала идут следующие блоки:
Предсказатели переходов (Branch Predictors). Блоки, прогнозирующие выполнение или невыполнение инструкций в программах на несколько шагов вперед.
Блоки выборки инструкций (Instruction Fetch Units, IFU). Блоки, занимающиеся выборкой инструкций для последующей передачи их декодерам.
Декодеры (Decoders). Преобразуют сложные команды x86 в простейшие микрооперации для исполнения.
Это общая часть конвейера. Затем он разделяется на две части, каждая из которых предназначена для работы с собственным типом вычислений: целочисленную (Integer) и с плавающей запятой (Floating-Point). У каждой части имеются следующие независимые блоки:
Блок переименования регистров (Register Rename). Исполняемые инструкции ссылаются на логические регистры. Этот блок переносит ссылки на физические регистры процессора.
Планировщики исполнения (Schedulers). Выстраивают поступающие инструкции в очередь с целью максимально эффективного исполнения.
Регистровый файл (Register File). Ячейки памяти, которые хранят коды команд в период их исполнения.
Далее целочисленная часть разделяется на несколько ячеек, которые называются исполнительными портами (Execution Ports). В каждом из них может быть один из следующих блоков:
Арифметико-логическое устройство (Arithmetic Logic Unit, ALU). Занимается целочисленными вычислениями.
Блок генерации адресов (Address Generation Unit, AGU). Вычисляет адреса, используемые ядром для доступа к памяти, а также занимается их загрузкой и выгрузкой.
Блок хранения адресов (Store Data). Упрощенный вид AGU, который занимается исключительно выгрузкой адресов в память.
Блок исполнения переходов (Branch Execution Unit, BRU). Выполняет переходы и вызовы процедур на основе решений исполняемой программы.
После исполнительных портов следует блок сохранения/загрузки (Load/Store), который отвечает за загрузку данных из памяти и сохранение данных в нее.
Часть вычислений с плавающей запятой называется FPU. Она работает с мультимедийными инструкциями семейств SSE, AVX, FMA и прочими. У этой части собственные порты, в которых другие блоки, отвечающие за математические операции: сложения (Add), умножения-сложения (Multiple-Add, MAD), умножения-накопления (Multiply-Accumulate, MAC), сдвига (Shift), смешивания (Shuffle).
Помимо скорости работы вычислительных блоков, на производительность влияют скорость, объем и строение кэшей. В процессоре есть несколько различных кэшей, каждый из которых предназначен для ускорения работы на определенном отрезке процесса вычислений.
Кэш инструкций (L1 Instruction Cache). Кэш, куда попадают еще не декодированные x86-инструкции.
Кэш микроопераций (L0 Cache, Micro-Ops Cache). Кэш, предназначенный для хранения декодированных микроопераций.
Кэш первого уровня для данных (L1 Data Cache). Кэш малого объема, предназначенный для данных.
Кэш второго уровня (L2 Cache). Кэш среднего объема, следующий за L1. Работает медленнее кэша первого уровня.
Кеш третьего уровня (L3 Cache). Кеш большого объема, следующий за L2. Самый медленный из всех кэшей. В отличие от других кэшей, которые у каждого ядра свои, L3 - общий для всех ядер процессора.
Буферы и очереди для работы с инструкциями (Instruction Buffers and Queue) используются для ускорения работы с инструкциями. В их число входят буфер переупорядочивания, буфер загрузки, буфер выгрузки, очередь декодированных микроопераций и очередь распределения.
Буферы ассоциативной трансляции (Translation Lookaside Buffers, TLB). Небольшие кэши, расположенные после конвейера, а также между обычными кэшами разных уровней. Используются для ускорения трансляции виртуального адреса памяти в физический.
Оперативная память (Random Access Memory, RAM). Последний уровень динамической памяти. Хотя сама память находится за пределами процессора, ее контроллер, задающий тип, число каналов и тактовую частоту, находится именно в ЦП.
Помимо объема и их скорости, на производительность влияют и другие характеристики кэшей:
Организация. При инклюзивной организации кэша данные дублируются на различных уровнях. Это дает быстрый доступ к ним, но есть и минус — они занимают место на разных уровнях кэша. При эксклюзивной организации дублирований нет, и объем кэша используется более эффективно. Однако в случае, если нужных данных не оказалось в более быстром кэше, процессору придется тратить дополнительное время на извлечение их из более медленного уровня. Неинклюзивный кэш сочетает преимущества первых двух видов: он отслеживает данные, пытаясь спрогнозировать их необходимость на верхнем уровне кэша. При ее отсутствии алгоритмы вытесняют ненужные данные в нижний уровень кэша, экономя объем.
Сегментация. У современных процессоров кэш последнего уровня может быть как монолитным, так и состоять из нескольких сегментов.
Ассоциативность. Для ускорения работы кэша доступ к нему осуществляется по нескольким каналам. Уровень ассоциативности — это количество используемых кэшем каналов. Чем их больше, тем эффективнее работа кэша: меньше промахов при поиске данных, больше попаданий. Но с ростом числа каналов усложняется и система доступа к кэшу. Несмотря на меньшие промахи, в результате обработки большого количества каналов производительность кэша может снижаться.
В современных многоядерных моделях важную роль играет также скорость передачи данных между внутренними компонентами процессора, в первую очередь — вычислительными ядрами. Каждая из компаний-производителей использует шину собственной разработки для соединения компонентов ЦП между собой:
Компоненты процессоров Intel соединены кольцевой шиной Ring Bus.
Компоненты процессоров AMD общаются посредством соединений шины Infinity Fabric.
На сегодняшний день процессорная архитектура, разработанная с нуля — очень редкое явление. Чаще всего новые процессорные архитектуры получаются с помощью доработки различных блоков уже существующих решений. В число таких доработок входят:
Улучшение предсказателей переходов. Доработка этих блоков помогает увеличить производительность за счет уменьшения количества промахов предсказания инструкций.
Увеличение количества декодеров. За счет этого процессор становится способен декодировать больше инструкций за такт. В теории, это должно прямо повлиять на производительность. Однако, для раскрытия потенциала большего количества декодеров необходимо одновременно «подтягивать» и другие части конвейера.
Улучшения планировщиков исполнения. Благодаря этому становится возможным более «плотно» загрузить работой исполнительные порты. Это помогает добиться их большей эффективности, повышая производительность.
Увеличение регистрового файла. Расширяет хранилище для поступающих команд. Обычно производится вместе с увеличением количества исполнительных портов – это делается для достижения их большей эффективности.
Увеличение количества исполнительных портов. Расширение конвейера с добавлением вычислительных блоков позволяет производить больше расчетов за такт и быстрее передавать их. Это прямо влияет на производительность, особенно при сложном коде.
Усовершенствования блока сохранения/загрузки. Позволяют совершать больше операций сохранения/загрузки за такт, тем самым увеличивая эффективность работы с памятью.
Улучшения блоков FPU. Увеличение количества и производительности блоков вычислений с плавающей запятой позволяет быстрее выполнять мультимедийные инструкции, а также внедрять поддержку их новых видов.
Вдобавок к улучшениям вычислительных блоков процессоры новых архитектур обычно получают и улучшения подсистемы кешей:
Увеличение размеров кэшей. Повышает количество хранящихся в них данных, вследствие чего уменьшается вероятность промаха.
Увеличение скорости кэшей. Более высокая пропускная способность кэша снижает время, необходимое для его чтения или записи.
Изменения в ассоциативности, организации или сегментации. Совокупность этих изменений обычно подбирается под прочие характеристики процессора, чтобы сделать работу кэша наиболее эффективной.
Увеличение буферов и очередей работы с инструкциями. За счет увеличения позволяют более эффективно работать вычислительным блокам процессора.
Увеличение буферов ассоциативной трансляции. Уменьшает вероятность промаха при поиске страницы памяти.
Увеличение скорости обмена по внутренним шинам. Скорость внутренней шины повышается раз в несколько поколений, чтобы успевать передавать данные с учетом роста производительности ядер и роста их количества.
Улучшения контроллера памяти. Более высокие тактовые частоты и новые типы памяти подбираются с учетом усовершенствований архитектуры, чтобы ОЗУ не стала узким местом в производительности системы.
Обратимся к примерам таких изменений. Для начала возьмем процессоры Intel. В 2021 году после шести лет «царствования» в десктопах архитектуры Skylake наконец-то вышли модели 11 поколения Core на новой архитектуре Sunny Cove.
На ее основе построены десктопные процессоры Rocket Lake, которые быстрее предшественников на одной частоте примерно на 10–12%. Это стало возможным благодаря следующим улучшениям:
Пять инструкций за такт вместо четырех — заслуга расширенного декодера.
Десять исполнительных портов вместо восьми: плюс один AGU, и еще один порт для блока Store Data.
Усовершенствованный блок сохранения/загрузки, позволяющий производить одновременно две операции сохранения против одной у предшественника.
Увеличенные буферы и очереди для работы с инструкциями.
В полтора раза увеличенный кэш микроопераций и кеш L1. Последний, к тому же, был ускорен.
Кэш L2 был увеличен в два с половиной раза. Его инклюзивная организация сменилась неинклюзивной.
Производительные ядра современных процессоров Alder Lake и Raptor Lake основаны на следующей, самой современной на данный момент архитектуре Intel — Golden Cove.
По сравнению с предшественниками Rocket Lake они быстрее примерно на 15–20 %. Это достигается благодаря следующим усовершенствованиям:
В очередной раз расширенный декодер: шесть инструкций за такт против пяти
Двенадцать исполнительных портов вместо десяти: плюс один ALU и один AGU.
Увеличены буферы и очереди для работы с инструкциями.
Увеличены и ускорены кэши всех уровней.
Новый контроллер памяти, работающий с ОЗУ DDR5 наряду с DDR4.
Теперь обратим внимание на изменения в современных процессорах AMD. В конце 2020 года были представлены первые процессоры архитектуры Zen 3 — Ryzen 5000 серии.
Благодаря им впервые за много лет AMD смогла перегнать по однопоточной производительности конкурентные процессоры Intel. Рост производительности на одной частоте по сравнению с предшественниками Zen 2 составил около 20 %. Это стало возможным благодаря следующим улучшениям:
Предсказатель переходов получил улучшения для более эффективной работы.
Количество исполнительных портов было увеличено с семи до восьми. Новый порт содержит блок BRU. К тому же, теперь и один из ALU может работать в качестве BRU.
Количество планировщиков сокращено с семи до четырех. При этом каждый из переработанных планировщиков стал быстрее более, чем вдвое.
Усовершенствованный блок сохранения/загрузки позволяет производить на одно сохранение и одну загрузку больше.
Увеличены буферы и очереди для работы с инструкциями.
Усовершенствованный FPU расширился с четырех блоков до шести. Теперь у него два планировщика вместо одного.
Комплекс процессорных ядер CCX теперь содержит восемь ядер вместо четырех. Это уменьшает задержки при их общении. В связи с этим изменилась и сегментация кэша третьего уровня: теперь в каждом чиплете L3 — монолитный, объемом в 32МБ. Ранее использовались две секции по 16 МБ.
Последнее поколение процессоров AMD — серия Ryzen 7000. Они основаны на архитектуре Zen 4.
Новые процессоры быстрее предшественников примерно на 13 % на одной частоте. Архитектура Zen 4 получила следующие усовершенствования:
Предсказатель переходов в очередной раз усовершенствован.
Увеличен и ускорен кэш микроопераций.
Увеличены буферы и очереди для работы с инструкциями.
Кэш L2 вырос вдвое — с 0.5 до 1 МБ на ядро.
Увеличены размеры регистровых файлов.
Блок сохранения/загрузки теперь работает более эффективно.
Благодаря доработанному FPU добавлена поддержка инструкций AVX-512.
Новый контроллер памяти, который работает с ОЗУ DDR5 против DDR4 у предшественника.
Изменения в процессорных архитектурах разнятся из поколения в поколение. Это логично, ведь производители процессоров анализируют работу текущих поколений, и в первую очередь устраняют «узкие» места архитектур.
Рост производительности на такт (IPC) напрямую связан с блоками, в которые внесены изменения. Прирост производительности в разных видах задач может отличаться, в зависимости от внесенных в архитектуру изменений. Большинство программного обеспечения получает наибольший прирост от ускорения темпа целочисленных вычислений. Но есть и программы, которые больше чувствительны к скорости работы FPU или подсистемы кэшей.
IPC — главный показатель производительности современных ЦП, но далеко не единый. Стоит помнить, что прирост однопоточной производительности между разными поколениями процессоров дополнительно зависит от их тактовых частот, а многопоточной — еще и от количества ядер.
В 2017 году AMD выпустила процессоры на архитектуре Zen, которые впервые за долгое время вернули компании звание достойного конкурента Intel. С того момента прошло уже больше семи лет, и сегодня мы говорим уже о пятом поколении популярной архитектуры — Zen 5. Рассмотрим, какие улучшения она принесла с собой, и какого прироста производительности ждать от новых процессоров на ее базе. 3 июля 2024 года компания AMD представила новую линейку процессоров Ryzen 9000 для десктопных компьютеров, а также Ryzen AI 300 для ноутбуков. В их основу легла архитектура Zen 5, пришедшая на смену четвертому поколению Zen. Какие улучшения и изменения получили новинки? Много ли в них отличий от процессоров на прошлой версии архитектуры? Разбираем по порядку.
Внутреннее устройство Ryzen 9000
Ранее уже было рассказано про устройство платформы AMD AM5 и процессоров Ryzen 7000. В новых Ryzen 9000 чип ввода-вывода (IOD), производящийся по техпроцессу 6 нм, остался неизменным с прошлого поколения. Как и прежде, в его коммуникационные возможности входит 28 линий PCI-E 5.0: 16 — для графики, восемь — для двух NVMe-накопителей, и еще четыре — для связи с чипсетом на плате. Среди дополнительных соединений — четыре порта USB 3.2 Gen 2 10 Гбит/с, и еще один порт USB 2.0 для прошивки BIOS.
Никуда не делась и встроенная графика на базе архитектуры RDNA2 с двумя вычислительными блоками CU. Единственное изменение, относящееся к IOD, относится к режимам работы контроллера оперативной памяти. Для него были проведены оптимизации, расширяющие возможности работы в режиме делителя 1:2. К тому же, теперь по умолчанию поддерживается частота ОЗУ в 5600 МГц, тогда как в прошлом поколении она составляла 5200 МГц.
Процессоры обзавелись новыми вычислительными чиплетами (CCD). Как и прежде, в каждой модели их один или два. Внутри одного CCD находится шесть или восемь активных ядер. То есть, общее количество ядер по сравнению с прошлыми линейками Ryzen не возросло — их может быть 6, 8, 12 или 16.
Вычислительные чиплеты производятся по более тонкой технологии — 4 нм против 5 нм у предшественников. По заявлениям AMD, это позволило понизить энергопотребление на значение до 22%. Плотность транзисторов при этом увеличилась на 6%. Но главное в CCD не это, а новая архитектура вычислительных ядер — Zen 5.
Самые заметные изменения получила подсистема выборки данных. В отличие от Intel, которая в 11 и 12 поколении Core расширила декодер сначала до пяти, а потом до шести полос, AMD пошла другим путем. В Zen 5 она впервые применила декодер с двумя четырехполосными конвейерами.
За счет такого решения появилась возможность заметно поднять эффективность предсказаний: заглянуть в предполагаемое будущее с двойными декодерами и предсказателями можно куда «глубже». Для этого эти блоки получили специальные оптимизации. В том числе новый механизм Zero-Bubble, предназначенный для минимизации потерь производительности при неверных предсказаниях.
Для эффективной работы двойного декодера был значительно увеличен буфер целей ветвлений (BTB): с 1.5 до 16 Кб для первого уровня, с 7 до 8 Кб — для второго. Одновременно подрос буфер трансляции второго уровня (TLB) — с 512 до 2048 записей, а также стек адресов возврата — с 32 до 56 записей.
Кэш инструкций (L1I) составляют все те же 32 Кб, что и в прошлом поколении. Но теперь им могут пользоваться одновременно оба декодера, поэтому его скорость увеличили вдвое. Параллельно этому был усовершенствован кэш микроопераций (L0): его ассоциативность была увеличена с 12- до 16-канальной, а пропускная способность возросла на треть.
Не менее «прокачана» была и подсистема кэшей для данных. Кэш первого уровня (L1) был увеличен с 32 до 48 Кб, а его ассоциативность — с 8 каналов до 12. Кэш второго уровня остался прежнего размера, но его ассоциативность была увеличена вдвое — с 8 каналов до 16. Кратно ассоциативности возросла и пропускная способность обоих кэшей.
Кэш третьего уровня существенных изменений не претерпел: и размер, и ассоциативность остались такими же, как у Zen 4. Однако AMD поработала над его задержкой — теперь она немного меньше, чем поколением ранее.
Усовершенствованная система выборки не будет иметь особого смысла без расширения целочисленного конвейера. Поэтому здесь AMD поступила схоже с Intel, и расширила конвейер с восьми исполнительных портов до десяти. Количество арифметико-логических устройств (ALU) в ядре было увеличено с четырех до шести. Теперь три из них умеют ускорять операции умножения (Multiply), а оставшиеся три — исполнять переходы (Branch). Для сравнения: в Zen 4 первой разновидности не было, а переходами могли заниматься только два блока, из которых лишь один совмещен с ALU.
Возросло и количество блоков генерации адресов (AGU) — с трех до четырех. Благодаря этому новое ядро производит на одну операцию загрузки/выгрузки в кэш больше, чем ранее. А блок переименования целочисленных регистров вместо шести операций за такт теперь умеет выполнять восемь.
Количество планировщиков было сокращено с четырех до двух. Но взамен они стали более чем в два раза производительнее. Вдобавок были расширены их возможности. Для ALU теперь поддерживается 88 записей, для AGU — 56. В Zen 4 они были куда скромнее: до 72 записей (3х24) для ALU вместе с AGU, плюс еще 24 записи только для ALU. Объем регистрового файла тоже вырос — с 224/126 до 240/192 записей, а буфер очереди — с 320 записей до 448.
Целочисленный конвейер получил немало новшеств. Но еще больше был усовершенствован блок вычислений с плавающей запятой (FPU).
Главное улучшение — новый единый блок 512-битных вычислений, тогда как в прошлом поколении такие вычисления выполняли два 256-битных блока. За счет этого инструкции AVX512 и VNNI выполняются заметно быстрее. И хотя отдельных ускорителей искусственного интеллекта в десктопных процессорах не появилось, новый FPU теперь подходит для них заметно лучше, чем решение прошлого поколения.
Как и у Zen 4, у FPU Zen 5 шесть исполнительных портов. Однако и они получили усовершенствования. Вычислительную часть представляют четыре конвейера, два из которых могут выполнять умножения, сложения и накопления (Multiply, Add, Accumulate — MAC), а еще два — только сложения (Add). Компанию им составляют два порта сдвига (Shift, ST). За один такт они могут произвести две 512-битные загрузки или одну такую же выгрузку данных в кэш-память. Количество планировщиков было увеличено с двух до трех, а блок переименования плавающих регистров научился выполнять шесть операций за такт вместо четырех. Объем регистрового файла возрос вдвое — со 192 до 384 записей.
За счет совокупности всех улучшений, IPC новой архитектуры должен был вырасти достаточно заметно. По заявлениям компании AMD, преимущество Zen 5 достигает в среднем 16% по сравнению с Zen 4 при меньшем энергопотреблении.
Первые тесты показывают, что новые процессоры действительно потребляют меньше. А вот рост производительности пока не всегда бывает таким высоким, как заявляет разработчик. Причина в том, что изменения в Zen 5 направлены не столько на увеличение производительности в уже имеющемся ПО, сколько на будущее. Хотя во многих играх они уже сейчас выступают заметно лучше своих предшественников.
Слабым местом архитектуры AMD Zen 4 по сравнению с конкурирующей Intel Golden Cove был четырехполосный декодер. У Zen 5 два таких декодера. Но это вовсе не означает, что новые ядра могут исполнять до восьми инструкций за такт. В некоторых случаях единственный шестиполосный декодер, как у Golden Cove, пока остается предпочтительнее. Ключевое слово — пока.
Если разработчики программного обеспечения подтянутся, и станут использовать особенности декодера Zen 5 и улучшения FPU, то у новой архитектуры есть шанс со временем заметно оторваться от предшественницы. Если же ПО будет продолжать создаваться с прицелом на Intel с его широким декодером и отсутствием спешки с AVX512, то высокий прирост в повседневных задачах новая архитектура по сравнению с Zen 4 вряд ли покажет.
В начале ARPA создала ARPANET.
И ARPANET была безвидна и пуста.
И тьма была над бездной.
И дух ARPA носился над лицом сети, и ARPA сказал: «Да будет протокол», и стал протокол. И ARPA увидел, что это хорошо.
И ARPA сказал: «Да будет больше протоколов», и стало так. И ARPA увидел, что это хорошо.
И ARPA сказал: «Да будет больше сетей», и стало так.
Дэнни Коэн
Эта хронология Интернета начинается в 1962 году, до того, как было изобретено слово «Интернет». 10 000 компьютеров в мире примитивны, хотя и стоят сотни тысяч долларов. У них всего несколько тысяч слов памяти на магнитных сердечниках, и программировать их совсем не просто.
Внутри страны передача данных по телефонным линиям является монополией AT&T. «Picturephone» 1939 года, вновь показанный на Всемирной выставке в Нью-Йорке в 1964 году, по-прежнему является ответом AT&T на будущее мировых коммуникаций.
Однако созданное четыре года назад Агентство перспективных исследовательских проектов (ARPA) Министерства обороны США, ориентированное на будущее спонсорство исследований с «высоким риском и высокой выгодой», закладывает основу для того, что впоследствии станет ARPANET, а гораздо позже и Интернетом.
К 1992 году, когда этот период времени заканчивается,
в Интернете один миллион хостов
ARPANET прекратил свое существование
компьютеры на девять порядков быстрее
Пропускная способность сети в двадцать миллионов раз больше