Максвелл (микроархитектура)

Максвелл второго поколения (GM20x) [ править ]

Снимок графического процессора GM200 внутри видеокарт GeForce GTX 980 Ti

Второе поколение графических процессоров Maxwell представила несколько новых технологий: Dynamic Super Resolution, Третье поколение Delta компрессия цвета, Multi-Pixel Программирование Sampling, Nvidia VXGI (Real-Time-Voxel- Global Illumination ), VR Direct, Multi-Projection Acceleration, Многокадровое сглаживание выборки (MFAA) (однако поддержка сглаживания сглаживания по охвату с выборкой (CSAA) была удалена) , и Direct3D12 API на уровне функций 12_1. Также была добавлена ​​поддержка HDMI 2.0.

Соотношение ROP к контроллеру памяти было изменено с 8: 1 на 16: 1. Однако некоторые блоки ROP в GTX 970 обычно простаивают, потому что задействованных SMM недостаточно, чтобы дать им работу, что снижает его максимальную скорость заполнения.

Модуль Polymorph Engine, отвечающий за тесселяцию, был обновлен до версии 3.0 в графических процессорах Maxwell второго поколения, что привело к повышению производительности тесселяции на единицу / такт.

Maxwell второго поколения также имеет до 4 модулей SMM на GPC, по сравнению с 5 модулями SMM на GPC.

GM204 поддерживает CUDA Compute Capability 5.2 (по сравнению с 5.0 на графических процессорах GM107 / GM108, 3.5 на графических процессорах GK110 / GK208 и 3.0 на графических процессорах GK10x).

Графические процессоры GM20x имеют обновленный NVENC, который поддерживает кодирование HEVC и добавляет поддержку разрешений кодирования H.264 при 1440p / 60FPS и 4K / 60FPS (по сравнению с NVENC на графических процессорах Maxwell GM10x первого поколения, которые поддерживали только кодирование H.264 1080p / 60FPS).

После жалоб потребителей Nvidia показала, что может отключать отдельные блоки, каждый из которых содержит 256 КБ кеш-памяти второго уровня и 8 ROP, без отключения всех контроллеров памяти. Это происходит за счет разделения шины памяти на высокоскоростные и низкоскоростные сегменты, к которым нельзя получить доступ одновременно для чтения, поскольку блок L2 / ROP, управляющий обоими контроллерами GDDR5, разделяет канал возврата чтения и шина записи данных между контроллерами GDDR5. Это делает невозможным одновременное чтение с обоих контроллеров GDDR5 или одновременную запись на оба контроллера GDDR5. Это используется в GeForce GTX 970, которая, следовательно, может быть описана как имеющая 3,5 ГБ в высокоскоростном сегменте на 224-битной шине и 512 МБ в низкоскоростном сегменте на 32-битной шине. Пиковая скорость такого графического процессора все еще может быть достигнута, но пиковая скорость доступна только в том случае, если один сегмент выполняет операцию чтения, а другой сегмент выполняет операцию записи.

Максвелл первого поколения (GM10x) [ править ]

Чип Maxwell 107 на видеокарте GTX 750 Ti со снятым радиатором.

Графические процессоры Maxwell первого поколения (GM107 / GM108) были выпущены как GeForce GTX 745, GTX 750/750 Ti, GTX 850M / 860M (GM107) и GeForce 830M / 840M (GM108). Эти новые чипы представили несколько дополнительных функций, ориентированных на потребителя, поскольку Nvidia вместо этого сосредоточилась на повышении энергоэффективности графического процессора. Кэш L2 был увеличен с 256 КБ на Kepler до 2 МБ на Maxwell, что снизило потребность в увеличении пропускной способности памяти. Соответственно, шина памяти была уменьшена со 192 бит на Kepler (GK106) до 128 бит, уменьшая площадь кристалла и энергопотребление.

Конструкция потокового мультипроцессора «SMX» от Kepler также была переоборудована и разделена на разделы, переименованные в «SMM» для Maxwell. Структура планировщика деформации была унаследована от Kepler, при этом блоки текстуры и ядра FP64 CUDA по-прежнему были общими, но расположение большинства исполнительных блоков было разделено так, что каждый планировщик деформации в SMM контролирует один набор из 32 ядер FP32 CUDA, один набор из 8 блоков загрузки / хранения и одного набора из 8 блоков специальных функций. Это контрастирует с Kepler, где у каждого SMX было 4 планировщика, которые были запланированы для общего пула исполнительных модулей. Последнее потребовало наличия поперечной панели SMX, которая использовала ненужную мощность, чтобы обеспечить совместное использование всех исполнительных устройств. И наоборот, более модульная конструкция Maxwell позволяет более детально и эффективно распределять ресурсы, экономя электроэнергию, когда рабочая нагрузка не оптимальна для общих ресурсов. Nvidia утверждает, что SMM со 128 ядрами CUDA имеет 90% производительности SMX со 192 ядрами CUDA, в то время как эффективность увеличивается в 2 раза. Кроме того, каждый кластер обработки графики, или GPC, содержит до 4 блоков SMX в Kepler, и до 5 SMM в первом поколении Maxwell.

GM107 также поддерживает CUDA Compute Capability 5.0 по сравнению с 3.5 на графических процессорах GK110 / GK208 и 3.0 на графических процессорах GK10x. Динамический параллелизм и HyperQ, две функции графических процессоров GK110 / GK208, также поддерживаются всей линейкой продуктов Maxwell. Maxwell также предоставляет атомарные операции с собственной общей памятью для 32-битных целых чисел и с собственной 32-битной и 64-битной памятью сравнения и обмена (CAS), которые можно использовать для реализации других атомарных функций.

Видеокодер Nvidia, NVENC, был обновлен и теперь работает в 1,5–2 раза быстрее, чем на графических процессорах на базе Kepler, что означает, что он может кодировать видео со скоростью воспроизведения в 6–8 раз. Nvidia также заявляет об увеличении производительности декодирования видео PureVideo Feature Set E в восемь-десять раз за счет кеш-памяти видеодекодера в сочетании с повышением эффективности использования памяти. Однако H.265 не поддерживается для полного аппаратного декодирования в графических процессорах Maxwell первого поколения, полагаясь на сочетание аппаратного и программного декодирования. При декодировании видео на графических процессорах Maxwell используется новое состояние низкого энергопотребления «GC5» для экономии энергии.

Максвелл графические процессоры думали, использование рендеринга плитки на основе , , но они на самом деле используют плиточное кэширование.

Maxwell в настоящее время

В настоящее время видеокарты от Nvidia на технологии Maxwell являются наилучшими в мире среди всех других графических процессоров. Чтобы создать такую архитектуру, разработчики вдохновлялись освещением.

Производительность и энергоэффективность Maxwell

GPU Maxwell технически лучшие во всём мире. Благодаря данной технологии, обеспечивается превосходная производительность в играх, а также энергоэффективность. Всё это в самых новых GPU серии видеокарт GeForce GTX 900 и GeForce GTX 980 – самой быстрой в мире видеокарте, а GTX 970 обеспечивает самую высокую производительность в своем классе. Данные видеокарты на технологии Maxwell обеспечивают наилучшую производительность, а также бесшумную работу без перегрева.

Воксельная глобальная иллюминация (VXGI)

Новая веха в области визуальных вычислений. Теперь, благодаря новой технологии GPU на базе архитектуры Maxwell могут динамически рендерить отраженный свет, используя новую технологию VXGI (воксельная глобальная иллюминация). Всё теперь выглядит намного натуральней, так как свет взаимодействует в игровой среде реалистичней.

VXGI решает главную проблему освещения в играх, которое мало соответствует реальному. Данная технология позволяет действительно приблизиться к кинематографическому качеству. При данном подходе, геометрические фигуры разбиваются на воксели (альтернатива виртуальных пикселей), изначально учитывая деталировку. То есть, в случае, когда требуется картинка с наилучшим качеством, то её разбивают на множество вокселей, если с меньшим качеством, то их число уменьшают. После, происходит расчет количества прямого света, который отражается вокселями и подсчитывается информация об отраженном от поверхностей свете. Учитываются все аспекты геометрии согласно математическим формулам: тип объекта, его характеристики, отражаемость, цвет и прочее. Производится заливка цветом из учета участвующего в изображении цвета. Затем все результаты собираются, и появляется финальная картинка.

Многокадровое сглаживание (MFAA)

Рисунок 5 – Многокадровое сглаживание MFAA

Сглаживание нового поколения (см. рисунок 5). Игровой процесс в графически насыщенных играх означает выбор между высокими настройками или высокой частотой смены кадров с низкими настройками. Графические процессоры серии GeForce GTX 900 поддерживают эксклюзивную технологию MFAA, которая обеспечивает и то, и другое: увеличивая производительность по сравнению с видеокартами предыдущего поколения, позволяет играть в потрясающем разрешении с высокими FPS.

Динамическое суперразрешение (DSR)

Перенос 4k на 1080p дисплеи. Графические процессоры серии GeForce GTX 900 обеспечивают необходимую мощность для рендеринга изображений в разрешении 4K. Они используют технологию DSR, которая полагается на продвинутые фильтры для масштабирования изображения, обеспечивая геймерам игровой процесс в 4K даже на 1080p мониторах. Каждая игра автоматически оптимизируется с помощью утилиты GeForce Experience без ущерба для производительности.

Игровой процесс в виртуальной реальности (VR DIRECT)

Продвинутая виртуальная реальность. Обеспечивая высокую производительность с малыми задержками, графические процессоры на базе архитектуры Maxwell представляют собой новое поколение графических решений для создания захватывающей и плавной виртуальной реальности.

Эволюция 4K

GTX 980 и 970 являются самыми быстрыми видеокартами на планете, представляя собой идеальное решение для дисплеев с высоким разрешением 4K и 4K Surround. Высочайшая производительность плюс эксклюзивные технологии, такие как NVIDIA G-SYNC и захват видео в 4K с помощью NVIDIA ShadowPlay, означают, что пользователи получат самый продвинутый игровой процесс в 4K.

Эффективная работа с памятью

Ширина шины обмена с памятью составляет 256 бит. Была проведения ревизия системы компрессии, позволившая достичь отличных результатов и действительно разгрузить шину памяти вследствие долгих раздумий инженеров. Теперь цвета кодируются по новому алгоритму, в несколько раз превосходящему по эффективности действующие методы. Не меньшую роль играет и используемая Maxwell кэш-память. Оба эти свойства в среднем на четверть снижают нагрузку, и 7 Гбит превращаются в эквивалентные 9.3 Гбит.

Nvidia Maxwell и Nintendo Switch

Рисунок 6 — игровая приставка Nintendo Switch

Весьма примечателен тот факт, что видеокарты с архитектурой графического процессора поколения Maxwell используются на новой игровой приставке Nintendo Switch (см. рисунок 4) от компании Nintendo. Интересно, что Nvidia, конкурируя с AMD, не смогла с ней тягаться в области игровых консолей и в последнее время её продукция была востребована только для вышеупомянутой консоли. Во время разработки Nintendo Switch, ходили слухи, что Nvidia предоставит видеокарты с архитектурой графического процессора новейшего поколения Pascal с мобильным 16-нм процессором линейки Tegra. В итоге, с появлением консоли в продаже, стало известно, что в консоли используется выпускаемый по 20-нм технологии адаптированный вариант процессора Tegra X1 с графической подсистемой поколения Maxwell. В неё присутствует четыре вычислительных ядра с архитектурой ARM Cortex-A57, которые могут работать на частоте до 2 ГГц, а графическая подсистема насчитывает 256 потоковых процессоров с частотой до 1 ГГц. . Причина, по которой Nvidia не предоставила видеокарты на архитектуре новейшего поколения Pascal в том, что компании требовалось время на доработку и адаптации Pascal к представленному сроку, и Nvidia была просто не в состоянии это сделать.

Первая видеокарта с архитектурой NVIDIA Maxwell

Рисунок 4 – Первая видеокарта на архитектуре NVIDIA Maxwell — GTX 750 Ti

Первой видеокартой на архитектуре NVIDIA Maxwell была GTX 750 Ti(см. рисунок 4). В ней архитектура Maxwell преимущественно использовала те же функциональные API, что её предшественник Kepler, однако отличие — в существенной переработке внутренней структуры потоковых мультипроцессоров. Теперь каждый SMM включал 4 независимых вычислительных блока c 32 ядрами, у которых имелось свой буфер инструкций и планировщик. Каждый такой блок также имеет 8 модулей загрузки и сохранения данных (LD/ST), и такое же количество узлов выполнения специальных функций (Special Function Units, SFU). Все структурные модули были переработаны, усовершенствована управляющая логика, улучшена нагрузочная балансировка. Увеличенная дискретность модулей позволяла гибче и эффективнее использовать ресурсы графического процессора. Значительно был увеличен объем кеш-памяти второго уровня. Если у чипов GK107 емкость L2 составляла 256 КБ, то GM107 получил 2 МБ кеша, что даже больше, чем у топового кристалла GK110 (1536 КБ). Увеличение буфера позволяло частично снизить влияние пропускной способности памяти и уменьшить количество обращений к локальной ОЗУ, тем самым снижая энергопотребление адаптера.

Настоящая видеокарта использовала полновесную версию GM107. Один вычислительный кластер (GPC) включал 5 потоковых мультипроцессоров SMM, при этом суммарное количество CUDA-вычислителей равнялось 640. Чип имел 40 текстурных блоков и 16 модулей растеризации. Базовая частота GPU была установлена на уровне 1020 МГц, при этом среднее значение динамического ускорения благодаря GPU Boost 2.0 составляло 1085 МГц. Штатная частота памяти – 5400 МГц. С графическим процессором она была связана с помощью 128-битовой шины (2×64 бит), потому пропускная способностью магистрали «память-GPU» составляла 86,4 ГБ.

Для охлаждения графического процессора использовался кулер очень скромных размеров и конструкции. Небольшой алюминиевый радиатор продувался осевым вентилятором диаметром 60 мм.

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Онлайн
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: