Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lektsii_SPIiVT.doc
Скачиваний:
88
Добавлен:
29.05.2015
Размер:
1.07 Mб
Скачать

Лекция 6 Графический процессор

Возможности графического процессора Sandy Bridge в целом сравнимы с таковыми у предыдущего поколения подобных решений Intel, разве что теперь в дополнение к возможностям DirectX 10 добавлена поддержка DirectX 10.1, вместо ожидаемой поддержки DirectX 11. Соответственно и не многие приложения с поддержкой OpenGL ограничены аппаратной совместимостью только с 3-й версией спецификации этого свободного API.

Тем не менее нововведений в графике Sandy Bridge достаточно много, и нацелены они главным образом на увеличение производительности при работе с 3D-графикой.

Основной упор при разработке нового графического ядра, по словам представителей Intel, был сделан на максимальном использовании аппаратных возможностей для обсчёта 3D-функций, и то же самое – для обработки медиа-данных. Такой подход радикально отличается от полностью программируемой аппаратной модели, принятой на вооружение, например, в NVIDIA, или в самой Intel для разработки Larrabee (за исключением текстурных блоков).

Однако в реализации Sandy Bridge отход от программируемой гибкости имеет свои неоспоримые плюсы, за счет него достигаются более важные для интегрированной графики выгоды в виде меньшей латентности при исполнении операций, лучшей производительности на фоне экономии расхода энергии, упрощённой модели программирования драйверов, и что немаловажно, с экономией физических размеров графического модуля.

Для программируемых исполнительных шейдерных модулей графики Sandy Bridge, по традиции называемых в Intel «исполнительными блоками» (EU, Execution Units), характерны увеличенные размеры регистрового файла, что позволяет достичь эффективного исполнения комплексных шейдеров. Также в новых исполнительных блоках применена оптимизация ветвления для достижения лучшего распараллеливания исполняемых команд.

В целом, по заявлению представителей Intel, новые исполнительные блоки обладают удвоенной по сравнению с предыдущим поколением интегрированной графики пропускной способностью, а производительность вычислений с трансцедентальными числами (тригонометрия, натуральные логарифмы и так далее) за счёт акцента на использовании аппаратных вычислительных возможностей модели вырастет в 4-20 раз.

Внутренний набор команд, усиленный в Sandy Bridge рядом новых, позволяет распределять большинство инструкций API набора DirectX 10 в режиме «один к одному», как в случае с архитектурой CISC, что в результате позволяет добиться значительно более высокой производительности при той же тактовой частоте.

Быстрый доступ посредством быстрой кольцевой шины к распределённому кешу L3 с динамически конфигурируемой сегментацией позволяет снизить латентность, поднять производительность и в то же время снизить частоту обращений графического процессора к оперативной памяти.

Кольцевая шина

Вся история модернизации процессорных микроархитектур Intel последних лет неразрывно связана с последовательной интеграцией в единый кристалл всё большего количества модулей и функций, ранее располагавшихся вне процессора: в чипсете, на материнской плате и т.д. Соответственно, по мере увеличения производительности процессора и степени интеграции чипа, требования к пропускной способности внутренних межкомпонентных шин росли опережающими темпами. До поры до времени, даже после внедрения графического чипа в архитектуру чипов Arrandale/Clarkdale, удавалось обходиться межкомпонентными шинами с привычной перекрёстной топологией - этого было достаточно.

Однако эффективность такой топологии высока лишь при небольшом количестве компонентов, принимающих участие в обмене данными. В микроархитектуре Sandy Bridge для повышения общей производительности системы разработчики решили обратиться к кольцевой топологии 256-битной межкомпонентной шины (рис. 6.1), выполненной на основе новой версии технологии QPI (QuickPath Interconnect), расширенной, доработанной и впервые реализованной в архитектуре серверного чипа Nehalem-EX (Xeon 7500), а также планировавшейся к применению совместно с архитектурой чипов Larrabee.

Кольцевая шина (Ring Interconnect) в версии архитектуры Sandy Bridge для настольных и мобильных систем служит для обмена данными между шестью ключевыми компонентами чипа: четырьмя процессорными ядрами x86, графическим ядром, кэш-памятью L3, теперь е ё называют LLC (Last Level Cache), и системным агентом. Шина состоит из четырёх 32-байтных колец: шины данных (Data Ring), шины запросов (Request Ring), шины мониторинга состояния (Snoop Ring) и шины подтверждения (Acknowledge Ring), на практике это фактически позволяет делить доступ к 64-байтному интерфейсу кеша последнего уровня на два различных пакета. Управление шинами осуществляется с помощью коммуникационного протокола распределённого арбитража, при этом конвейерная обработка запросов происходит на тактовой частоте процессорных ядер, что придаёт архитектуре дополнительную гибкость при разгоне. Производительность кольцевой шины оценивается на уровне 96 Гбайт в секунду на соединение при тактовой частоте 3 ГГц, что фактически в четыре раза превышает показатели процессоров Intel предыдущего поколения.

Рис.6.1. Кольцевая шина (Ring Interconnect)

Кольцевая топология и организация шин обеспечивает минимальную латентность при обработке запросов, максимальную производительность и отличную масштабируемость технологии для версий чипов с различным количеством ядер и других компонентов. По словам представителей компании, в перспективе к кольцевой шине может быть "подключено" до 20 процессорных ядер на кристалл, и подобный редизайн, как вы понимаете, может производиться очень быстро, в виде гибкой и оперативной реакции на текущие потребности рынка. Кроме того, физически кольцевая шина располагается непосредственно над блоками кеш-памяти L3 в верхнем уровне металлизации, что упрощает разводку дизайна и позволяет сделать чип более компактным.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]