12.3.Вопросы производительности параллельных вычислений

12.3.1.Основной вопрос сложности параллельных вычислений

Пусть время выполнения одной операции τ. Тогда за время T может быть выполнено приблизительно T/τ операций. Время реализации одной операции называют также стоимостью операции, а сумму стоимостей всех операций T - стоимостью работы. Загруженностью устройства - p называют отношение стоимости реально выполненной работы к максимально возможной стоимости. Показатель эффективности одного процессора - количество операций, запускаемых за один такт процессора - IPC (instructions per sycle). Общая вычислительная мощность многопроцессорной системы оценивается пиковой производительностью, определяемой как максимальное количество операций, которое может быть выполнено системой за единицу времени при отсутствии потерь времени на связи между ФУ. Единица измерения производительности - Flops (одна вещественная операция в секунду).

Пиковая производительность многопроцессорной системы определяется как количество функциональных устройств, предназначенных для выполнения операций с плавающей точкой (равное числу IPC), умноженное на частоту работы процессора и на число процессоров. Например, для компьютера с двумя устройствами с плавающей точкой и частотой 500 МГц пиковая производительность равна 1000 Mflops (1 Gflops). Эффективность использования других функциональных устройств (целочисленная арифметика, обращение к памяти и др.) выявляется путем сравнения реально достижимой на тестах производительности с пиковой.

Реальная производительность - это количество операций, реально выполняемых в среднем в единицу времени. Реальная производительность обычно существенно меньше пиковой. Превышение пиковой производительности над реальной характеризует, насколько данная архитектура приспособлена к решению конкретной задачи. Отношение реальной производительности к пиковой называется эффективностью реализации задачи на данном конкретном компьютере.

Пусть устройства системы имеют пиковые производительности ₁,₂,…,_s и работают с загруженностями p₁,… ,p_s, Рассмотрим эти параметры как вектора, тогда реальная производительность r = р (скалярное произведение векторов).

Отсюда видно, что для достижения наибольшей реальной производительности системы при фиксированном числе устройств необходимо обеспечить наиболее полную ее загруженность. Пусть * - пиковая производительность самого быстрого устройства системы, тогда ускорение реализации алгоритма на вычислительной системе из s устройств определяется как R*=r/*.

Это означает, что наибольшее ускорение системы из s устройств может достигаться только в случае, когда все устройства системы имеют одинаковые пиковые производительности и полностью загружены. Реальное ускорение для однородных вычислительных систем, имеющих одинаковую производительность устройств, часто определяют также как R= T₁ / T_s -отношение времени решения задачи на одном процессоре - T₁ к времени T_s решения той же задачи на системе из s таких же процессоров. Отношение реального ускорения к числу используемых процессоров s: E_s =R/ s - называют эффективностью системы. Наилучшие показатели ускорения и эффективности - соответственно R=s, E_s = 1.

Сразу скажем, что основной вопрос, связанный с параллельными вычислениями, имеет очевидный ответ. Пусть для организации параллелизма имеется s процессоров (функциональных устройств, элементарных устройств и т.п.) Далее имеем задачу Z, сложность которой t(n), т.е. на сегодня существует некоторый алгоритм решения этой задачи A_Z, сложность которого t_A(n)=t(n). Смысл параллелизма – создание алгоритма с меньшим временем работы. В принципе, это улучшение может быть достигнуто на базе двух типов возможностей параллелизма.

«Идейные» возможности. Получения за счет параллелизма принципиально новых, по сравнению с последовательными вычислениями, возможностей использования «комбинаторной» (сущностной для данной задачи) специфики задачи.
Технические возможности. Выполнение вместо одной операции в единицу времени сразу k операций.

Первые возможности сводятся ко вторым, а границы технических возможностей определяются числом процессоров. Отсюда мы имеем:

Параллелизм не дает возможности построить алгоритм вычисления быстрее, чем t(n)/s.
Использование параллельных вычислений не позволяет изменить место задачи в иерархии сложности.

Теоретически существует постановка задачи, которая может опровергнуть эти выводы, но ее использование на практике весьма ограничено, если не сказать больше. Эта постановка возникает в некоторой адаптивной конструкции, когда создатель параллельного алгоритма имеет в своем распоряжении бесконечное число процессоров, а в конкретном алгоритме может варьировать это число, т.е может позволить себе использовать s(n) процессоров. Тогда теоретически можно получить полиномиальный алгоритм, если t(n) и s(n) – экспоненты. Но это чисто умозрительная возможность. Во-первых, на практике s(n) – в лучшем случае линейная функция. А во-вторых, во все нижеприведенные соотношения без нарушения их справедливости вместо константы s можно подставить функцию s(n).

В следующем разделе приведены иллюстрации к сказанному.

<<< < Предыдущая 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 3233 / 3833 34 35 36 37 38 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
09.02.20151.91 Mб32Gabriel + расчет промежуточного отсека.docx
#
09.02.2015850.94 Кб3GLOS3.DOC
#
09.02.20157.39 Mб10GMAT.800.2008.pdf
#
23.03.2016406.43 Кб7Golovko.pdf
#
24.05.20154.24 Mб104gorbunov_a_i_filippov_g_g_fedin_v_i_himiya.pdf
#
17.08.20191.42 Mб36gordeev.doc
#
10.02.201513.77 Mб14gost_4401-81.pdf
#
19.09.2019916.48 Кб5gotovye_otvety_Ekonomicheskaya_Teoria.doc
#
10.02.2015519.04 Кб49GPSS.pdf
#
12.03.201533.76 Кб45Grammar Lesson 10.docx.doc
#
10.02.20154.43 Mб5Grundfos_BM.pdf