Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
шпори (50-64).doc
Скачиваний:
5
Добавлен:
21.08.2019
Размер:
748.54 Кб
Скачать

57.Комунікаційне середовище: Myrinet та Infiniband

Існує багато варіантів створення та побудови кластерних систем. Всі вони відрізняються між собою комунікаційним середовищем, що використовується для передачі даних між вузлами. Спочатку використовувався стандарт Ethernet зі швидкістю 10Мбіт/с.

В наш час досить поширеною є технологія Fast Ethernet зі швидкістю 10Мбіт/с. Проте великі накладні витрати даної технології при передачі даних не дозволяють створити універсальні обчислювальні кластери. Як альтернативу розробники можуть використовувати технології Gigabit Ethernet, Clan, Myrinet, Servernet та інші.

При передачі даних основні характеристики, що впливають на продуктивність це - латентність та пропускна здатність мережі. Латентність - це час, який потрібен, щоб повідомлення було підготовлене до відправки. Пропускна здатність мережі - це кількість інформації, що може бути передана за одиницю часу. Якщо обмін інформацією між вузлами складається з великої кількості невеликих повідомлень, то визначну роль в обміні даними буде грати латентність. Якщо повідомлення одне і велике, то визначну роль в обміні даними буде грати пропускна здатність.

Коли програмний додаток відправляє дані, вони спочатку проходять декілька шарів програмної та апаратної підтримки. Кожен з цих шарів може вносити власні корективи у процес передачі повідомлення. Наприклад, неякісний мережевий адаптер може з затримкою передавати дані, а неякісно встановлений драйвер може значно спотворити потік бітів.

Розглянемо параметри, які впливають на продуктивність комп’ютерів даного класу:

Наявність фрагментів програми, які можна розпаралелювати. Якщо в програмі досить великі фрагменти послідовного коду, то розраховувати на збільшення продуктивності не варто.

Так як фізична пам’ять є розподіленою між вузлами системи, то для доступу процесора до віддалених фрагментів пам’яті використовується система повідомлень, а отже визначну роль будуть грати або латентність або пропускна здатність. Тому для створення додатків для таких кластерних систем потрібно розробити систему повідомлень та розглянути, як ці повідомлення будуть передаватися мережею, і які чинники будуть основними.

Якщо апаратура і програмне забезпечення не підтримує асинхронної передачі даних, то може виникнути ситуація, що деякі процесори очікують коли решта процесорів закінчить роботу. Така ситуація призводить до невеликих накладних витрат в роботі.

Для досягнення найбільш ефективної роботи потрібно досягнути максимально рівномірної навантаженості кожного вузла. Якщо такої рівномірності не буде, то деякі процесори будуть простоювати, а решта - перенавантажені. Рівномірність навантаження досить легко досягнути на рівномірних однорідних системах (системи, в яких всі вузли однакової конфігурації, що з’єднані однаковою мережею). На неоднорідних системах досить важко досягнути рівномірної навантаженості.

Ще один фактор, що впливає на продуктивність - це реальна продуктивність кожного вузла. Різні моделі процесорів можуть мати різну характеристику, а саме: кількість рівнів кеш пам’яті, різні кількості функціональних пристроїв, тощо.

Myrinet (ANSI / VITA 26-1998) - широко застосовуваний для побудови кластерів тип комунікаційного середовища. Раніше до 28% (червень 2005) кластерних установок зі списку Top500 найпродуктивніших комп'ютерів світу були побудовані із застосуванням Myrinet. Тепер цей показник впав до 2% (2009 рік).

Характеристики:

  • Виробник: компанія Myricom .

  • Пропускна спроможність: 250 Мб / сек, 1250 Мб / сек (Myri-10G).

  • Час затримки - близько 10 мкс.

  • Топологія: комутована, елементом комутації є матриця 8х8. Комутатори на її основі підтримують до 128 портів. Для побудови великих мереж використовуються різні варіанти топології Fat Tree , найкраща продуктивність досягається з використанням Clos Network (докладніше про побудову мереж на основі Myrinet можна прочитати в документі Myrinet Switch Guide).

  • Програмне забезпечення: низькорівневий інтерфейс програмування GM, MPICH / GM, PVM / GM, стек TCP / IP , а також комерційні продукти - MPIPro, Scali MPI Connect.

Infiniband - високошвидкісна комутована послідовна шина, що застосовується як для внутрішніх (внутрішньосистемних), так і для міжсистемних з'єднань.

Описпми Infiniband специфіковані, підтримкою і розвитком специфікацій займається InfiniBand Trade Association

Короткий опис. Подібно PCI Express , Infiniband використовує двонаправлену послідовну шину. Базова швидкість - 2,5 Гбіт / с у кожному напрямку, застосовуються порти, що складаються з груп в 1x, 4x і 12x базових двонаправлених шин ( англ. lanes). Існують режими Single Data Rate (SDR) - робота з базовою швидкістю, Double Data Rate (DDR) - бітова швидкість дорівнює подвоєною базової і Quad Data Rate (QDR) - відповідно, учетверенной. Режими SDR, DDR і QDR використовують кодування 8B/10B. На даний момент (2011 р.) найчастіше застосовуються порти 4x QDR.

Базова швидкість 1х шини для режиму FDR становить 14.0625 Гбіт / с, а для EDR 25.78125 Гбіт / с. Режими FDR і EDR використовують кодування 64/66B.

Основне призначення Infiniband - межсерверние сполуки, в тому числі і для організації RDMA ( Remote Direct Memory Access ).

Пропускна здатність інтерфейсу Infiniband, raw / data

Іnfiniband використовується наступними протоколами і API:

  • RDMA ( англ. Remote Direct Memory Access) - група протоколів віддаленого прямого доступу до пам'яті, при якому передача даних з пам'яті одного комп'ютера в пам'ять іншого комп'ютера відбувається без участі операційної системи, при цьому виключається участь CPU в обробці коду перенесення і необхідність пересилання даних з пам'яті програми в буферну область ОС, то є дані пересилаються безпосередньо на відповідний мережевий контролер.

  • uDAPL ( англ. User Direct Access Programming Library) - бібліотека API для абстрактного транспорту прямого доступу ( англ. Direct Access Transport, DAT). uDAPL (та інші API - зокрема kDAPL - kernel DAPL) розробляється та підтримується організацією DAT Collaborative .

  • IPoIB (IP over Infiniband) - група протоколів, що описують передачу IP-пакетів поверх Infiniband:

  • RFC 4390 Dynamic Host Configuration Protocol (DHCP) over InfiniBand

  • RFC 4391 Transmission of IP over InfiniBand (IPoIB)

  • RFC 4392 IP over InfiniBand (IPoIB) Architecture

  • SRP ( англ. SCSI RDMA Protocol) - протокол обміну даними між SCSI -пристроями з використанням RDMA . Визначено в стандарті ANSI INCITS 365-2002.

  • DDP ( англ. Direct Data Placement): RFC 4296 The Architecture of Direct Data Placement (DDP) and Remote Direct Memory Access (RDMA) on Internet Protocols

  • SDP ( англ. Socket Direct Protocol) - протокол встановлення віртуальних з'єднань і обміну даними між сокетами поверх Infiniband, передача даних не використовує TCP стек ОС, проте використовує IP-адреси і може використовувати IPoIB для їх вирішення.

Характеристики

  • Виробники: найбільш поширені апаратні рішення від компаній Qlogic , Mellanox , Voltaire , Topspin (компанія Topspin була придбана компанією Cisco в 2005-му році).

  • Тести виробників показують пропускну здатність на рівні MPI порядку одиниць і десятків сотень МБ / сек і час передачі коротких повідомлень порядку 1-7 мкс.

  • Топологія: комутована з використанням Fat Tree для великих конфігурацій, існуючі комутатори підтримують велику кількість (> 256) портів .

  • Програмне забезпечення: драйвери від виробників апаратних засобів, різні бібліотеки MPI як комерційні так і відкриті.

  • Корпорацією Oracle Corporation був розроблений спеціальний протокол RDS , орієнтований на роботу з цією шиною.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]