Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Advanced RISC Machines.doc
Скачиваний:
35
Добавлен:
01.05.2014
Размер:
912.9 Кб
Скачать

Технические характеристики приборов семейства arm9e

Ядро CPU

Занимаемая площадь

Количество вентилей (тыс.)

Тактовая частота

Производительность, удельная

ARM9E 5-уровневый конвейер, интерфейс Гарвардской шины, ARM RISC ядро с Thumb и EmbeddedICE, одноцикловый MAC 32x16

2,7 мм2 при 0,25 мкм

75

160 МГц при CMOS 0,25 мкм >200 МГц при CMOS 0,18 мкм

1,1 MIPS/МГц 1,1 MMAC/МГц

    (характеристики предварительные)

Макроядро

Ядро CPU

Наличие кэш

Количество вентилей (тыс.)

Тактовая частота

Производительность, удельная

ARM946E кэшированное процессорное макроядро

ARM9E

4 варианта емкости

150 (без RAM)

160 МГц при CMOS 0,25 мкм >200 МГц при CMOS 0,18 мкм

1,1 MIPS/МГц 1,1 MMAC/МГц

ARM966E процессорное макроядро с тесной связью с памятью

ARM9E

нет

90 -100 (без RAM)

160 МГц при CMOS 0,25 мкм >200 МГц при CMOS 0,18 мкм

1,1 MIPS/МГц 1,1 MMAC/МГц

    Первые реализации макроядер процессоров ARM946E и ARM966E поставляются как синтезируемый RTL код, обеспечивающий быстрый переход к технологиям с различными топологическими нормами и таким новым технологиям как кремний-на-изоляторе. Синтезируемый код позволяет также использовать стандартный поток проектирования ASIC, способствующий сокращению " времени выхода на рынок ".

    Кремниевые партнеры фирмы ARM рассчитывают выпустить первые приборы на базе новых макроядер где-то в первом квартале 2000 года. В частности, в августе 1999 года первую лицензию на использование макроядер ARM946E и ARM966E приобрела фирма LSI Logic.

Семейство arm10 Thumb

    Всего через год после обнародования сведений о разработке процессоров семейства ARM9 Thumb были обнародованы (октябрь 1998 года) сведения о разработке процессоров нового еще более производительного семейства - семейства ARM10 Thumb, обеспечивающего производительность свыше 400 MIPS. Однако главной, пожалуй, особенностью нового семейства нужно считать наличие векторного сопроцессора вычислений с плавающей точкой, явного свидетельства современной тенденции к объединению в одном приборе управляющих целочисленных процессоров и процессоров цифровой обработки сигналов. Другим подтверждением этой тенденции являются процессоры ARM9E, о которых говорилось выше и о разработке которых фирмой ARM сообщила в августе 1999 года.

    Хотя сведения о процессорах семейства ARM10 Thumb были обнародованы еще в конце 1998 года, эти сведения нельзя считать окончательными, поскольку, как это отмечает фирма ARM, еще продолжаются.

    В основе процессоров семейства ARM10 Thumb целочисленное ядро ARM10TDMI(TM), использующее ARM® 32-разрядную RISC систему команд, сжатую 16-разрядную систему команд Thumb и расширенные Multi-ICE средства отладки программного обеспечения. Ядро процессора ARM10TDMI - первая реализация ARMV5T Архитектуры Системы команд (Instruction Set Architecture - ISA). Архитектура ARMV5T - некоторая комбинация архитектуры ARMV4 ISA, используемой StrongARM процессорами (о них разговор еще впереди), и ARMV4T ISA используемой процессорами семейств ARM7 Thumb и ARM9 Thumb.

    Ядро ARM10TDMI оснащено пятиуровневым конвейером, реализует параллельное выполнение команд, предсказание переходов и способно продолжать работу при неудачном обращении к кэш, обеспечивая высокую производительность в реальных применениях. Блок-схема конвейера ядра ARM10TDMI представлена на Рис. 6.

Рис. 6. Блок-схема конвейера ядра ARM10T

    Уровни конвейера целочисленного процессора ARM10TDMI.

F:

Выборка команды и предсказание перехода

D:

Декодирование команды и чтение регистра

E:

Выполнение (Сдвиг и ALU), вычисление адреса и умножение

M:

Обращение к памяти и умножение

W:

Запись в регистры

    Процессор ARM10T обеспечивает производительность 400 Dhrystone 2.1 MIPS на частоте 300 МГц, а векторное устройство операций с плавающей точкой, обеспечивает производительность 600 MFLOPS. Такие уровни целочисленной и с плавающей точкой производительности необходимы для применений, оснащенных сложными интерфейсами с 2- и 3-мерной графикой, типа игровых видео плееров и высокопроизводительных принтеров, при сохранении доступных потребительских цен.

    Разработанные, для реализации по высокопроизводительной CMOS технологии (0,25 мкм, 0,18 мкм и менее), ядра процессора ARM10T будут предоставляться на лицензионной основе кремниевым партнерам фирмы ARM.

    В настоящее время в семейство входит ARM1020T™ - кэшированное макроядро процессора, сформированное на основе ядра ARM10TDMI и оснащенное встроенными кэш команд и данных емкостью по 32 Кбайт, MMU, поддерживающим виртуальную память с подкачкой страниц по требованию, буфером записи, и широкополосным шинным интерфейсом AMBA, класса "система на кристалле".

Рис. 7. Блок-схема макроядра ARM1020T

    Сопроцессор векторных вычислений с плавающей точкой VFP10 (Vector Floating Point - VFP) интегрируется на тот же кристалл что и процессор ARM1020T в тех применениях, для которых он необходим. Сопроцессор VFP10 - первая реализация новой архитектуры VFPV1 процессоров вычислений с плавающей точкой фирмы ARM. Сопроцессор VFP10 обеспечивает высокопроизводительные IEEE вычисления с плавающей точкой одиночной и двойной точности, занимая на кристалле площадь малого размера и при его реализации был использован RISC подход, заключающийся в том, что простые, наиболее часто используемые операции реализуются в кремнии (аппаратно) а для обработки редких исключительных случаев используются программные решения. Векторные операции хорошо использовать для обеспечения потребностей целевых применений и они обеспечивают существенный параллелизм при простой схемотехнике.

    Векторный характер архитектуры VFP, с одним потоком команд и многими потоками данных (SIMD - single-instruction, multiple-data), позволяет одиночной команде оперировать с множеством элементов данных, что позволяет сразу выполнять многоадресные команды и существенно увеличивает производительность в применениях с интенсивными операциями с плавающей точкой.

    Некоторое представление о сопроцессоре векторных вычислений с плавающей точкой может дать схема конвейера VFP10.

Рис. 8. Блок-схема конвейера VFP10

    В конвейере вычислений с плавающей точкой VFP10 используется два конвейера - пятиуровневый конвейер команд загрузки и памяти и семиуровневый конвейер арифметических команд. Эти конвейеры совместно используют два первых уровня, что ограничивает количество выполняемых команд одной командой, но из-за векторного характера архитектуры VFP в параллель могут быть выполнены команда векторной арифметики и векторной загрузки или команда сохранения.

    Конвейером отслеживаются пять уровней загрузки и хранения. В случае выполнения множественных пересылок уровень памяти конвейера используется многократно для каждого элемента данных. За каждый цикл могут быть перемещены два значения одиночной точности или одно значение двойной точности.

    В семиуровневом арифметическом конвейере первые 3 уровня соответствуют конвейеру ARM, в которых команды принимаются от ARM (выборка, декодирование и выполнение). Команды загрузки и сохранения и команды пересылки данных, остаются зафиксированными в ARM на два следующих цикла, с тем, чтобы передать данные на соответствующем уровне памяти ARM, и записи данных на пятом уровне.

    Малое потребление процессора ARM10 (менее 600 мВт) позволяет приборы с высоким уровнем интеграции размещать в недорогих корпусах, использовать более дешевые компоненты питания, позволяющие отказаться от дорогостоящих средств теплоотвода.

    Специалисты фирмы ARM так излагают основные идеи заложенные в новом семействе процессоров: чтобы отслеживать характер работы и, в зависимости от этого, снижать потребление, разработчики отказались от сложности и дороговизны полностью суперскалярной машины. Необходимый уровень производительности был достигнут за счет использования уникальных особенностей архитектуры ARM, обеспечивающих высокую степень внутреннего параллелизма в единожды созданной машине. Система команд векторных операций с плавающей точкой полностью новая, так что разработчики, проанализировав алгоритмы, необходимые для основных применений, имели возможность создать устройство очень быстрое, применяя возможные кремниевые решения для наиболее часто используемых операций, оставляя на долю программных решений действительно уникальные операции. Еще один уровень сложности был преодолен при разработке интерфейсов кэш и ЗУ, поскольку при высоком быстродействии процессора они оказывают огромное влияние на производительность.