Современные микропроцессоры
| Категория реферата: Рефераты по информатике, программированию
| Теги реферата: банки курсовая работа, доклад на тему язык
| Добавил(а) на сайт: Kas'janenko.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 | Следующая страница реферата
Остальные устройства процессора предназначены для снабжения
конвейеров необходимыми командами и данными. В отличие от процессоров i486
в процессоре Pentium используется раздельная кэш-память команд и данных
емкостью по 8 Кбайт, что обеспечивает независимость обращений. За один такт
из каждой кэш-памяти могут считываться два слова. При этом кэш-память
данных построена на принципах двухкратного расслоения, что обеспечивает
одновременное считывание двух слов, принадлежащих одной строке кэш-памяти.
Кэш-память команд хранит сразу три копии тегов, что позволяет в одном такте
считывать два командных слова, принадлежащих либо одной строке, либо
смежным строкам для обеспечения попарной выдачи команд, при этом третья
копия тегов используется для организации протокола наблюдения за
когерентностью состояния кэш-памяти. Для повышения эффективности
перезагрузки кэш-памяти в процессоре применяется 64-битовая внешняя шина
данных
В процессоре УЖЕ предусмотрен механизм динамического прогнозирования
направления переходов. С этой целью на кристалле размещена небольшая кэш-
память, которая называется буфером целевых адресов переходов (BTB), и две
независимые пары буферов предварительной выборки команд (по два 32-битовых
буфера на каждый конвейер). Буфер целевых адресов переходов хранит адреса
команд, которые находятся в буферах предварительной выборки. Работа буферов
предварительной выборки организована таким образом, что в каждый момент
времени осуществляется выборка команд только в один из буферов
соответствующей пары. При обнаружении в потоке команд операции перехода
вычисленный адрес перехода сравнивается с адресами, хранящимися в буфере
BTB. В случае совпадения предсказывается, что переход будет выполнен, и
разрешается работа другого буфера предварительной выборки, который начинает
выдавать команды для выполнения в соответствующий конвейер. При
несовпадении считается, что переход выполняться не будет и буфер
предварительной выборки не переключается, продолжая обычный порядок выдачи
команд. Это позволяет избежать простоев конвейеров при правильном прогнозе
направления перехода. Окончательное решение о направлении перехода
естественно принимается на основании анализа кода условия. При неправильно
сделанном прогнозе содержимое конвейеров аннулируется и выдача команд
начинается с необходимого адреса. Неправильный прогноз приводит к
приостановке работы конвейеров на 3-4 такта. Следует отметить, что
возросшая производительность процессора Pentium требовала и соответствующей
организации системы на его основе. Компания Intel разработала и поставляет
все необходимые для этого наборы микросхем. Прежде всего для согласования
скорости с динамической основной памятью необходима кэш-память второго
уровня. Контроллер кэш-памяти 82496 и микросхемы статической памяти 82491
обеспечивают построение такой кэш-памяти объемом 256 Кбайт и работу
процессора без тактов ожидания. Для эффективной организации систем Intel
разработала стандарт на высокопроизводительную локальную шину PCI.
Выпускаются наборы микросхем для построения мощных компьютеров на ее
основе.
Следующим процессором, продолжающим лиию Pentium, был выпущен P6 или
PentiumPro. Он работает с тактовыми частотами 150: 166: 180 и 200 МГц.
PentiumPro обеспечивает полную совместимость с процессорами предыдущих
поколений. Он предназначен главным образом для поддержки
высокопроизводительных 32-битовых вычислений в области САПР, трехмерной
графики и мультимедиа: а также широкого круга коммерческих приложений баз
данных. По результатам испытаний на тестах SPEC (8.58 SPECint95 и 6.48
SPECfp95) процессор PentiumPro по производительности целочисленных операций
в текущий момент времени вышел на третье место в мировой классификации, уступая только 180 МГц HP PA-8000 и 400 МГц DEC Alpha (рис.2.). Для
достижения такой производительности необходимо использование технических
решений, широко применяющихся при построении RISC-процессоров:
Рис.2. выполнение команд не в предписанной программой последовательности, что устраняет во многих случаях приостановку конвейеров из-за ожидания операндов операций; использование методики переименования регистров, позволяющей увеличивать эффективный размер регистрового файла (малое количество регистров - одно из самых узких мест архитектуры x86); расширение суперскалярных возможностей по отношению к процессору Pentium, в котором обеспечивается одновременная выдача только двух команд с достаточно жесткими ограничениями на их комбинации.
Кроме того, в борьбу за новое поколение процессоров x86 включились
компании, ранее занимавшиеся изготовлением Intel-совместимых процессоров.
Это компании Advanced Micro Devices (AMD), Cyrix Corp и NexGen. С точки
зрения микроархитектуры наиболее близок к Pentium процессор М1 компании
Cyrix, который должен появиться на рынке в ближайшее время. Также как и
Pentium он имеет два конвейера и может выполнять до двух команд в одном
такте. Однако в процессоре М1 число случаев, когда операции могут
выполняться попарно, значительно увеличено. Кроме того в нем применяется
методика обходов и ускорения пересылки данных, позволяющая устранить
приостановку конвейеров во многих ситуациях, с которыми не справляется
Pentium. Процессор содержит 32 физических регистра (вместо 8 логических, предусмотренных архитектурой x86) и применяет методику переименования
регистров для устранения зависимостей по данным. Как и Pentium, процессор
M1 для прогнозирования направления перехода использует буфер целевых
адресов перехода емкостью 256 элементов, но кроме того поддерживает
специальный стек возвратов, отслеживающий вызовы процедур и последующие
возвраты.
Процессоры К5 компании AMD и Nx586 компании NexGen используют в корне
другой подход. Основа их процессоров - очень быстрое RISC-ядро, выполняющее
высокорегулярные операции в суперскалярном режиме. Внутренние форматы
команд (ROP у компании AMD и RISC86 у компании NexGen) соответствуют
традиционным системам команд RISC-процессоров. Все команды имеют одинаковую
длину и кодируются в регулярном формате. Обращения к памяти выполняются
специальными командами загрузки и записи. Как известно, архитектура x86
имеет очень сложную для декодирования систему команд. В процессорах K5 и
Nx586 осуществляется аппаратная трансляция команд x86 в команды внутреннего
формата, что дает лучшие условия для распараллеливания вычислений. В
процессоре К5 имеются 40, а в процессоре Nx586 22 физических регистра, которые реализуют методику переименования. В процессоре К5 информация, необходимая для прогнозирования направления перехода, записывается прямо в
кэш команд и хранится вместе с каждой строкой кэш-памяти. В процессоре
Nx586 для этих целей используется кэш-память адресов переходов на 96
элементов.
Таким образом, компания Intel не обладает монополией на методы
конструирования высокопроизводительных процессоров x86. Следует отметить, что сама компания Intel заключила стратегическое соглашение с компанией
Hewlett-Packard на разработку следующего поколения микропроцессоров, в
которых архитектура x86 будет сочетаться с архитектурой очень длинного
командного слова (VLIW –архитектурой.
А теперь мы плавненько перейдем на Pentium II.
Для компаний Intel и Hewlett-Packard не существовало "проблемы 2000
года" - для них это был год новых возможностей. В конце 1999 года Intel
представила Merced - первый процессор, построенный с использованием
архитектуры нового поколения, совместно разработанной двумя компаниями.
Хотя эта 64-разрядная архитектура основана на многолетних исследованиях
Intel, HP, других компаний и университетов, она радикально отличается от
всего, что было представлено на рынке до нее.
Эта архитектура, известная под названием Intel Architecture-64 (IA-
64), полностью "порвала с прошлым". IA-64 не является как 64-разрядным
расширением 32-разрядной архитектуры х86 компании Intel, так и переработкой
64-разрядной архитектуры PA-RISC компании HP. IA-64 представляет собой
нечто абсолютно новое - передовую архитектуру, использующую длинные слова
команд (long instruction words -- LIW), предикаты команд (instruction
predication), устранение ветвлений (branch elimination), предварительную
загрузку данных (speculative loading) и другие ухищрения для того, чтобы
"извлечь больше параллелизма" из кода программ.
По поводу совместимости, стоит заметить, что но в Merced на самом деле существует два режима декодирования команд VLIW и старый CISC. Т.е. программы переключаются в необходимый режим исполнения. В архитектуре х86 были добавлен ряд команд для перехода в новый режим, а также для передачи данных. В IA-64 такие команды есть изначально. Перед тем, как углубиться в технические детали, попробуем понять, почему Intel и HP рискнули пойти на столь кардинальные перемены. Причина сводится к следующему: они считают, что как CISC, так и RISC-архитектуры исчерпали себя.
Небольшой экскурс в прошлое. Архитектура х86 компании Intel - CISC архитектура, появившаяся в 1978 году. В те времена процессоры представляли собой скалярные устройства (то есть могли в каждый момент времени выполнять только одну команду), при этом конвейеров практически не было. Процессоры содержали десятки тысяч транзисторов.
PA-RISC компании HP была разработана в 1986 году, когда технология суперскалярных (с возможностью выполнения нескольких команд одновременно) конвейеров только начала развиваться. Процессоры содержали сотни тысяч транзисторов. В конце 90-х наиболее совершенные процессоры содержали миллионы транзисторов. К моменту начала выпуска Merced компания Intel перешла на 0.18-микронную технологию вместо нынешней 0.25-микронной. Уже первые чипы архитектуры IA-64 содержали десятки миллионов транзисторов.
Проблему ещё осложняет тот факт, что микросхемы памяти не успевают за
тактовой частотой процессоров. Когда Intel разработала архитектуру х86, процессор мог извлекать данные из памяти с такой же скоростью, с какой он
их обрабатывал. Сегодня процессор тратит сотни тактов на ожидание загрузки
данных из памяти, даже несмотря на наличие большой и быстрой кэш-памяти.
Команды в формате IA-64 упакованы по три в 128-битный пакет для быстрейшей
обработки. Обычно это называют "LIW encoding". (Русский аналог подобрать
сложно. Наиболее адекватно, на мой взгляд, перевести как "кодирование в
длинные слова команд".) Однако компания Intel избегает такого названия, заявляя, что с ним связаны "негативные ассоциации" (negative connotation).
По той же причине Intel не любит называть сами команды RISC-подобными (RISC-
like), даже несмотря на то, что они имеют фиксированную длину и
предположительно оптимизированы для исполнения за один такт в ядре, не
нуждающемся в микрокоде. Intel предпочитает называть свою новую LIW-
технологию Explicitly Parallel Instruction Computing или EPIC (Вычисления с
Явной Параллельностью Инструкций, где "явной" означае явно указанной при
трансляции). В любом случае формат команд IA-64 не имеет ничего общего с
х86. Команды х86 могут иметь длину от 8 до 108 бит, и процессор должен
последовательно декодировать каждую команду после определения её границ.
Каждый 128-битный пакет содержит шаблон (template) длиной в несколько бит, помещаемый в него компилятором, который указывает процессору, какие из
команд могут выполняться параллельно. Теперь процессору не нужно будет
анализировать поток команд в процессе выполнения для выявления "скрытого
параллелизма". Вместо этого наличие параллелизма определяет компилятор и
помещает информацию в код программы. Каждая команда (как для целочисленных
вычислений, так и для вычислений с плавающей точкой) содержит три 7-битных
поля регистра общего назначения (РОН). Из этого следует, что процессоры
архитектуры IA-64 содержат 128 целочисленных РОН и 128 регистров для
вычислений с плавающей точкой. Все они доступны программисту и являются
регистрами с произвольным доступом (programmer-visible random-access
registers). По сравнению с процессорами х86, у которых всего восемь
целочисленных РОН и стек глубины 8 для вычислений с плавающей точкой, IA-64
намного "шире" и, соответственно, будет намного реже простаивать из-за
"нехватки регистров".
Компиляторы для IA-64 будут использовать технологию "отмеченных команд"
(predication) для устранения потерь производительности из-за неправильно
предсказанных переходов и необходимости пропуска участков кода после
ветвлений. Когда процессор встречает "отмеченное" ветвление в процессе
выполнения программы, он начинает одновременно выполнять все ветви. После
того, как будет определена "истинная" ветвь, процессор сохраняет
необходимые результаты и сбрасывает остальные.
Компиляторы для IA-64 будут также просматривать исходный код с целью поиска
команд, использующих данные из памяти. Найдя такую команду, они будут
добавлять пару команд - команду предварительной загрузки (speculative
loading) и проверки загрузки (speculative check). Во время выполнения
программы первая из команд загружает данные в память до того, как они
понадобятся программе. Вторая команда проверяет, успешно ли произошла
загрузка, перед тем, как разрешить программе использовать эти данные.
Предварительная загрузка позволяет уменьшить потери производительности из-
за задержек при доступе к памяти, а также повысить параллелизм.
3. Особенности архитектуры Alpha компании DEC
В настоящее время семейство микропроцессоров с архитектурой Alpha
представлено несколькими кристаллами, имеющими различные диапазоны
производительности, работающие с разной тактовой частотой и рассеивающие
разную мощность. Первым на рынке появился 64-разрядный микропроцессор Alpha
(DECchip 21064) . Он представляет собой RISC-процессор в однокристальном
исполнении, в состав которого входят устройства целочисленной и плавающей
арифметики, а также кэш-память емкостью 16 Кб. Кристалл проектировался с
учетом реализации передовых методов увеличения производительности, включая
конвейерную организацию всех функциональных устройств, одновременную выдачу
нескольких команд для выполнения, а также средства организации симметричной
многопроцессорной обработки. В кристалле имеются два регистровых файла по
32 64-битовых регистра: один для целых чисел, второй - для чисел с
плавающей точкой. Для обеспечения совместимости с архитектурами MIPS и VAX
архитектура Alpha поддерживает арифметику с одинарной и двойной точностью
как в соответствии со стандартом IEEE 754, так и в соответствии с
внутренним для компании стандартом арифметики VAX. Самая мощная модель
процессора 21064 работает на частоте 200 МГц. В конце 1993 года появилась
модернизированная версия кристалла - модель 21064А, имеющая на кристалле
кэш-память удвоенного объема и работающая с тактовой частотой 275 МГц.
Затем были выпущены модели 21066 и 21068, оперирующие на частоте 166 и 66
МГц. Отличительной особенностью этой ветви процессоров Alpha является
реализация на кристалле шины PCI. Это существенно упрощает и удешевляет как
проектирование, так и производство компьютеров. Отличительная особенность
модели 21068 - низкая потребляемая мощность (около 8 ватт). Основное
предназначение этих двух новых моделей - персональные компьютеры и
одноплатные ЭВМ. На рисунке 3. представлена блок-схема микропроцессора
21066. Основными компонентами этого процессора являются: кэш-память команд, целочисленное устройство, устройство плавающей точки, устройство выполнения
команд загрузки/записи, кэш-память данных, а также контроллер памяти и
контроллер ввода/вывода.
Рис. 3.
Кэш-память команд представляет собой кэш прямого отображения емкостью
8 Кбайт. Команды, выбираемые из этой кэш-памяти, могут выдаваться попарно
для выполнения в одно из исполнительных устройств. Кэш-память данных
емкостью 8 Кбайт также реализует кэш с прямым отображением. При выполнении
операций записи в память данные одновременно записываются в этот кэш и в
буфер записи. Контроллер памяти или контроллер ввода/вывода шины PCI
обрабатывают все обращения, которые проходят через расположенные на
кристалле кэш-памяти первого уровня. Контроллер памяти прежде всего
проверяет содержимое внешней кэш-памяти второго уровня, которая построена
на принципе прямого отображения и реализует алгоритм отложенного обратного
копирования при выполнении операций записи. При обнаружении промаха
контроллер обращается к основной памяти для перезагрузки соответствующих
строк кэш-памяти. Контроллер ввода/вывода шины PCI обрабатывает весь
трафик, связанный с вводом/выводом. Под управлением центрального процессора
он выполняет операции программируемого ввода/вывода. Трафик прямого доступа
к памяти шины PCI обрабатывается контроллером PCI совместно с контроллером
памяти. При выполнении операций прямого доступа к памяти в режиме чтения и
записи данные не размещаются в кэш-памяти второго уровня. Интерфейсы памяти
и PCI были разработаны специально в расчете на однопроцессорные
конфигурации и не поддерживают реализацию мультипроцессорной архитектуры.
На рисунке 4. показан пример системы, построенной на базе микропроцессора
21066. В представленной конфигурации контроллер памяти выполняет обращения
как к статической памяти, с помощью которой реализована кэш-память второго
уровня, так и к динамической памяти, на которой построена основная память.
Для хранения тегов и данных в кэш-памяти второго уровня используются
кристаллы статическая памяти с одинаковым временем доступа по чтению и
записи.
Рис. 4.
Высокоскоростная шина PCI имеет ряд привлекательных свойств. Помимо
возможности работы с прямым доступом к памяти и программируемым
вводом/выводом она допускает специальные конфигурационные циклы, расширяемость до 64 бит, компоненты, работающие с питающими напряжениями
3.3 и 5 В, а также более быстрое тактирование. Базовая реализация шины PCI
поддерживает мультиплексирование адреса и данных и работает на частоте 33
МГц, обеспечивая максимальную скорость передачи данных 132 Мбайт/с. Шина
PCI непосредственно управляется микропроцессором. На рисунке 4 показаны
некоторые высокоскоростные периферийные устройства: графические адаптеры, контроллеры SCSI и сетевые адаптеры, подключенные непосредственно к шине
PCI. Мостовая микросхема интерфейса ISA позволяет подключить к системе
низкоскоростные устройства типа модема, флопа и т.д. Позже, на смену
процессору пришла его модернизированная версия. Как и его предшественник, новый кристалл Alpha 21066A помимо интерфейса PCI содержит на кристалле
интегрированный контроллер памяти и графический акселератор. Эти
характеристики позволяют значительно снизить стоимость реализации систем, базирующихся на Alpha 21066A, и обеспечивают простой и дешевый доступ к
внешней памяти и периферийным устройствам. Alpha 21066A имеет две
модификации в соответствии с частотой: 100 МГц и 233 МГц. Модель с 233 МГц
обеспечивает производительность 94 и 100 единиц, соответственно, по тестам
SPECint92 и SPECfp92. Микропроцессор Alpha 21164 представляет собой вторую
полностью новую реализацию архитектуры Alpha. Микропроцессор 21164, представленный в сентябре 1994 года, обеспечивает производительность 330 и
500 единиц, соответственно, по шкалам SPECint92 и SPECfp92 или около 1200
MIPS и выполняет до четырех инструкций за такт. На кристалле
микропроцессора 21164 размещено около 9,3 миллиона транзисторов, большинство из которых образуют кэш. Кристалл построен на базе 0.5
микронной КМОП технологии компании DEC. Он собирается в 499-контактные
корпуса PGA (при этом 205 контактов отводятся под разводку питания и земли)
и рассеивает 50 Вт при питающем напряжении 3.3 В на частоте 300 МГц.
Переход в 1996 году на 0.35 микронную КМОП технологию привел к возможности
дальнейшего увеличения тактовой частоты и производительности процессора.
Процессоры 21164 выпускались с тактовой частотой 366 МГц (11.3 SPECint95,
15.4 SPECfp95) и 433 МГц (13.3 SPECint95, 18.3 SPECfp95). В конце 1996 года
начались массовые поставки 21164 с тактовой частотой 500 МГц (15.4
SPECint95, 21.1 SPECfp95). Таким образом, в 1996г. компания DEC имела самые
мощные процессоры, пиковая производительность которых составляла 2
миллиарда операций в секунду.
Ключевыми моментами для реализации высокой производительности
является суперскалярный режим работы процессора, обеспечивающий выдачу для
выполнения до четырех команд в каждом такте, высокопроизводительная
неблокируемая подсистема памяти с быстродействующей кэш-памятью первого
уровня, большая, размещенная на кристалле, кэш-память второго уровня и
уменьшенная задержка выполнения операций во всех функциональных
устройствах. На рисунке 5 представлена блок-схема процессора, который
включает пять функциональных устройств: устройство управления потоком
команд (IBOX), целочисленное устройство (EBOX), устройство плавающей точки
(FBOX), устройство управления памятью (MBOX) и устройство управления кэш-
памятью и интерфейсом шины (CBOX). На рисунке также показаны три
расположенных на кристалле кэш-памяти. Кэш-память команд и кэш-память
данных представляют собой первичные кэши, реализующие прямое отображение.
Множественно-ассоциативная кэш-память второго уровня предназначена для
хранения команд и данных. Длина конвейеров процессора 21164 варьируется от
7 ступеней для выполнения целочисленных команд и 9 ступеней для реализации
команд с плавающей точкой до 12 ступеней при выполнении команд обращения к
памяти в пределах кристалла и переменного числа ступеней при выполнении
команд обращения к памяти за пределами кристалла. Устройство управления
потоком команд осуществляет выборку и декодирование команд из кэша команд и
направляет их для выполнения в соответствующие исполнительные устройства
после разрешения всех конфликтов по регистрам и функциональным устройствам.
Оно управляет выполнением программы и всеми аспектами обработки
исключительных ситуаций, ловушек и прерываний. Кроме того, оно обеспечивает
управление всеми исполнительными устройствами, контролируя все цепи обхода
данных и записи в регистровый файл. Устройство управления содержит 8 Кбайт
кэш команд, схемы предварительной выборки команд и связанный с ними буфер
перезагрузки, схемы прогнозирования направления условных переходов и буфер
преобразования адресов команд (ITB). Целочисленное исполнительное
устройство выполняет целочисленные команды, вычисляет виртуальные адреса
для всех команд загрузки и записи, выполняет целочисленные команды
условного перехода и все другие команды управления. Оно включает в себя
регистровый файл и несколько функциональных устройств, расположенных на
четырех ступенях двух параллельных конвейеров. Первый конвейер содержит
сумматор, устройство логических операций, сдвигатель и умножитель. Второй
конвейер содержит сумматор, устройство логических операций и устройство
выполнения команд управления.
Рис. 5.
Устройство плавающей точки состоит из двух конвейерных исполнительных
устройств: конвейера сложения, который выполняет все команды плавающей
точки, за исключением команд умножения, и конвейер умножения, который
выполняет команды умножения с плавающей точкой. Два специальных конвейера
загрузки и один конвейер записи данных позволяют командам загрузки/записи
выполняться параллельно с выполнением операций с плавающей точкой.
Аппаратно поддерживаются все режимы округления, предусмотренные стандартами
IEEE и VAX.
Устройство управления памятью выполняет все команды загрузки, записи
и барьерные операции синхронизации. Оно содержит полностью ассоциативный 64-
строчный буфер преобразования адресов (DTB), 8 Кбайт кэш-память данных с
прямым отображением, файл адресов промахов и буфер записи. Длина строки в
кэше данных равна 32 байтам, он имеет два порта по чтению и реализован по
принципу сквозной записи. Он индексируется разрядами физического адреса и в
тегах хранятся физические адреса. В устройство управления памятью в каждом
такте может поступать до двух виртуальных адресов из целочисленного
устройства. DTB также имеет два порта, поэтому он может одновременно
выполнять преобразование двух виртуальных адресов в физические. Команды
загрузки обращаются к кэшу данных и возвращают результат в регистровый файл
в случае попадания. При этом задержка составляет два такта. В случае
промаха физические адреса направляются в файл адресов промахов, где они
буферизуются и ожидают завершения обращения к кэш-памяти второго уровня.
Команды записи записывают данные в кэш данных в случае попадания и всегда
помещают данные в буфер записи, где они ожидают обращения к кэш-памяти
второго уровня. Отличительной особенностью микропроцессора 21164 является
размещение на кристалле вторичного трехканального множественно-
ассоциативного кэша, емкостью 96 Кбайт. Вторичный кэш резко снижает
количество обращений к внешней шине микропроцессора. Кроме вторичного кэша
на кристалле поддерживается работа с внешним кэшем третьего уровня.
Сочетание большого количества вычислительных устройств, более быстрого выполнения операций с плавающей точкой (четыре такта вместо шести), более быстрого доступа к первичному кэшу (два такта вместо трех) обеспечивала этому микропроцессору рекордную по тем временам производительности.
Рекомендуем скачать другие рефераты по теме: республика реферат, решебники за 8 класс.
Категории:
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 | Следующая страница реферата