
Устройства UltraScale+ от компании Xilinx: 16 нм технология и высокая производительность
Развивая поколение 28‑нм технологии, линейка устройств 7‑й серии UltraScale стала первым на рынке полностью программируемым продуктом, выполненным по технологии 20 нм. Спустя некоторое время компания Xilinx представила свое очередное достижение — серию UltraScale+, которая изготовлена уже по 16‑нм технологии, что позволяет разработчику проектировать системы с производительностью на ватт потребляемой мощности, в 2–5 раз превышающей возможности аналогов, реализованных на основе технологии 28 нм. Столь высоких показателей удалось достичь благодаря объединению трех основополагающих технологий, созданных компаниями TSMC и Xilinx, — это технология 16FF+, используемая при изготовлении устройств на транзисторах с вертикальной структурой (16 нм FinFET Plus), а также интегрированная в кристалл память UltraRAM и инновационная технология системного уровня, названная SmartConnect и предназначенная для оптимизации соединений между IP-ядрами.
Компания Xilinx также представила и второе поколение систем-на-кристалле Zynq (англ. MPSoC — Multiprocessor Systems-on-Chip) — мультипроцессоры Zynq UltraScale. Они представляют собой единое устройство, включающее 4‑ядерный процессор ARM Cortex-A53 с 64‑битной архитектурой, 32‑битный сопроцессор реального времени ARM Cortex-R5, графическое ядро ARM Mali‑400MP, 16‑нм логику ПЛИС (FPGA) совместно с UltraRAM, множество доступных периферийных устройств, систем обеспечения повышенной надежности и высокого уровня безопасности, а также инновационную технологию управления питанием. Новые мультипроцессорные системы-на-кристалле Zynq UltraScale+ предоставляют разработчикам все возможности, необходимые для создания решений с производительностью в пересчете на ватт потребляемой мощности, в 5 раз превышающей быстродействие в системах-на-кристалле (англ. SoC — System-of-Cristal) Zynq, выполненных по технологии 28 нм.
Расширение линейки продуктов UltraScale с помощью технологии FinFet
«В линейке UltraScale+, изготовленной по технологии 16 нм, мы предлагаем продукты, которые опережают закон Мура в его традиционном представлении, как бы создавая новый его «полюс», — говорит Дейв Майрон (Dave Myron), старший директор по производству и продвижению продуктов из кремния в компании Xilinx. — Наши продукты предназначены для широкого диапазона приложений нового поколения, таких как расширенные сети LTE Advanced и зарождающиеся 5G беспроводные коммуникации, терабитные проводные сети, современные системы содействия управлению транспортным средством, а также индустриальные системы категории «Интернет вещей» (англ. IoT — Internet-of-Thing). Линейка UltraScale+ поможет создавать инновационные продукты, которые позволят разработчикам опережать своих конкурентов в соответствующей области рынка».
С новым поколением продуктов UltraScale компания Xilinx предлагает устройства, производимые с использованием двух основополагающих технологий: планарная технология 20 нм от компании TSMC и технологии 16 нм FinFet+ от той же компании. Компания Xilinx представит также 16‑нм версии продуктов UltraScale+ семейства Virtex FPGA и микросхем по технологии 3D, ПЛИС (типа FPGA) семейства продуктов Kintex и новые мультипроцессорные системы-на-кристалле Zynq UltraScale+.
Директор по новым продуктам и маркетинговым стратегиям Марк Моран (Mark Moran) говорит, что в 2013 году компания Xilinx решила начать выпуск линейки UltraScale по технологии 20 нм, не ожидая освоения компанией TSMC технологии 16 нм и технологии FinFet+. Это связано с тем, что в отдельных приложениях космической отрасли срочно требовались устройства, выполненные по 20‑нм технологии, которые явно превосходили бы по производительности и пропускной способности продукты, изготовленные по технологии 28 нм, и по срокам выхода на рынок опережали бы изделия с технологией 16 нм как минимум на полтора года.
«Все наши продукты разработаны с учетом запросов рынка, — говорит Моран. — Возможности устройств, произведенных по технологии 20 нм с архитектурой UltraScale, больше подходят для конкретных рынков и тех приложений, которые не требуют уникально высокой производительности на ватт потребления мощности, доступной при использовании архитектуры UltraScale+. Мы применили 20‑нм технологию совместно с FinFet, зная, что вскоре будет реализована и 16‑нм технология. Таким образом, чтобы улучшить производительность и получить конкурентное преимущество на рынке, мы внесли множество архитектурных изменений в технологию 20 нм, которые в дальнейшем сможем применить и в технологии 16 нм. У нас уже есть потребители, приступившие к разработке продуктов с использованием изделий, созданных по технологии 20 нм. Таким образом, когда станут доступными изделия на основе архитектуры UltraScale+ и технологии 16 нм, разработчики смогут в самые короткие сроки перевести свои проекты на эту платформу и, следовательно, быстро выйти на рынок».
Дейв Майрон добавил, что устройства Virtex UltraScale+ будут совместимы по контактам с устройствами Virtex UltraScale, что упростит переработку решений без изменения общей конструкции конечного изделия в тех приложениях, где требуется повышенная производительность в пересчете на ватт потребляемой мощности.
Как утверждает Майрон, «с точки зрения инструментов разработки архитектура UltraScale, предусматривающая технологию 20 нм, выглядит почти полностью идентичной архитектуре UltraScale+, реализующей технологию 16 нм. Таким образом, существуют преимущества при использовании устройств с архитектурой UltraScale+ на основе технологии 16 нм, поскольку улучшенная производительность в пересчете на ватт расходуемой энергии позволяет в этом плане легко достичь поставленных целей».
По словам Майрона, FPGA-микросхемы архитектуры UltraScale+ и микросхемы, сделанные по технологии 3D, более чем вдвое превышают показатель «производительность/Вт» по сравнению с 7‑й серией FPGA-микросхем, созданных по 20‑нм технологии. При этом мультипроцессорные системы-на-кристалле Zynq с архитектурой UltraScale+ с их продвинутыми возможностями разнесения процессов будут иметь показатель производительности на ватт потребляемой мощности, более чем в 5 раз превосходящий аналогичный параметр в предыдущих системах-на-кристалле Zynq, выполненных по технологии 28 нм (рис. 1).

Рис. 1. Произведенные по технологии 16 нм FPGA Xilinx c архитектурой UltraScale+ и мультипроцессорная система-на-кристалле (MPSoC) Zynq UltraScale+ предоставляют разработчикам больше возможностей, открывая для них новые перспективы
Улучшенный показатель «производительность/Вт» при использовании технологии 16 нм с технологией FinFet+ компании TSMC
Благодаря переходу на технологии 16 нм и FinFet компания Xilinx смогла значительно усовершенствовать выпускаемые ею устройства. По словам Майрона, данный переход оказался весьма эффективным, поскольку позволяет устранить потери энергии в транзисторах, традиционно присутствовавшие при планарной технологии. Для того чтобы реализовать все новые возможности, компания Xilinx тесно сотрудничала с компанией TSMC над усовершенствованием устройств UltraScale+. Архитектура UltraScale+ (при использовании только лишь преимуществ новой технологии) дает как минимум в два раза больший прирост показателя «производительность/Вт» по сравнению с устройствами 7‑й серии, изготовленными по технологии 28 нм.
Детальное описание архитектуры 20 нм UltraScale от Xilinx и преимущества технологии FinFET по сравнению с планарной технологией приведены в статье, опубликованной в журнале Xcell Journal, выпуск 84.
В семействе UltraScale+ Xilinx также предлагает первые в индустрии устройства по технологии 3D-on-3D (3D-структура на 3D-структуре), которые совмещают технологию трехмерных (3D) межсоединений слоев микросхемы и технологию производства транзисторов с вертикальной FinFET-структурой, изготовленных в соответствии с 16‑нм техпроцессом.
По словам Майрона, 7‑я серия устройств, использующих технологию 3D, преодолевает ограничения, налагаемые законом Мура, путем реализации многослойных структур в пределах одной микросхемы.
«Используя многослойные 3D-технологии при изготовлении микросхем, мы смогли преодолеть предел производительности, налагаемый законом Мура, предлагая устройства, которые в два раза эффективнее самых крупных монолитных FPGA-микросхем, выполненных по технологии 28 нм. При этом в первом устройстве с разнесенной структурой мы смогли объединить слой размещения FPGA со слоем, представляющим собой высокоскоростной передатчик, что позволило предложить потребителю систему с производительностью и полосой пропускания, недостижимой ранее при использовании технологии 28 нм для монолитной структуры. С архитектурой UltraScale+ и технологией 3D мы будем и далее увеличивать пропускную способность и производительность, выходящую за пределы кривой закона Мура», — говорит Дейв Майрон.
Увеличение показателя «производительность/Вт» при использовании устройств UltraRAM
По мнению Майрона, во многих в устройствах, реализующих архитектуру UltraScale+, прирост производительности на ватт потребляемой мощности в сравнении с устройствами, изготавливаемыми по технологии 28 нм, был достигнут благодаря использованию встроенной в чип памяти UltraRAM, внедренной компанией Xilinx в большинство продуктов с архитектурой UltraScale+.
«Сейчас мы являемся свидетелями того, как увеличивается разрыв между памятью, встраиваемой вовнутрь чипа, такой как выполненная на LUT распределенная RAM и блочная память Block RAM, и памятью, используемой вне чипа, такой как DDR или внешняя SRAM. Существует множество приложений с высокой вычислительной нагрузкой на процессор, которые требуют различных типов памяти. В особенности при проектировании больших, сложных приложений возникает потребность в быстрой памяти, однако встроенная в чип Block RAM слишком фрагментирована и ее чересчур мало, а использование внешней памяти повышает потребление энергии, усложняет процесс ввода/вывода и увеличивает стоимость конечного изделия».
Таковы основные причины, по которым компания Xilinx создала UltraRAM. «Мы добавили новый уровень к существующим типам встроенной памяти совместно с возможностью простой реализации больших блоков памяти в разработках. Мы сделали этот процесс простым, внедрив в чип достаточный объем памяти и обеспечив надежное распределение интервалов времени (тайминг)».
LUT, или распределенная RAM, позволяет разработчикам добавлять в проекты память, исчисляемую битами и килобитами, а блочная RAM дает им возможность добавить блоки памяти, насчитывающие уже десятки мегабит. Память типа UltraRAM поможет разработчикам в устройствах с архитектурой UltraScale+ реализовать встроенную в чип SRAM блоками, исчисляемыми сотнями мегабит (рис. 2). Применив эту память, разработчик имеет возможность создавать высокопроизводительные и энергоэффективные системы, которые требуют меньше внешней памяти (SRAM, RLDRAM и TKAM). Как результат — сокращается конечная стоимость изделия. Самое старшее изделие с архитектурой UltraScale+ — VU13P будет иметь 432 Мбит памяти типа UltraRAM.

Рис. 2. Технология UltraRAM устраняет разрыв между памятью внутри и вне чипа, позволяя разработчикам создавать высокотехнологичные и энергоэффективные системы с большим объемом памяти непосредственно внутри чипа
Рост производительности в пересчете на ватт при использовании технологии SmartConnect
Дополнительный прирост производительности в пересчете на ватт в изделиях, основанных на архитектуре UltraScale+, дает еще одна новая технология, называемая SmartConnect.
«Технология SmartConnect — это продукт совместного использования инструментов и аппаратной части, позволяющий в простой форме реализовывать даже самые сложные разработки», — говорит Дейв Майрон.
Как считает Майрон, чем больше инженеры стараются использовать IP-блоков в своих разработках, тем больше возникает накладных расходов в виде повышения требований к питанию и занимаемой площади. С помощью технологии SmartConnect, компания Xilinx оптимизировала програм-мный продукт Vivado Design Suite, который может быть применен для всей разработки начиная с системного уровня. Технология SmartConnect предлагает самую эффективную топологию соединения IP-ядер при минимальной занимаемой площади и максимальной производительности, эффективно используя все новые возможности при формировании AXI-соединений в архитектуре UltraScale+ с технологией 16 нм.
«Устройства с архитектурой UltraScale+, изготовленные по технологии 16 нм, будут иметь улучшенную эффективность на высшем уровне протоколов, а не только на уровне рутинных операций. Это значит, что помимо основных преимуществ от использования технологии FinFET+ в сочетании с технологией 16 нм существуют и дополнительные плюсы в производительности на ватт в сетевых приложениях».
На рис. 3 показан реальный проект, который состоит из 8 подсистем обработки видео, каждая из которых взаимодействует с процессором и памятью. По словам Майрона, «может показаться странным, что в реальном проекте, похожем на этот, логика межъядерных соединений потребляет почти половину доступной для разработки площади. Это не только требует дополнительного питания всей системы, но и ограничивает частоту обработки данных. Технология SmartConnect может автоматически перестроить межъядерные соединения блоков и уменьшить потребляемую мощность на 20% при сохранении той же производительности».

Рис. 3. Технология SmartConnect уменьшает на 20% площадь, необходимую для межъядерных соединений, и потребление энергии, сохраняя при этом ту же производительность
Тестирование производительности FPGA UltraScale по технологии 16 нм
Для демонстрации достигнутых повышенных показателей производительности на ватт по отношению к использованию FPGA по 28-нм технологии, на базе FPGA Virtex 7 была реализована 48-портовая беспроводная система передачи данных типа CPRI (англ. CPRI — Common Public Radio Interface, радиоинтерфейса общего пользования) с компрессией и полосой частот, заданными на аппаратном уровне. Потребление мощности от источника питания данной системы составило 56 Вт. Точно такой же проект, с той же производительностью был реализован по технологии 16 нм FPGA Virtex UltraScale+, потребление мощности при этим составило 27 Вт, или на 55% меньше, а производительность системы в пересчете на ватт потребляемой мощности возросла в 2,1 раза. С дополнительными преимуществами от использования технологий UltraRAM и SmartConnect версия Virtex с архитектурой UltraScale+ показывает более чем в 2,7 раза повышенные показатели производительности на ватт по сравнению с FPGA Virtex‑7 по технологии 28 нм и потребляет при этом на 64% меньше энергии.
В аналогичном тесте использовалась PCI-карта для обработки изображений с FPGA Virtex‑7, изготовленная по технологии 28 нм и имеющая потребление мощности 15 Вт. Она показала производительность на уровне 525 операций/с. Для сравнения: в таком же проекте, но реализованном с помощью 16-нм UltraScale, была показана производительность в пересчете на ватт в 2,4 раза выше, а именно 1255 операций/с. Прирост показателя «производительность/Вт», полученный при использовании технологий UltraRAM и SmartConnect в реализации Virtex UltraScale+, более чем в 3,6 раза превысил аналогичный показатель у FPGA Virtex‑7 на основе 28‑нм технологии.
Архитектура UltraScale+ с технологией 16 нм имеет впечатляющие показатели в части производительности на ватт потребляемой мощности, что важно для тех, кому требуется быстрая реализация проектов при неизменном потреблении энергии, или для тех, кому необходимо радикальное уменьшение потребления энергии без снижения показателей общей производительности (рис. 4).

Рис. 4. Архитектура UltraScale+ с технологией 16 нм имеет высокие показатели производительности на ватт потребляемой мощности
Мультипроцессорная система-на-кристалле Zynq UltraScale показывает пятикратный прирост показателя «производительность/Вт»
Хотя компания Xilinx и могла бы реализовать второе поколение систем-на-кристалле, используя технологию 20 нм от TSMC, она все же решила дождаться внедрения компанией TSMC технологии 16 нм с транзисторами FinFET с вертикальной структурой. Мультипроцессорная распределенная система совместно с приростом показателя «производительность/Вт», достигаемого при реализации архитектуры UltraScale по технологии 16 нм, делает мультипроцессорную систему-на-кристалле Zynq UltraScale+ еще более эффективной при использовании ее в качестве основного контроллера проектируемого решения. Устройства на основе 16-нм мультипроцессорной системы-на-кристалле Zynq вносят более чем пятикратный прирост производительности по сравнению с 28‑нм системой-на-кристалле Zynq.
В прошлом году компания Xilinx сделала доступной для потребителй свою модель Right Engines for the Right Tasks («Правильные инструменты для правильных задач») для устройств на базе мультипроцессорной системы-на-кристалле с архитектурой UltraScale, но умолчала о деталях, которые касаются ядра, используемого в мультипроцессорной системе-на-кристалле Zynq UltraScale+. Теперь же компания полностью раскрыла все технические подробности относительно мультипроцессорных систем-на-кристалле Zynq с архитектурой UltraScale+ (рис. 5).
Мультипроцессорные системы на кристалле Zynq UltraScale+, производимые по технологии 16 нм, демонстрируют выдающиеся возможности по обработке данных, которые разработчики могут использовать для проектирования устройств со специфической конфигурацией, тем самым радикально поднимая стоимость конечных изделий.
Несомненно, инновационным решением в первых системах-на-кристалле Zynq, изготавливаемых по технологии 28 нм, было объединение в одном устройстве ARM-ядра и всей программируемой логики. Более чем 3000 межъядерных соединений (работающих с пиковой производительностью 84 Гбит/с) объединяют в одно целое процессорную систему с блоками программируемой логики. Эти плотные соединения между PS и PL обеспечивают производительность, недостижимую при использовании двухчиповой конфигурации, содержащей FPGA, и отдельного ASSP.
Теперь с 16‑нм архитектурой мультипроцессорной системы-на-кристалле UltraScale+ компания Xilinx смогла значительно улучшить производительность при взаимодействии между процессорным ядром и программируемой логикой, используя для работы более 6000 межъядерных соединений, обладающих пиковой пропускной способностью в 500 Гбит/c. «Это делает соединения между процессорным ядром и программируемой логикой внутри Zynq UltraScale+ в 6 раз быстрее, чем это было возможным в Zynq, выполненной по технологии 28 нм. В плане производительности данный показатель оставляет далеко позади двухчиповую архитектуру ASSP-plus-FPGA2», — отмечает Барри Мулинс (Barrie Mullins), директор по продажам и продвижению систем-на-кристалле в компании Xilinx.
По словам Мулинса, центральная часть мультипроцессорной системы-на-кристалле Zynq UltraScale+ — это 64‑битное ядро, представляющее собой двухъядерный процессор ARM Cortex-A53, который дает двойной прирост производительности по сравнению с двумя процессорами Cortex-A9, установленными в системе-на-кристалле Zynq, которая изготавливается по технологии 28 нм. Теперь на уровне приложений доступна аппаратная виртуализация, асимметричная обработка данных и полная поддержка технологии ARM TrustZone, предоставляющая дополнительную защиту.
Компания Xilinx также встроила в мультипроцессорную систему-на-кристалле Zynq UltraScale+ двухъядерный сопроцессор реального времени ARM Cortex-R5, который позволяет вынести специфические задачи за пределы основного процессора. Процессор реального времени гарантирует незамедлительную реакцию системы в тех приложениях, где требуется высокий уровень производительности, безопасности и надежности.
Для обеспечения еще большей производительности при обработке данных мультипроцессорная система-на-кристалле Zynq UltraScale+ содержит и несколько выделенных графических ядер. Встроенное ядро графического ускорителя ARM Mali‑400MP освобождает основной процессор от выполнения задач, связанных с интенсивной обработкой графики. Для компрессии/декомпрессии видео с разрешением 8К4К (15 кадров/с) и 4К2К (60 кадров/с) к графическому ядру и программируемой логике компания Xilinx добавила и улучшенный видеокодек H.265. Ядро реализации DisplayPort предлагает дополнительную разбивку видеоданных на пакеты, что позволяет отказаться от дополнительной микросхемы передатчика.
В мультипроцессорную систему-на-кристалле Zynq UltraScale+ внесены некоторые улучшения и в части функционирования встроенной в чип памяти. Самые производительные устройства в линейке имеют память UltraRAM в дополнение к стандартной Block RAM. При этом вычислительные ядра мультипроцессорной системы-на-кристалле Zynq UltraScale+ одновременно используют кэш первого и второго уровня (L1 и L2).
Кроме того, мультипроцессорная система-на-кристалле Zynq UltraScale+ имеет более широкий 72‑битный интерфейс для подключения памяти DDR (64 бит основных + 8 бит для ECC). Наряду с возможностью использовать объем DRAM до 32 Гбит при наличии памяти DDR4 данный интерфейс обладает скоростью вплоть до 2400 Мбит/с.
Предусмотрена безопасная загрузка, управление ключами и точками входа, а также защита от вмешательства в код — то есть в наличии есть поддержка всех стандартов, которые необходимы для безопасного соединения устройств и приложений контроля соединений. Для этого предназначен выделенный модуль безопасности, имеющийся в мультипроцессорной системе-на-кристалле Zynq UltraScale+, что позволяет добиться уровня безопасности класса устройств военного назначения. Вдобавок ко всему система программируемой логики мультипроцессорной системы-на-кристалле Zynq UltraScale+ содержит и встроенные модули коммуникации для протокола 150G Interlaken, 100 Гбит Ethernet и PCIe Gen4. Встроенное ядро Analog Mixed-Signal (AMS) предназначено для помощи разработчикам осуществлять тестирование их систем с помощью System Monitor.
Расширенный блок обработки, входящий в состав мультипроцессорной системы-на-кристалле Zynq UltraScale+, богатый выбор периферии и модуль программируемой логики, выполненные по технологии 16 нм, позволяют командам разработчиков создавать инновационные продукты с производительностью, в пять раз превышающей производительность систем, выполненных на базе систем-на-кристалле Zynq, изготовленных по технологии 28 нм (рис. 6).

Рис. 6. Расширенный блок обработки, входящий в состав мультипроцессорной системы-на-кристалле Zynq UltraScale+
Весьма маловероятно, что каждое приложение будет использовать все функциональные ядра одновременно. Однако компания Xilinx наделила свою мультипроцессорную систему-на-кристалле Zynq UltraScale+ крайне гибкой системой управления питанием (англ. PMU — power-management unit). Для того чтобы питание получали только те части системы, которые используются в текущий момент, ядро системы PMU позволяет управлять питанием отдельных областей (как грубо, так и точно). Более того, разработчик может запрограммировать ядро для динамического изменения питания таким образом, что питание начнет поступать только для выполнения заданной функции, а затем будет отключено. Блок PMU управляет множеством функций, отвечающих за безопасность и надежность, такими как определение и предотвращение ошибок, безопасный режим работы и защита системы с изоляцией.
Тесты производительности (Benchmark) 16‑нм мультипроцессорной системы-на-кристалле Zynq UltraScale+
Для того чтобы проиллюстрировать показатель «производительность/Вт» для мультипроцессорной системы-на-кристалле Zynq UltraScale+, давайте посмотрим на тесты производительности (Benchmark) для трех наиболее распространенных приложений, в которых используется данное устройство, на рис. 6, цветом здесь обозначена интенсивность вычислительной нагрузки.
Для создания системы видеоконференций, действующей с разрешением 1080p, для обработки видео H.264 инженеры использовали не только систему-на-кристалле Zynq, но и сигнальный процессор (ASSP). С возможностями мультипроцессорной системы-на-кристалле Zynq UltraScale+ разработчики могут уже сейчас реализовать систему для воспроизведения UltraHD-видео с разрешением 4K×2K, используя лишь одну мультипроцессорную систему-на-кристалле Zynq UltraScale+, достигнув при этом производительности в пять раз выше, чем при применении двухчиповой системы, при тех же затратах энергии.
«В таких приложениях, как радиосистемы общественной безопасности (англ. public-safety radio), в которых требуются системы-на-кристалле Zynq в паре с двумя ASSP, используя только одну мультипроцессорную систему на кристалле Zynq UltraScale+, вы можете уже сейчас реализовать все изделие в целом. При этом получите систему, потребляющую на 47% меньше энергии и демонстрирующую в 2,5 раза большую производительность, чем предыдущие конфигурации, что в целом дает увеличение показателя производительность на ватт в 4,8 раза», — говорит Сумит Шах (Sumit Shah), старший менеджер по системам-на-кристалле.
По словам Шаха, в современных системах содействия управлению транспортным средством, оснащенных множеством камер, ранее использованные две системы-на-кристалле Zynq, выполненные по технологии 28 нм, теперь могут быть заменены одной мультипроцессорной системой-на-кристалле Zynq UltraScale+. Однокомпонентная система дает прирост производительности в 2,5 раза по сравнению с системой на двух чипах и потребляет при этом на 50% меньше энергии. Это дает в целом в 5 раз больший показатель «производительность/Вт» по сравнению с предыдущей конфигурацией.
Больше информации о продуктах серии UltraScale можно получить, посетив сайт компании Xilinx: www.xilinx.com/ultrascale. Информацию по мультипроцессорным системам на кристалле Zynq UltraScale+ можно получить по ссылке: www.xilinx.com/products/technology/ultrascale-mpsoc.html.