Более пристальный взгляд на новейшие процессоры ARM Cortex-A75 и Cortex-A55
ARM недавно представила свои ядра ЦП следующего поколения, Cortex-A75 и Cortex-A55, которые являются первыми процессорами, поддерживающими также новую многоядерную технологию DynamIQ. A75 является преемником высокопроизводительных ARM A73 и A72, а новый Cortex-A55 является более энергоэффективной заменой популярного Cortex-A53.
Читать дальше: руководство по процессорам Exynos от Samsung
Cortex-A75
Начиная с Cortex-A75, этот ЦП больше вдохновлен Cortex-A73, чем его прямым обновлением. ARM заявляет, что на этот раз произошло гораздо большее количество изменений микроархитектуры по сравнению с введением A73 или даже переходом с A57 на A72.
В результате ARM улучшила производительность по всем направлениям, что привело к типичному увеличению однопоточной производительности на 22% по сравнению с Cortex-A73 на том же узле процесса и при работе с той же частотой. В частности, ARM указывает на 33-процентный прирост производительности с плавающей запятой и NEON, а пропускная способность памяти – на 16 процентов.
Что касается тактовой частоты, Corex-A75, вероятно, достигнет максимальной частоты 3 ГГц на 10 нм, но может быть немного увеличен в будущих конструкциях 7 нм. ARM заявляет, что при той же рабочей нагрузке A75 не будет потреблять больше энергии, чем A73, но его можно увеличить, если требуется дополнительная производительность, за счет некоторого дополнительного потребления энергии. Хотя в мобильных реализациях мы вряд ли увидим, что производители SoC увеличивают энергопотребление выше, чем они уже делают.
ARM добилась этих улучшений посредством ряда серьезных изменений в микроархитектуре. Cortex-A75 перемещает два в трехстороннем суперскалярном дизайне из двухстороннего в Cortex-A73. Это означает, что при определенной рабочей нагрузке Cortex-A75 может выполнять до 3 инструкций параллельно за такт, существенно увеличивая максимальную пропускную способность ядра. A75 может похвастаться 7 исполнительными блоками, двумя загрузочными / сохраненными, двумя NEON и FPU, ветвью и двумя целочисленными ядрами.
Говоря о NEON, ARM также представила специальный механизм переименования для инструкций NEON FPU. Теперь есть поддержка обработки половинной точности FP16, которая предлагает вдвое большую пропускную способность для примеров обработки с ограниченным разрешением, таких как обработка изображений. Также имеется поддержка формата номера продукта с точкой Int8, который предлагает усиление ряда алгоритмов нейронных сетей.
Чтобы обеспечить бесперебойную работу конвейера процессора, работающего с нарушением порядка, ARM приняла 4-полосную выборку инструкций для захвата четырех инструкций за цикл. Теперь процессор также может выполнять одноцикловое декодирование со слиянием команд и микрооперациями. Предиктор ветвления ядра также был настроен, чтобы не отставать от более широких возможностей выполнения вне очереди A75. Тем не менее, он по-прежнему основан на той же конструкции с нулевым циклом, что и A73, в котором используется большой кэш целевого адреса ветви (BTAC) и Micro-BTAC.
Наконец, Cortex-A75 теперь имеет частный кэш L2, который может быть реализован как 256 КБ или 512 КБ, с общим кешем L3, доступным при реализации многоядерного решения DynamIQ, и большая часть данных в этих кэшах будет эксклюзивной. Это изменение приводит к гораздо более низкой задержке при обращении к кеш-памяти L2: с 20 циклов у Cortex-A73 до всего 11 циклов в A75.
Проще говоря, все это означает, что ARM не только повышает производительность A75, позволяя выполнять дополнительные инструкции за один цикл, но также разработала микроархитектуру, лучше способную поддерживать ядро, снабжаемое инструкциями. Как мы упоминали в нашем обзоре DynamIQ, Cortex-A75 также реализует новый общий модуль DynamIQ как часть своей конструкции. Это вводит новое хранилище кеша, доступ к периферийным устройствам с малой задержкой, а также возможности точного управления питанием в ядре.
Cortex-A55
Cortex-A55 представляет собой заметную, но менее радикальную переработку конструкции энергоэффективного процессора ARM с рядом важных изменений по сравнению с чрезвычайно популярным ядром Cortex-A53 последнего поколения. Энергоэффективность остается главным приоритетом для этого уровня процессоров ARM, и A55 может похвастаться 15-процентным улучшением энергоэффективности по сравнению с A53. В то же время ARM смогла повысить производительность в два раза в определенных ситуациях, связанных с ограничением памяти, с типичным увеличением производительности на 18 процентов по сравнению с A53, работающим на тех же скоростях и на том же узле процесса.
Диапазон вариантов конфигурации, представленных в Cortex-A55, также делает эту архитектуру ядра ARM наиболее гибкой на сегодняшний день. В целом, по оценкам компании, существует более 3000 различных возможных конфигураций, отчасти из-за дополнительных NEON / FPU, асинхронных мостов и механизмов Crypto, а также настраиваемых размеров кеш-памяти L1, L2 и L3.
A55, как и A53, придерживается безупречного дизайна и короткого 8-ступенчатого конвейера. Таким образом, ожидается, что частоты процессора будут примерно такими же, как и раньше на том же узле, что в настоящее время обеспечивает хороший баланс производительности и эффективности. Таким образом, большинство решений A55, вероятно, будут работать на частоте 2,0 ГГц по 10-нм техпроцессу, но в крайних случаях могут использоваться решения с частотой 2,6 ГГц. Однако такое повышение частоты лишило бы возможности DynamIQ, который позволяет более экономически эффективно реализовать одно большое ядро, где требуется дополнительная производительность. На самом деле, мы можем увидеть, как это НЕБОЛЬШОЕ ядро работает на более низких скоростях для экономии энергии при внедрении в системы DynamIQ.
Что касается изменений микроархитектуры, A55 теперь разделяет канал загрузки / хранения, что позволяет выполнять двойную загрузку и сохранение параллельно. Теперь конвейер может быстрее пересылать инструкции ALU в AGU, уменьшая задержку на 1 цикл для общих операций ALU. ARM также внесла улучшения в средство предварительной выборки, которое теперь может определять более сложные шаблоны кеширования, помимо существующих шаблонов шагов, и может выполнять предварительную выборку в кеши L1 или L3.
Кроме того, предсказатель ветвления с нулевым циклом может похвастаться новой «нейронной сетью» или алгоритмом условного предсказания. Однако это более ограниченный предсказатель ветвлений, чем в Cortex-A75, так как нет смысла создавать огромный предсказатель ветвлений для небольшого упорядоченного ядра конвейера. Вместо этого в новом дизайне ARM используется основной условный предиктор в сочетании с «микропредсказателями», расположенными там, где это необходимо, для точных взаимных предсказаний. Предиктор также был обновлен с новым улучшением прогнозирования завершения цикла. Это должно помочь избежать неправильного прогнозирования завершения программы цикла, чтобы избавиться от небольшой дополнительной производительности.
ARM также произвела ряд более конкретных оптимизаций производительности внутри Cortex-A55. Расширенный 128-битный конвейер NEON теперь может обрабатывать восемь 16-битных операций за цикл с использованием инструкций FP16 или четыре 32-битных операции за цикл при использовании инструкций скалярного произведения. Задержка слитных команд умножения и сложения также сократилась вдвое до четырех циклов. Другими словами, ряд математических операций может выполняться на A55 быстрее, чем на A53, что мы видим по 38-процентному приросту результатов тестов с плавающей запятой и NEON.
Возможно, самый важный прирост производительности Cortex-A55 связан с серьезными изменениями, которые ARM внесла в свою систему памяти. Использование частной кеш-памяти L2, настраиваемой до 256 КБ, снова улучшает способность ядра пропускать кэш-память и снижает задержку для приложений, интенсивно использующих данные. ARM заявляет, что задержка L2 была уменьшена на 50 процентов по сравнению с общей конфигурацией L2, часто используемой с A53, всего до 6 циклов. 4-сторонний ассоциативный кэш L1 также более настраиваемый, на этот раз его размер составляет 16 КБ, 32 КБ или 64 КБ.
В сочетании с общим кешем L3 при использовании с DynamIQ и новым устройством предварительной выборки эти чувствительные к задержке ядра должны лучше снабжаться данными, что позволит лучше использовать их пиковую производительность. Не только это, но и меньшая задержка при обмене данными внутри кластера DynamIQ по сравнению с более высокой задержкой при обмене данными между кластерами, что должно способствовать дальнейшим улучшениям в управлении многоядерными задачами. Опять же, упор при этом изменении был сделан на то, чтобы ядро лучше снабжалось данными.
Cortex-A55 также извлекает выгоду из атрибутов нового общего модуля DynamIQ, в том числе кэширования, доступа к периферийным устройствам с малой задержкой и параметров точного управления питанием.
Заворачивать
Сами по себе Cortex-A75 и Cortex-A55 предлагают заметные улучшения по сравнению с ядрами последнего поколения компании как с точки зрения максимальной производительности, так и с точки зрения энергоэффективности. Даже на текущих вычислительных узлах мы можем ожидать лучшей однопоточной производительности и меньшего потребления энергии для менее требовательных задач, чем современные процессоры A73 / A53 big.LITTLE.
Конечно, оба этих новых чипа также знаменуют собой введение многоядерной технологии ARM DynamIQ, которая дополнительно оптимизирует баланс мощности и производительности, который так важен для мобильных продуктов. Более того, DynamIQ привносит гораздо больше гибкости в таблицу проектирования и позволит, в частности, SoC среднего класса добиться дополнительной производительности с очень небольшими дополнительными затратами. Благодаря отдельным улучшениям, внесенным в A75 и A55, это выглядит как мощная комбинация для будущих смартфонов.
Скорее всего, мы не увидим никаких мобильных продуктов с этими новыми ядрами ЦП на рынке до начала 2018 года, но мы можем увидеть анонсы SoC, основанные на этих продуктах, уже в заключительном квартале этого года.
Источник записи: https://www.androidauthority.com