Сбои от воздействия одиночных ионизирующих частиц являются одной из проблем при обеспечении надежного функционирования интегральных микросхем (ИМС) с проектными нормами менее ста нанометров как при специальных внешних воздействиях (актуальных в аэрокосмической отрасли, атомной энергетике, физике высоких энергий, медицинской физике и т.д.), так и в обычных условиях. Основной причиной сбоев в обычных условиях являются альфа-частицы (из материала корпуса ИМС или как часть естественного радиационного фона Земли), уязвимость к которым возрастает по мере уменьшения проектных норм и является актуальной проблемой для ИМС, выполненных по суб-100 нм технологиям, в том числе для многопроцессорных серверов, характеризующихся одновременно большими чувствительными объемами и серьезными последствиями вычислительных ошибок [1].
Аппаратные методы борьбы с одиночными сбоями можно разделить на две группы. К первой, более распространенной, относятся методы, позволяющие обеспечить исправление ошибки и корректное выполнение программы; ко второй группе относятся методы предотвращения возникновения сбоев непосредственно в элементах ИМС. Программные способы борьбы со сбоями включают периодическое обновление кэш-памяти с целью предотвращения накопления сбоев, а также перезапуск отдельных частей выполняемой программы по приходящим от блоков защиты ИМС прерываниям.
Наиболее распространенные методы аппаратной коррекции одиночных сбоев – различные варианты помехоустойчивого кодирования (Error-Correcting Codes, ECC) и резервирования. Применение кодирования удобно для защиты больших массивов данных и регулярных структур (оперативная память, многоразрядные шины передачи данных и т.д.). В современных микропроцессорах ведущих производителей ECC применяется во всех важных блоках – кэш-памяти всех уровней, внутренних шинах и в блоках ввода-вывода. Для нерегулярных структур и вычислительных схем используется аппаратное троирование (мажорирование) или другие системы контроля правильности работы, например, проверка логической стойкости. Основные недостатки подобных методов – увеличение количества используемых ИМС (или площади кристалла в случае реализации мажорированной схемы в качестве системы на кристалле) и связанный с ним значительный рост стоимости, а также уязвимость к сбоям кодеров/декодеров, которые нужно защищать дополнительно.
Альтернативой мажорированию являются активно развивающиеся конструктивно-схемотехнические методы увеличения сбоеустойчивости (Radiation Hardening by Design, RHBD) [2]. Эти методы позволяют избежать полного дублирования или троирования блоков ИМС и значительно уменьшить площадь кристалла, а их применение дает возможность спроектировать как сбоеустойчивый микропроцессор, так и заказную ИМС для решения любой конкретной задачи на базе доступной коммерческой технологии. Известный уровень сбоеустойчивости, необходимый для решения конкретной задачи, позволяет определить требования по защите отдельных блоков и повысить сбоеустойчивость наиболее уязвимых и/или наиболее важных для стабильного функционирования ИМС узлов. Кроме того, существуют широкие классы задач, требующие сходных уровней сбоеустойчивости (например, задачи защиты ИМС от протонов и нейтронов, актуальные для космических и авиационных применений, а на земной поверхности – для серверных процессоров).
Упрощенно механизм сбоя в элементе ИМС можно представить следующим образом: при пролете ионизирующей частицы через активную область образуются электронно-дырочные пары и возникает импульс тока, способный вызвать изменение состояния запоминающего элемента или ложное переключение комбинационной схемы – одиночный сбой. Основной характеристический параметр подобных взаимодействий – пороговая линейная передача энергии (ЛПЭ) частицы, традиционно измеряемая в МэВ/(г/см2), однако для моделирования удобнее применять критический заряд сбоя, непосредственно связанный с пороговой ЛПЭ, но определяемый другим образом. Критический заряд сбоя естественным образом определяется для запоминающих элементов, имеющих два устойчивых состояния, в то время как для комбинационных схем необходим критерий сбоя (который обычно является переходным процессом небольшой длительности, но может меняться в зависимости от специфики схемы).
Существует значительное количество схемных и конструктивных решений элементов ИМС с повышенной сбоеустойчивостью, например, схема Dual Interlocked Cell (DICE) или применяемые в малопотребляющих схемах элементы на каскодных ключах (Cascode Voltage Switch, CVS) [3]. Основным недостатком специализированных решений является значительный рост площади кристалла и энергопотребления при избыточных для многих применений показателях сбоеустойчивости.
Наиболее распространенные варианты моделирования одиночных сбоев в элементах ИМС (рис. 1) – это моделирование в приборно-технологическом САПР, моделирование на транзисторном уровне и смешанное моделирование (с использованием компактных моделей или интеграции приборно-технологического и транзисторного моделирования) [4].
Первый вариант является наиболее распространенным. Главное достоинство приборно-технологического САПР – наибольшая точность моделирования, основной недостаток – большие затраты времени и аппаратных ресурсов, особенно в задачах, связанных с параметрическим анализом. Моделирование в приборно-технологическом САПР удобно для исследования различных физических эффектов на транзисторном уровне, но в силу большой ресурсоемкости практически бесполезно при проектировании сложных блоков или библиотек элементов.
Моделирование на транзисторном уровне является самым простым и наименее затратным по времени и ресурсам. При этом частица модели- руется при помощи генератора ионизационного тока, подключаемого к пораженному узлу. Основные недостатки метода – невозможность корректного учета некоторых эффектов из-за особенностей распространенных моделей транзисторов и способов экстракции их параметров, а также значительное количество допущений при представлении ионизирующей частицы в виде генератора тока.
Промежуточные подходы требуют использования в САПР специальной модели транзистора или интеграции разнородных САПР, а также сложной процедуры экстракции параметров моделей. Основное преимущество такого подхода – меньшие затраты времени непосредственно при проектировании и моделировании.
Основные параметры, от которых зависит критический заряд сбоя, – это геометрические размеры транзисторов, напряжение питания и емкость узлов схемы [5]. Изменение этих параметров может позволить существенно увеличить пороговую ЛПЭ сбоев запоминающего элемента, однако при этом необходимо учитывать ограничения, накладываемые необходимостью удовлетворить функциональным параметрам ИМС. Кроме того, критический заряд сбоя может существенно различаться для разных узлов схемы (рис. 2). При этом сбоеустойчивость элемента ИМС и интенсивность сбоев в реальных условиях, как правило, определяются чувствительным узлом с наименьшим критическим зарядом.
Сбоеустойчивость сложных узлов ИМС зависит от большого числа параметров и их соотношений, в связи с чем полноценный параметрический анализ становится чрезмерно ресурсоемким, особенно для схем, сочетающих комбинационную логику с запоминающими элементами, в которых значительно усложняется учет состояния блока в момент попадания ионизирующей частицы. Исходя из предположения, что сбоеустойчивость сложного блока определяется наименее стойким элементом, для анализа сложных блоков предлагается следующий подход: сложный блок разбивается на простые элементы, для которых уровень сбоеустойчивости определяется существенно проще; после этого выявляются наименее стойкие элементы и проводится их оптимизация либо замена на более стойкие аналоги. Известные схемы с повышенной сбоеустойчивостью обычно рассчитаны на уровни 40–60 МэВ/(г/см2) [3] при том, что максимальная ЛПЭ альфа-частиц в кремнии составляет всего несколько единиц МэВ/(г/см2), максимальная ЛПЭ продуктов взаимодействия ИМС с протонами и нейтронами – около 15 МэВ/(г/см2). Таким образом, известные стойкие схемы обеспечивают избыточную сбоеустойчивость при существенном ухудшении таких характеристик, как предельная рабочая частота, энергопотребление и площадь на кристалле. Уровни сбоеустойчивости, необходимые для предотвращения сбоев от альфа-частиц, могут быть достигнуты при помощи модификации и оптимизации параметров стандартных схем.
При анализе простых блоков исследуется чувствительность критического заряда сбоя к изменению основных параметров, после чего проводится многопараметрическая оптимизация. Уменьшение числа значимых параметров для оптимизации позволяет значительно упростить и ускорить параметрический анализ. Дополнительными условиями оптимизации выступают требуемые функциональные параметры блока. На рисунке 3 показано сравнение стандартного и оптимизированного инверторов.
Из рисунка видно, что коррекция размеров транзисторов позволяет погасить вызванный попаданием ионизирующей частицы переходный процесс при прохождении через небольшое число последовательно включенных каскадов комбинационной схемы, что важно, например, для таких приложений, как дерево тактовых сигналов.
На рисунке 4 показаны экспериментально полученные показатели сбоеустойчивости стандартного и оптимизированного блоков статической памяти. Видно, что пороговая ЛПЭ оптимизированного блока примерно на 50 % превышает аналогичный показатель стандартного блока памяти при сравнимых быстродействии и занимаемой площади.
Предложенный подход к исследованию и моделированию одиночных сбоев, а также к оптимизации параметров элементов ИМС позволяет обеспечить необходимые для ряда применений (в том числе для обеспечения стойкости глубоко субмикронных ИМС к воздействию альфа-частиц) уровни сбоеустойчивости без применения схем с внутренней избыточностью (и связанного с ними ухудшения функциональных характеристик), а также без усложнения программного обеспечения.
Литература
1. Осипенко П.Н. Одиночные сбои – вызов для современных микропроцессоров // Электронные компоненты. 2009. № 7.
2. Kerns S. Hardening at the Design Level // Second European Conference on Radiation and its Effects on Components and Systems (RADECS), 1993.
3. Mukherjee S. Architecture Design for Soft Errors // Elsevier. 2008. 337 р.
4. Makihara A. [et. al.]. New SET Characterization Technique Using SPICE for Fully Depleted CMOS/SOI Digital Circuitry // IEEE Transactions on Nuclear Science. 2008. Vol. 55. № 6.
5. Шунков В.Е. [и др.]. Радиационно-ориентированная оптимизация параметров ячейки статической памяти // ВАНТ. 2009. Вып. 1.