Покращення терміну експлуатації супутникових вбудованих систем за допомогою датчика температури за допомогою багатоядерного картографування завдань та DVFS

Анотація

1. Вступ

В останнє десятиліття спостерігалося різке зростання космічної галузі; З 2010 по 2015 рік ринок нано/мікросупутників ріс у середньому щорічно на 39%, і очікується, що з 2016 по 2022 рік він буде зростати при річному зростанні 13% [1]. Особливо, попит на малі супутники значно зріс, оскільки космічна галузь перейшла від уряду до приватного ринку. Відповідно до такої зростаючої потреби в невеликих супутниках або космічних місіях, був запроваджений стандарт CubeSat [2] для невеликих супутників вагою близько декількох кілограмів (У стандарті 1 одиниця - це куб 10 см (10 × 10 × 10 см 3) масою не більше 1,33 кг. Супутник може складатися з одного (1U) або декількох кубів (3U, 6U, 12U та 27U).). Хоча спочатку CubeSats були розроблені для навчальних або демонстраційних цілей, їх використання було поширено на більш загальні та вдосконалені місії, включаючи наукові програми, дослідження глибокого космосу тощо [3].

Хоча супутникові системи піддаються екстремальним умовам з точки зору випромінювання та температури, очікується, що вони працюватимуть тривалий час без технічного обслуговування. Більше того, місії, накладені на такі невеликі супутники, з часом стають все більш серйозними. Іншими словами, вимоги до продуктивності або надійності бортового комп'ютера супутникових систем продовжують зростати. Таким чином, типовим є проектування супутникової системи із зміцненими радіацією процесорами [4], які, як правило, мають нижчі показники, ніж звичайні. Для того, щоб одночасно задовольнити вимоги надійності та продуктивності, було запропоновано перенастроюваний обчислювальний підхід із програмованими на місцях воротами (FPGA), де можуть бути включені різні техніки відмовостійкості [5,6,7].

Оскільки CubeSats піддаються багатьом фізичним обмеженням, включаючи обсяг і вагу, важко розгорнути великі батареї або сонячні батареї. Типові CubeSats із встановленими на корпусі сонячними панелями генерують менше 10 Вт, а найсучасніші сонячні панелі, що розгортаються, виробляють 20–30 Вт. Акумулятори, що використовуються в CubeSats, зазвичай зберігають лише 14–30 Вт · год [8]. Наприклад, у SwissCube [9] середня потужність, вироблена від сонячних панелей на орбіту, становить лише 1,5 Вт. Такий обмежений енергетичний бюджет може обмежити продуктивність бортових обчислень. Як задовольнити зростаючий попит на продуктивність та надійність в рамках даного бюджету електроенергії - це проблема.

Надійність - одна з ключових проблем дизайну супутника. Більшість космічних місій вимагають тривалого життя. Загалом супутники з низькою орбітою Землі (LEO), як правило, мають менший очікуваний час життя (5–10 років), ніж супутники геостаціонарної орбіти (GEO) (15 років і більше). Оскільки технічне обслуговування в супутникових системах є фізично неможливим, дуже важливо розробити їх для роботи протягом тривалого терміну служби без будь-яких збоїв. Ефект теплового циклізму (TC), який досвід супутників при екстремальних перепадах температури є однією з основних загроз надійності. Наприклад, у LEO CubeSat (SwissCube) зовнішня температура змінюється від 30 ∘ C до −30 ∘ C, як показано на малюнку 1 [10]. Для того, щоб зберегти систему неушкодженою при сильних зовнішніх перепадах температури, на супутниках високого класу застосовується багато фізичних захистів, включаючи терморегулювання, багатошарову ізоляцію, сонячні екрани, радіатори, теплові труби тощо. Однак для невеликих супутників, таких як CubeSats, важко повністю забезпечити такий фізичний захист через вартість та фізичні обмеження.

Вимірювання температури в SwissCube [10] (BAT: акумулятор, EXT: зовнішній, друкована плата: друкована плата та MB: материнська плата).

У цій роботі, натхненний тим фактом, що більшість малих супутників оснащені датчиками температури, ми намагаємося збільшити термін служби малих супутникових систем, які розроблені з багатоядерними процесорами без фізичного захисту, регулюючи багатоядерну конфігурацію за температури -свідомий спосіб. Наразі більшість методів підвищення надійності намагаються підтримувати робочу температуру якомога нижчою [11,12,13], оскільки загальновідомо, що високі температури призводять до низької надійності. Однак у супутникових системах це може бути не так, оскільки зовнішня температура сильно змінюється, як показано на малюнку 1. Тобто в деяких випадках штучні зусилля щодо зниження температури стружки можуть скоріше мати негативний ефект від збільшення амплітуди ТК.

Для підвищення надійності роботи з урахуванням цього ефекту TC ми пропонуємо розумно відрегулювати відображення навантаження програмного забезпечення на декілька ядер та робочу частоту ядер таким чином, щоб мінімізувати амплітуду TC. Крім того, ми вводимо в систему віртуальне робоче навантаження, якщо для збільшення надійності потрібно витратити більше енергії. Роблячи це, плануваність планування місій супутників та обмеження потужності у реальному часі все одно повинна бути задоволена.

Наші внески можна резюмувати наступним чином:

ми виявляємо аномалію життя, коли нижчі температури призводять до ще гіршого очікуваного терміну життя в супутникових системах;

тоді для пом'якшення ефектів TC, визначених вище, ми пропонуємо техніку відображення/присвоєння частоти для багатоядерних супутникових систем.

У запропонованій техніці ми націлені на супутникові системи, реалізовані поверх однорідної багатоядерної системи, де кожне ядро може мати незалежну конфігурацію частоти/напруги (Хоча багато комерційно доступних багатоядерних платформ підтримують лише модуляцію частоти та напруги кластерного рівня, існують такі гнучкі системи [14] та інші методи підвищення надійності, включаючи [15], також націлені на ту саму архітектуру.). В якості робочого навантаження ми припускаємо, що програмне забезпечення супутників реалізоване як набір періодично викликаних завдань у режимі реального часу. Для того, щоб забезпечити швидку, але точну оцінку температури, ми припускаємо, що час виконання завдання є достатньо довгим, щоб досягти стабільної температури. Ми вважаємо це припущення обґрунтованим завдяки низькому енергоспоживанню супутникових систем. Неточність, яка може бути спричинена цим, проаналізована в розділі 4.4. Для кількісної оцінки надійності системи ми приймаємо модель, запропоновану Xiang et al. [16], де термін служби визначається на основі часового температурного профілю. Розгляд впливу просторових градієнтів температури на надійність залишається майбутньою роботою.

Решта цього документу організована таким чином: У наступному розділі ми обговоримо відповідні роботи та те, чому існуючі методи неефективні в супутникових системах. Розділ 3 кількісно визначає запропоновану проблему із завданнями, архітектурою, моделями потужності/температури та надійності. Розділ 4 описує наш метод для досягнення тривалості надійності багатоядерних вбудованих систем LEO із супутником у три етапи. Оцінки проводяться в моделюванні в Розділі 5, щоб показати, як запропонована техніка покращує надійність протягом усього життя, а потім заключні зауваження та майбутні роботи в Розділі 6.

2. Пов’язана робота

На додаток до ефекту TC, який ми в основному розглядаємо в цій роботі, існують ще три відомі причини відмов в інтегральних схемах CMOS (ІС): електроміграція (ЕМ), залежність від часу діелектричного пробою (TDDB) і міграція напружень (SM) [17]. Кожен із цих механізмів відмов кількісно визначається середнім часом до відмови (MTTF), що є очікуваним терміном служби щодо джерела відмови [18]. Більшість існуючих робіт були зосереджені на кожній із вищезазначених причин окремо, наприклад, EM [18,19,20], TDDB [18,21], SM [18] та TC [18,22]. Оскільки ці причини фізично співіснують у роботі ІС, важливо розглядати їх одночасно. Срінвасан та ін. [23] запропонував модель з урахуванням надійності мікропроцесора (RAMP) з нестабільністю температури негативного зміщення (NBTI) на додаток до чотирьох вищезазначених причин. П'ять різних причин відмов визначаються кількісно з точки зору надійності за допомогою моделі суми відмов (SOFR), в якій передбачається, що кожен механізм відмов пов'язаний з постійною частотою відмов. Сян та ін. [16] запропонував модель надійності на рівні системи з EM, TDDB, SM та TC на основі моделювання Монте-Карло.

Загальновідомо, що високі температури призводять до деградації протягом життя ІС [18,24,25]. Отже, виходячи з простого припущення, що охолоджувальні мікросхеми завжди призводять до кращої надійності, було запропоновано багато методів підвищення надійності для зниження пікової температури без фактичного кількісного визначення очікуваної надійності [11,12,13]. У цих роботах фактична надійність не була кількісно проаналізована, а опосередковано підвищена за рахунок зниження температури.

У цій роботі ми прагнемо максимізувати очікуваний термін служби (MTTF) вбудованих супутникових систем, які працюють в космічному середовищі, де температура динамічно змінюється на надмірну величину, як показано на малюнку 1. Ми сприймаємо це як ключову технічну проблему та пропонуємо багатоядерне картографування завдань та техніку динамічного масштабування напруги та частоти (DVFS), яка відповідає таким змінним умовам навколишньої температури за допомогою датчиків температури.

3. Модель системи

У цьому розділі ми описуємо завдання, архітектуру, моделі потужності/температури та моделі надійності з подальшим визначенням проблеми.

3.1. Модель завдання-архітектура

Ми розглядаємо однорідну багатоядерну систему, яка складається з M ядер, тобто P E = < p e 1, p e 2, ⋯, p e M >, як цільова архітектура. Кожне ядро може працювати на одному з L різних рівнів частоти, тобто F = < f 1, f 2, ⋯, f L >і цей рівень частоти можна модулювати під час виконання. Зауважимо, що ми вважаємо, що F сортується у порядку зростання частоти, тобто, i j, f i f j. Вибір частоти осердя визначається як функція f a: P E → F. Наприклад, коли p e m вирішено експлуатувати при f l, f a (p e m) = f l. Крім того, передбачається, що датчик температури розміщений на кожному сердечнику, таким чином, можна відстежувати температурний профіль кожного сердечника.

Для навантажень на цільовій багатоядерній системі ми розглядаємо незалежний багатозадачний набір, який визначається як W = < τ 1, τ 2, ⋯, τ N >. Кожне завдання періодично викликається із встановленим терміном. Тобто τ n задається кортежем (e x n, p n), де e x n і p n позначають кількість найгірших циклів виконання та період виклику відповідно. Завдання мають неявні терміни, тобто відносний термін кожного виклику τ n дорівнює p n. На додаток до заданого навантаження W, ми пропонуємо вводити набір віртуальних завдань V, якщо необхідно навмисно відводити більше тепла в системі. Аналогічно, віртуальне завдання v i ∈ V також характеризується кількістю найгірших циклів виконання та періодом виклику, тобто (v _ e x i, v _ p i) .

3.2. Модель температури та потужності

Споживання енергії в момент часу t можна охарактеризувати наступним чином:

Зверніть увагу, що ми відстежуємо температуру M сердечників, отже, P (t) є вектором M × 1, а також P a c t (f), P o t h (f) та P l e a k (T (t)). f - вектор частоти M × 1, який вказує поточне присвоєння частоти кожного ядра, тобто f = [f a (p e 1), f a (p e 2), ⋯, f a (p e M)] ′. Аналогічно, U - вектор використання M ядер, тобто U = [u 1, u 2, ⋯, u M] ′. P act (f) - вектор активного споживання енергії, коли всі ядра використовуються на 100% при присвоєнні частоти f, отже, елементне множення U ∘ P act (f) враховує активне споживання енергії системою під поточне навантаження. P o t h (f) - незалежні від використання динамічні вектори енергоспоживання, тоді як P l e a k (T (t)) - це залежні від температури вектори споживання енергії витоку.

Хоча споживання енергії CMOS зазвичай моделюється як просте підсумовування активного та статичного споживання енергії, ми детально розробляємо моделювання залежної від температури статичної потужності, використовуючи P l e a k, оскільки ми націлені на супутникову систему, де температурно-залежні витоки можуть мати вирішальне значення. Насправді потужність витоку стає все більш значущою в ІМС CMOS завдяки масштабуванню технологій, і повідомляється, що вона становить до 40% енергоспоживання сучасних мікропроцесорів [30]. Ми використовуємо одиничну лінійну (PWL) модель витоку, яка, як відомо, є швидкою та високоточною [30,31], наступним чином:

де α та β - M × M та M × 1 коефіцієнта підгонки діагональної матриці/вектора відповідно.

Для оцінки температури ми спираємось на модель теплового RC-ланцюга для багатожильних систем [32], яка базується на подвійності між передачею тепла та електричними явищами. У цій моделі RC-схеми електричний струм та ємність відповідають тепловому потоку через (тепловий) опір та теплопоглинаючу здатність компонента відповідно [33]. У цій моделі температуру певного положення можна легко отримати, оцінивши напругу в ланцюзі. Щоб бути більш конкретним, ми використовуємо таке рівняння для оцінки температурного вектора M × 1 T (t):

У наведеному вище рівнянні С позначає теплову ємність М сердечників, представлених як М × М діагональна матриця. Передача тепла між жилами враховується G, тоді як тепловіддача від сердечників назовні - K. Зауважимо, що і G, і K є матрицями теплопровідності M × M, а K - діагональною матрицею. T a m b - вектор температури M × 1, який позначає температуру навколишнього середовища (середовища), а P (t) - вектор енергоспоживання, сформульований у рівнянні (1).

Рівняння (3) можна спростити наступним чином, використовуючи A = C - 1 · (G + K - α), B = C - 1 · (β ′ + K · T amb) та β ′ = U ∘ P діяти ( f) + інші (f) + β:

Коли система зберігає ту саму конфігурацію, тобто відображення та призначення частоти, протягом досить довгого часу, вона врешті-решт досягне стійкого стану. Стаціонарну температуру можна легко отримати, маючи d T (t) d t = 0 у рівнянні (4). Тобто, стійкий вектор температури T s s можна сформулювати наступним чином

Вирішуючи диференціальне рівняння (4), маємо вектор температури

де T (t 0) - початковий вектор температури.

3.3. Модель надійності

Серед чотирьох механізмів відмов, які ми розглядаємо в цій роботі, EM, TDDB та SM можуть бути змодельовані таким чином у рівняннях (7) - (9) [16]:

Об’єднання цих трьох моделей полягає в тому, що вони сильно залежать від абсолютного градусу температури. Тобто, просто, чим вище у них T, тим меншими є значення MTTF. З іншого боку, ТК демонструє іншу поведінку, оскільки знос ТК в основному обумовлений різницею коефіцієнтів теплового розширення між сусіднім матеріалом. Цей накопичений збиток призводить до постійних несправностей упаковки, припою, з'єднувальних з'єднань та діелектричних матеріалів. Таким чином, у ТС важливо, скільки часових градієнтів температури має система. MTTF завдяки TC може бути змодельований наступним чином [16]:

з p, рівним періоду історії температури. N C i є ефектом циклу i і може бути визначена кількісно за допомогою модифікованого рівняння Коффіна-Менсона з терміном Арреніуса [16] наступним чином:

де ATC - константа встановлення, Δ T - амплітуда циклу, Δ T 0 - частина діапазону температур в еластичній області, E a, TC - енергія активації, k - постійна Больцмана, T max - максимальна температура протягом циклу, а q - постійна показника Коффіна-Менсона, яка залежить від характеристики матеріалу. Зазвичай для крихкого руйнування (Si та діелектрики) q встановлюють значення 6–9, для сплавів твердих металів/інтерметалідів (Al-Au) - 3–5 та для пластичного металу (припій) 1–3 [18]. Варто зазначити, що в механізмі ТС, на відміну від усіх інших, явно розглядається негативний вплив градієнта температури Δ T, що мотивує нашу роботу.

3.4. Визначення проблеми

Проблему, яку ми маємо вирішити в цій роботі, можна узагальнити наступним чином:

Вхідні дані: Враховуючи історію температури друкованої плати LEO CubeSat, як показано на малюнку 1, тобто температуру навколишнього середовища (T a m b), періодичне завдання W, встановлене як робоче навантаження, та моделі потужності та температури, представлені в розділі 3.2.,

Обмеження: дотримуючись обмежень часу для заданих наборів завдань (p i для кожного τ i ∈ W) і не порушуючи заданий бюджет потужності P m a x, тобто ∀ t, ∑ i = 0 M P (t) [i] ≤ P m a x,

Вихід: визначити рішення зіставлення m a p та присвоєння частоти f a та накласти додаткове віртуальне навантаження V та визначити його відображення, якщо це необхідно,

Завдання: з метою максимізації MTTF.

4. Запропонована техніка картографування/DVFS

У цьому розділі ми пропонуємо метод картографування/DVFS для багатоядерних вбудованих систем, представлений у Розділі 3, з урахуванням оптимізації надійності супутників LEO. Найбільш помітною властивістю цільової системи є те, що вони піддаються дії сильно перемінних температурних середовищ, як показано на малюнку 1. Зверніть увагу, що більшість звичайних підходів зазвичай намагаються або мінімізувати споживання енергії, або підтримувати температуру якомога нижчою. Однак у сильно різних температурних умовах такі підходи можуть призвести до значних коливань температури з часом, що, в свою чергу, може негативно вплинути на систему як загрозу надійності.

Ми стверджуємо, що рішення щодо управління температурою повинно бути прийняте з розумом з урахуванням зовнішньої температури, отриманої за допомогою датчика температури. Наприклад, коли температура навколишнього середовища дуже низька, було б навіть краще мати більш високі тактові частоти, ніж це необхідно, щоб навмисно нагріти жили. Це рішення щодо надмірного тактового стану корисне для зменшення амплітуди ТК. З іншого боку, це не завжди можливо або бажано. По-перше, бюджет енергії тепер може дозволити марнотратне перевитрату в деяких випадках. Або, якщо зовнішня температура відносно висока, це може спричинити ще більші теплові градієнти. Важливо також врахувати три інші механізми відмов, а також TC. Отже, не тривіально прийняти оптимальне рішення щодо відображення/DVFS для даної умови.

Хоча цикл обертання супутників LEO є послідовним, максимальна та мінімальна температури в циклі змінюються залежно від сезону. Отже, обчислювально неможливо попередньо обчислити рішення зіставлення/DVFS для всіх можливих умов. Ми пропонуємо гібридне рішення, яке складається з двох кроків в автономному режимі, за якими слідує крок в режимі онлайн, як зазначено на малюнку 2. По-перше, при найвищій температурі циклу обертання початкове відображення/рішення DVFS приймається таким чином, щоб мінімізувати пікову температуру (T t o p). Як отримати це початкове відображення, представлено в розділі 4.1. Тоді, з цього початкового стану, мінімальна температура ТК, що спричиняє найбільше значення MTTF, отримується як температурний поріг (T t h). Ця процедура описана в розділі 4.2. Під час виконання кожного разу, коли цей поріг порушений, тобто температура опускається нижче похідного мінімуму, приймається нове рішення DVFS і при необхідності вводиться набір віртуальних завдань (Розділ 4.3).