Car-tech

Самые тяжелые суперкомпьютеры упали сильнее всего, исследователь предлагает

1001364

1001364

Оглавление:

Anonim

По мере того как суперкомпьютеры становятся более мощными, они также будут становиться все более уязвимыми для отказа, благодаря увеличению количества встроенных компонентов. Несколько исследователей на недавней конференции SC12 на прошлой неделе в Солт-Лейк-Сити, штат Юта, предложили возможные решения этой растущей проблемы.

Сегодняшние высокопроизводительные вычислительные системы (HPC) могут иметь 100 000 узлов или более - каждый узел, построенный из нескольких компоненты памяти, процессоры, шины и другие схемы. По статистике, все эти компоненты в какой-то момент потерпят неудачу, и они прекращают операции, когда они это делают, - сказал Дэвид Фиала, студент-кандидат в Университете Северной Каролины, во время разговора в SC12.

Проблема не в том, новый, конечно. Когда 600-узловая лаборатория Лоуренс-Ливерморской национальной лаборатории (ускоренная стратегическая вычислительная инициатива), белый суперкомпьютер вышел в интернет в 2001 году, средний промежуток времени между отказами (MTBF) составлял всего пять часов, частично благодаря сбоям компонентов. Позднее усилия по настройке улучшили MTBF от ASCI White до 55 часов, сообщила Фиала.

Но по мере роста количества узлов суперкомпьютера проблема также будет. «Что-то нужно сделать по этому поводу. Это будет ухудшаться, когда мы перейдем к exascale», - сказала Фиала, имея в виду, как ожидается, что в суперкомпьютерах следующего десятилетия будет в десять раз больше вычислительной мощности, чем в современных моделях.

Современные технологии Fiala сказал, что для устранения сбоя системы может не очень хорошо масштабироваться. Он привел контрольную точку, в которой запущенная программа временно остановлена ​​и ее состояние сохраняется на диске. В случае сбоя программы система может перезапустить задание с последней контрольной точки.

NCSUDavid Fiala Проблема с контрольной точкой, по словам Фиалы, заключается в том, что по мере увеличения количества узлов количество системных издержек необходимое для выполнения контрольной проверки, растет и растет с экспоненциальной скоростью. Например, на суперкомпьютере на 100 000 узлов будет задействовано только около 35% активности. Остальные будут рассмотрены с помощью контрольной точки и - должны ли операции восстановления системы, - предположил Фиала.

Из-за всего дополнительного оборудования, необходимого для систем exascale, которые могут быть построены из миллиона или более компонентов, надежность системы будет иметь для улучшения в 100 раз, чтобы сохранить тот же MTBF, что и современные суперкомпьютеры, - сказала Фиала.

Старый, хороший совет: резервное копирование данных

Fiala представила технологию, разработанную им и другими исследователями, которая может помочь повысить надежность, Технология устраняет проблему молчания данных, когда системы делают необнаруженные ошибки, записывая данные на диск.

В принципе подход исследователей состоит из одновременного запуска нескольких копий или «клонов» программы, а затем сравнения ответов. Программное обеспечение, называемое RedMPI, запускается совместно с интерфейсом передачи сообщений (MPI), библиотекой для разделения запущенных приложений на нескольких серверах, поэтому различные части программы могут выполняться параллельно.

RedMPI перехватывает и копирует каждый MPI сообщение, которое приложение отправляет, и отправляет копии сообщения клону (или клонам) программы. Если разные клоны вычисляют разные ответы, то цифры могут быть пересчитаны «на лету», что позволит сэкономить время и ресурсы для повторного запуска всей программы.

«Реализация избыточности не стоит дорогостоящим. которые необходимы, но это позволяет избежать перезаписи с перезагрузкой контрольных точек », - сказала Фиала. «Альтернативой, конечно же, является просто повторное задание, пока вы не подумаете, что у вас есть правильный ответ».

Фиала рекомендовал запустить две резервные копии каждой программы для тройной избыточности. Хотя запуск нескольких копий программы первоначально потребует больше ресурсов, со временем это может быть фактически более эффективным, из-за того, что программам не нужно будет повторно запускать проверку ответов. Кроме того, контрольная точка может не понадобиться при запуске нескольких копий, что также будет экономить на системных ресурсах.

UCSCEthan Miller

«Я думаю, что идея делать избыточность - это отличная идея. [Для] очень больших вычислений, включающих сотни тысяч узлов, безусловно, есть вероятность, что ошибки будут ползти», - сказал Итан Миллер, профессор информатики Университета Калифорнии Санта-Крус, который присутствовал на презентации. Но он сказал, что подход может быть непригоден, учитывая объем сетевого трафика, который может создать такая избыточность. Он предложил запустить все приложения на одном и том же множестве узлов, что может свести к минимуму межсетевой трафик.

В другой презентации Ана Гайнару, аспирант из Университета штата Иллинойс в Урбана-Шампейн, представила технику анализа журнала файлы для прогнозирования при сбоях системы.

Работа объединяет анализ сигналов с интеллектуальным анализом данных. Анализ сигналов используется для характеристики нормального поведения, поэтому, когда происходит сбой, его можно легко обнаружить. Учет данных ищет корреляции между отдельными сообщениями об отказах. Другие исследователи показали, что множественные неудачи иногда коррелируют друг с другом, потому что неудача с одной технологией может повлиять на производительность в других, согласно Гайнару. Например, когда сетевая карта выходит из строя, в скором времени она будет уничтожать другие системные процессы, которые полагаются на сетевую связь.

Исследователи обнаружили, что 70% коррелированных отказов предоставляют окно возможностей более 10 секунд. Другими словами, когда обнаружен первый признак сбоя, система может иметь до 10 секунд, чтобы сохранить свою работу, или переместить работу на другой узел, прежде чем произойдет более критический сбой. «Прогнозирование сбоев может быть объединено с другими технологиями отказоустойчивости», - сказал Гайнару.

Joab Jackson охватывает корпоративное программное обеспечение и общую технологию, новости для Служба новостей IDG. Следуйте за Joab в Twitter на @Joab_Jackson. Адрес электронной почты Joab - [email protected]