Сверхмасштабные вычисления и работа с данными — основа прогресса в области прогнозирования погоды и климата

Питер Бауер[1], Майкл К. Морган[2], Сихам Сбилл[3]

 

[1] ЕЦСПП, СК

[2] Висконсинский университет в Мэдисоне, США

[3] Национальная метеорологическая служба, Марокко 

Успехи, достигнутые в прошлом

Прогресс в области мониторинга окружающей среды и численного прогнозирования погоды и климата непосредственно связан с прогрессом в области суперкомпьютерных вычислений. В последние несколько десятилетий увеличение вычислительных мощностей позволило нам повысить успешность и детализацию прогнозов посредством повышения пространственного разрешения и повышения уровня реалистичности за счёт более детального отображения физических процессов, а также посредством использования большего числа компонентов системы Земля и инвестиций в технологии ансамблевого прогнозирования с целью описания неопределенности как в начальных условиях, так и в прогнозах (Bauer et al., 2015). 1 2 3

Улучшенные модели и усовершенствованные методы усвоения данных позволили нам более эффективно использовать информацию о системе Земля. С точки зрения вычислительных ресурсов усвоение данных такая же дорогостоящая задача, как и подготовка прогнозов, и затраты возрастают по мере усовершенствования моделей и увеличения как объёма, так и разнообразия усвояемых данных. По мере улучшения систем прогнозирования и роста ожиданий потребителей в отношении получения более специализированной прогностической продукции, объём и разнообразие выходной продукции будут расти такими же темпами, как и затраты на вычисления, или даже быстрее. 

В прошлом рост затрат компенсировался большей частью за счёт сопоставимого роста потенциала для вычислений и работы с данными, обусловленного возможностью размещать большее количество транзисторов в  тактовыми частотами при постоянной мощности (масштабирование Деннарда (www.rambus.com/blogs/understanding-dennard-scaling) ), при этом цены на процессоры снизились. По мере того как плотность транзисторов достигает физических пределов, а скорость тактовых частот стабилизируется, чтобы ограничить потребление электрической энергии, ожидать дополнительного роста производительности можно только за счёт увеличения параллелизма и новых процессорных технологий, которые сочетают такую связь с повышением энергетической эффективности. Во многих отношениях эта технология в настоящее время разрабатывается на основе устройств массового спроса, таких как мобильные телефоны.

Вызов будущего

Было предсказано, что через десять лет рабочие нагрузки при стандартном оперативном прогнозировании погоды и предсказании климата с использованием ансамблей совмещённых моделей системы Земля с высоким разрешением приведут к увеличению, по меньшей мере, в 1 000 раз потребностей в вычислениях и работе с данными по сравнению с сегодняшним днём (Wehner et al., 2011). Эти потребности уже нельзя будет удовлетворить только за счёт эволюции технологии аппаратного обеспечения, но потребуются дополнительные фундаментальные изменения в математических, численных и статистических методах, а также в технологиях программирования, которые позволят обеспечить оптимальное соответствие между широким набором вычислительных задач численных прогностических моделей и новыми типами процессоров, начиная с ЦПУ, ГПУ, ППВМ, и заканчивая устройствами типа ASIC (интегральная схема для решения конкретной задачи). В будущем этот набор может стать еще шире, и для любого приложения серьёзной проблемой станет использование потенциала будущего аппаратного обеспечения (www.newscientist.com/article/mg24031990-300-could-theworlds-mightiest-co...).

Основным верхним ограничением для высокопроизводительных вычислительных систем является допустимый с финансовой точки зрения уровень потребления электроэнергии. Сегодняшние петамасштабные системы (такие как суперкомпьютеры с производительностью 1 015 операций с плавающей запятой в секунду для задач, выполняемых с пиковой производительностью) потребляют О (106) ватт в год, что составляет О (106) долларов США в год за электроэнергию и охлаждение. В настоящее время работа большинства центров высокопроизводительных вычислений строится из расчета того, что суммарное энергопотребление не превысит О (20 МВт), что намного меньше увеличения в 1 000 раз, о котором говорилось выше. Таким образом, просто покупка более мощных компьютеров не является выходом по причинам экономической эффективности.

Передача данных в системе высокопроизводительных вычислений является ключевой проблемой в этом деле, так как перемещение данных на чип потребляет в десять раз больше энергии, чем выполнение вычисления, а перемещение данных между чипами стоит, в свою очередь, в десять раз больше, чем перемещение данных на одном и том же чипе (Kogge and Shalf, 2013). Еще одной проблемой является то, как управлять вводом данных наблюдений в модели и выходом продукции моделей на протяжении всего процесса прогнозирования с тем, чтобы обеспечить эффективную предварительную и постобработку данных, опять же с ориентировкой на минимизацию перемещения данных, сокращение потребностей в хранении и на обеспечение в то же время надежной прогностической продукции. В то время, как число проблем, связанных с вычислениями и работой с данными, значительно увеличивается, требования пользователей к практической пригодности данных и обеспечению быстрого доступа к ним весьма ужесточаются.

Растущее число пользователей, желающих быстрее получить больший объём информации, создаёт огромные трудности для работы с данными. Это требует инвестиций в сочетании вариантов централизованных и облачных вычислительных решений, которые позволят перенести приложения ближе к месту размещения больших объёмов прогностических данных и боле равномерно распределить дорогостоящие и ориентированные на пользователя анализ и постобработку данных между широким набором платформ.

А какова роль искусственного интеллекта?

Повторное появление методов искусственного интеллекта при поддержке крупномасштабных коммерческих применений создало возможности для содействия достижению крайне необходимого роста производительности. Крупные компании, такие как IBM и Microsoft (поддерживающая AccuWeather), заявляют о наличии у них возможности предоставлять узкоспециализированные решения для потребителей, используя имеющуюся выходную продукцию оперативных национальных и международных центров в  дополнение к своей собственной прогностической 

продукции. Это стало возможным благодаря тому, что

специализированные процессоры изготавливаются в больших масштабах, а программное обеспечение для глубокого обучения способно сортировать огромные объёмы данных, полученных в результате как работы моделей, так и наблюдений, чтобы извлекать метеорологическую информацию для подготовки прогнозов.

Замена систем прогнозирования, основанных на изучении физических законов, на применение глубокого обучения представляется маловероятной, поскольку число степеней свободы и нелинейность системы Земля потребовали бы в высшей степени сложных нейронных сетей, процесс обучение которых будет сопряжен с трудностями, при этом есть риск, что их использование на компьютерах потенциально будет неэффективным (Duben and Bauer, 2018). Часть проблемы для нейронных сетей, ориентированных на выпуск достоверных на глобальном уровне прогнозов среднесрочного, сезонного и климатического масштабов будет заключаться в том, чтобы выпускать физически согласованные прогнозы, поддерживая как утверждённые бюджеты, так и сохранение потоков. Необходимость устранять систематические ошибки и погрешности в данных для обучения значительно усугубит указанную проблему.

Однако использование таких методов для предварительной обработки данных наблюдений и постобработки выходной продукции моделей может помочь более равномерно распределять рабочую нагрузку, связанную с работой с данными, на протяжении всего рабочего процесса с тем, чтобы более эффективно извлекать полезную информацию из больших объёмов данных и сокращать вычислительные ресурсы, необходимые для отдельных компонентов прогностических моделей, заменив их суррогатными нейронными сетями. Такие применения являются сферами деятельности, в которых ведутся активные исследования в настоящее время, и уже были проведены испытания в прошлом (Lee at al., 2018, Hsieh and Tang, 1998).    

Data collection

Научные исследования, осуществляемые в настоящее время

Упомянутые выше проблемы создают неоспоримое препятствие для будущего развития возможностей в области прогнозирования как погоды, так и климата. Повышение уровня осведомлённости об этих проблемах привело к широкомасштабной исследовательской и инновационной деятельности во многих развитых странах, которая получает существенную государственную и государственно-частную финансовую поддержку. Проект Министерства энергетики[1] Соединенных Штатов Америки (США) и Европейской комиссии[2] является примером, который дополняют усилия, предпринимаемые организациями по прогнозированию погоды в США, Японии, Китае и Европе.

В связи со сложностью имеющихся проблем научные исследования необходимо осуществлять в тесном сотрудничестве с индустрией вычислительных технологий, а наука о погоде и климате должна тесно сотрудничать с секторами, подверженными воздействию погоды и климата, такими как водные ресурсы, энергетика, продовольствие и сельское хозяйство, управление рисками. Это сотрудничество и передовые исследования в области науки и технологии находятся в центре внимания проекта ExtremeEarth[3], который был предложен в качестве флагманского проекта, обещающего принципиально новые возможности для прогнозирования в эту новую эпоху.

Проблемы, безусловно, способствуют дальнейшему увеличению разрыва в возможностях между более и менее развитыми странами, так как для их решения требуются единый уровень экспертных знаний, взаимодействие между научно-исследовательской деятельностью и промышленным производством, существенная технологическая поддержка как программного, так и аппаратного обеспечения. Именно здесь международное сотрудничество, стимулируемое такими организациями, как ВМО, будет иметь решающее значение для обеспечения устойчивого эффекта масштаба и поддержки передачи знаний между различными областями научных интересов, а также между странами и континентами.

 

[1]              https://e3sm.org

[3]           http://extremeearth.eu

 

Роль ВМО

Необходимость согласованных усилий между наукой о погоде и климате и наукой о вычислениях требует подготовки эффективной стратегии ВМО. Цель стратегии заключается в том, чтобы разработать и совместно использовать методологии и технологии экономически эффективного выпуска прогнозов, а также чтобы собирать и распространять большие объёмы данных с помощью всё более сложных систем прогнозирования с высоким разрешением во всех масштабах.

Подробные рекомендации в отношении обновленной стратегии следующие:

  • разработка научных методологий, которые рассматривают возможность увеличения параллелизма и сокращение перемещения данных при работе с инфраструктурами высокопроизводительных сверхмасштабных вычислений;
  • поддержка стандартизации структур переносимого кода и моделей программирования, обеспечивающих эффективность и читаемость кода и использующих ряд перспективных процессорных и системных технологий, включая систему показателей для тестирования, анализа производительности и сравнительной оценки кода;
  • разработка переносимых прикладных технологий работы с данными для предварительной обработки данных наблюдений и постобработки выходных данных моделей, а также для распространения продукции;
  • поддержка открытых и распределённых инфраструктур облачных вычислений и управления данными, затрагивающих все этапы технологического процесса производства прогнозов, включая удобный доступ, поиск и выявление информации и её визуализацию для конечных пользователей;
  • адаптация методов, используемых в области искусственного интеллекта (таких как глубокое обучение), в целях содействия обработке всё более разнообразных данных, извлечению информации, предназначенной для конкретного пользователя, из всё более комплексных выходных данных моделей, разработке компонентов суррогатных моделей, что приведёт к сокращению расходов на вычисления;
  • создание возможностей для наращивания потенциала и обучения в области прикладных наук и вычислительной науки в целях содействия переходу сообщества к использованию новых технологий.

Практически все прикладные области в рамках сообщества, занимающегося прогнозированием погоды и климата, выиграют от этой стратегии, поскольку новые возможности в области вычислений и работы с данными создадут условия для новых научных открытий, экономически эффективной работы и расширенной передачи знаний от экспертов широкому кругу пользователей.   

Литература

Bauer, P., A. Thorpe and G. Brunet, 2015: The quiet revolution of numerical weather prediction. Nature, 525, 47-55.

Düben, P. and P. Bauer, 2018: Challenges and design choices for global weather and climate models based on machine learning. Geoscientific Model Development, 11, 3999-4009.

Hsieh, W.W. and B. Tang, 1998: Applying neural network models to prediction and data analysis in meteorology and oceanography. Bulletin of the American Meteorological Society, 79, 1855-1870.

Kogge, P. and J. Shalf, 2013: Exascale computing trends: Adjusting to the “New Normal” for computer architecture. Computing in Science and Engineering, doi: 10.1109/MCSE.2013.95.

Lee, Y.-J., C. Bonfanti, L. Trailovic, B. J. Etherton, M. W. Govett, and J. Q. Stewart, 2018: Using deep learning for targeted data selection: Improving satellite observation utilization for model initialization. 17th Conference on Artificial and Computational Intelligence and its Applications to the Environmental Sciences

Schulthess, T.C. 2015: Programming revisited. Nature Physics, 11, 369–373.

Wehner, M.F., L. Oliker, J. Shalf, D. Donofrio, L. A. Drummond, R. Heikes, S. Kamil, C. Kono, N. Miller, H. Miura, M. Mohiyuddin, D. Randall, W.‐S. Yang, 2011: Hardware/software co‐design of global cloud system resolving models. Journal of Advances in Modeling Systems, 3, M10003, 22 pp. 

Share this page