Большие данные в большой физике
На Большом адронном коллайдере совершено много открытий (кроме знаменитой «частицы Бога» – бозона Хиггса). Одним из них стала регистрация неизвестных элементарных частиц – тетракварков. Это удалось благодаря новым методам работы с данными.
Андрей Устюжанин, учёный Яндекса, кандидат физико-математических наук, заведующий научно-учебной лабораторией методов анализа больших данных факультета компьютерных наук Высшей школы экономики рассказывает, как работа с данными позволяет делать такие глубокие открытия, и почему ученым пора становиться дата-сайентистами.
Новая степень свободы для исследователей и совершенно новый подход к науке — data-driven science: взгляд на любое явление через призму данных.
Андрей Устюжанин, учёный Яндекса, кандидат физико-математических наук, заведующий научно-учебной лабораторией методов анализа больших данных факультета компьютерных наук Высшей школы экономики
В истории долго преобладала эмпирическая наука: истина объяснялась через факты и софистические принципы. С Ньютона и Кеплера началась эра теоретической науки, отталкивающейся от законов и доказательств: появлялись новые способы записи и математической проверки закономерностей. Такой подход преобладал вплоть до середины XX века, когда появление компьютеров позволило моделировать законы с гораздо большей точностью и с помощью компьютерной симуляции рассчитывать более сложные системы: биологические, экономические, физические. Но на получение результата уходило много времени и ресурсов.
Развитие вычислительных ресурсов и машинное обучение (ML) существенно продвинули использование компьютерной симуляции в науке. Сейчас мы можем построить нейросеть, которая выучит соответствие входных и выходных параметров и проведёт расчёты с гораздо большей скоростью. Это новая степень свободы для исследователей и совершенно новый подход к науке — data-driven science: взгляд на любое явление через призму данных.
Мы начинаем видеть не процессы или изменения характеристик во времени, а зависимости и параметры, которые мы можем с определенной точностью записать при помощи алгоритмов. Мы даём нейросети возможность наблюдать за физическим объектом, и она предсказывает его поведение и находит описывающие его законы. Это позволяет науке задавать более сложные вопросы. Например, раньше мы могли рассчитать с помощью симуляций, какими свойствами обладает материал с той или иной структурой. Теперь мы можем достаточно точно предсказать, какая структура должна быть у материала с нужными нам параметрами. Решая подобные «обратные» задачи, мы можем найти вещества с принципиально новыми свойствами, которые нельзя получить никакими другими методами ни из полимеров, ни химическими реакциями, например сверхрешетки трехслойного графена, которые обладают высокотемпературной сверхпроводимостью.
Детектор частиц Большого адронного коллайдера
Когда речь идёт о процессах, возникающих в нескольких случаях на миллиард, как, например, распад прелестного мезона (Bs-мезона) на пару из мюона и антимюона, невозможно представить фиксацию и анализ события без применения алгоритмов обработки больших данных. В LHCb мюон — это одна из важных частиц, которые регистрирует детектор. Определение наличия мюонов в результате распада — это очень вычислительноёмкая задача, которую невозможно решить методом перебора. В процессе эксперимента внутрь цепочки анализа данных детектора был встроен алгоритм Яндекса CatBoost, который, как оказалось, определяет координаты траекторий мюонов лучше и быстрее, чем его аналоги. Для ускорения симуляции таких событий может быть использован метод ускорения симуляции событий с использованием генеративных нейросетей, сокращающих время вычислений на несколько порядков. Аналогичный подход исследователи ШАДа предложили для работы с другим поддетектором. Это позволит определять мюоны с высокой точностью и рассчитывать симуляции потоков событий, на которые детектор выйдет через пять лет — старые способы с таким потоком данных не справились бы.
Применение алгоритмов и экспертизы ШАДа и Яндекса для улучшения качества идентификации частиц в LHCb послужило также и недавнему обнаружению четырёх новых тетракварков. Это важное открытие состоялось благодаря анализу данных, собранных на Большом адронном коллайдере с 2011 по 2018 год. До сих пор нормой были обычные адроны: протоны, нейтроны, каоны, состоящие из трех кварков, и пентакварки. Теперь работа идёт с тетракварками, обнаружение которых ставит вопрос об уточнении описаний теоретических механизмов работы сильного взаимодействия внутри частиц.
Здесь обрабатывают данные с детектора
Когда новое знание окажется полезным в технологиях — через пятьдесят лет или через пять — сложно предсказать, но история знает достаточно подобных примеров. То, что гравитация каким-то образом влияет на скорость течения времени и на искривление пространства, было описано в теории относительности ещё в начале XX века. Но когда мы поняли, как это влияние устроено количественно, и научились запускать космические спутники и системы навигации, то увидели подтверждение теории. Без поправки гравитационного влияния на кривизну пространства мы получаем слишком большую погрешность, которая не даст навигационным приборам правильно определять себя в пространстве. Нобелевские премии в физике часто вручаются именно за такие истории, меняющие научную мысль.
Силуэт детектора LHCb на въезде в экспериментальную зону
Такая синергия выглядит новой нормой и несомненно будет только укрепляться. Поэтому учёным, которые находятся в какой-то предметной области, стоит начать изучать машинное обучение. А дата-сайентистам, в свою очередь, — выбрать научную область, в которой они планируют развиваться: физику, экономику, биологию, химию, лингвистику. Лучше всего найти интересный проект, к которому можно было бы подключиться: группу или лабораторию с междисциплинарными проектами.
Несмотря на новизну датацентричного подхода, машинное обучение уже играет значительную роль практически в каждой научной области. Ни одна важная задача не решается сейчас без внедрения алгоритмов. В космической отрасли это управление космическими аппаратами и спутниками на низких орбитах, чтобы они могли сами корректировать траектории и уклоняться от космического мусора. Специалисты по геномике и химии занимаются с помощью ML поиском тех участков белков, которые позволят лекарству лучше закрепиться в нужных органах и воздействовать на очаги болезней. Самый известный пример — AlphaFold, алгоритм, предсказывающий структуру белка. Он определяет устройство сложных органических молекул и их стыковку друг с другом. Это нужно для проверки эффективности новых лекарств и экономит миллионы долларов при производстве.
Развитие технологий, открытие новых законов, внедрение машинного обучения и общий рост объёма информации делают одиночные научные проекты практически невозможными. Сложность исследований растёт и требует от команд междисциплинарных знаний в разных предметных областях, а также понимания теории и практики проведения экспериментов, умения проводить вычисления на суперкомпьютере и анализировать данные с помощью машинного обучения. Однако с дальнейшим развитием мощностей искусственного интеллекта можно надеяться создать виртуального помощника для автоматизации рутинных задач исследований.
Со временем мы сможем перевести на язык нейросети не только процесс обработки данных, но и построение моделей, проведение экспериментов и сравнение полученных результатов с прогнозами. Это даст больше свободы в научных проектах как коллективам, так и отдельным учёным и позволит им сосредоточиться на поисках новых гипотез и открытий.
Андрей Устюжанин, учёный Яндекса, кандидат физико-математических наук, заведующий научно-учебной лабораторией методов анализа больших данных факультета компьютерных наук Высшей школы экономики рассказывает, как работа с данными позволяет делать такие глубокие открытия, и почему ученым пора становиться дата-сайентистами.
Новая степень свободы для исследователей и совершенно новый подход к науке — data-driven science: взгляд на любое явление через призму данных.
Как машинное обучение связано с Большим адронным коллайдером и почему наука и ИТ должны работать сообща
Наука и техника — тесно связанные друг с другом элементы человеческой культуры. Развитие научной мысли, вроде открытия закона Ома и теории относительности, ведёт к техническому прогрессу, а появление новых технологий, в свою очередь, меняет подход к фундаментальной науке.Андрей Устюжанин, учёный Яндекса, кандидат физико-математических наук, заведующий научно-учебной лабораторией методов анализа больших данных факультета компьютерных наук Высшей школы экономики
В истории долго преобладала эмпирическая наука: истина объяснялась через факты и софистические принципы. С Ньютона и Кеплера началась эра теоретической науки, отталкивающейся от законов и доказательств: появлялись новые способы записи и математической проверки закономерностей. Такой подход преобладал вплоть до середины XX века, когда появление компьютеров позволило моделировать законы с гораздо большей точностью и с помощью компьютерной симуляции рассчитывать более сложные системы: биологические, экономические, физические. Но на получение результата уходило много времени и ресурсов.
Развитие вычислительных ресурсов и машинное обучение (ML) существенно продвинули использование компьютерной симуляции в науке. Сейчас мы можем построить нейросеть, которая выучит соответствие входных и выходных параметров и проведёт расчёты с гораздо большей скоростью. Это новая степень свободы для исследователей и совершенно новый подход к науке — data-driven science: взгляд на любое явление через призму данных.
Мы начинаем видеть не процессы или изменения характеристик во времени, а зависимости и параметры, которые мы можем с определенной точностью записать при помощи алгоритмов. Мы даём нейросети возможность наблюдать за физическим объектом, и она предсказывает его поведение и находит описывающие его законы. Это позволяет науке задавать более сложные вопросы. Например, раньше мы могли рассчитать с помощью симуляций, какими свойствами обладает материал с той или иной структурой. Теперь мы можем достаточно точно предсказать, какая структура должна быть у материала с нужными нам параметрами. Решая подобные «обратные» задачи, мы можем найти вещества с принципиально новыми свойствами, которые нельзя получить никакими другими методами ни из полимеров, ни химическими реакциями, например сверхрешетки трехслойного графена, которые обладают высокотемпературной сверхпроводимостью.
Машинное обучение и физика высоких энергий
Пример успешной коллаборации ML и физики — исследования с участием Школы анализа данных (ШАД) Яндекса на базе LHCb, эксперимента ЦЕРНа по изучению поведения b-кварков и нарушения CP-симметрии. LHCb — один из четырёх основных детекторов частиц на Большом адронном коллайдере. ШАД предоставляет экспертизу в области машинного обучения, продвинутые алгоритмы и необходимые вычислительные мощности, а LHCb — научную базу для исследований. Результаты этого взаимодействия иллюстрируют, насколько применение алгоритмов может ускорить открытия и увеличить точность экспериментов.Детектор частиц Большого адронного коллайдера
Когда речь идёт о процессах, возникающих в нескольких случаях на миллиард, как, например, распад прелестного мезона (Bs-мезона) на пару из мюона и антимюона, невозможно представить фиксацию и анализ события без применения алгоритмов обработки больших данных. В LHCb мюон — это одна из важных частиц, которые регистрирует детектор. Определение наличия мюонов в результате распада — это очень вычислительноёмкая задача, которую невозможно решить методом перебора. В процессе эксперимента внутрь цепочки анализа данных детектора был встроен алгоритм Яндекса CatBoost, который, как оказалось, определяет координаты траекторий мюонов лучше и быстрее, чем его аналоги. Для ускорения симуляции таких событий может быть использован метод ускорения симуляции событий с использованием генеративных нейросетей, сокращающих время вычислений на несколько порядков. Аналогичный подход исследователи ШАДа предложили для работы с другим поддетектором. Это позволит определять мюоны с высокой точностью и рассчитывать симуляции потоков событий, на которые детектор выйдет через пять лет — старые способы с таким потоком данных не справились бы.
Применение алгоритмов и экспертизы ШАДа и Яндекса для улучшения качества идентификации частиц в LHCb послужило также и недавнему обнаружению четырёх новых тетракварков. Это важное открытие состоялось благодаря анализу данных, собранных на Большом адронном коллайдере с 2011 по 2018 год. До сих пор нормой были обычные адроны: протоны, нейтроны, каоны, состоящие из трех кварков, и пентакварки. Теперь работа идёт с тетракварками, обнаружение которых ставит вопрос об уточнении описаний теоретических механизмов работы сильного взаимодействия внутри частиц.
Здесь обрабатывают данные с детектора
Фундаментальная наука и будущее
Открытия такого масштаба, как регистрация тетракварков и пентакварков, важны, в первую очередь, для фундаментальной науки. Но не стоит недооценивать значимость подобных открытий и для прикладных областей. Возможно, полученный инструмент описания сильного взаимодействия позволит по-новому взглянуть на то, что мы знали раньше. Например, при создании новых материалов мы будем опираться не только на электромагнитные потенциалы, но и на сильное взаимодействие кварков или другие особенности взаимодействия подчастиц внутри элементарных частиц.Когда новое знание окажется полезным в технологиях — через пятьдесят лет или через пять — сложно предсказать, но история знает достаточно подобных примеров. То, что гравитация каким-то образом влияет на скорость течения времени и на искривление пространства, было описано в теории относительности ещё в начале XX века. Но когда мы поняли, как это влияние устроено количественно, и научились запускать космические спутники и системы навигации, то увидели подтверждение теории. Без поправки гравитационного влияния на кривизну пространства мы получаем слишком большую погрешность, которая не даст навигационным приборам правильно определять себя в пространстве. Нобелевские премии в физике часто вручаются именно за такие истории, меняющие научную мысль.
Каждый учёный сегодня — дата-сайентист
В новой реальности меняются и требования к компетенциям учёных. Теперь, помимо интуиции в области физики, требуется интуиция, связанная с функциональным анализом и статистикой. Новые условия требуют от исследователя большей дисциплины в работе с экспериментальной установкой, компьютерным моделированием и искусственным интеллектом. Машина умеет хорошо аппроксимировать данные внутри заданной области, для которой у неё есть экспериментальная база. А исследователь должен уметь правильно ставить алгоритму задачу и валидировать результат — и это новая предметная область, которая не входит в стандартный набор научных дисциплин. Яндекс с 2015 года является одним из организаторов ежегодной летней школы машинного обучения для физиков, где учит применять алгоритмы в исследованиях. Прежде всего она ориентирована на аспирантов и молодых постдоков, занимающихся физикой высоких энергий. Благодаря сотрудничеству Яндекса с ЦЕРНом материалы этой школы содержат многочисленные примеры успешного совмещения двух направлений. Выпускники школы нередко в дальнейшем углубляются в исследования на стыке ML и физики. Они строят свою работу уже в контексте датацентричной науки.Силуэт детектора LHCb на въезде в экспериментальную зону
Такая синергия выглядит новой нормой и несомненно будет только укрепляться. Поэтому учёным, которые находятся в какой-то предметной области, стоит начать изучать машинное обучение. А дата-сайентистам, в свою очередь, — выбрать научную область, в которой они планируют развиваться: физику, экономику, биологию, химию, лингвистику. Лучше всего найти интересный проект, к которому можно было бы подключиться: группу или лабораторию с междисциплинарными проектами.
Несмотря на новизну датацентричного подхода, машинное обучение уже играет значительную роль практически в каждой научной области. Ни одна важная задача не решается сейчас без внедрения алгоритмов. В космической отрасли это управление космическими аппаратами и спутниками на низких орбитах, чтобы они могли сами корректировать траектории и уклоняться от космического мусора. Специалисты по геномике и химии занимаются с помощью ML поиском тех участков белков, которые позволят лекарству лучше закрепиться в нужных органах и воздействовать на очаги болезней. Самый известный пример — AlphaFold, алгоритм, предсказывающий структуру белка. Он определяет устройство сложных органических молекул и их стыковку друг с другом. Это нужно для проверки эффективности новых лекарств и экономит миллионы долларов при производстве.
Развитие технологий, открытие новых законов, внедрение машинного обучения и общий рост объёма информации делают одиночные научные проекты практически невозможными. Сложность исследований растёт и требует от команд междисциплинарных знаний в разных предметных областях, а также понимания теории и практики проведения экспериментов, умения проводить вычисления на суперкомпьютере и анализировать данные с помощью машинного обучения. Однако с дальнейшим развитием мощностей искусственного интеллекта можно надеяться создать виртуального помощника для автоматизации рутинных задач исследований.
Со временем мы сможем перевести на язык нейросети не только процесс обработки данных, но и построение моделей, проведение экспериментов и сравнение полученных результатов с прогнозами. Это даст больше свободы в научных проектах как коллективам, так и отдельным учёным и позволит им сосредоточиться на поисках новых гипотез и открытий.
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.
+1
Если бы истинные знания о строении мира и его законах давались с самого детства. Если бы люди с самого детства осознавали целостность и взаимосвязанное единство мира. Если бы люди осознавали с самого детства, что в мире нет ничего случайного а всё закономерно и что причины происходящего с ними и вокруг их лежат в выборе их отношения к происходящему с ними и вокруг них, то есть в их мыслях, словах, движениях, чувствах и эмоциях. Если бы люди с детства осознавали, что вот это проявление в индивидуальности тела-ума всего лишь их мельчайшая частица а их большая часть и основная — это весь остальной мир и всё, что в нём есть и исходя из этого осознания относились к миру и ко всему в нём — как лично к себе…
Если бы они мыслили и творили через осознание цельности и взаимосвязанного единства — то жили бы в Раю, но людям навязано мышление — разделением и они живут в Аду который сами и сотворили!
Люди не обладая истинными знаниями а блуждая среди навязанных им многочисленных религиозных и эзотерических учений и множества ОТДЕЛЬНЫХ наук не могут осознать того, что их хотят уничтожить их же руками подводя под действие одного из законов строения мира гласящего — ТО, ЧТО НЕ СТРЕМИТСЯ К ПОЗНАНИЮ И РАЗВИТИЮ ДЕГРАДИРУЕТ И ВЫМИРАЕТ! Людям навязано «раковое мышление» — наживы и потребительства а оно ведёт к гибели всего человечества, всего организма!
Причём и те кто это навязал так же не понимают, что они и сами попадут под действие истинных законов строения мира незнание которых не избавляет от ответственности перед ними.
- ↓
0
Существовало ИСТИННОЕ ЕДИНОЕ ЦЕЛЬНОЕ ЗНАНИЕ в виде ВЕД и в виде ЕДИНОГО ЯЗЫКА в котором за каждой буквой стоял образ, что-либо толкующий, объясняющий из устройства мира и его законах. Зная образы букв по ним можно было истолковать значение слов из этих букв составленных. Всё дело в том, ЧТО ЛЮДИ ОБЛАДАЮЩИЕ ЭТИМ ЗНАНИЕМ МЫСЛЯТ САМОСТОЯТЕЛЬНО И ЗДРАВО а главное, ЧТО ИМИ НЕ ВОЗМОЖНО МАНИПУЛИРОВАТЬ! И вот теми невеждами не осознающими того, что незнание истинного закона строения мира не освобождает от ответственности перед ним и кого это не устраивает и делается так, чтобы знание это не было легко и обще доступно. Живые его носители — уничтожались, а оставшиеся в живых вынуждены были скрываться. С материальными, информационными носителями поступали так же — они либо уничтожались, либо изымались и прятались. Вместо ЕДИНОГО ЦЕЛЬНОГО ЗНАНИЯ было навязано множество РЕЛИГИОЗНЫХ и ЭЗОТЕРИЧЕСКИХ УЧЕНИЙ а так же целая куча ОТДЕЛЬНЫХ НАУК. Старый принцип манипуляции — РАЗДЕЛЯЙ, СТАЛКИВАЙ, МАНИПУЛИРУЙ, ВЛАСТВУЙ, НАЖИВАЙСЯ! ЕДИНЫЙ ЯЗЫК — обкорнали, исковеркали, разделили на несколько, что продолжают делать и сейчас.
Что происходило в мире с тех времён когда началось всё то, о чём написано выше и происходит сейчас, кто за всем этим стоит, чего добивается, какими методами и через кого именно действует.
А происходит то, что нас хотят уничтожить и занять Землю. Эти силы уже один раз пытались сделать это силовыми методами. Была развязана глобальная планетарная война результатами которой и были и всемирный потоп, и всемирное похолодание и изменение конфигураций материков часть из которых погрузилась на дно океанов а новые поднялись. На порядок снизилась плотность земной атмосферы из-за выброса её части в космическое пространство и именно из-за этого на Земле исчезли гигантские растения, насекомые, животные и люди. Но те, кто развязал эту войну её проиграли и были в большинстве своём изгнаны с Земли. Но несколько сотен из них выпросили разрешения остаться. Им позволили, но с условием скрытного пребывания. То есть мы с вами их не наблюдаем. Но как оказалось от своей цели они не отказались а просто решили добиться её другим путём. Уничтожить нас нашими же руками, подведя под действие одного из законов строения мира гласящего: «Всё то, что не стремится к познанию и развитию — деградирует и вымирает.» Вот всевозможными методами нам и навязывается всё, что ведёт к деградации и самоуничтожению. Все эти «тайные общества», комитеты, «тайное правительство» — это те через кого это и осуществляется. Причём делается это скрытно. Ведь они думают, что осуществляют свои цели а на самом деле ими манипулируют. Все они в сути своей марионетки в руках тех кто хочет уничтожить человечество освободить Землю для себя, ведь свою планетарную систему они сделали не пригодной для существования. Они не осознают того, что с их мировоззрением, миропониманием даже овладев Землёй они сделают с ней тоже самое что сотворили со своею.
Существовало ИСТИННОЕ ЕДИНОЕ ЦЕЛЬНОЕ ЗНАНИЕ в виде ВЕД и в виде ЕДИНОГО ЯЗЫКА в котором за каждой буквой стоял образ, что-либо толкующий, объясняющий из устройства мира и его законах. Зная образы букв по ним можно было истолковать значение слов из этих букв составленных. Всё дело в том, ЧТО ЛЮДИ ОБЛАДАЮЩИЕ ЭТИМ ЗНАНИЕМ МЫСЛЯТ САМОСТОЯТЕЛЬНО И ЗДРАВО а главное, ЧТО ИМИ НЕ ВОЗМОЖНО МАНИПУЛИРОВАТЬ! И вот теми невеждами не осознающими того, что незнание истинного закона строения мира не освобождает от ответственности перед ним и кого это не устраивает и делается так, чтобы знание это не было легко и обще доступно. Живые его носители — уничтожались, а оставшиеся в живых вынуждены были скрываться. С материальными, информационными носителями поступали так же — они либо уничтожались, либо изымались и прятались. Вместо ЕДИНОГО ЦЕЛЬНОГО ЗНАНИЯ было навязано множество РЕЛИГИОЗНЫХ и ЭЗОТЕРИЧЕСКИХ УЧЕНИЙ а так же целая куча ОТДЕЛЬНЫХ НАУК. Старый принцип манипуляции — РАЗДЕЛЯЙ, СТАЛКИВАЙ, МАНИПУЛИРУЙ, ВЛАСТВУЙ, НАЖИВАЙСЯ! ЕДИНЫЙ ЯЗЫК — обкорнали, исковеркали, разделили на несколько, что продолжают делать и сейчас.
Что происходило в мире с тех времён когда началось всё то, о чём написано выше и происходит сейчас, кто за всем этим стоит, чего добивается, какими методами и через кого именно действует.
А происходит то, что нас хотят уничтожить и занять Землю. Эти силы уже один раз пытались сделать это силовыми методами. Была развязана глобальная планетарная война результатами которой и были и всемирный потоп, и всемирное похолодание и изменение конфигураций материков часть из которых погрузилась на дно океанов а новые поднялись. На порядок снизилась плотность земной атмосферы из-за выброса её части в космическое пространство и именно из-за этого на Земле исчезли гигантские растения, насекомые, животные и люди. Но те, кто развязал эту войну её проиграли и были в большинстве своём изгнаны с Земли. Но несколько сотен из них выпросили разрешения остаться. Им позволили, но с условием скрытного пребывания. То есть мы с вами их не наблюдаем. Но как оказалось от своей цели они не отказались а просто решили добиться её другим путём. Уничтожить нас нашими же руками, подведя под действие одного из законов строения мира гласящего: «Всё то, что не стремится к познанию и развитию — деградирует и вымирает.» Вот всевозможными методами нам и навязывается всё, что ведёт к деградации и самоуничтожению. Все эти «тайные общества», комитеты, «тайное правительство» — это те через кого это и осуществляется. Причём делается это скрытно. Ведь они думают, что осуществляют свои цели а на самом деле ими манипулируют. Все они в сути своей марионетки в руках тех кто хочет уничтожить человечество освободить Землю для себя, ведь свою планетарную систему они сделали не пригодной для существования. Они не осознают того, что с их мировоззрением, миропониманием даже овладев Землёй они сделают с ней тоже самое что сотворили со своею.
- ↓