Ованес Петросян: «Участие в международных соревнованиях — это вклад в будущее»
Как проверить, какие из точек водоснабжения в стране являются рабочими, а какие вышли из строя, если многие из них находятся в труднодоступных местах, а данные о некоторых из них собирались не более двух раз за весь срок эксплуатации? Над решением этой задачи работают студенты СПбГУ в рамках всемирного индустриального соревнования по искусственному интеллекту Pump it Up: Data Mining the Water Table . Финансовую поддержку команде универсантов оказывает Эндаумент-фонд СПбГУ.
Профессор Санкт-Петербургского университета Ованес Петросян (кафедра математического моделирования энергетических систем), выступающий научным руководителем студентов, рассказал в интервью о том, в чем заключается сложность подбора оптимального решения и как справляются с этой задачи молодые математики Университета.
Уже почти год команда студентов СПбГУ под вашим руководством удерживает первое место в соревновании Pump it Up: Data Mining the Water Table. Можете рассказать о том, как оно проходит?
В мире существует несколько цифровых платформ, на базе которых можно участвовать в соревнованиях в области машинного обучения, обработки данных и сопутствующих сферах. Одной из самых популярных является Kaggle, которая содержит активные конкурсы, доступные для участия любому жителю земного шара. Каждый зарегистрировавшийся участник может загрузить свое решение проблемы, и оно автоматически появится в лидерборде. Соревнования являются длительными по времени, поэтому участие в них не только позволяет проявить себя на длинной дистанции, но и научиться долго и упорно работать над результатом, анализировать другие решения. Их также стоит рассматривать как способ учиться, навык решать ту или иную задачу наилучшим образом. Отмечу, что исторически в соревнованиях по программированию ICPC студенты Университета занимают лидирующие позиции в мире — в этом году почетное первое место.
Наше соревнование — Pump it Up: Data Mining the Water Table — проходит на платформе Driven Data, где представлены более практико-ориентированные соревнования. Оно посвящено анализу данных Министерства водных ресурсов Танзании и консалтинговой компании Taarifa. Нам был предоставлен датасет, который содержит информацию о расположении всех водонапорных башен Танзании, построенных государством для обеспечения доступа жителей к воде. Задача заключалась в том, чтобы спрогнозировать, когда и в какой момент времени эти вышки будут работать, а когда нет.
Казалось бы, звучит тривиально, поскольку это очень похоже на задачу из области превентивной аналитики. Однако проблема заключается в том, что база данных охватывает несколько сотен вышек по всей стране, при этом объекты могли быть проанализированы всего один-два раза. Например, вышка построена в 1960 году, а проверили ее один раз в 1980 году. Нам нужно спрогнозировать, работает она сегодня или нет. Обычно эксперты, которые занимаются превентивной аналитикой, получают данные по работе турбины или водяного насоса каждую миллисекунду в режиме реального времени и могут спрогнозировать, когда что-то может пойти не так. Но когда у вас имеется одна запись за 50 лет, это задача другого порядка. Как ни странно, решение найти можно.
Построенное универсантами решение основывается на двух принципах. Расскажите о них подробнее.
Анализируя данные по конкретной вышке, мы говорим, что они гомогенны. Это означает, что если у нас есть водяные насосы одного и того же типа, то они работают одинаково при условии, что внешние параметры и то, как мы их используем, одинаковы. Так мы можем сказать, что у нас есть одна вышка, которая работала в разных условиях. И если мы способны построить для нее модель работы, то можем и спрогнозировать, работает она сейчас или нет.
Однако представленных в задании данных недостаточно для того, чтобы сделать прогноз. Поскольку у нас нет информации, к примеру, о том, сколько жителей вокруг используют эту вышку, сведений о погодных условиях. Но за счет того, что мы смогли внедрить новые данные и установить ретроспективу, что примерно происходило с этой вышкой, взяв из открытых источников данные о погодных условиях и жителях микрорайонов, мы создали действующую систему. Таким образом, прогноз работоспособности с указанным в лидерборде результатом вероятности 0,8299 мы можем выполнить для любой вышки в Танзании — при условии, что за всю историю ее существования было произведено один или два замера.
Где еще можно применять эти принципы?
Если мы говорим про Российскую Федерацию, у нас тоже часто возникают ситуации, когда оборудование было установлено, но бригад, которые могут приехать и проверить его, недостаточно. Например, по всей стране расходятся линии электропередачи, и вы не сможете нанять рабочих, которые будут в режиме реального времени проверять все вышки по всей России. Это невозможно. Именно поэтому данных так мало. И с течением времени этих данных станет еще меньше, поскольку стоимость человеческого труда увеличивается.
С источниками воды в России нет такой проблемы, как в Африке, но могут давать сбой газо- и нефтепроводы, линии электропередачи. Для решения таких задач и может быть использован наш подход. Он позволит составить список приоритетов для той бригады, которая поедет проводить проверку. Если у нас насчитывается миллион водопроводов по всей стране, мы можем спрогнозировать, с какой вероятностью и где может возникнуть поломка, — например, потому что погодные условия приведут к деформации.
Как обновляется онлайн-доска лидеров на сайте конкурса, что влияет на эти цифры?
Различия в результатах незначительны, поскольку в конкурсе участвуют 577 команд — 18 000 человек. Это некий рейтинг, показывающий, насколько успешно мы спрогнозировали работу водяных вышек. По формуле classification rate высчитывается, с какой вероятностью мы угадали, функционируют вышки или нет. Возможно, та команда, которая сейчас находится на втором месте, угадала на одну вышку меньше, чем мы. Борьба в таких соревнованиях всегда ведется за сотые доли процента.
Какое значение этот конкурс имеет конкретно для вас и для Университета в целом?
Студенты участвуют в таких соревнованиях, чтобы дополнить свое резюме серьезным достижением. Когда вы только начинаете работать и кадровый специалист видит, что у вас совсем нет опыта, то вхождение хотя бы в топ-10 таких конкурсов является показателем успешности. А если вы уже работающий эксперт, который стал победителем на соревнованиях, — это неоспоримое доказательство того, что вы лучший, вас с удовольствием примет к себе более серьезная компания. Такая работа — вклад в будущее.
В одном из kpi СПбГУ есть абсолютные показатели, например количество нобелевских лауреатов. Когда компании хотят обратиться в вуз за экспертизой или наладить партнерство, они смотрят, часто ли его студенческие команды выигрывают в международных соревнованиях по программированию и математике. Это серьезная реклама как для университета, так и для самой команды. Если в каждом подобном конкурсе в топ-10 будет находиться команда СПбГУ, то авторитет Университета для крупных компаний буде неоспорим.
Как вы собирали команду студентов для этого конкурса?
Я познакомился с ребятами в офисе одной компании и предложил им поучаствовать в этом конкурсе. У них уже был опыт участия в различных соревнованиях по математике и программированию, поэтому они понимают, как длительное время работать над конкретной задачей. В этих соревнованиях самое главное — это выдержка, здесь побеждают те, кто умеет планомерно идти до конца, доводить все до идеала. Это редкое качество, но оно нужно как для ученого, так и для эксперта компании.
До завершения конкурса 5 октября 2025 года остается около года. Как вы планируете удерживать лидирующую позицию и далее?
Относительно недавно одна из команд предложила решение, которое позволило им вырваться вперед, и тогда мы немного улучшили свое. Нам кажется, что всегда можно усовершенствовать свое решение, и в тот момент, когда нас обгоняют, мы знаем, как это сделать. Поэтому я и говорю, что важно умение доводить результат до идеала.