Российские ученые раскрыли подробности тренировки нейронных сетей

Собкова Елена
Публицистика
Российские ученые раскрыли подробности тренировки нейронных сетей

Научный сотрудник института МАИ Юрий Чайников рассказал, зачем искусственному интеллекту миллионы синтетических камней и при чем здесь «метод Монте-Карло»

Искусственно сгенерированные синтетические данные начали использовать для обучения «бездушной машины» сравнительно недавно. Благодаря им нейросети учатся предсказывать события, распознавать объекты или имитировать человеческое поведение. Научный сотрудник института МАИ и директор цифровой трансформации в компании BetBoom Юрий Чайников рассказал, как российские ученые получают сотни тысяч, миллионы и даже триллионы «случаев», на которых отрабатывает свои методы проб и ошибок нейросеть.

По словам Чайникова, причины создания синтетических данных сугубо экономические, поскольку иные методы стоят больших денег и времени, которое дорого обходится инженерным разработкам. Например, только для того, чтобы продолжить вычислительный эксперимент с расчетом поведения крыла проектируемого самолета, суперкомпьютеру потребуется месяцы работы и огромное количество терафлопсов при условии осуществления 1 трлн операций в секунду.

«Некоторые данные нельзя или запредельно дорого получить естественным образом. Например, если мы моделируем разрушение самолетного крыла при встрече со стаей птиц, то кто же нам даст разбить тысячу самолетов о настоящих птиц, которые летят в аэродинамической трубе? А тысячу раз смоделировать, как эти птицы неупругим образом разбиваются о крыло – это пожалуйста», – объяснил Чайников.

Другие ситуации невозможны по соображениям и экономики, и безопасности. Негде взять сотни тысяч или даже миллионы кейсов и для обучения нейросети распознаванию симптомов редких болезней, которыми заболевают по 100 человек в год.

«Можно, конечно, копить данные 10 лет, просто это долго. А в случаях аварийного поведения систем – и просто невозможно», – отметил эксперт.

Синтетические данные относительно дешевы и легкодоступны. Если представить необходимость обучить искусственный интеллект распознавать правильные «камни» для определения негабаритов на конвейере на горно-обогатительном комбинате, чтобы слишком крупные «камни» не повредили мельницу, которая размалывает руду, то это становится реальным за счет синтетических данных.

Как рассказал Юрий Чайников, решить такой «кейс» позволит специальная программа по 3D-моделированию, где можно указать камни разной плоскости и углов, а также с различающейся текстурой, и в результате получится сделать не то что сотни тысяч или миллион – триллион вариантов. Созданных экземпляров «камней» хватит для тюнинга нейросети.

«Таким образом мы с коллегами сделали достаточно много экземпляров «камней», чтобы этого хватило для тюнинга нейросети, которая анализировала руду. Генерация одной сцены на обычном компьютере с не самой топовой видеокартой занимала одну секунду. Несколько дней непрерывных вычислений, и нужного размер датасет готов. Можно сделать и быстрее, если распараллелить вычисления», – объяснил Юрий Чайников.

По его словам, синтетические данные не тождественны реальным, хотя зачастую неотличимы от них, иначе нейросеть, обученная на оторванных от действительности данных, не сможет решать поставленные перед ней задачи. Так имитирующая доктора нейросеть обучается на диалогах, которые должны выглядеть как настоящее – на «рафинированных» данных она будет работать хуже.

«Одно дело – профессиональная озвучка в студии, другое – когда мы пытаемся расшифровать обычный разговор. Здесь и перебивание, и междометья, и слова-паразиты, и обрывки фраз, слов, потому что естественный разговор всегда содержит часть контекста, который передается невербальным образом. И в этот момент нейросеть, которая натренирована на «чистых данных», например на диалогах в фильмах, пасует, поэтому-то синтетические данные должны быть похожи на настоящие до степени смешения», – рассказал Чайников.

Практически не отличаясь от реальных, синтетические данные все же уступают им в многообразии. Однако именно они позволяют создать очень много вариаций для тех самых редких случаев, на которые и надо «натаскать» нейросеть – в тех же самых редких болезнях, как уже упоминалось, когда нейросеть может более детально изучить кейс и выработать обобщающие внутренние признаки. Этой цели разработчикам помогает достичь «метод Монте-Карло».

Сам по себе «Метод Монте-Карло» – это более наукообразное выражение для обозначения генератора случайных чисел, которые используются для создания массива данных в неких обозначенных экспериментатором пределах. В реальной жизни человеку достаточно тяжело исполнить приказ: «Напиши 10 разных вариантов заметки, от самого сухого до совершенно разнузданного».

По словам Чайникова, это очень трудная для человеческой психики задача, поскольку у каждого журналиста есть свой стиль, который довольно тяжело модифицировать, в конце концов он может не знать, например, стилистики дворового жаргона.

Во время обучения нейросети, которая имитирует доктора, часть данных генерируется таким образом, чтобы собеседник отыгрывал роль человека, который владеет плохим словарным запасом и не может обсуждать свои симптомы в строгих медицинских терминах. И это тот самый «метод Монте-Карло».

«Генеративная нейросеть варьирует токены, которые в нашей психике складываются в понятие стилистики диалога, что в результате тренировки на этих данных безусловно увеличивает конечную точность натренированной на этих данных модели виртуального доктора», – объяснил Чайников.

Для лидеров индустрии работу по созданию синтетических данных проделывают компании.

«Как правило, эта задача неотделима от задачи натренировать нейросеть. Нет никаких сомнений, что и «Яндекс», и «Сбер» как ведущие в этом направлении компании в России, использовали «синтетику», чтобы натренировать свои большие языковые генеративные модели», – заключил Юрий Чайников.

Информированные нейронные сети все более плодотворно используются в самых различных областях науки и техники. Так нейросети начали помогать решать серьезные научно-технические задачи, о чем рассказал руководитель лаборатории искусственного интеллекта института МАИ Вадим Кондаратцев.

merch
Поделиться: