Арсений Кравченко — о необоснованном оптимизме вокруг темы AI в Беларуси

5 июня 2018, 09:00

Представитель сообщества Open Data Science, руководитель R&D команды WANNABY Арсений Кравченко написал для dev.by колонку о том, как спекуляции вокруг темы AI в Беларуси соотносятся с реальностью.

Читать далее...

Ажиотаж на тему искусственного интеллекта, который мы наблюдаем в медиасреде, неизбежно порождает выбросы — кто-то спекулирует на тему того, как AI уничтожит человечество, кто-то говорит о невыносимо светлом будущем. Я хотел бы поговорить о необоснованном оптимизме, который транслируется в некоторых статьях и выступлениях. В частности, многие тезисы, упомянутые в недавнем репортаже с конференции AI-MEN, вызывают удивление (рекомендую ознакомиться с ним перед прочтением этой колонки). 

Про зарплаты

Когда-то промелькнувшие заголовки «Начинающие специалисты по искусственному интеллекту в США зарабатывают от полумиллиона долларов в год» создают совсем не здоровые ожидания.

В оригинальной статье New York Times действительно упоминались суммы от $300 до 500 тысяч в год, но надо понимать, что эти суммы зарабатывают только выдающиеся исследователи или инженеры, с хорошим track record, часто с PhD авторитетного университета и публикациями на топовых мировых конференциях. Если сделать поправку на налоги (которые для таких сумм дохода составляют более 40%) и стоимость жизни в Калифорнии (скажем, аренда небольшой квартиры стоит больше медианной зарплаты программистов в Беларуси), сумма перестанет казаться столь фантастической.

Рядовые специалисты же рассчитывать на подобные условия не могут. Когда компании жалуются на нехватку специалистов в области AI, речь обычно идёт о том, что не хватает тех, кто может вывести проект на новый уровень, а не просто умеет импортировать tensorflow в Jupyter-ноутбуке.

Если присмотреться, для 70-ти с лишним компаний ПВТ, которые указывают направление ИИ в своих видах деятельности, куда более характерно воспроизведение существующих наработок в этой области, чем развитие своих инновационных технологий. В отличие от той же России, в которой, по словам одного из участников AI-MEN, «нет высокотехнологичных компаний», но появляются продукты вроде CatBoost и DeepPavlov.

Чтобы пронаблюдать за ситуацией в Кремниевой долине, можно сравнить соответствующие показатели для вакансий на сайте Glassdoor. В принципе, аналогичная ситуация и в Беларуси: есть считаные позиции и считаные специалисты с высокими зарплатами, но в среднем хороший разработчик и хороший data scientist зарабатывают одинаково.

Про нужные скилы

Упомянув хороших специалистов, я вынужден уточнить, а что же такое хороший. Так вот, требования к практику машинного обучения очень похожи на те, которые предъявляются к прочим разработчикам: тут и алгоритмы со структурами данных, и умение писать понятный, структурированный код.

Возможно, в классическом computer science допускается больше пробелов, зато появляются дополнительные вопросы и по теории (линейная алгебра, теория вероятностей, statistical learning), и по практике (машинное обучение в индустрии полно хаков и костылей, которые надо просто освоить). И, наконец, отдельный скил: с одной стороны, умение быстро учиться, с другой — выбирать инструменты под задачу, а не по тому, сколько хайпа связано с новой публикацией на arXiv.

Всё это стоит понимать, равняясь на людей, которые претендуют на калифорнийские полмиллиона.

Один мой знакомый, проработав много лет в крупных технологических компаниях, поделился примерно таким мнением о минских специалистах: топовые ребята не хуже калифорнийских, но «середнячки» пока сильно отстают от своих коллег за океаном.

Про востребованность

Data Science-специалисты действительно востребованы в наши дни. Но надо очень хорошо отличать ситуации, в которых «умные» алгоритмы действительно важны, от тех, где они скорее «приправа».

Если говорить про всякую автоматизацию и оптимизацию в существующих бизнесах, то зачастую 5% работы data scientist’а будет приходиться непосредственно на моделирование, а всё остальное — на внедрение, согласование, коммуникации с заинтересованными лицами. И здесь точность алгоритма зачастую не так важна, важнее выстроить процессы, чтобы данные собирались, не портились, система была стабильна и так далее.

Есть и более интересные (для инженера или исследователя) позиции, где нельзя без особой рефлексии воткнуть логистическую регрессию и сказать «я сделяль!». Там действительно нужно глубоко понимать алгоритмы, вникать, пробовать новинки и много раз всё выкидывать и начинать сначала. Именно там обычно и нужны те высокооплачиваемые люди, про которых я говорил в начале статьи.

Разница в сложности именно алгоритмических задач между этими двумя категориями — как между программированием в региональной веб-студии и оптимизацией embedded систем реального времени.

Про образование

Процитирую генерального директора BelHard Group Игоря Мамоненко: «Во всём мире сейчас насчитывается 10 тысяч специалистов с дипломами в области ИИ, из которых 1700 подготовлены в Беларуси».

Этот тезис мне кажется настолько не соответствующим действительности, что даже опасным (вдруг кто-то поверит). Давайте разбираться.

Возможно, речь идёт о дипломах специальности «Искусственный интеллект» ФИТУ БГУИР. В таком случае нужно уточнить, сколько из них по этой специальности работает, и какая часть программы и профильных дисциплин этой специальности соответствует современным требованиям.

Чтобы заниматься data science, нужно сколько-то знать математику, сколько-то уметь программировать и уметь решать скорее прикладные задачи (чистой теории в DS не так и много). Знание конкретных алгоритмов же как раз можно и наверстать — книги и онлайн-курсы помогут. Отсюда и требования к специалистам.

В сфере AI работает много людей, в дипломах у которых ничего про этот самый AI не написано (у некоторых и дипломов-то нет, но это скорее исключения). Это кросс-дисциплинарная сфера деятельности, сюда идут люди с бэкграундом в computer science, разного рода математике, физике, других естественных науках, инженерии, эконометрике. Соответственно, оценка занижена минимум на два порядка. Косвенное доказательство — уже в 2017 на Kaggle было зарегистрировано более 1 млн аккаунтов.

В Беларуси действительно есть несколько мест, где сильные преподаватели (часто практикующие специалисты из компаний типа Яндекса) готовят ребят с отличной базой. Например, я слышал хорошие отзывы на магистратуру ФПМИ БГУ«Алгоритмы и системы обработки больших объемов информации». Но это не делает страну мировым центром AI образования.

Всерьёз думая, что почти пятая часть специалистов в AI — белорусы, можно загнать себя в некий вымышленный мирок, обрекая себя на болезненное столкновение с реальностью в будущем.

Про научную деятельность

В статье про конференцию AI-MEN упоминается, как один из выступающих, профессор Владимир Голенков ловко увильнул от ответа на вопрос, есть ли у нас специалисты уровня аспирантов Стенфорда: «К чему закомплексованность? У нас потрясающие специалисты». Тем не менее, я считаю, что вопрос остался без ответа.

Научная деятельность в сфере AI в Беларуси оставляет желать лучшего. Наверное, самый известный исследователь — Дима Богданов (в частности, он привнёс в машинный перевод механизм attention, который сильно продвинул эту область) — получает PhD в Монреале во всемирно известной лаборатории Йошуа Бенджио. Денис Ярец занимается обучением с подкреплением в Facebook AI Research, а не в БГУ, БГУИР или НАН РБ. На конференциях мирового уровня (например, ICML, ICLR, NIPS, CVPR) не видно работ, аффилированных с белорусскими университетами, хотя российские и украинские университеты бывают представлены довольно часто. Да что работы — даже просто посетители этих конференций из Беларуси обычно работают разработчиками-исследователями в индустрии, а не в академических структурах.

Конечно, я могу многого не знать, и в глубинах лабораторий могут создаваться state-of-the-art методы. Но тот факт, что это остается незаметным, тоже не на пользу нашей науке. Если мы хотим, чтобы AI-исследования в Беларуси котировались на мировом уровне, мы должны представлять их там, где их увидит вся тусовка машинлернеров и сможет аргументированно хвалить или критиковать. Пока этого нет, всерьёз говорить о каких-то успехах или даже перспективах сильно преждевременно.

Про гранты и инвестиции

Интересная особенность сферы машинного обучения в том, что исследования ведутся как на гранты (аналогично другим фундаментальным исследованиям), так и на инвестиции, т.к. с экономической точки зрения это выгодно и большим компаниям, и стартапам в надежде на скорый экзит.

В Беларуси тоже есть компании, которые зарабатывают при помощи машинного обучения и готовы вкладывать в это деньги. Есть и венчурные инвесторы, готовые вложиться —  ландшафт не самый плохой. Кажется, что в этих условиях можно найти возможность развивать своё прикладное исследование, не только рассчитывая на гранты.

Более того, тезис о том, что белорусским AI-исследователям стоит всерьёз целиться на европейские гранты, мне кажется не самым уместным — это долгий, забюрократизированный и ненадёжный путь. Конечно, их можно иметь в виду, но выстраивать вокруг них долгосрочную стратегию — едва ли.

Про перспективы

Вышесказанное может показаться излишне скептической точкой зрения, но это не совсем так. У Беларуси есть неплохая база: у нас есть десятки компаний с сильными data science-командами, кое-где в университетах можно получить отличную подготовку, к нам переезжают сильные специалисты из стран-соседей.

Но абсолютно точно нельзя надевать розовые очки и думать, что AI — это суперсила, а Беларусь займёт доминирующее положение в мире благодаря выдающимся экспертам. Чтобы даже не обгонять, а хотя бы не отставать от всего мира, нам всем нужно усиленно работать и не бояться смотреть реальности в лицо.

Все наработки, будь то исследования или продукты, должны быть конкурентны на мировом, а не только местном рынке. То же касается образования и науки. Исключительно локальные успехи — это самообман. Нам нужно научиться честно помещать свои успехи в глобальный контекст.

В заключение я хочу сказать искреннее спасибо всем, кто помогает развивать AI-сообщество и экосистему в Беларуси — компаниям и университетам, преподавателям и экспертам, которые делятся знаниями, участникам митапов и всем остальным. Если мы хотим, чтобы развитие AI помогло развиться стране, небезразличные люди, готовые заниматься таким развитием, нужны гораздо больше, чем формальные ассоциации, ставящие получение грантов первостепенной задачей.

 

Автор благодарит Юрия Картынника и Юрия Зеленского за конструктивное обсуждение и полезные дополнения.
 

Обсуждение