«Мои коллеги не употребляют термин AI». Александр Крайнов отвечает за машинное обучение в «Яндексе». Говорим про разработки, спекуляции и зарплаты

25 февраля 2019, 17:47

Александр Крайнов отвечает за проекты «Яндекса», в которых задействовано машинное обучение. В Минске он прочитал лекцию для студентов БГУ. dev.by поговорил с AI-специалистом про разработки, зарплаты, спекуляции и этику. 

В интервью «Медузе» в 2016 году ты говорил, что каждые полгода в сфере AI будет появляться «нечто, выглядящее как абсолютная сенсация». Можешь назвать несколько таких сенсационных открытий за последние год-два?

У многих могут быть свои соображения по этому поводу. Но меня больше всего впечатляет то, что сейчас происходит с генерацией изображений. Весьма близкая мне тема — это Super-Resolution, когда повышают разрешение изображений. Очень хорошие результаты! Сейчас появилось множество алгоритмов, генерирующих изображение человеческого лица. Это абсолютно реалистичные изображения лиц людей, которых никогда не существовало. Они сейчас такие, что я даже близко не смогу сказать, где настоящее лицо, а где воссозданное.

Есть работы (там, правда, пока с многочисленными артефактами), когда генерируют, например, проезд автомобиля по улицам — в Nvidia такую замечательную вещь делали. Или перенос видео танцующего человека. Одного человека снимают во время танца, а у другого снимают базовые движения, потом генерируется видео, где второй человек танцует так же, как и первый. Выглядит это невероятно здорово.

Конечно, ожидалось, что нейронные сети будут прекрасно генерировать, но, когда видишь собственными глазами, это очень впечатляет.

Где подобная генерация лиц может использоваться?

Я пока не знаю. Не думаю, что люди ставили задачу: «А давайте генерировать лица!». Просто лица всегда интересный домен — для нас, для людей. И здесь очень много хороших датасетов. Поэтому, когда генерируют изображения, упражняются на лицах.

Думаю, мы доживём до момента, когда появятся несуществующие актеры. Не просто 3D-модель, а лицо, сгенерированное нейронной сетью. Оно будет обладать мимикой и будет «вставляться» в фильм. При этом реальный актер всё равно будет играть за кадром, но его мимика будет перенесена на сгенерированное лицо. В этой ситуации реального актёра мы не будем видеть. Это примерно то же самое, что сейчас происходит с 3D-фильмами: на актёров ставят датчики, а потом движения актёров переносят на дракона на экране. А тут актёр будет играть человека. И это будет абсолютно фотореалистичный человек.

Твой личный топ спекуляций вокруг AI. Не столько в медиа (про порабощение человечества в основном), сколько на ИТ-рынке: прикручивание нейросетей к каждому фонарю, сверхвысокие зарплаты AI-специалистов, что ещё?

Многие компании начинают называть AI всё что угодно и заниматься этим, потому что «модно», и набирать под это специалистов. Между тем основная ошибка, которую допускают работодатели при найме людей, работающих с AI, заключается в том, что компании идут не от целей и задач, которые будут решать такие разработчики, и не от эффективности.  Такой подход вряд ли можно назвать правильным. Впоследствии он ведёт к разочарованиям как со стороны компаний, так и рынка в целом. Внедрение AI должно быть средством решения некой задачи и не должно быть целью. 

Facebook купил белорусский AI-стартап для примерки масок, Google — белорусский AI-стартап для примерки волос. Похожие сделки есть у российских и украинских проектов. Для стороннего наблюдателя это выглядит как высокий спрос на «разукрашки». В то же время их разработчики говорят, что это приложения-витрины революционной технологии. Объясни, как на самом деле. 

Когда большая компания покупает маленький стартап, на это есть несколько причин. Чаще всего покупается не технология (технология есть и у большой компании) — покупается работоспособная команда квалифицированных разработчиков. Это дорогого стоит. Не важно, что за стартап у них получился. Сам факт, что проект реализован, что он вышел на рынок, что у него есть аудитория, говорит о том, что ребята умеют работать. То, что «под капотом» приложения лежат современные нейросетевые технологии, говорит лишь о том, что ребята не просто умеют работать, у них есть еще и квалификация.

Покупается либо команда, либо продукт. Почему покупается продукт, связанный с энтертейментом (именно продукт, а не команда)? Тут вообще велика роль удачи. Можно делать 100 одинаковых продуктов, но получится так, что один или два из них выстрелят и станут заметными. Делать такие развлекательные продукты в большой компании — не очень выигрышная стратегия. Большой компании хорошо удаются, как правило, фундаментальные, сложные вещи. В «лёгких» вещах у нее нет никакого преимущества перед сотней стартапов. В такой ситуации проще посмотреть, кто побеждает на рынке, и приобрести их.

Но всё-таки покупка продукта — это более редкий сценарий. Маленькие команды, присоединяясь к большим компаниям, нечасто продолжают работать над теми же проектами, что и прежде.

«В Яндексе никто не говорит, что мы делаем что-то в AI»

Как у вас в Яндексе называют AI, во внутренней кухне?

Прекраснейший вопрос. В этом плане показателен пример CVPR, моей любимой конференции по компьютерному зрению. Основная жизнь конференции происходит «на постерах». Есть там такая «poster session» — огромный зал с кучей постеров, где происходит основное общение. А есть ещё отдельная демо-зона, где компании ставят свои стенды, в основном с целью найма. Так вот: во всей той части, где находятся учёные, не было слов AI — нигде, ни на одном постере! Зато на каждом стенде компаний с вакансиями — «У нас передовые AI-разработки».

Я не помню в «Яндексе» таких случаев, чтобы кто-то говорил, что мы делаем что-то «в AI». Кроме как в шутку. Внутри это называется, например, машинное обучение. Абсолютно уверен, что так происходит в любой компании: когда общаешься с коллегами, термин AI никто из них не употребляет.

При этом у нас в «Яндексе» всё, что касалось машинного обучения, всегда стояло во главе угла. Были такие времена в истории мирового поиска, когда большие компании справлялись полуручными методами, а в «Яндексе» уже переходили на машинное обучение. Навскидку я не могу назвать продукт «Яндекса», где сегодня не было бы машинного обучения. В компании создаются специальные подразделения, выделенные для машинного обучения. В каждой команде есть специалист в этой области. Если посмотреть наши вакансии, нам сплошь нужны люди, которые этим занимаются.

Можешь назвать самый «AI-ёмкий» проект компании? 

Я думаю, что это «Алиса».

В ней сосредоточено большое количество самых разных технологий: всё, что касается распознавания и синтеза речи, и всё, что касается анализа естественного языка. Потом «Алиса» даёт интерфейс к поиску, где тоже используется машинное обучение. В «Алисе» есть компьютерное зрение: вы можете сфотографировать что угодно — и она это распознает. «Алиса» сейчас умеет переводить, а переводчик — это тоже сплошь машинное обучение. Как продукт, «Алиса», наверное, — самое яркое демо того, что есть в машинном обучении.

Я сказал бы так: если взять «Алису», рекламу и беспилотные автомобили, то мы получим полную витрину того, что делает машинное обучение в «Яндексе».

Почему? Потому тот же самый поиск, в котором машинного обучения много, в «Алисе» представлен. То, чего нет в «Алисе», — это яндексовские рекламные технологии, которые позволяют показывать релевантную рекламу, а там очень много машинного обучения. Ну и беспилотные автомобили, это свой отдельный большой мир.

Ещё, например, прогноз погоды, который мы строим сами. Методики машинного обучения позволяют это делать так, что в команде, которая занимается прогнозом погоды, работает всего один метеоролог. Да и то он появился не сразу.

Ты упомянул беспилотные автомобили. Минский офис «Яндекса»  тоже принимает участие в разработке ПО для беспилотников. У тебя есть прогноз, когда автомобили без водителей станут стандартным атрибутом городской жизни?

Здесь прогнозы базируются скорее не на развитии технологий, а на готовности общества и законодательной базы. Потому что это действительно совершенно новая история, и нужно будет многое изменить и в отношении к данному явлению, и в законах. Этот процесс, боюсь, будет идти не быстро. Хотя, надо сказать, что я сильно впечатлён, как во многих странах активно помогают развитию беспилотных автомобилей. Я не вижу, чтобы государственные законы вставляли палки в колёса. Скорее наоборот, они стараются идти навстречу.

По теме
Все материалы по теме

Но задача объективно очень сложная. Есть масса вопросов в отношении, например, ответственности за возможный инцидент с участием беспилотника. А инцидент всё равно будет. Не бывает безошибочных вещей. Даже если беспилотный автомобиль будет в тысячу, в миллион раз безопасней человека за рулём, всё равно какой-нибудь инцидент обязательно случится. Как быстро все эти вопросы решатся, сказать очень сложно. Тем не менее, думаю, беспилотный транспорт будет постепенно проникать в нашу жизнь. Появится, например, рельсовый беспилотный транспорт. Или транспортные средства, которые будут работать на закрытых территориях, или беспилотники, передвигающиеся по каким-то заданным точкам в выделенных для них зонах. То есть эта сфера будет развиваться постепенно.

Что касается уровня технологий, он сейчас вполне годный. Вот недавний пример. Наши ребята собрали машину в Штатах и показывали её на Consumer Electronics Show в Лас-Вегасе. Для нас это был абсолютно новый опыт. Наш автомобиль наездил много часов в Москве и в Иннополисе, но в Америке мы его не обкатывали. За короткий срок машина поехала и сама ездила по улицам Лас-Вегаса. Там была составлена специальная карта участка, то есть она не ездила уж совсем куда угодно. Но по этому участку она передвигалась без всякого вмешательства человека. Инженер даже за рулём не сидел. Он был на пассажирском месте.

Что бы ты обозначил как самые трудноразрешимые AI-челленджи в «Яндексе» сегодня?

Наверное, для каждого подразделения компании можно назвать что-то своё. Постоянно — вместе с изменением поведения пользователей — повышается  качество поисковой системы. Есть огромная тема рекомендаций контента. Там очень много машинного обучения. От того, насколько хорошо компания умеет рекомендовать контент — всё что угодно: музыку, новости, товары или фильмы —  вообще зависит её успех.

В компьютерном зрении сейчас много сил уходит на технологию DeepHD (это наша реализация технологии Super-Resolution).

Непонятно, как все эти области между собой сравнивать. Везде есть своя команда, у которой свои цели.

У тебя есть «любимый» проект?

Последние 9 лет самый интересный для меня проект — это запрос картинкой. То есть когда мы вводим запрос не текстом, а что-то фотографируем, и это становится нашим запросом к поиску. В каких-то случаях нужно распознать, что изображено на картинке, в каких-то надо найти конкретный товар и его цену, а в каких-то — разыскать что-то похожее, для вдохновения. Персонально мне этот проект очень нравится. Мне нравится, какой путь он прошёл, а также разница между этой технологией восемь лет назад и тем, как она работает сейчас. И ещё многое впереди.

«В абсолюте на постсоветском пространстве невозможны такие зарплаты AI-специалистов, как в США. Относительно — возможны»

В резонансной статье New York Times в качестве зарплат ИИ-инженеров упоминались суммы от $300 до 500 тысяч в год. Какие специальности в сфере AI могут приносить такой доход?

Нельзя сказать, что в сфере машинного обучения есть области, которые приносят больший доход, чем остальные. Грубо говоря, если человек, который занимался беспилотными автомобилями, перешёл в машинный перевод, это не значит, что он потеряет или выиграет в деньгах.

Да, имеет значение навык и квалификация человека. Уровень зарплаты определяется не только профессиональными компетенциями, но и тем, насколько человек способен проявить себя как тимлид. Сделать так, чтобы его команда работала максимально эффективно. А когда мы говорим об области машинного обучения, то имеем в виду высокооплачиваемых амбициозных специалистов, востребованных на рынке, и непросто сделать так, чтобы они верили в своего лидера, доверяли его мнению. Людей с такими качествами на рынке не очень много, и они действительно дорого стоят. Но, мне кажется, так дела обстоят и в любой другой сфере.

На постсоветском пространстве такие зарплаты возможны в области AI?

В абсолюте, наверное, нет. Относительно, наверное, возможны. Почему я говорю «в абсолюте»? Потому что нельзя забывать о том, какие сумасшедшие налоги в Штатах. На налоги вполне может уходить ползарплаты. Плюс более высокая стоимость жизни, цены на жильё в той же Калифорнии зашкаливают. В конце концов, в США зарплаты у людей могут сильно отличаться, даже если они работают в одной компании, но в подразделениях в разных штатах. У нас жизнь дешевле, налоги намного меньше. То есть если говорить о зарплате людей, которые занимаются машинным обучением в постсоветских странах, и сравнивать со средним уровнем зарплаты, то разница может быть даже больше.

Ощущается нехватка AI-кадров? 

Не то слово. Есть нехватка всех специалистов. Особенно нужны специалисты, которые адекватны, любят работать, понимают, что не бывает только чтения статей и перебора свежих моделей, что нужно потратить время, чтобы повозиться с датасетами, что нужно проводить большое количество экспериментов, дотаскивать свои разработки до продакшена. То есть люди, которые нацелены на результат. Таких людей в любой области всегда не хватает, на них всегда высокий спрос. Просто знания человека в машинном обучении — это такая дефицитная добавка к хорошему специалисту. А так все критерии хорошего специалиста одинаковы во всех областях.

«Я бы не сказал, что студенты предпочитают кодить за деньги»

Мы как раз подобрались к проблеме образования. «Яндекс» недавно учредил премию имени Ильи Сегаловича. Для чего Яндексу «поощрять» такие  достижения деньгами? Студенты предпочитают «тупо кодить за деньги»?

Я бы не сказал, что «предпочитают тупо кодить». Компьютерные науки очень молодые. Если мы посмотрим на авторов статей, чьи фамилии идут первыми в списке авторов, то это очень молодые ребята. На конференциях по компьютерным наукам состав тоже очень молод. Эти ребята, как правило, какое-то время занимаются наукой, а потом большая их часть переходит в коммерческие компании. Люди хотят жить лучше, и побеждает желание зарабатывать прямо сейчас. В этой ситуации мы хотим поддержать ребят максимально объективным образом. Кроме того, мы очень переживаем за отечественную и в целом постсоветскую науку.

Кто будет оценивать их исследовательские успехи?

Есть совет премии. Он достаточно большой. В него входят самые разные люди. Там есть несколько человек из «Яндекса» и внешние ученые, никак не связанные с компанией. Такие как Илья Мучник. Или, например, мы закрыли состав совета, включив в него Алексея Эфроса. Сейчас это один из самых известных и популярных учёных в области компьютерного зрения.  Мы очень рады, что он согласился. Его все любят и уважают. Сам он выходец из Санкт-Петербурга, но давно живет и работает в США, в Университете Беркли.

Арсений Кравченко заметил в своей колонке для dev.by, что научная деятельность в сфере AI в Беларуси оставляет желать лучшего. Наверное, самый известный исследователь — Дима Богданов — получает PhD в Монреале, Денис Ярец занимается обучением с подкреплением в Facebook AI Research, а не в БГУ, БГУИР или НАН РБ. На конференциях мирового уровня (например, ICML, ICLR, NIPS, CVPR) не видно работ, аффилированных с белорусскими университетами. Премия Яндекса, конечно, не поможет переломить ситуацию. А что-то вообще поможет? В России с этим получше?

В России есть вузы, студенты которых довольно часто публикуются. Это Вышка (Высшая школа экономики. — Прим.ред.), это МГУ, это, если говорить об аспирантуре, Сколтех. Есть научные публикации учёных, аффилированных с коммерческими компаниями. В частности, исследователи из «Яндекса» довольно регулярно публикуются на топовых конференциях.

Мне кажется, что здесь многое определяется научными руководителями. В частности, поэтому в нашей премии есть отдельная номинация для научных руководителей. Я хочу подчеркнуть: это не значит, что если студент получает премию, то его руководитель тоже её получает.

Если мы говорим о том, что нужно сделать, чтобы в Беларуси появлялись статьи и публикации, то нужно растить ребят, у которых будут такие публикации, делать так, чтобы они работали здесь, на кафедрах вузов, чтобы они набирали себе учеников. Создавать условия, чтобы они здесь работали. Я не сомневаюсь, что способные кадры есть.

Ты только что читал лекцию в БГУ. В чём ты и компания видите от этого пользу?

Есть некий большой котёл нынешних и будущих специалистов по машинному обучению. Из этого большого котла черпают себе кадры различные компании, стартапы. Это некая среда, которой мы питаемся. Образовательная деятельность — это вклад «Яндекса» в развитие среды. Допустим, на эту лекцию придет сто человек. Из них пятьдесят знает, что такое машинное обучение — у них окрепнет интерес, они продолжат этим заниматься, у них появятся новые идеи. А кто-то, может быть, впервые, подумает, что это интересная тема, решит пройти курсы на Coursera, начнет всерьёз заниматься. Чем больше людей увлечётся этой сферой, тем легче нам потом будет с кадрами.

Это не прямой хайринг. Разве можно называть хайрингом чтение лекций для школьников? Конечно, нет. Но в будущем эта деятельность себя проявит. Самый известный образовательный проект Яндекса — «ШАД» («Школа анализа данных», которая также работает в Минске), и никто никаким образом выпускника школы не обязует работать в «Яндексе». Они, собственно, и работают где угодно, совсем не обязательно у нас. Но благодаря «ШАД» мы, в том числе, очень серьёзно пополняем наш кадровый запас.

«Нет смысла воспроизводить человеческий мозг»

Несколько «детских» вопросов про нейросети. Технология нейросетей взяла за основу принцип организации нейронных сетей человеческого мозга. Следят ли специалисты по машинному обучению за тем, что происходит в науке о мозге?

Не очень сильно. Есть, конечно, люди, которые работают на стыке дисциплин. Есть люди, которые занимаются нейроинтерфейсами. Но в целом — следят не очень сильно. В среднем специалист в machine learning не уделяет большого внимания принципам работы головного мозга.

Несмотря на то, что базовые принципы, подходы действительно схожи, всё-таки в деталях огромное количество различий. Нет смысла воспроизводить человеческий мозг, потому что он, грубо говоря, аппаратно устроен по-другому. У компьютерной техники есть свои преимущества и недостатки по сравнению с мозгом. Архитектура искусственных нейронных сетей создаётся не с целью воспроизвести работу мозга, а с целью получения максимального результата на тех объёмах данных, которые доступны для машины и на доступном аппаратном обеспечении. И здесь есть масса различий.

Новости о результатах, которых добился AI, можно условно разделить на два блока. Первый  — это практические достижения нейросети. Например, улучшение работы поисковой системы. Здесь понятна мотивация людей, которые ставят перед машиной задачи. А вот второй блок — это разного рода «нейронная сеть написала стихи», «нейронная сеть сочинила музыку». Зачем перед AI ставят такие задачи? 

Это эксперименты, простое человеческое любопытство. Если мы в результате долгих и упорных трудов разработали алгоритм, который позволяет на 0,1 процента точнее показывать рекламу, то для компании — это невероятный сумасшедший успех. Огромные ресурсы людей вкладываются в такие задачи, и очень много сложной науки скрывается «под капотом». Но об этом сложно рассказывать. Это непонятно, неинтересно. А если нейросеть нарисовала картину или сделала музыкальное произведение, то такое всем понятно, это можно пощупать или послушать. И выглядит намного эффектней. Про это все хотят писать и говорить. А силы, которые на такой результат тратятся, несоизмеримо меньшие.

В одном из интервью ты говорил, что нейросеть может не только определять объекты на картинке, но и понять, красивое изображение или нет. Как нейросеть работает с таким сложно алгоритмизируемым понятием, как красота?

Нейросеть учится на оценках людей: берётся большое количество изображений, и люди тем или иным способом обозначают, что им нравится или не нравится. Это можно сделать, например, показывая человеку два изображения, где он будет выбирать понравившееся.

Можно ориентироваться на какие-то косвенные признаки: на количество лайков или оценок фотографий на фотостоках или где-то ещё. Можно исходить из предположения, что среднестатистическая фотография человека в Фейсбуке уступает по красоте фотографии из National Geographic. В итоге попытаться обучить нейронную сеть таким образом, что она, сравнивая два изображения, отдавала предпочтения тому, что и по нашему мнению должно быть красивее.

Так и работает нейросеть, оценивая изображение. Но здесь действительно сложно, потому что всё это невероятно субъективно. Мы можем с выбором нейросети соглашаться или нет. Но ведь мы и друг с другом можем спорить, оценивая степень красоты. В целом получается обучить нейронную сеть оценивать понятие «красивого» на уровне какого-нибудь человека. В конечном итоге не факт, что я смогу понять, где результат выбора нейронной сети, а где — человека.

Одно из основных понятий, которое используется, когда речь идёт о нейронной сети, — это «память». Насколько память нейросети сейчас ограничена техническими возможностями?

Есть несколько ограничений. Помимо аппаратных: чем больше нейронная сеть, тем сложнее её обучить — есть ограничения на данные, для некоторых задач. Сейчас с данными становится попроще, но всё равно ограничения существуют.

Однако есть еще одна важная штука, о которой периодически забывают. Не знаю, как это сказать простым языком… Чем больше данных, чем сложнее нейронная сеть, тем тяжелее найти в ней минимум ошибки, подобрать оптимальное состояние такой сети. Это делается довольно сложными математическими методами.

В этом собственно и состоит наука машинного обучения: как в системе с миллионами параметров найти такое их сочетание, которое будет являться оптимальным для решения текущей задачи.

Что касается способности нейронной сети именно запоминать: да, нейронная сеть запоминает, но в этом нет никакой магии, потому что систем, способных запоминать, и без того много. Ключевая способность нейронной сети не в способности запоминать, а в способности обобщать закономерности.

Пока каких-то ограничений, чтобы появилось что-то фундаментальное, что нам не дает двигаться дальше, — такого нет. Движение продолжается, пусть не очень быстрое, скорее поступательное. Но я не вижу такой ситуации, чтобы мы упёрлись в потолок.

Машина уже может создавать тексты, не отличимые от написанных человеком?

Совершенно нет. Что может делать машина? Она может из одних текстов, написанных человеком, делать другие тексты, написанные человеком. Выполнять некий перенос текстовых стилей. Или брать большой текст и попытаться сделать из него более компактный таким образом, чтобы оставался тот же самый смысл и связное изложение. Такое тоже возможно. Но создать длинный, связный, осмысленный прозаический текст с нуля машина не может.

Как нейросеть справляется с задачей сравнения текста и изображения? Может ли машина привести к смысловому знаменателю текст, посвящённый какому-то событию, и изображение, посвящённое тому же событию?

Конечно. Машина выполняет такую задачу прекрасным образом. И чем дальше, тем лучше это работает. Это не всегда хорошо видно снаружи. Но в «Яндексе», в поиске по картинкам, это один из самых значимых факторов ранжирования. Когда мы вбиваем текстовый запрос, результаты отображаются в том числе по близости изображения, самих пикселей, нашему запросу.

Рассмотрим простую ситуацию. Вот есть обычный поиск по картинкам. Возьмём наше изображение и забросим его в поиск, чтобы нашлись похожие изображения. Они будут похожи семантически. Если мы начнём их сравнивать по пикселям, между ними может не быть вообще ничего общего. Они совершенно разные. Тем не менее одно считается похожим на другое. Почему так происходит? Потому что мы таким образом превращаем изображение в некое число, в некий вектор, что близость между этими векторами имеет семантический смысл. Вот попробуем себе представить большое многомерное пространство. В этом многомерном пространстве мы можем поместить любое изображение и любой текст. Мы учим нейросеть помещать туда объекты таким образом, чтобы, например, картинка автомобиля и слово «автомобиль» были рядом. Или слова «автомобиль», «машина» и «тачка» оказывались рядом. Или, скажем, короткий текст и длинный текст: например, «автомобиль» и «мастерская по ремонту и обслуживанию автомобилей». Мы учим нейронную сеть, простите за жаргон, «эмбедить», то есть помещать в это пространство объекты самой разной природы (тексты, изображения, есть эксперименты и с музыкой) таким образом, чтобы близкие друг другу сущности оказывались рядом.

И это вообще очень интересная вещь, на этом много что основано. Здесь работа кипит не переставая, результаты всё лучше и лучше. Другое дело, что их очень сложно наглядно продемонстрировать. Но если мы видим, что улучшается качество картиночного поиска, связанность ответов Алисы на текстовые запросы, если улучшается качество машинного перевода, то точно можно быть уверенным, что где-то улучшается качество этих самых «эмбедингов».

«Этика — в постановке бизнес-задачи»

Бурное развитие AI традиционно провоцирует вопросы философско-этического характера. Может ли учитываться этический фактор при разработке проектов, связанных с машинным обучением? Как вы его учитываете в своих проектах? Может ли он быть частью ТЗ?

Скажем так, в машинном обучении всегда есть цель, которую мы хотим достичь, и некая метрика, с помощью которой мы измеряем результат. Этичность или неэтичность заложены не в самом машинном обучении, а в постановке цели.

Мне, по счастью, в своей деятельности не приходилось сталкиваться с такими задачами, где нужно было бы решать какую-то большую этическую проблему.

Наверное, из подобных проблем можно назвать следующую. Так получается, что в интернете очень много контента для взрослых. Существует сложившееся, негласное правило, что любые поисковые компании, и «Яндекс» в том числе, стараются не показывать взрослый контент детям. Даже если мы не знаем, дети или не дети запрашивают поиск, мы стараемся такое не показывать. Существует три режима поиска: семейный, когда такой контент вообще никогда не показывается, умеренный, который обычно работает по умолчанию, и поиск «без ограничений». Поиск «без ограничений» нужно принудительно включить. В умеренном поиске при так называемых серых запросах, когда может быть даже не до конца понятно, что запрашивается, мы всегда стараемся не показывать взрослый контент.

И здесь этика заключается в том, что если мы по нейтральному запросу, где не было явно подобного интента, его показали — это ошибка. Мы для себя определяем, что так быть не должно. Но этика — в постановке бизнес-задачи, а дальше машинное обучение просто реализует поставленную задачу.   

подписка на главные новости 
недели != спам
# ит-новости
# анонсы событий
# вакансии
Обсуждение