Учёный: алгоритмы машинного обучения не заслуживают доверия и ведут к пустым тратам времени и денег

19 февраля 2019, 16:21
Учёный: алгоритмы машинного обучения не заслуживают доверия и ведут к пустым тратам времени и денег

Использование машинного обучения в исследованиях ведёт к «научному кризису», и также к пустым тратам времени и денег считает статистик Университета Райса Дженевера Аллен. По словам учёного, результаты алгоритмов зачастую оказываются частично или полностью неверны, пишет Computing.

Технологии машинного обучения сегодня применяют тысячи учёных в различных сферах — от астрономии до биомедицины. Однако по мнению Аллен, воспроизводимость прогнозов и выводов таких алгоритмов должна вызывать сомнения — по крайней мере пока не изобретены более совершенные вычислительные системы, способные критически оценивать свои результаты.

МО используется для создания систем, автономно обучающихся на опыте без вмешательства человека. Алгоритм ищет паттерны в тренировочном наборе данных и улучшает качество решений. Проблема в том, считает Аллен, что система не может сказать, что ей непонятны какие-либо данные или что она не знает что-то.

Система всегда выдаёт ответ, но он может быть не настолько точен или идеален, каким его считают исследователи. Алгоритм будет пытаться найти закономерность в данных, даже если она присутствует лишь частично и может быть не действительна для реального мира.

Об ошибочности выводов таких исследований остаётся неизвестно до того момента, пока не появится другое аналогичное исследование, с противоречащими выводами — и в этом, утверждает Аллен, сегодня заключается проблема воспроизводимости результатов в науке.

Совместно с командой исследователей Медицинского Колледжа Бейлора Аллен ведёт разработку технологий машинного обучения и статистических методов нового поколения, которые сначала будут проводить оценку огромных датасетов, а также указывать воспроизводимость результатов или степень «уверенности» в них. По её мнению, такие технологии займут несколько больше времени, но позволят учёным значительно удешевить сбор данных и повысят надёжность исследований.

Обсуждение