Numerai: как 7,5 тысяч анонимных разработчиков создают «мозг» революционного хедж-фонда

FIN(TECH)
16 декабря 2016, 12:20

Хедж-фонд Numerai работает всего год, но за его деятельностью пристально следят крупнейшие игроки Уолл-стрит. Торговля ведётся машинными алгоритмами, оттачиванием которых занимается краудсорс-армия анонимных специалистов по обработке данных. При этом большинство из них даже не догадывается, над чем работает. Историю стартапа в подробностях описал Wired.

Читать далее

Машинное обучение «вслепую»

Управляющий хедж-фонда Numerai с офисом в Сан-Франциско — 29-летний Ричард Крэйб. Хотя правильнее сказать, что он не управляет фондом непосредственно: этим занимается система искусственного интеллекта, построенная несколькими тысячами специалистов, имена которых Крэйбу неизвестны.

Под флагом стартапа Numerai Крэйб и его команда создали технологию, которая «маскирует» трейдинговую информацию фонда прежде, чем поделиться ей с широким сообществом специалистов по обработке данных. Используя методику, похожую на гомоморфное шифрование, эта технология позволяет убедиться, что подрядчики не видят деталей проприетарных торгов компании, а также группирует данные таким образом, чтобы исследователи могли создавать модели машинного обучения, которые анализируют информацию и, в теории, повышают эффективность торгов с помощью финансовых инструментов.

«Мы отдаём все наши данные, но при этом преобразуем их в абстракции, на основе которых люди могут создавать модели машинного обучения, толком не понимая, с чем именно они работают», — говорит Крэйб.

Он изучал математику в Корнеллском университете (Нью-Йорк), после чего устроиться на работу в Южноафриканскую компанию по управлению активами.

Никто из специалистов по обработке данных, сотрудничающих с Numerai, не известен Крэйбу: он нанимает их онлайн и платит в криптовалюте для сохранения анонимности.

«Каждый может прислать нам свои модели. Если они работают, автор получает вознаграждение в биткоинах», — рассказывает молодой управленец. Таким образом, исследователи не знают, с чем работают, а заказчик не знает, кому платит деньги. Поскольку работа ведётся с зашифрованной информацией, подрядчики не могут использовать свои модели для других данных — как и сам Крэйб. Но он уверен, что «слепой может привести слепого» к улучшению работы хедж-фонда.

Numerai торгует акциями уже год. Из-за государственной политики регулирования подобных операций фонд не предоставляет данных об успешности своей работы, но утверждает, что является прибыльным. Всё больше именитых инвесторов вкладывают средства в развитие революционного стартапа, включая основателя Renaissance Technologies, крайне успешного «квантового» хедж-фонда, основанного на анализе данных.

Крэйб и его коллеги только что завершили первый раунд венчурного финансирования под руководством нью-йоркского фонда Union Square Ventures, который вложил $3 млн —  половину общей суммы привлечённых средств.

Хедж-фонды всё активнее занимаются исследованием алгоритмов машинного обучения. Среди таких «исследователей» есть как уважаемые на Уолл-стрит Renaissance и Bridgewater Associates, так и финтех-стартапы наподобие Sentinent Technologies и Aidyia. Однако компания Крэйба представляет уникальный подход — использование краудсорса для создания торговых алгоритмов. Некоторые занимаются чем-то подобным, но Numerai выделяется крайностью своих подходов.

При этом компания воспринимается многими как своеобразный «прикол» из Кремниевой долины: небольшой стартап, желающий придумать заново финансовую индустрию с помощью искусственного интеллекта, шифрования, краудсорсинга и биткоина. Не хватает только виртуальной реальности. Даже один из инвесторов стартапа, партнёр Union Square Энди Вайсман, называет его «экспериментом».

Ричард Крэйб

На грани: как вместить гомоморфное шифрование в «окно» бизнес-решений  

Крэйб придумал идею новой компании во время работы в финансовой компании в Южной Африке. Он отказывается называть прошлого работодателя, и говорит лишь, что компания управляет активами на сумму более $15 млрд. Тогда молодой специалист был занят созданием алгоритмов машинного обучения, с помощью которых работал фонд, но всё было не так глобально.

В определённый момент Крэйб захотел поделиться данными компании с другом, который занимался намного более глубоким машинным обучением с помощью нейронных сетей, но работодатель запретил это делать. Этот случай помог с формулировкой идеи.

«Именно тогда я начал изучать новые способы шифрования данных в поиске способа поделиться информацией с другом, не боясь того, что он украдёт её и откроет собственный фонд», — вспоминает Крэйб.

Результатом стало создание Numerai. Основатель вложил в стартап $1 млн собственных средств, а чуть позже объявил о получении финансирования в размере $1,5 млн от группы инвесторов.

Очевидно, что компания работает не по шаблону. Это становится понятным сразу после посещения официального сайта компании, на котором Крэйб объясняет миссию своего детища в коротком видео.

«Посмотрев эти ролики, мы поняли: этот парень мыслит по-другому», — говорит Вайсман. Сам соинвестор отмечает, что пока не ясно, насколько работоспособна избранная схема: гомоморфное шифрование значительно замедляет задачи по анализу данных.

«Гомоморфное шифрование требует огромных затрат времени. Как вместить его в „окно“ принятия бизнес-решений?» — задаётся вопросом CEO работающей над схожими задачами компании Baffle Амиш Диватиа.

Крэйб утверждает, что проблема скорости решена с помощью собственного варианта шифрования, но Диватиа предупреждает об опасности снижения глубины защиты информации в таких случаях.

Эту версию подтверждает и Рафаэль Бост, исследующий машинное обучение на основе зашифрованных данных в Лаборатории компьютерных наук и искусственного интеллекта MIT. Бост предполагает, что Numerai использует метод, похожий на ранее описанный Microsoft, при котором информация шифруется, но не является полностью защищённой.

«Нужно быть очень аккуратным в отношении атак по сторонним каналам при работе с такими алгоритмами», — предупреждает Бост.

«Зашифрованные данные — словно выключить звук на вечеринке»

Как бы там ни было, Numerai наращивает активность. Три месяца назад около 4,5 тысяч исследователей построили порядка 250 тысяч моделей машинного обучения, которые сделали около 7 млрд предсказаний для фонда. На сегодня исследователей уже 7,5 тысяч, моделей — 500 тысяч, а количество прогнозов подобралось к 28 млрд.

Исследователи данных соревнуются в создании наилучших моделей и зарабатывают на этом деньги. По такому же принципу работает Kaggle — платформа для исследователей, на которой они могут тестировать модели. Часть хитрости Numerai заключается именно в больших объёмах: используя техники машинного обучения под названием stacking (ensembling), компания объединяет лучшие из мириад алгоритмов в более мощные.

Хотя большинство занятых в работе исследователей и являются анонимными, часть из них работает открыто, включая Филлипа Каллитона из Буффало, Нью-Йорк. Он также сотрудничает с компанией по анализу данных Multimodel Research, которая получила грант от Национального научного фонда США. Филлип провёл много лет в «сражениях» с другими исследователями на Kaggle, и находит работу с Numerai более предпочтительной.

«Kaggle интересен, и мне нравится конкуренция. Однако распределение средств в Numerai происходит только между примерно сотней лучших, и самые успешные из них получают вполне внушительные суммы, что приятно», — рассказывает учёный.

Каждую неделю сотня исследователей зарабатывает свои биткоины на $150 тысяч в эквиваленте. По словам Крэйба, если фонд достигнет отметки в миллиард долларов в своём управлении, на оплату специалистов по обработке данных будет ежемесячно уходить $1 млн.

Каллитон говорит, что работать с зашифрованными данными и делать выводы на их основании сложнее. Такого же мнения придерживается и другой постоянный «помощник» Numerai Джим Флеминг, который также помогает в консультировании по вопросам обработки данных в Fomoro Group. Но это не обязательно является проблемой. Ведь суть машинного обучения и заключается в том, чтобы научить компьютер делать выводы из полученных данных.

Во многих случаях, даже работая с незашифрованными данными, Каллитон не знает, что информацие из себя представляет, но это не мешает создавать модели машинного обучения.

«Зашифрованные данные — как выключить все звуки на вечеринке. Вы больше не вслушиваетесь в частные беседы людей, но можете очень точно сказать, как близки они друг другу», — сравнивает Каллитон.

Если для большого сообщества исследователей данных Numerai всё будет обстоять именно таким образом — а на это и надеется Ричард Крэйб — Уолл-стрит тоже будет очень внимательно прислушиваться к деятельность революционного стартапа.


Фото: Siren

Материалы рубрики FIN(TECH) создаются в партнёрстве с компанией exp(capital)
подписка на главные новости 
недели != спам
# ит-новости
# анонсы событий
# вакансии
Обсуждение