Сначала продавай, потом делай. Как стартап-аналитик e-commerce с разработкой в Минске получает инвестиции и искореняет ручной труд

29 комментариев
Сначала продавай, потом делай. Как стартап-аналитик e-commerce с разработкой в Минске получает инвестиции и искореняет ручной труд

Ирландская компания с минской разработкой Profitero помогает брендам продавать онлайн: собирает информацию у ретейлеров, анализирует и выдаёт в понятном виде. Основатели рассказывают, как помогает принцип Кремниевой долины «Sell first, build later», где искать первых клиентов, и о чём общаться с инвесторами. 

— Нашим первым офисом была комната в 18 «квадратов», — говорит Константин Черныш, один из трёх основателей и CIO компании. — Это четвёртый офис за несколько лет, переехали сюда в 2014, когда закрыли инвестиционный раунд A. Начали с одного помещения, а теперь разрослись до двух этажей и почти 1400 квадратных метров.

«Инвесторы вкладывают не в точки, а в кривые»

Дмитрий Высоцкий, CTO Profitero: Всё началось в 2009 году. В то время я работал в IBM в Дублине. Разрабатывал поиск для Lotus Connections: используя алгоритмы обработки естественных языков, мы собирали данные из разных источников и делали поиск по этой агрегации.

Владимир Пигрух, CEO Profitero: Я тоже жил в Дублине, и мы с Димой хорошо знали друг друга. Работал в Google, а туда перешёл из Microsoft. Занимался коммерческими операциями — продажами AdWords на Украину.

Константин Черныш, CIO Profitero: А я жил в Минске и занимался торговлей через собственный сайт. В какой-то момент пришло осознание: если хочешь продавать товары лучше, чем твои конкуренты, нужно выставлять цену ниже, чем у них, или хотя бы такую же. В Беларуси это особенно актуально: здесь человек часто готов потратить час своего времени, который стоит $15, чтобы купить вещь на $3 дешевле.

Я сразу понял: отслеживать цены вручную — нереально, это требует слишком много времени. Решил написать скрипты, автоматически сравнивать цены на разных сайтах, проверять, везде ли товар есть в наличии, и за счёт этого решать, есть ли смысл менять свои цены. Потом пришло понимание, что эти скрипты можно кому-то продать.

Слева Дмитрий Высоцкий, CEO. Справа Константин Черныш, CIO. В минском офисе Profitero.  

Слева Дмитрий Высоцкий, CEO. Справа Константин Черныш, CIO. В минском офисе Profitero.  

Владимир: Очень важно, что идея зародилась из проблемы реального онлайн-продавца, Кости. Мы обсудили идею и решили, что для начала нужно узнать, есть ли такая проблема у кого-то ещё и можно ли на её решении построить бизнес.

Дмитрий: Сделали одностраничный веб-сайт, повесили туда минутное видео, объясняющее суть нашего сервиса, и форму подписки. Стали собирать на этот сайт людей через свой нетворк в LinkedIn: «Посмотрите, чем мы занимаемся». И за две недели получили через форму подписки 180 контактов: имена, телефоны, компании, должности.

При этом самого сервиса у вас ещё не было?

Дмитрий: Именно! И это очень важный момент: прежде чем писать код, мы создали инструмент, который позволил быстро протестировать необходимость в продукте. «Sell first, build later».

Мы стали обзванивать людей, которые оставляли нам контакты через сайт, и организовывать с ними встречи. Летали с Володей в Лондон каждую неделю, приходили к нашим потенциальным клиентам — большим ритейлерам. Питчили им идею, слушали фидбек: «Да, вы делаете полезный продукт, но нам нужно кое-что ещё». Так сформировалось понимание, какие болевые точки есть у наших возможных клиентов и в чём мы можем быть им полезны.

Константин: А потом один из людей, к которым мы обращались за советами, сказал: «Вы готовы для Seedcamp, идите туда». Мы даже не знали о существовании Seedcamp, но идея нам понравилась. И сложилось с ней очень удачно: мы стали одним из победителей. За 2010 год в Seedcamp подавалось около 900 компаний, мы стали одним из 24 финалистов, и вошли в число 12 команд, получивших инвестиции.

Дмитрий: Так у нас появились первые инвесторы: сам Seedcamp и ещё один инвестор-ангел. Выделенные ими деньги позволили нам троим полностью сфокусироваться на Profitero, приводить первых клиентов.

И разрабатывать первую версию продукта?

Дмитрий: Да. Костя вернулся в Минск, писал «версию 0» сервиса: разрабатывал кроулер и фронтенд. Я интегрировал в продукт обработку естественных языков, делал поиск и матчинг — мы с самого начала делали большой упор на искусственный интеллект и машинное обучение. А ещё мы с Володей вели коммерческую часть проекта: продолжали ездить по потенциальным клиентам, пытались подробнее узнать об их проблемах. В основном мы встречались с большими ритейлерами — например, Tesco и Marks & Spencer.

Константин: Стоит сказать, что сначала мы задумывали простую аналитику конкурентных предложений: «хочу знать, по какой цене мои конкуренты продают такие же товары». Этот продукт был ориентирован именно на ритейлеров. Но вскоре мы поняли, что больше пользы можем принести не продавцам, а производителям.

Дмитрий: Мы тестировали всё, каждую гипотезу. Даже ценообразование проверяли на практике: первому клиенту выставили ценник 50 английских фунтов в месяц, следующему — 200 евро. Попробовали 800 — приняли. Попробовали 1500 — возникли сложности. Так и искали золотую середину.

Ещё мы составили список инвесторов, которые нам подходили по направлениям их прошлых вложений: SaaS, big data, e-commerce. Мы знакомились с ними, потом связывались каждый месяц и давали обновления по нашему прогрессу. А они давали нам советы из своего опыта, и мы принимали этот фидбек и работали по нему. Часто за месяц мы успевали делать в разы больше, чем инвесторы от нас ожидали.

Владимир: В июле 2011 мы взяли раунд инвестиций от Delta Enterprise Ireland — миллион долларов. А весной 2014 закрыли большой раунд A — $8 млн. Инвестором стала Polaris Partners — одна из крупнейших венчурных инвестиционных компаний в мире. Говорят: «Приди к инвестору за деньгами — он тебе даст совет, приди за советом — и он тебе даст деньги». Для нас этот принцип сработал. До того, как вложиться, инвестор общался с нами два года: мы встречались раз в несколько месяцев, присылали обновления. В итоге инвестор пришёл к нам сам — и предложил хорошие условия.

Дмитрий: Важно понимать, что инвесторы вкладывают не в точки, а в кривые. Мы понимали, что сразу нам денег никто не даст: нужно выстроить отношения, продемонстрировать профессиональную этику, показать постоянный прогресс. Мы учились на лучших практиках Кремниевой долины: читали Стива Бланка, Эрика Риса, блоги Фреда Уилсона и Марка Састера. Да, мы работали не в Долине, а в Дублине и Минске, поэтому мы перерабатывали эти практики. Но два ключевых принципа — «сначала продавай, потом делай» и «приди за советом — получишь деньги» — сработали у нас очень хорошо.

Исторические данные + взгляд в будущее

Что делает продукт Profitero, и как он работает?

Владимир: Наш продукт помогает брендам больше продавать онлайн. Мы предоставляем клиентам данные, которые помогают им продавать быстрее, чем конкуренты, наращивать продажи.

Дмитрий: Работа идёт в три этапа. Первый — сбор данных. Мы в реальном времени собираем информацию из онлайн-магазинов: какие продукты наших клиентов там продаются, по какой цене, какой контент на страницах товаров, есть ли промоушены, что с рейтингами и отзывами. Кроме того, мы ранжируем результаты поисковой выдачи по ключевым словам. Например, если наш клиент продаёт шампунь, мы собираем информацию о том, какие результаты выдаёт поиск по слову «шампунь» и в каком порядке.

Каждый день мы собираем информацию с более чем полумиллиарда страниц продуктов. Это около 8 тысяч сайтов, причём некоторые из них в разных геолокациях содержат разный контент, и тогда данные с каждой локации кроулятся отдельно. Для Amazon у нас есть отдельный дополнительный продукт, который оценивает продажи наших клиентов и их конкурентов.

Константин: Эту часть мы изначально писали без каких-то сверхсложных технологий. Всё, что у нас было на старте — быстрый и надёжный кроулер, написанный на C, и приложение для пользователей, выстроенное на Ruby. Эти простые вещи и сейчас остаются основой продукта, но в целом с первых версий многое изменилось. Клиентская база быстро разрастается, поток данных растёт вместе с ней, поэтому мы в постоянном поиске новых решений.

Нашей первой базой данных была простая и проверенная временем MySQL, но позже мы внедрили Cassandra — это облегчило масштабирование и повысило отказоустойчивость. База с собранными данными занимает несколько терабайт, для неё мы выделили специальные железные мощности. Но собрать данные — это только малая часть. Второй этап работы — обработать данные, нормализовать их и проанализировать.

Дмитрий: Для этих задач мы используем собственные разработки в обработке естественных языков и машинном обучении. Из текста со страницы мы распознаём бренд продукта, его характеристики — тип, вес/объём, цвет, размер, модель. Всё это происходит автоматически, ручной труд минимизирован.

На выходе мы получаем два больших набора данных. Первый — «цифровая витрина», которая максимально полно описывает состояние страниц продуктов в онлайн-магазинах, второй — продажи продуктов. Объединяя эти данные, мы видим, какие факторы влияют на продажи, и что можно изменить, чтобы их увеличить.

У нас есть два направления аналитики. Первое — корреляционное: мы смотрим на исторические данные и видим, что влияло на продажи. Второе — предсказательное, causal analysis. Это «взгляд в будущее», поиск новых возможностей, «зазоров» на рынке. Мы показываем клиенту, как изменить конфигурацию продукта или сменить стратегию, чтобы занять такой «зазор» и продавать больше. Первое направление даёт ответ на вопрос «что происходит и почему», второе — «как мы можем выйти вперёд».

Константин: Дальше идёт третий этап: мы передаём собранные данные в клиентское приложение. Клиент видит уже нормализированные данные, он может фильтровать и «нарезать» их, строить автоматические отчёты.

Раньше данные в клиентском приложении запрашивались напрямую из «сырых», но со временем мы поняли, что без агрегаций не обойтись. Стали периодически делать снимки данных, чтобы выделять из общей базы на несколько терабайт небольшие эффективные кусочки. Мы собираем их специально под клиентов, чтобы максимально упростить их работу. Web-интерфейсы тоже при необходимости переписываем на актуальных технологиях: начинали с JQuery, вскоре перешли на Dojo (который, к сожалению, сейчас не столь популярен), сейчас переходим на AngularJS.

Фокус — глобальные компании

Как Profitero превратилась в крупную компанию?

Константин: Первый человек присоединился к нам осенью 2011 года, к весне 2012 нас было уже семеро. В тот момент было очень сложно набирать людей. Что мы могли предложить хорошему программисту? Мы были просто группой ребят, пускай и засветившихся на Seedcamp. Так что людей мы искали через собственные контакты, среди знакомых. Мы продавали им идею: «Смотрите, есть потенциал сделать классный продукт с обработкой огромного количества данных». Уже потом, когда мы закрыли инвестиционный раунд A, расширяться стало значительно проще.

Владимир: Рынок, на котором мы работаем, очень перспективный, он быстро растёт. Офлайн-продажи с каждым годом идут вниз, закрываются магазины, а e-commerce, наоборот, постоянно идёт вверх — минимум на 20% в год. Если лет шесть назад нам надо было убеждать клиентов инвестировать в e-commerce деньги и ресурсы, то сейчас онлайн-торговля априори имеет высокий приоритет для большинства производителей.

Но e-commerce — очень конкурентный рынок, и те производители, которые работают с нами, получают преимущества по сравнению с другими компаниями. Поэтому и спрос на продукты Profitero высокий, и мы быстро развиваемся на этой волне.

Константин: Сейчас в компании около 230 человек. Мы не растём на 100% в год, но периодически нам нужно набирать людей, чтобы поддерживать развитие продукта и справляться с ростом базы клиентов. В Минске — 170 человек. Здесь идёт вся разработка, здесь же располагается delivery-команда, которая занимается работой с клиентами: настраивает аккаунты, предоставляет сервисы. Эти два отдела — самые большие в нашей структуре. Все остальные офисы занимаются аналитикой, продажами и маркетингом: 30 человек в Бостоне, 25 — в Лондоне, ещё 3 — в Шанхае, там мы в прошлом году открыли офис для продаж в Азии.

Много ли у вас конкурентов?

Владимир: Они есть, и с несколькими из них мы часто сталкиваемся лоб в лоб. Однако, несмотря на то, что рынок очень большой, конкурентов всего несколько. Мы видим несколько возможных причин.

Первая — в том, что важно не просто собирать большой объём данных, но и предоставлять их клиентам в максимально удобной форме. Это одна из самых сложных вещей — показать всю огромную базу информации в простом интерфейсе, который будет понятен бренд-менеджеру даже без технического опыта.

Дмитрий: Многие думают, что можно быстренько закроулить информацию с онлайн-магазинов, оформить её в какое-то приложение и продать. На самом деле кроулер — это ещё не бизнес. Это просто инструмент, который даёт нам данные. А мы эти данные превращаем в ценности для клиентов. Новые компании на рынке появляются постоянно, но опыт показывает, что зачастую они либо очень быстро умирают, либо остаются в одной стране.

По теме
Все материалы по теме

Владимир: Локальность работы конкурентов — это вторая причина. Наш фокус — глобальные компании, большие производители. Им нужен провайдер, который может предоставить аналитику e-commerce-рынков разных стран.

Дело в том, что в каждой стране есть своя специфика онлайн-торговли. В Штатах, например, есть Amazon Prime day и Cyber Monday — продажи в эти дни очень сильно влияют на годовые итоги. В Китае Amazon не очень популярен, зато там есть Tmall и JD, они очень быстро развиваются, у них очень большая база клиентов. А главное событие года в китайском ecommerce — 11.11, «Singles’ Day». Во Франции очень популярны покупки «click and collect»: заказываешь товар онлайн, а забираешь из магазина. Из-за этого ассортимент и цены на сайтах зависят от геолокации.

Клиентам нужно, чтобы мы учитывали специфику стран при сборе данных, но при этом отображали результаты в едином формате. Мы собираем данные в любой стране, в любом формате, на любом языке — и для глобальных компаний это очень важный плюс.

Приведу пару примеров. Beiersdorf, владелец бренда Nivea, полтора года назад начал работать с нами в одной стране, а сейчас мы работаем с ними более чем в 10 странах по всему миру. С Adidas мы подписали первый контракт на две страны всего около шести месяцев назад, сейчас контракт вырос уже до 6 стран. Это клиенты, которые видят выгоду от нашего решения с первого дня, как только начинают получать нашу аналитику.

Дмитрий: Ещё одна причина нашего успеха в том, что мы очень много вкладывали и вкладываем в R&D. Из всех конкурентов на рынке Profitero — компания с наибольшим количеством инженеров, и наши инженеры — наш большой приоритет. Мы создаём инновации раньше конкурентов, движемся вперёд быстрее. Например, мы начали связывать данные «цифровой витрины» с данными продаж — искать корреляции, строить аналитику — два года назад. Наши конкуренты начинают это делать только сейчас. Скорость инноваций очень важна. Глобальные клиенты ищут партнёров, способных быстро адаптироваться к изменениям на рынке.

Константин: Мы можем решать очень специфические задачи. Например, для одного из клиентов мы в реальном времени собирали информацию о том, как менялись цены на товары во время флеш-распродажи в Китае. Мы выигрывали клиентов даже в ситуациях, когда наши конкуренты просто не смогли собрать данные — например, из мобильных приложений.

«Периодически слышим рассказы о том, что попасть в Profitero очень сложно».

Как строится команда Profitero?

Константин: Мы стараемся по всем направлениям собирать сильных профессионалов — и разработчиков, и delivery-менеджеров, и маркетологов, и проектных менеджеров. 

Дмитрий: Мы стараемся нанимать тех, кто лучше нас разбирается в своих областях. Мы не ставим рамки. Наоборот, мотивируем углубиться в проблему и искать нестандартные решения. Например, мы никак не ограничиваем R&D-команду в выборе технологий. Они пользуются Python, Java, Ruby, различными библиотеками, базами данных (ClickHouse, например) — всем, что нам может помочь. Главное — решить задачу. У нас работают ребята очень высокого уровня: кто-то выигрывал International Mathematics Competition, многие защитили PhD (в Минске, в МГУ, во Франции), а совсем недавно наш Data Scientist Евгений Бабахин вместе с японским студентом Хиротоши Китамура выиграл $50 тысяч в соревнованиях на Kaggle.

Одна из главных задач R&D — минимизировать ручной труд в компании. Один из недавних кейсов, например, — алгоритм определения бренда. На разных сайтах один и тот же бренд может быть написан по-разному: например, где-то «Black and Decker», где-то «B&D», в третьем месте — «Black and D.». Нам нужно было нормализировать все эти написания в одно значение, чтобы использовать в клиентских отчётах и фильтрах.

Мы внедрили обработку естественных языков, попробовали разные классификационные алгоритмы и остановились на нейросети. Сначала обучали её на сырых данных, потом — на данных, полученных из работы алгоритмов NLP. Такой гибридный подход дал нам 98% качества, то есть позволил максимально автоматизировать этот процесс. Естественно, к клиентам приходят на 100% проверенные данные: доведением 98% до максимума занимается специальная команда матчинг-администраторов.

Константин: Но наше стремление собрать действительно сильную команду сталкивается с определенными вызовами: некоторые разработчики приходят к нам на собеседование и заявляют, что они сеньоры, а по нашей градации едва дотягивают до мидлов. Мы периодически слышим и от рекрутёров, и от кандидатов рассказы о том, что попасть в Profitero очень сложно.

Владимир: Возможно, некоторые кандидаты даже пугаются таких разговоров и не идут к нам на собеседования. Но бывает и наоборот. Сильные кандидаты воспринимают это как вызов: «Неужели так сложно, что я не пройду?».

Константин: Мы понимаем, что построить хорошую команду — большой труд. Поэтому создаем в Profitero культуру innovation&execution, где каждый член команды получает свободу раскрыть свой творческий потенциал и несет при этом ответственность за результат перед командой и клиентом.

profitero, основана в 2010

Клиенты: Adidas, L’Oréal, General Mills, Heineken и др.

Инвестиции: $8 млн от американского фонд Polaris Partners в 2014.

Партнёр Nielsen.

В 2017 году доходы выросли на 137%, команда в два раза.

Хотите сообщить важную новость?

Пишите в наш Телеграм

Читайте также

Apple увернулась от 15-миллиардного штрафа в Европе
Apple увернулась от 15-миллиардного штрафа в Европе

Apple увернулась от 15-миллиардного штрафа в Европе

Белорусский партнёр YouTube запустил на Product Hunt стартап для брендов
Белорусский партнёр YouTube запустил на Product Hunt стартап для брендов

Белорусский партнёр YouTube запустил на Product Hunt стартап для брендов

«Нанимать — легче, ясности — больше». Иностранные стартапы о кризисе в Беларуси
«Нанимать — легче, ясности — больше». Иностранные стартапы о кризисе в Беларуси

«Нанимать — легче, ясности — больше». Иностранные стартапы о кризисе в Беларуси

Ещё до пандемии в Минск стали активно приходить иностранные компании: открывали R&D, хайрили людей на удалёнку за +2X к самой большой айтишной зарплате. Об этом мы писали здесь, здесь и много где ещё. dev.by спросил у пятерых иностанных компаний, как повлияли на их бизнес удалёнка и кризис, довольны ли они местными специалистами и продолжают ли нанимать.
4 комментария
Стартапы из Беларуси претендуют на $500 тысяч в конкурсе Seedstars
Стартапы из Беларуси претендуют на $500 тысяч в конкурсе Seedstars

Стартапы из Беларуси претендуют на $500 тысяч в конкурсе Seedstars

Обсуждение

0

Всякого рода кроулинг прайсов и другой информации на подавляющем большинстве сайтов защищён соответствующими юридическими соглашениями.

Даже вот интересно -- как вам это вот удаётся "...Мы в реальном времени собираем информацию из онлайн-магазинов: какие продукты наших клиентов там продаются, по какой цене, какой контент на страницах товаров, есть ли промоушены, что с рейтингами и отзывами".

Как удаётся парсить технически -- оно понятно. Гамно вопрос. Как удаётся не "залететь" юридически? Или просто "пока" удаётся?

Если верить представленным соглашениям с сайтов, это всё -- противозаконно. Легко приведу примеры.

6

Приведите примеры. Очень интересно почитать про прецеденты, когда закон был на стороне магазина, у которого парсили цены (а не контент) без его согласия

-2

Вы в свой вопрос сразу вставили ограничение -- дескать, извлекаются только "голые" цены, а не весь контент (как вы, кстати, это себе представляете?). Это важный момент, ибо законом запрещено скрывать цены. Они должны быть максимально открыты и доступны. Никаких прецедентов тут быть не может. Разве что с теми, кто их пытается утаить.

Скажу более, серьёзные торговые площадки имеют специальный API для доступа именно к ценам. Что бы им воспользоваться, совершенно не нужны никакие парсеры и краулеры. Нет необходимости распознавать бренды и использовать изощрённые алгоритмы машинного интеллекта. Но вот что касается использования всего другого, то тут могут быть свои важные нюансы. Скажем у Яндекс.Маркета в соглашении написано так:

-----------------------------------------------------------------------------------------------
3. Интеллектуальные права
3.1. Исключительное право на Сервис принадлежит Яндекс.Маркету. Исключительные права на Данные принадлежат Яндекс.Маркету или иным правообладателям. Настоящее Соглашение не дает Пользователю каких-либо прав на использование Сервиса или Данных помимо тех возможностей, которые предоставляются непосредственно в интерфейсе Сервиса в соответствии с настоящим Соглашением.
-----------------------------------------------------------------------------------------------https://yandex.by/legal/market_api_content/

Когда мы говорим о контенте, то надо строго различать два понятия: потребление (собирание) контента и использование контента. Потреблять открытый (!) контент вы можете любым удобным вам способом. Хоть вручную читая страницу, хоть автоматическим парсингом. А вот использовать контент вы можете ровно в границах того, что вам позволяет его владелец. Достаточно упомянуть о запрете на использование контента в любых целях, кроме личного ознакомления. Это допустимо на основании того, что владелец исключительных прав на контент может определять любые ограничения на его использование. А это значит, что контент, собранный автоматизированными средствами, в дальнейшем не может быть использован никак без нарушения закона о защите авторских прав. И тут уже явно виден юридический тупик.

Как я понял из статьи, "ноу-хау" компании как раз и состоит в том, что бы с помощью неких своих алгоритмов семантически обработать и извлечь полезную информацию из контента (не только цены, но и отзывы, способы "подачи" и продвижения товаров и т.д.), дабы использовать её в коммерческих целях. В частности, продать конкурентам. Прецеденты такого рода были. И очень серьёзные. И несомненно ещё будут. Решения относительно законности парсинга чаще всего принимаются в пользу авторов содержимого сайтов. И это вы ещё попробуйте убедить суд, что не пытались получить доступ к закрытой информации. Коротко процессы описывались, например, в заметке на Хабре:

https://habr.com/post/340302/

-----------------------------------------------------------------------------------------------
Даже если парсер игнорирует контрафактный контент в процессе поиска общедоступной информации, его действия могут характеризоваться как нарушение авторского права, потому что технически контрафактный контент все равно «копируется».
-----------------------------------------------------------------------------------------------
Ну вот как-то так.

PS: AngularJS уже пару лет как умер. Постфикс JS давно не используется, а сам фреймворк претерпел кардинальные изменения.

5

>> . Потреблять открытый (!) контент вы можете любым удобным вам способом. Хоть вручную читая страницу, хоть автоматическим парсингом. А вот использовать контент вы можете ровно в границах того, что вам позволяет его владелец. Достаточно упомянуть о запрете на использование контента в любых целях, кроме личного ознакомления. Это допустимо на основании того, что владелец исключительных прав на контент может определять любые ограничения на его использование. А это значит, что контент, собранный автоматизированными средствами, в дальнейшем не может быть использован никак без нарушения закона о защите авторских прав. И тут уже явно виден юридический тупик.

Есть такой товарищ Артур Хачуян, который занимается сбором разнообразного контента, анализом с последующей продажей результата анализа и тп. Он много публично выступает и прямо говорит, что
1. контент он считает публичным, если доступиться к нему можно без пароля
2. достаточно не продавать собранный контент, как он есть, а проанализировать его под задачу клиента, и продать результат своего интеллектуального труда, т.е. экспертное мнение. Ну вы поняли, да? - Можно просто перепаковать данные и выдать их за плод своих изысканий, грубо говоря.
3. ему задают прямые вопросы - неужели никто не протестовал через суд. Ответ приблизительно такой - "да, периодически судимся, но пока никто не доказал противоправных действий и тп и все в рамках текущих формулировок закона. Хотя это вот-вот может все изменится."

Мое скромное мнение - в таком вопросе прав тот, у кого мощнее юристы.

-2

А юристы мощнее у того, у кого больше денег. Не так что бы и очень свежая мысль. ))

Я не уверен, что Артур Хачуян есть личность того масштаба, на которую следует равняться. Он и книги в библиотеке может назвать публично доступными, что несомненно, по его мнению, позволит сразу относить их на базар и там продавать. Кино вот ещё можно снимать про четырёх аспирантов и одну буфетчицу. Что, безусловно, является незаурядным трудом и плодом своих персональных изысканий. Не уверен, что стоит юристов по авторскому праву держать за конченых идиотов и мальчиков для битья.

Сам Артур Хачуян зарегистрировал свою компанию в Ирландии (хм, опять Ирландия), сливает персональные данные российских пользователей из разных соцсетей, скажем, из американской Фейсбук. За что Фейсбук ему дал пинка, удалил все их аккаунты и потребовал отчитаться.

https://vc.ru/services/47867-rossiyskaya-social-data-hub-pozhalovalas-na-blokirovki-66-akkauntov-v-facebook-iz-za-sbora-dannyh-polzovateley

Разумеется, креативный парень Артур может их и лесом послать. Какое дело его мощной ирландской компании до какой-то там социальной сети из Калифорнийской деревни. У него и в правительстве заказы есть. Особенно сейчас, после скандала связанного с операционным директором Фейсбука, гений-женщиной Шерил Сэндберг. Слив персональных данных пользователей.

https://meduza.io/feature/2019/01/07/operatsionnyy-direktor-facebook-sheril-sendberg-schitalas-odnoy-iz-samyh-uspeshnyh-zhenschin-v-mire-teper-ee-schitayut-simvolom-zla

Как говорится - на каждую хитрую гайку найдётся свой болт с резьбой. ))

Andrei Marach
Andrei Marach HR-Director в Profitero
4

Добрый день!

Profitero собирает данные о продуктах, их характеристиках и ценах, находящиеся в открытом свободном доступе любому пользователю сети Интернет, с интернет-площадок розничной торговли исключительно в соответствии с условиями площадок, закрепленными в их публичных T&C (Terms and Conditions).

Кроме того, компания принимает серьезные меры предосторожности, чтобы не создавать дополнительную нагрузку на серверы площадок, что позволяет не наносит ущерб функциональности веб-сайтов.

Некоторые крупные интернет-площадки розничной торговли предоставляют Profitero эксклюзивные права на сбор своих открытых данных, поскольку сами заинтересованы в аналитических отчетах Profitero.

-5

Мое скромное имхо - это все попахивает воровством и нарушением презумпции честности. Это как например сливать музыку с ITunes или Yandex-music и потом продавать альбомы третьим лицам. Как вы сливать музыку будете - хоть записывая через аналоговый выход на аудиокассету - дело десятое.

Arkadzi Salnikau
Arkadzi Salnikau Data Architect в Profitero
5

Ваш пример ну вообще никуда не годится. Сливать музыку и продавать ее - это нарушение авторских прав и пиратство.
А вот скачать музыку, сделать по ней аналитику, отличный поиск (привет Shazam) и помочь повысить продажи тем же правообладателям - не нарушает никаких прав и законов.

-1

То что сливать и продавать есть нарушение прав и законов -- это так. Но вот вы уверены что точно так же сливать, что-то там анализировать и затем продавать тому кто заплатил всегда и заведомо не является нарушением законов?

Шазам -- алгоритм распознавания. Также есть алгоритмы анализа данных. Не нужно путать алгоритмы анализа предоставляемых данных с алгоритмами получения самих данных. Данные для анализа вам могут быть предоставлены самим заказчиком. А вот как только вы начинаете без чьего-то ведома накапливать и продавать чьи-то чужие данные, то тут уже могут быть вопросы. Вначале этические, затем юридические.

Тут уместнее сравнение с сервисами типа lost.fm. Если я добровольно разрешил ему скробблить ровно то, что я слушаю и делать для меня анализ моих предпочтений -- это одно. А вот если скробблер начнёт шариться по моим дискам и искать что у меня там лежит, что бы кому-то это рассказать -- это уже кардинально другое. Даже если скробблер будет меня уверять, что шарится он тихонько и низЕнько. Дескать -- работе не мешаем, так... шуршим в уголке потиху, не обращайте внимания... ))

3

Мое не менее скромное имхо как юриста. Во-первых, хотя я оперирую принципами континентальной системы права, на которой мы базируемся, а не англо-саксонской, но исходя из начал гражданского права "разрешено все, что не запрещено" говорить о воровстве тут не приходится. Как говорится, дьявол кроется в мелочах и эти мелочи, как раз те самые ссылки в пользовательских соглашениях (того же Яндекс Маркета) которые неоправданно и безосновательно ограничивают бизнес. Используются (в данном случае потребляются в целях собственного производства) ПУБЛИЧНЫЕ данные, а "запреты" на их использование устанавливают владельцы площадок, тем самым ограничивая бизнес. И в данном случае я скорее приму точку зрения Артура Хачуяна, попробуйте доказать ущерб, а не некое "нарушение" правил площадок. Во-вторых, какой серьезный инвестфонд, будет вкладывать крупные инвестиции в развитие стартапов, занимающихся "воровством и нарушением презумпции честности"?

0

Уточнюсь: "разрешено все, что не запрещено законом"

-3

От именно. А законом запрещено пользоваться информацией без соответствующего согласия того, кому она принадлежит. И нечего тут придумывать сказки по типу ...а попробуйте доказать ущерб...

Всё что производит человеческая цивилизация, всё что нас окружает -- всё в той или иной степени ПУБЛИЧНО. Публично стоит лавка у подъезда. Публично припаркован чей-то автомобиль. Публично продают журналы в киосках. Публично разложен товар в магазинах. Публично даже ходят девушки в миниюбках. И что? Из этого как-то следует что вокруг публичный дом и что вы можете совершенно свободно распоряжаться всем, до чего способны дотянуться? Отнюдь. Ваши права регламентируются соответствующими законами. Уровень законов зависит от уровня развития общества. Удивительна ваша позиция как юриста.

PS: Я выше приводил ссылку. Там описаны некоторые громкие процессы с участием опытных юристов. В большинстве случаев они занимали сторону владельцев информации.

1

Вы сами противоречите тому, что сказано в Ваших ссылках:
>> В соответствии с действующим в Российской Федерации законодательством разрешено всё, что не запрещено законодательством. Парсинг сайтов является законным, в том случае, если при его осуществлении не происходит нарушений установленных законодательством запретов. Таким образом, при автоматизированном сборе информации необходимо соблюдать действующее законодательство. Законодательством Российской Федерации установлены следующие ограничения, имеющие отношение к сети интернет:

Не допускается нарушение Авторских и смежных прав.
Не допускается неправомерный доступ к охраняемой законом компьютерной информации.
Не допускается сбор сведений, составляющих коммерческую тайну, незаконным способом.
Не допускается заведомо недобросовестное осуществление гражданских прав (злоупотребление правом).
Не допускается использование гражданских прав в целях ограничения конкуренции.

Из вышеуказанных запретов следует, что организация вправе осуществлять автоматизированный сбор информации (парсинг сайтов), размещенной в открытом доступе на сайтах в сети интернет если соблюдаются следующие условия:

Информация находится в открытом доступе и не защищается законодательством об авторских и смежных правах.
Автоматизированный сбор осуществляется законными способами.
Автоматизированный сбор информации не приводит к нарушению в работе сайтов в сети интернет.
Автоматизированный сбор информации не приводит к ограничению конкуренции.

Есть рекомендации, которых стоит придерживаться, если используется парсинг:

Извлекаемый контент не должен быть защищен авторским правом
Процесс парсинга не должен мешать работе сайта, который подвергается парсингу
Парсинг не должен нарушать условия использования сайта
Парсер не должен извлекать личную (персональную) информацию пользователя
Контент, который подвергается парсингу, должен отвечать стандартам правомерного использования

0

Нет, я нигде себе не противоречу. А вот вы невнимательно читаете и ходите по кругу. Я явно написал, что: "...Когда мы говорим о контенте, то надо строго различать два понятия: потребление (собирание) контента и использование контента..."

Вы можете сколько угодно парсить сайты. Или фоткать цены в гастрономе мобильником. Это не возбраняется. Вопрос всегда в том, что в дальнейшем вы планируете делать с этой информацией. Ну примерно как с порнографией - смотрите себе сколько угодно. На здоровье, тэскэть. Но как только начнёте распространять, могут возникнуть вопросы.

В случае данной компании я лишь переспросил - а точно-точно ли что авторские права нигде не нарушаются и всё то, что вы используете
с энтузиазмом воспринимается владельцами сайтов, которые "потрошит" компания? Только и всего.

Но вы так уверенно защищаете подобный подход, что сразу чувствуется - дело это заведомо правое и крайне полезное обществу. ))

0

Немного продолжу ваш список публичного. Сидеть на публичной лавке и писать скрипты на продажу (то бишь использовать лавку в производственных целях) незаконно? Городские власти не подадут иск? Не подадут потому что власти не издали декрет о том, что на лавках можно только фиалки нюхать, а не скрипты писать? Не подадут - потому что это абсурд. Единственно чем можно логично обосновать какие либо подобные претензии это наличием нарушения норм авторского права. А какое авторское право у цифр статистики? ))) Про суды, выигранные "опытными юристами" я вам ещё одну вещь скажу которая даётся опытом: для стороны процесса (да и для суда) важно не установление абсолютной истины, а умение убедить суд в том, что позиция этой стороны истинна. Разницу чувствуете?).

-1

// Сидеть на публичной лавке и писать скрипты на продажу незаконно?
----------------------------------------------------------------------
Именно так. Незаконно, если в законе прописано то, что сидеть на публичной лавке и писать скрипты на продажу незаконно. Вы точно юрист?

Так вот в законе об авторском праве прописано, что права на использование (использование!) информации определяет тот, кому эта информация принадлежит. Какие слова тут Вам непонятны?

Ну не можете вы посмотреть фильм, который ПУБЛИЧНО демонстрируется в кинотеатре, а затем пойти и снять свой по такому же сюжету. Не-мо-же-те! Тчк. Нет, ну российский этический рыцарь Артур Хачуян наверное сможет (а с хрена ли бы и не снять, публично же показали... Показали? Ну и фсё! Сами виноваты.). Ибо, как правило, это запрещено авторским правом. Если явно не разрешено. Вы даже мелодию песни не можете скопировать. Ибо... Такие вот дела. Это я вам честно, как юристу, говорю.

>> важно не установление абсолютной истины, а умение убедить суд в том, что позиция этой стороны истинна. Разницу чувствуете?).
----------------------------------------------------------------------
Разницу чувствую. Если вы крайне искусный оратор и вам удастся убедить суд присяжных, что вы случайно вместе в Шекспиром написали Гамлета, то всё прокатит. Ну вот так вот как-то получилось... Мда.. Вы же не виноваты в том, что также гениальны. Есть такая беда. ))

-1

>> А какое авторское право у цифр статистики?
Персонально у самих цифр, как значёчков - никакого. А вот если рядом с цифрой стоит пояснение, то нужно быть готовым к вопросу - а откуда взяли это цифру с пояснением? У меня? А я разрешал вам её публиковать? А пояснение где взяли? Снова у меня? А я разрешал вам показывать моё пояснение у себя?

0

Перенёс текст чуть выше.

0

>>Персонально у самих цифр, как значёчков - никакого. А вот если рядом с цифрой стоит пояснение, то нужно быть готовым к вопросу - а откуда взяли это цифру с пояснением? У меня? А я разрешал вам её публиковать? А пояснение где взяли? Снова у меня? А я разрешал вам показывать моё пояснение у себя?

Насколько я понимаю, ребята превращают данные в информацию. И эта информация становится продуктом их интеллектуального труда. Какая точно формулировка в законе относительно защиты данных/информации?
В моем понимании, данные в публичном доступе. Обработанные данные, ставшие информацией, уже не являются собственностью владельцев сайтов. Все равно что одна из недавних попыток запретить сервисы, предоставляющие информацию о скидках на товары (таковые ведь тоже в свободном доступе).
Пример:
На каком-то публичном сайте-каталоге есть 5 определенного рода телефонов, ранжированных по производителю. В другом таком каталоге - еще плюс 2 к вышеперечисленным.
Парсер эти данные вытянет, специальный алгоритм их переработает, и мы получим цифру "7 телефонов, удовлетворяющих таким-то критериям, представлены на рынке РБ в настоящий момент".

Вопрос: как на эту цифру (7) могут претендовать оба сайта-каталога? Именно эта цифра будет продана третьим лицам, а не 5 и 2. Использованные данные - публичные. Алгоритм , который обработал все полученные данные в 7 - интеллектуальная собственность компании.

Можете поправить меня, если мое представление ошибочно?

6

В любой теме всегда интересно читать "профессиональные" комментарии людей, которым не удалось стать юристами.

0

это типичные "белорусики", черная зависть, ни себе ни людям )

0

типа "я гребец со стажем, сколиоз да борода, от корки до корки всех кнутов перечитал, а эти выскочки какой-то парсерок написали и 8 лямов получили, негоже так, несправедливо, куда смотрят юристы на это беззаконие!" )

1

Не.
Типичные "белорусики", гэта - пацiху скраду у кiшэню, затым прадам, вазьму грошы и можа не замецюць/не пасодзюць.

А если вопрос переводится в правовое поле и публично рассматривается/обсуждается со всех сторон, то это уже есть прогрессивные Беларусы. Такие вот дела, юноша.

0

не нужно выдавать свои фантазии за правовое поле

2

Steamus // Сидеть на публичной лавке и писать скрипты на продажу незаконно?
----------------------------------------------------------------------
"Именно так. Незаконно, если в законе прописано то, что сидеть на публичной лавке и писать скрипты на продажу незаконно. Вы точно юрист?"
---------
Такие вопросы мы обычно слышим либо от вчерашних выпускников юрфака, которые прогуливали "Юридическую этику", но ооочень сведущих в праве либо от представителей других профессий, изучающих право по Википедии и форумам)).

"Так вот в законе об авторском праве прописано, что права на использование (использование!) информации определяет тот, кому эта информация принадлежит. Какие слова тут Вам непонятны?"
----------
Где в законе об авторском и смежных правах это написано? Я думаю вы не его не читали. Этот Закон регулирует отношения, возникающие в связи с созданием и использованием произведений науки, литературы и искусства (авторское право), исполнений, фонограмм, передач организаций эфирного или кабельного вещания (смежные права). А вот что относится к объектам авторского права:
5. Объектами авторского права являются:
литературные произведения (книги, брошюры, статьи и др.);
драматические и музыкально-драматические произведения, произведения хореографии и пантомимы и другие сценарные произведения;
музыкальные произведения с текстом и без текста;
аудиовизуальные произведения (кино-, теле-, видеофильмы, диафильмы и др.);
произведения изобразительного искусства (скульптура, живопись, графика, литография и др.);
произведения прикладного искусства и дизайна;
произведения архитектуры, градостроительства и садово-паркового искусства;
фотографические произведения, в том числе произведения, полученные способами, аналогичными фотографии;
карты, планы, эскизы, иллюстрации и пластические произведения, относящиеся к географии, картографии и другим наукам;
компьютерные программы;
произведения науки (монографии, статьи, отчеты, научные лекции и доклады, диссертации, конструкторская документация и др.);
иные произведения.
К объектам авторского права также относятся:
производные произведения;
составные произведения.
(п.5 ст.6 Закона Республики Беларусь от 17.05.2011 N 262-З "Об авторском праве и смежных правах").
И никакой статистической информации как объекта АП здесь нет и быть не может. Она в принципе не является объектом авторского права. Сразу предупрежу во избежание дальнейших споров, что статистика это не база данных, охраняемая как составное авторское произведение. "Охрана, предоставляемая базе данных, не распространяется на содержащиеся в ней данные или другую информацию" (ст. 14 Закона).
Если вы юрист, то не можете этого не понимать, а если не юрист зачем рассуждаете на далекие темы? Можете подъехать к ближайшему патентному поверенному или в НЦИС и уточниться.
А вот то, о чем вы мне пытаетесь доказать регулируется вовсе не Законом об АП, а Законом от 10 ноября 2008 г. N 455-З "ОБ ИНФОРМАЦИИ, ИНФОРМАТИЗАЦИИ И ЗАЩИТЕ ИНФОРМАЦИИ", по которому вся информация делится на общедоступную и информацию ограниченного распространения, в т.ч. служебная информация ограниченного распространения, коммерческая, банковская и иная, охраняемая законом, тайна. В отношении такой информации (тайны) должен соблюдаться установленный законом режим, сама суть которого исключает публичность скрываемой информации.
Можно, конечно, повыдергивать из этого Закона отдельные фразы из контекста и далее бесконечно вбрасывать на вентилятор, но далее дискуссию продолжать не вижу смысла).

1

>> Для Dmitry Tuzkov
Вы всё правильно написали. В одних случаях возникают претензии по авторскому праву, в других -- по защите информации. Я скажу больше, если компания сделает несложную (даже формальную) попытку защитить свою информацию, и при этом информация продолжит извлекаться, то ещё можно присовокупить взлом. В каждом случае претензии могут быть сделаны по разным причинам.

Нет, я не юрист, я айтишник. Википедию читать приходится. В ней, порой, есть много интересного. Вот, к примеру, описание дела Facebook, Inc. против Power Ventures, Inc.
https://en.wikipedia.org/wiki/Facebook,_Inc._v._Power_Ventures,_Inc.

Почему я задал вопрос/вступил в дискуссию и почему приходится читать
разные источники?

Вы не представляете какое количество желающих вокруг построить свой стартапчик на извлечении информации из уже собранных баз данных. Человек выучивает PHP и, часто, первое что ему приходит в голову -- а сделаю-ка я каталожик с поиском покруче чем у онлайнера. А инфу, а инфу я возьму, ну, к примеру, у того же онлайнера. И ещё из пяти баз. Ох и круто будет! ))

Некоторые пишут целые основательные ТЗ где старательно специфицируют как будут работать их боты с адаптерами настроенными на несколько источников и как они будут массово и счастливо сливать всю информацию себе. Разумеется со своей статистикой и своими уникальными алгоритмами анализа. Затем им говорят, что лучше так не делать. Порой сразу, порой позже. Но эта эпидемия давно приняла массовый оборот. Больно уж лёгким кажется такой заработок. И, что характерно, у каждого находится свой подкованный юрист, который с линейкой доказывает что всё а-абсолютно законно и никакой кражи тут нет ибо всёжепублично.

Однако юридические процессы, порой уже возникающие, показывают что всё несколько сложнее.

0

https://habr.com/post/409983/
Пример ещё одного дела для любителей утверждать, что публичная информация свободна к коммерческому использованию. Как раз пример из нашей братской континентальной системы.
Дмитрий сам верно отметил, что нужно читать пользовательские соглашения. Так о чем спор? В том что цифровые платформы козлы?

0

Я посмотрел данное дело. Во-первых, вы путаете сбор личных данных физических лиц и бизнеса, у них разных режим доступа и использования во всех странах, во-вторых, компания как я понял просто перепродавали на накопленные сведения (напомню у нас речь идёт не о перепродаже, а об аналитике), в-третьих, даже с в деле с физиками российский суд 1 инстанции не встал на сторону Контакта, только аппеляция была удовлетворена, но ещё не вечер). А уж приведенный пример с Linkedin и вовсе прямо говорит о допустимости сбора и перепродажи открытых данных. «Инновации в интернете не должны быть ограничены ни юридическими запретами, ни монопольным положением ряда мощных компаний в сфере накопления и использования открытых данных» - золотые слова ).

1

Мнение американского разработчика. В том числе и ответы на распространённые вопросы с популярным анализом ходовых заблуждений. Попытка пояснить что правда, что ложь, а где "серые зоны" в законах. Есть и ссылки на процессы.

https://benbernardblog.com/web-scraping-and-crawling-are-perfectly-legal-right/

------------------------------------------------------------------------------------------
Web Scraping and Crawling Are Perfectly Legal, Right?

18 APRIL 2017 on scraping, crawling, legal, law, lawsuit, tos, harvesting, data
"Come on, I worked so hard on this project! And this is publicly accessible data! There's certainly a way around this, right? Or else, I did all of this for nothing... Sigh..."

Yep - this is what I said to myself, just after realizing that my ambitious data analysis project could get me into hot water. I intended to deploy a large-scale web crawler to collect data from multiple high profile websites. And then I was planning to publish the results of my analysis for the benefit of everybody. Pretty noble, right? Yes, but also pretty risky.

Interestingly, I've been seeing more and more projects like mine lately. And even more tutorials encouraging some form of web scraping or crawling. But what troubles me is the appalling widespread ignorance on the legal aspect of it.

So this is what this post is all about - understanding the possible consequences of web scraping and crawling. Hopefully, this will help you to avoid any potential problem.
....

Спасибо! 

Получать рассылки dev.by про белорусское ИТ

Что-то пошло не так. Попробуйте позже