БЕЛАРУСЬ · 13 июня 2017, 10:41 · yankoits - Journalist в dev.by
10 тысяч факторов: как белорусский стартап Exponenta предсказывает популярность текстов в сети

Белорусский стартап, занимающийся предсказанием виральности текстов, выпускается из финского акселератора Startup Sauna и рассчитывает привлечь первые инвестиции. Основатели Exponenta рассказали dev.by о создании проекта, разработке необычной предиктивной модели, первых клиентах и планах.

Команда Exponenta. Фото: Venture Day Minsk

Алгоритмы распознают виральный потенциал текста «лучше любого редактора»

— Как возникла идея предсказывать виральность текстов?

Дарья Мински, co-founder/CEO Exponenta: Как основатель kyky.org, я постоянно думала, как нам расширить аудиторию. Рынок рекламы в Беларуси настолько мал, что на нишевых медиапроектах заработать здесь фактически невозможно. Когда мы презентовали идею KYKY на «Деловом интернете-2011», Юрий Гурский сказал нам: «Если заработаете на собственный офис, будете героями». С офисом-то получилось, но дальше дело не продвигалось.

Зато в какой-то момент мы начали довольно регулярно производить виральные материалы: их репостили на Adme, распространяли по всему русскоязычному интернету. И я задумалась: можно ли выделить какие-то паттерны, согласно которым тексты становятся вирусными, и воспроизводить их в последующих материалах? По совету друзей я встретилась с исследователем данных, погружённым в тему анализа текстов — к моему удивлению, он представлял, как создать модель предсказания виральности. С той встречи и началась Exponenta: мой собеседник, Дима, стал сооснователем стартапа.

Дмитрий, co-founder/CTO Exponenta: Сначала мы попытались определить само понятие виральности. Оказалось, это нетривиальная задача: редакторы и паблишеры, с которыми мы общались, высказывали абсолютно разные мнения.

Остановились мы на том, что виральность — это максимальное покрытие аудитории, существующей у издания. Например, статья публикуется в закрытой группе в Facebook, в которой состоит 100 тысяч пользователей — значит, у неё есть естественный потолок в 100 тысяч уникальных просмотров. Мы прогнозируем, насколько контент может приблизиться к этому потолку.

— Получается, у разных площадок — разные критерии виральности?

Дарья: Верно. Если на условном TechCrunch виральным будет считаться текст, просмотренный 100 тысяч раз, то для условного BuzzFeed речь уже о миллионе просмотров.

Дмитрий: Когда мы определились, какое событие предсказываем, стали разбираться, какие факторы могут на него влиять. Входной список был огромным: мы начали с нескольких сотен факторов, со временем их число выросло до тысяч. Кроме того, в машинном обучении часто работают трюки с составными факторами. Скажем, если отдельно подсчитать количество слов, отдельно — количество предложений в тексте, то сильного влияния на виральность нету. А если взять произведение этих показателей, получится удачный фактор. Всё это нужно было проверить.

Дарья: Сейчас прототип Exponenta умеет описывать конкретные англоязычные тексты до мельчайших деталей. Мы изучили около десяти тысяч факторов. И если изначальная точность предиктивной модели была немногим выше монетки — то есть едва ли превышала по качеству чутьё опытного редактора — то сейчас для некоторых платформ точность предсказания достигает 80%. Это значит, что наша модель видит виральный потенциал текста лучше любого редактора.

Дмитрий: Но предсказать событие, исходя из имеющихся данных, и объяснить людям, почему оно должно произойти — кардинально разные задачи. Изначально мы концентрировались на том, чтобы максимально точно и красиво решить задачу прогноза, а теперь объясняем человеческим языком, почему этот прогноз должен сработать. Конечному потребителю важно иметь не голое число, а осмысленный, применимый на практике инструмент.

Из презентации Exponenta

Издатели не всегда рады

— Как работает модель предсказания виральности?

Дмитрий: Для обучения модели мы используем исторические данные платформы: собираем все опубликованные на ней материалы, анализируем их по ряду признаков, соотносим полученные показатели с реальной популярностью текстов. Предиктивный алгоритм принимает неопубликованный материал и описывает его в том же пространстве признаков. По положению в этом пространстве можно оценить потенциальную успешность текста, а также дать рекомендации, что в нём следует изменить, чтобы повысить виральный потенциал.

— Влияние одного и того же фактора может отличаться от платформы к платформе?

Дмитрий: Безусловно. Мы не пытаемся решить глобальную проблему — мы привязываемся к данным конкретных платформ, чтобы сделать решение практически применимым. Многие факторы отсеиваются в процессе исследований. В первой модели было задействовано 198 показателей, во второй учитывается 125, но у нас остаётся длинный список «на проверку».

Да, мы перебрали далеко не все факторы, но при существующей точности в 80% возникает другой вопрос: сколько конечному потребителю будут стоит 2-3% улучшения точности прогноза? Эти проценты могут резко замедлить работу модели, сделать более сложной подготовку данных, увеличить период внедрения либо даже потребовать доработок на стороне пользователя.

Дарья: Сейчас мы проверяем все эти нюансы на данных клиентов. Эксперименты идут на пяти платформах, демо-версия запущена у нашего первого клиента, в планах — запуск демо на TechCrunch. Модель работает, и предсказания получаются вполне адекватными. Но чтобы её доработать, нам нужно больше исторических данных. Для обучения модели нужно не менее нескольких тысяч публикаций.

Дмитрий: У нас в стране ни у кого нет опыта подготовки, публикации и сопровождения контента на по-настоящему масштабном уровне — ближе к миллиарду просмотров в месяц. В мире такие гранды есть, но экспертизой они с нами делиться не спешат. Самостоятельно парсить данные с сайтов мы тоже не можем: по законодательству западных стран, это запрещено. Приходим к издателям, вежливо просим данные, но, к сожалению, нам не всегда рады.

Бывают проблемы и с достоверностью данных: у нас есть объективные подозрения, что цифры просмотров, отображённые на странице, не всегда соответствуют реальному количеству читателей. Разумеется, не каждый производитель контента готов признать, что «накручивает» просмотры.

Авторский стиль сложно описать цифрами

— Как вы измеряете точность сделанных предсказаний?

Дмитрий: Всё просто: текст публикуется, и через фиксированный промежуток времени (например, спустя неделю после публикации) мы сравниваем реальные показатели его популярности с нашим прогнозом. Целевая переменная (просмотры, лайки, репосты) для нас не принципиальна, её можно поменять по запросу конкретного клиента: пока у Exponenta нет финального коробочного решения. Так или иначе, работу с каждой платформой мы начинаем с полного списка факторов — с тех самых 10 тысяч. Собираем и обрабатываем исторические данные, запускаем алгоритм «на ночь» — и с утра у нас остаются условные 200 факторов, важных для предсказания.

В ваших планах — создание «соавтора», который сможет давать конкретные рекомендации по изменению текстов с низким потенциалом виральности.

— Как будет выглядеть система рекомендаций?

Дмитрий: Базовый набор рекомендаций уже существует — прямо сейчас он на стадии тестирования. Любые два текста можно сравнить между собой по каждому из признаков в нашем пространстве, а результат описать числовыми метриками. Сравнивая метрики, мы можем получать эти базовые рекомендации: «Параметр X следует сделать большим, Y нужно уменьшить».

Но использовать такой вариант на практике не выйдет. Если средняя длина предложения в очень успешном материале — шесть слов, и этот фактор влияет на виральность, то это ещё не повод переписывать каждый текст так, чтобы во всех предложениях слов было ровно шесть. Чтобы рекомендации имели практический смысл, все числовые метрики нужно перевести на язык редакторов, дать подробные объяснения, как и почему та или иная метрика влияет на виральность.

И здесь возникает новая проблема: каждый редактор понимает слово «рекомендация» по-своему. Поэтому сейчас мы пытаемся решить задачу в обратном направлении: расспрашиваем редакторов, какие рекомендации будут для них иметь практическую ценность, сводим разные мнения к общему знаменателю, формализуем их, переводим на язык чисел и отправляем на следующий этап исследования.

— Связана ли виральность с качеством материала?

Дарья: Мы уверены, что связана. Нас не интересует чистая кликабельность текста — наоборот, мы планируем добавить в проект функционал распознавания кликбейта и фейковых новостей. Чтобы материал стал виральным, читатель должен не просто перейти на него по ссылке с заголовком и лидом, но и прочитать этот текст, и настолько впечатлиться, чтобы лайкнуть и зашарить его.

— Способна ли модель дать рекомендации, которые не «высушат» текст и не уничтожат авторский стиль?

Дарья: Мы не подстраиваем автора под некое общее понимание виральности: модель обучается на исторических данных, которые включают тексты его блога, сайта, портала, для которого он пишет. То есть мы даём рекомендации, которые помогут расширить охват той самой аудитории, для которой автор создавал контент и раньше.

Дмитрий: Понятно, что модель не должна обезличивать автора или аудиторию, иначе рекомендации потеряют всякий смысл. Однако авторский стиль сложно описать цифрами, и даже на естественном языке это очень размытое понятие. К тому же если на большой платформе можно собрать достаточное количество исторических данных, то по отдельному автору их будет значительно меньше, а это снизит точность предсказания.

Дарья: Одна из наших будущих задач — на основе анализа статьи предлагать лучшую площадку для её публикации. Это серьёзный технологический вызов, но мы уверены, что эту задачу может решить крепкий solution architect. Если кто-то знает, как это сделать лучше всего, пусть обращается к нам: мы прямо сейчас ищем человека, который сможет понимать продукт на глубоком уровне и будет готов работать в спарринге с исследователем данных высокого уровня.

Дарья Мински, co-founder/CEO Exponenta

В поисках посевного раунда «до полумиллиона долларов»

— Как Exponenta попала в акселератор Startup Sauna?

Дарья: Всё началось с TechMinsk, и за это я очень благодарна ребятам из Imaguru: это они убедили меня участвовать в акселерационной программе. В то время я ещё не планировала широко представлять стартап: у нас не было продукта как такового, и мне казалось, что выходить на публику пока рано. По факту, мы запустили продукт для клиентов совсем недавно, но за счёт участия во многих конференциях (Venture Day, LOGIN, Latitude59) уже успели заработать кое-какую известность. В наших ближайших планах — конференции DiG Publishing в Лиссабоне и Slush в Хельсинки.

В Startup Sauna мы попали после минской сессии Warm Up в этом марте. Создатели акселератора — те же ребята, которые проводят Slush, крупнейшую европейскую стартап-конференцию.

Они требуют от стартапов высокого уровня: в процессе отбора финны объездили всю Восточную и Северную Европу, отслушали около 700 питчей, а выбрали только 14 команд. Это серьёзный фильтр, и инвесторы воспринимают его как знак качества. Для нас самих это тоже серьёзный шаг: за месяц в Хельсинки мы стали совсем по-другому понимать продукт, здорово поработали над питчем, стали увереннее в себе — и теперь готовы привлечь посевной раунд, над чем сейчас активно работаем.

— Есть конкретные предложения от инвесторов?

Дарья: Есть. Сейчас мы пытаемся встретиться с как можно большим количеством потенциальных партнёров, выслушать все предложения. Мы рассчитываем получить посев до полумиллиона долларов, но ищем исключительно «умные деньги»: инвесторов с экспертизой в AI, data science, медиа и рекламе.

16 мая в акселераторе в Хельсинки демо-день, и это ещё одна возможность максимально конкретно пообщаться с представителями профильных бизнесов.

Пока Exponenta даже не зарегистрирована как компания — мы ждём, пока определится первый инвестор, а вслед за этим определимся и со страной регистрации.

Через несколько лет будет невозможно создавать контент без подобных инструментов?

— На какой рынок в первую очередь направлен ваш продукт? Издательский?

Дарья: Не совсем. Мы сотрудничаем с паблишерами, с их помощью мы дорабатываем продукт, но в качестве основной категории клиентов мы рассматриваем агентства нативной рекламы. Сейчас это один из самых быстрорастущих рынков во всей рекламной индустрии — а рынок паблишинга стремительно падает, и, боюсь, его уже трудно спасти.

Прорабатывать монетизацию планируем уже после того, как завершим рекомендательную систему: именно для работы над ней мы и хотим получить первые инвестиции. Сейчас мы работаем в B2B-секторе, но с рекомендациями сможем переместиться и в B2C — как, например, украинский стартап Grammarly, который недавно получил 110 миллионов инвестиций. Мы даже используем схожие технологии — только они работают с грамматическим аспектом текста, а мы — с аспектами популярности, трендовости и читабельности.

Думаю, самой интересной для нас будет freemium-модель: предсказание виральности предоставляется бесплатно, а за рекомендации нужно заплатить. Есть мысли и о внедрении нашего продукта на блог-платформы: например, авторы постов смогут видеть наш прогноз виральности и несколько простейших рекомендаций, а для более подробного разбора должны будут оплатить подписку.

— Есть ли у проекта прямые конкуренты?

Дарья: Есть компании, которые делают A/B-тесты материалов и отслеживают изменение их популярности в реальном времени. Но, насколько мы знаем, других проектов, которые работают с текстом до его публикации, на рынке нет. Инвесторы и менторы, с которыми я общалась, тоже говорят, что не слышали ни о чём подобном. У Buzzfeed и Mashable есть похожие продукты, Pound и Velocity. Но они разработали эти инструменты для собственных платформ и рекламодателей, и вряд ли сделают их общедоступными. Мы совершенствуем их технологии и находим им новое, более широкое применение.

— Почему никто не занял эту нишу?

Дмитрий: Думаю, многие пытались и пытаются сделать что-то подобное, но по разным причинам этого не афишируют. Возможно, у кого-то из крупных паблишеров есть подобные продукты для внутренних целей. А может, раньше просто было не время для таких проектов. За последние лет пять машинное обучение совершило большой скачок: появилось множество подходов, методик, готовых библиотек, доступных обычным людям, не имеющим доступа к космическим вычислительным мощностям — таким, как я.

Очень важно, что на старте нам здорово помогли с доменной экспертизой: без неё мы использовали бы в прогнозах только очевидные факторы, а значит, не смогли бы добиться нужного качества.

С другой стороны, всегда есть соблазн повернуть прогнозные модели исключительно в точность, не учитывая факторов, понятных человеку. Обучить модель, составить и проверить список возможных факторов — только полдела. Нужно уметь преподнести результаты аналитики людям, принимающим решения. Мы вложили много усилий, чтобы перейти от цифр к чему-то, что можно «потрогать руками». Если вы не объясняете результаты работы прогнозных моделей человеческим языком, вы их никому не продадите.

Дарья: Мне кажется, что без инструментов, подобных нашему, через пару лет создавать контент будет невозможно — иначе он будет незаметным в огромной сети. Общее количество информации удваивается каждые два года, и уже сейчас продвинуть материал в интернете — очень сложная задача. И наша далёкая цель — стать стандартным AI для всех, кто постоянно создаёт контент.

Источник: dev.by

Обсуждение

Picture_54?1356409795
faketail
– программист в BELHARD

Идлея толковая, но есть вариант, что будет работать скорее на дальнейшее подбрасывание дров в топку кликбэйта только на более тонком уровне. Не "взорвали интернет", но с той или иной формой типизации заголовков, эксерптов и построением контента.

Missing
+1

Не совсем. Мы не подстраиваемся под некое обобщенное понятие виральности. Мы смотрим на исторические данные и рекомендуем, как улучшить контент в рамках "авторского стиля" площадки. Виральные материалы rebenok.by и dev.by выглядят совершенно по-разному.

Missing
+1

С rebenok.by понятно. А lady.tut.by и dev.by сильно отличаются? :)

Missing

Конечно, у всех разные. Например, для некоторых площадок негативный тон статьи является сильным виральным фактором, хотя большинство все-таки делится позитивным контентом.

Picture_54?1356409795
faketail
– программист в BELHARD

+1

Но какого доля условного "форматирования" контента в его виральном успехе? Природу человека сложно изменить и расходиться в обоих случаях вирально будет так или иначе что-то "горячее" - эксклюзивная новость, провокационный материал, очередной топ чего-нибудь, сиськи-письки. В результате в погоне за виральностью часто можно наблюдать вырождение как самого контента, так и площадок.

Missing

Это, скорее, про clickbait и fake news. Наши алгоритмы как раз таки предотвращают распространие такого рода контента.

Picture_54?1356409795
faketail
– программист в BELHARD

+1

При чем здесь фэйкньюс и кликбэйт? Виральность новости о задержании Прокопени была вполне естественной, откровенный наброс тоже будет хорошо шариться в первую очередь за счет своей провокационности, топы чего-нибудь вполне традиционные материалы, хот яони всех задрали, но вполне себе шарятся и кликаются менее взыскательными пользователями.

Виральность не какой-то феномен, с точки зрения подачи контента эксплуатируются все те же стандартные точки - броские заголовки (привет куку и слово жо_па), стандартные зацепы "нельзя пропустить", "рассказываем почему".

Missing

Практика показывает, что аудитории различных платформ не всегда одинаково хорошо реагируют на стандартные точки. Именно поэтому важна доменная экспертиза конкретного издателя и тем ценнее является возможность полностью охватить свою аудиторию полностью.

Picture_54?1356409795
faketail
– программист в BELHARD

+1

У вас с Дашей главный пробел в логике презентации сервиса в том на кого рассчитан продукт. По-хорошему он на диджитал-агентства, а не площадки. Виральность конкретного материала для площадки важна вторым планом, а вот для какой-то нативной хрени первым, и вот в этом смысле заказчик будет диктовать соблюдение виральных правил для материалов и превращать условный девбайчик в ресурс с типизированными темами вроде "Wargaming уже не торт: компания ликвидировала «мамку» в Лондоне"

Missing
+1

С нативкой руками и ногами согласен. Спасибо за конструктив. Мы работаем и с нативкой тоже, просто не рассказываем об этом:) с нативкой существует сложность в размеченных данных плюс не все хотят признавать, что что-то нативка.

Но. Опять-таки практика показывает, что когда у вас есть на портале опубликовать 100 статей, а готовых материалов 1000, то проблема выбора существует. Используя подход оценки виральности неопубликованного контента, мы помогаем выбрать 100 из 1000, можно 10 из 1000, как душе будет угодно.

Picture_54?1356409795
faketail
– программист в BELHARD

Слушай, извини за занудность и переход на ты (меня слабость, что утомляет это вот на вы в адекватной переписке), но по этому комментарию я вижу, что ваша таргет аудитория вобще скорее уже порталы с персональнымии блогами, где выбирают что выводить в топ и промоутить на главной? Ну и вы с девбаем не договаривались прокатывать модели? Мне реально очень интересно было бы увидеть в редакционном режиме результаты.

Missing-male
+2

"если отдельно подсчитать количество слов, отдельно — количество предложений в тексте, то сильного влияния на виральность нету. А если взять произведение этих показателей, получится удачный фактор"

это всё что нужно знать о научной составляющей современных белорусских стартапов... почему бы не сразу random...

фазу луны ещё можно брать как фактор... инвесторы всё схавают... главное фразы "машинное обучение" и ИИ не забыть почаще упоминать...

Missing

Извините, но вы сейчас полную ерунду написали.

Missing

Почему ерунда? В статье ни слова про точность.

Что вы брали за бейслайн? Какой лифт вашей модели над ним и над predict_prior_probability?

Missing

Миша, вы мой кумир еще со времен Тинькова на бустерс, Приходите на собеседование, Подпишете NDA, Все покажем, Все расскажем. Заодно послушаем ваше личное мнение по поводу проблематики использования синтетических факторов в задачах заточенных на точность, а не на ответ на вопрос "почему?" (привет всему кагглу и сочувствующим).

Missing

Вы хоть понимаете что лифт над бейслайном это первое, что должно входить в ваш рекламный проспект? Это должно быть лицом вашего продукта, это авангард, среди всех аргументов, почему ваш продукт - хороший продукт. Это должна быть супер публичная инфа, потому что на нее смотрят более менее адекватные инвесторы.

Ественно все это не обязательно, если вы спецом ищете инвесторов, которые "всё схавают... главное фразы "машинное обучение" и ИИ не забыть почаще упоминать..."

ПС: а вы вообще рандом бьёте? Я не прошу конкретных цифр, просто да/нет

Missing

Михаил, вы часто и много общаетесь с реальными инвесторами? Вы как Data Scientist с опытом, уверен, что представляете, что есть люди от бизнеса, которые не хотят ничего слушать про точности, лифты и т.д. Лично мне за прошедшие 2-3 месяца попадались только инвесторы, которых интересует один вопрос: где деньги? Ответом на этот вопрос будет в нашем случае рекомендации по улучшению контента, чтобы собрать больше аудитории.

Интервью есть интервью. Цели делать из него рекламный проспект, простите, но не было. Равно как и что-то кому-то доказывать.

И да, простите, что перешел на личности. Если у вас есть реальный интерес, то добро пожаловать на собеседование.

Missing

Да, но "люди от бизнеса" хотят вкладываться в рабочий продукт. Момент, когда они поймут, как определять "работает продукт или не работает" (т.е. метрики качества), обязательно настанет :)

Желательно (ествественно для инсвесторов) это понять до того, как купленный продукт будет выдавать вещи эквивалентные подбрасыванию монетки

Missing

Спасибо за ценные замечания.

Сколько вы готовы предложить за рабочий продукт? Что там с собеседованием?

Missing

Собеседование? Я уже все услышал, что хотел:) смысл мне еще и очно ловить лулзы с ваших подходов и моделей?

Missing

Успехов в Епаме и соревнованиях. Не ловите лулзы;-)

Missing

Звучит и правда странновато. Количество слов в тексте – ок признак. Интуитивно – с удлинением текста виральность падает (лонгриды людям как правило читать лениво). Делить # слов / # предложений, то есть получить количество слов на предложение – тоже вполне себе признак. С увеличением слов на предложение(то есть с усложнением предложений), опять же интуитивно, виральность должна падать. Но умножать? Может Дарья просто перепутала.

Missing-male

Сказала Дарья ерунда, значит ерунда! :)

И пусть теперь мучается заказчик, когда ему по этой метрике выдадут число 600, как оптимальный признак для виральности его текста. Притом скажут конкретно: вы на количество слов в предложение или на количество предложений внимания не обращайте, они на виральность сильно не влияют. А вот их произведение очень даже влияет.

И начнет заказчик думать: или ему одно предложение из 600 слов писать, или 600 предложений по слову...

Missing

Внимание! Цитата: "Но предсказать событие, исходя из имеющихся данных, и объяснить людям, почему оно должно произойти — кардинально разные задачи. Изначально мы концентрировались на том, чтобы максимально точно и красиво решить задачу прогноза, а теперь объясняем человеческим языком, почему этот прогноз должен сработать. Конечному потребителю важно иметь не голое число, а осмысленный, применимый на практике инструмент.".

Две разные задачи! Становитесь нашим самым крупным заказчиком с конкретным предложением, На практике обсудим ваше замечание. Все будет хорошо ;-)

Missing-male

Начну с анекдота, которым нас препод в вузе достал.

Жили-были мыши и все их обижали. Как-то пошли они к мудрому филину и говорят:

— Мудрый филин, помоги советом. Все нас обижают, коты разные, совы. Что нам делать?

Филин подумал и говорит:

— А вы станьте ёжиками. У ёжиков иголки, их никто не обижает.

Мыши обрадовались и побежали домой. Но по дороге одна мышка сказала:

— Как же мы станем ёжиками? — и все побежали обратно, чтобы задать этот вопрос мудрому филину.

Прибежав, они спросили:

— Мудрый филин, а как же мы станем ёжиками?

И ответил филин:

— Ребята, вы меня ерундой не грузите. Я стратегией занимаюсь.

---

Так вот...

>> Но предсказать событие, исходя из имеющихся данных, и объяснить людям, почему оно должно произойти — кардинально разные задачи... Две разные задачи!

Всё верно. Но если ты можешь первое ("предсказать событие"), но не можешь второе ("объяснить людям, почему оно должно произойти") логично, что ты элементарно мошенник/шарлатан/пустослов - выбирайте синоним по вкусу...

>> Конечному потребителю важно иметь не голое число, а осмысленный, применимый на практике инструмент

Полностью вас поддерживаю, значение "600" как голое число клиенту совершенно не нужно. Но какое осмысленное предложение клиенту, получив по указанной метрике значение 600, вы сделаете? (А эту метрику - умножение слов на предложения - в статье вы сами привели). Какое конкретное практическое действие с его текстом вы ему посоветуете?

Мой вариант - никакое.

И я поясняю почему. Если учёный не может объяснить восьмилетнему мальчику чем он занимается... ну вы всё сами знаете...

Одно дело изучать зависимости и их объяснять. Совершенно другое - находить псевдокореляции, тупо вводя десятки тысяч порою совершенно случайных факторов или их комбинаций и на каких то выборках получать псевдослучайные связи.

Если я не прав, то просто объясните мне тупому, находящемуся на уровне восьмилетнего мальчика - "почему прогноз должен сработать" и что делать заказчику, сколько ставить слов и предложений, если у него значение 600, а ваш продукт показал, что оптимальное значение для их произведения должно быть 800. Это же элементарный пример. Как раз, как для вышеприведенного восьмилетнего мальчика. И здесь уже даже стыдно прятаться за фразами "Становитесь нашим самым крупным заказчиком - на практике все увидите." Не надо напускать ореол таинственности... NDA... ноу-хау... каких то коммерческих секретов... Какие коммерческие тайны могут быть от восьмилетних мальчиков? ;)

Что? Не получается? Трудно объяснить восьмилетнему мальчику? На элементарном примере одного простого фактора? Так может и NDA и коммерческие секреты тут не причём, а всё дело просто в том, что... ну вы поняли... :)

И вам всего хорошего... инвесторов хороших и щедрых... :)

Missing

Прошу прощения за ложную формулировку. Замените " Скажем, если отдельно подсчитать количество слов" на " Например, если отдельно подсчитать количество слов" и все получится. Или вы серьезно думаете, что следует раскрывать истинные факторы в интервью?

Missing-male

Заменил. Получается фраза:

"Например, если отдельно подсчитать количество слов если отдельно подсчитать количество слов, отдельно — количество предложений в тексте, то сильного влияния на виральность нету. А если взять произведение этих показателей, получится удачный фактор"

Ничего по сути не изменилось. Слова "Скажем" и "Например" в данном случае синонимы. Смысл особо не меняется.

>> Или вы серьезно думаете, что следует раскрывать истинные факторы в интервью?

Если вы нашли эти факторы, которые могут превратить любой текст в виральный, то есть нашли прямо "философский камень SMM", то конечно нет. И я вас тогда поздравляю - вы произвели революцию. Даже не только в маркетинге. Это тянет вполне на общемировую социальную революцию. Ведь теперь вы можете управлять потоками информации и доносить её до сумасшедшего количества людей, в таких масштабах, что недоступно даже топам рейтинга самых влиятельных людей в мире. Конечно этот "философский камень" не стоит раскрывать в каком то интервью. Я рад, что имею честь общаться с такими людьми, творящими мировую историю.

Missing-male

P.S.

Что б вы понимали, что пытаюсь до вас донести.

Виральность - это чёрный лебедь. Тысячи таких как вы могут пытаться объяснять виральный эффект какого то контента. И даже, как у вас, с чёткой математической моделью, построенной на машинном обучении, ии, и т.д. и т.п. с целой плеядой факторов и зависимостей (тщательно скрываемых под NDA). Но это будет объяснение только этого конкретного случая. Или предыдущих. Пусть даже многих предыдущих. Хоть сотен, тысяч предыдущих. Но никогда - следующего.

То чем вы занимаетесь, это просто оптимизация контента для последующего более эффективного распространения.

"мы с вероятностью 80% видим виральный потенциал текста". Какой "виральный потенциал"? вы о чем? Где критерий виральности? Вы говорите всё относительно. Хорошо. Какое покрытие аудитории и за какое время вы будете считать виральным? 1%? 10%? 50%? За день? За месяц? За год? Или это значит, что вы в 4 из 5 случаев угадаете новый flappy bird и gangam style? Без четких критериев вы продаете воздух. Ваши утверждения ни о чём.

Ладно, черт с ним. Да даже если вы представите чёткий критерий, пусть от балды критерий виральности это будет охват 50% аудитории за день (конкретные значения не суть - главное подход). И вы утверждаете, что по любому тексту с 80% вероятностью предскажите получит он такой виральный эффект или нет? То есть угадаете в 4 текстах из 5? И даже мало того, вы поможете составить такой текст? Да вы тогда, как я ниже писал, будущие хозяева мира. К вам инвесторы очередью должны стоять...

Да чего далеко ходить? Есть dev.by И не надо даже 4 из 5. Пусть dev.by вам даст 10 текстов, их оптимизируйте, что б хоть один из них с виральным эффектом разошелся, не надо по миру, хотя бы по байнету. Я не то что последние деньги, я почку продам, что бы в вас инвестировать... С вашими утверждениями в статье, с приведенными вами показателями, для вас это же будет просто раз плюнуть...

Еще раз повторюсь, вы не можете предсказать виральность (а уж тем более её формировать), как вы нам всем не пытались здесь лапшу на уши навешать. Это разные уровни и категории. Я вот тоже жену часто топ-моделью называю. И ей приятно, и мне потом от этого "бонусы" достаются. Хотя может и вашим потенциальным инвесторам тоже приятно от красивых слов? Тогда может вы и правы - каждому своё... ;)

Picture_54?1356409795
faketail
– программист в BELHARD

Ну и "общее количество информации удваивается каждые два года, и уже сейчас продвинуть материал в интернете — очень сложная задача". Общее количество информации увеличивается в первую очередь за счет бесконечных повторов, которые и клепаются в расчет на позиции в поисковиках и виральность в соцсеточках, прирост реально нового контента значительно ниже и темпы его не особо растут.


Авторизуйтесь, чтобы оставлять комментарии

Использование материалов, размещенных на сайте, разрешается при условии прямой гиперссылки на dev.by. Ссылка должна быть размещена в подзаголовке или в первом абзаце публикации.
datahata — хостинг в Беларуси