Программист из Новополоцка заработал $600 тысяч на приложениях-переводчиках и вложил их в свой API. И собирается заработать $350 млн за 3 года

94 комментария
Программист из Новополоцка заработал $600 тысяч на приложениях-переводчиках и вложил их в свой API. И собирается заработать $350 млн за 3 года

Алексей Рудак — инженер-программист родом из Новополоцка. Долгое время параллельно с работой в ИТ-компаниях он пытался заниматься собственными проектами — делал образовательные и туристические сайты, программу для бухгалтерии, игры для мобильных телефонов. Но ни один стартап не взлетел. Тогда он провёл масштабное тестирование рынка и выбрал новое направление — программы-переводчики. Как из этого вырос стартап Lingvanex, Алексей рассказал dev.by.

«Через три-четыре месяца тестирования я понял, что в переводчиках что-то есть»

— В конце нулевых, окончив БГТУ, я был молодой и наивный: бросался воплощать разные идеи в надежде, что рано или поздно заработаю много денег. Но ни одна из идей не была подтверждена рынком, и каждый раз у меня заканчивались ресурсы на их воплощение. Сценарий был такой: я работаю в какой-то компании, зарабатываю деньги, вкладываю их в проект, он не взлетает, я ради экономии еду в Новополоцк, там полгода пытаюсь проект запустить, деньги заканчиваются, я опять еду в Минск и устраиваюсь на работу. Так было раза три в течение пяти-шести лет.

Третий раз совпал с кризисом: меня никуда не брали, я разбил машину, взятую в кредит, плюс нужно было платить аренду за квартиру. Дальше так продолжаться не могло — нужно было честно признаться себе, что не знаю, какие ниши выбрать. Делать проекты, которые просто нравятся, — путь в никуда. Я закрыл все старые проекты и придумал вот что.

Большую часть карьеры я работал iOS-программистом, и всё, что я умел делать, это приложения для iPhone. Решил сделать 500 простейших программ на всевозможные темы: игры, ЗОЖ, музыка, рисование, изучение языков — и посмотреть, на каких из них можно заработать.

Программы были очень простые: красивая картинка и пара кнопок. Например, приложение для бега просто отслеживало скорость человека, расстояние и подсчитывало сожжёные калории. Целью было протестировать рынок. За месяц у меня было готово 20 программ, за три месяца — около 100, потом работа пошла ещё быстрее. 

Я купил аккаунт в AppStore (всего 99 долларов в год), залил приложения и увидел, что определённые программы скачиваются чаще: статистика одних была в 50 раз лучше, чем других. В лидерах оказались музыкальные программы и переводчики.

Приложений-переводчиков у меня было около 40: под каждую языковую пару — отдельный. Пары выстраивал, оценивая специфику стран: например, во Франции много эмигрантов из арабских стран, значит сделаю арабско-французский переводчик; или Индонезия и Малайзия — две большие страны, находятся рядом, значит, должны друг к другу в гости ездить.

По сути, это был просто гугл-переводчик в моих обёртках: ты платишь «гуглу» и подключаешь Google API к своей программе. Но несмотря на это, они пользовались популярностью: буквально за первый месяц набрался миллион скачиваний. 

Сначала приложения были бесплатные, потом я начал подключать рекламу и увидел хорошую прибыль. Бизнес строится на разнице между тем, сколько ты заплатил, чтобы привлечь клиента, и тем, сколько денег он тебе принёс. Скачивания приложений-переводчиков ничего мне не стоили, кроме моего времени. Времени у меня было много, так как я нигде не работал, а прибыль с рекламы и покупок была большой.

Через три-четыре месяца тестирования я понял, что в переводчиках что-то есть. Даже находясь на 100-й позиции после Google, Microsoft и кучи других конкурентов, ты имеешь большое количество скачиваний. А сколько же их будет, если попадёшь в первую десятку?! 

«Я понимал, что в нишу музыкальных приложений рано или поздно придут такие игроки, как Gismart»

В то время я оказался на распутье: идти в музыкальное направление или переводческое. Музыкальных инструментов много, но чтобы заработать в этой нише, надо привлекать пользователей по этим ключевым словам, а их немного. Допустим, гитара — это «гитара», пианино — это «пианино», ну или «фортепиано». Получается, заплатил доллар за привлечение клиента по слову «гитара», человек скачал твоё приложение и за год принес тебе 1,5 доллара прибыли, в итоге ты заработал всего 50 центов.

А языковых пар — тысячи, и значит, люди ищут решение своей проблемы тысячами разных способов. Получается, тебе не нужно покупать платных пользователей по какому-то одному запросу, поисковики покажут твоё приложение безо всякой рекламы. Даже если в отдельных нишах и есть конкуренция, то из-за множества языковых пар переводчики всё равно не так сильно конкурируют.

На рынке музыкальных приложений в то время тоже ещё не было большой конкуренции. Но я понимал, что в эту нишу рано или поздно придут такие игроки, как Gismart, которые будут тратить огромные бюджеты на рекламу, и я не смогу с ними конкурировать. Таким образом, 4,5 года назад я принял решение делать программы-переводчики, а все остальные отложил в сторону.

Вторые версии моих переводчиков были уже более функциональны: в них была и реклама, и встроенные покупки, и перевод голоса. Статистика стала ещё лучше, я ввёл плату за скачивания: одно приложение стоило примерно семь евро. 

Шёл 2015 год. Появились деньги. Их было достаточно, чтобы переехать в Минск, купить здесь квартиру и машину и чувствовать себя комфортно.

Период роста продолжался около года. На то время у меня было 50-70 приложений (две языковые пары плюс один универсальный, более дорогой, переводчик) и 5 млн скачиваний. Все они были без названия и бренда.

Статистика всё росла, но росли и расходы на перевод от Google. Корпорация берёт плату за количество переведенных знаков: миллион символов стоит 20 долларов. Если человек купил твоё приложение за 7 евро и перевёл 200 тысяч символов, ты уже ушёл в минус. Вначале это было не очевидно: больше половины запросов клиентов приходилось на перевод одного слова. Но когда пользователей становится много, ты вдруг обнаруживаешь, что часть из них пользуется твоим приложением регулярно и таким образом загоняет тебя в долги. Если сначала мне оставалось 90% всех платежей, то постепенно прибыль сократилась до 30%. Надо было принимать какое-то решение, чтобы не зависеть от «гугла» и двигаться на новые рынки —  Android, MacOS и Windows Desktop.

В открытом доступе не было проектов, на базе которых можно было создать свой переводчик. Я начал совещаться с людьми, которые занимаются мобильными приложениями, посетил несколько стартап-мероприятий, показал, что на одних тестах рынка получилось заработать 250 тысяч долларов, но интереса не встретил — никто не понимал, зачем лезть на этот рынок, когда есть Google.

Обратился к нескольким большим компаниям с просьбой продать мне лицензии на их решения. Мне нужно было 40 языков, я готов был заплатить за них 30 тысяч долларов. Мне отвечали, что для переводчика это смешные цифры и выставляли счета в 60-100 тысяч евро. Даже тогда для меня это было много.

«Сначала удивлялся: как же так, зачем компания сама растит себе конкурентов? Потом понял»

Я рассказал о своём проекте знакомому, у которого в Минске своя аутсорс-компания, и он предложил проверить, можно ли сделать такой переводчик самостоятельно. Он собрал для меня команду из семи сильных ребят, и мы стали делать тесты. Это был конец 2016 года. 

Нашли несколько опенсорсных проектов в зачаточном состоянии — Joshua и Moses («Иисус» и «Моисей»). Joshua сделали и выложили в открытый доступ пара ребят из Канады и США. Это был просто статистический перевод, качество — примитивное, но хоть что-то. Подключили его — люди стали жаловаться, что качество плохое, и мы от него отказались. Moses был более навороченным, его поддерживали человек 30-40. Но для его работы требовалось супер-железо, плюс качество перевода никуда не годилось, поэтому от «Моисея» тоже отказались. 

Перепробовали несколько ресурсов, но хороших результатов не добились. К началу 2017 года мы поняли, что сделать качественный переводчик на базе какого-то открытого проекта мы не можем. А Google и Microsoft свои наработки не раскрывают.

Тем не менее работа продолжалась. Я упорно искал крутых специалистов в области машинного перевода, чтобы они развили опенсорс-проекты для моих целей. Таких специалистов в мире немного, они все друг друга знают и стоят дорого: 250 долларов в час при почасовой оплате (когда неясно, сколько времени понадобится) или 90 тысяч долларов за улучшение качества перевода на пяти языках (только лицензия за языковую модель). На тот момент это казалось дорого, поэтому мы искали другие варианты. Через несколько месяцев стало ясно, что дешевле специалистов не найти, а лишних денег «на попробовать, без гарантий результата» не было.

В то же время двое наших ребят занимались разработкой переводчика, а пятеро других улучшали приложения, которые пользовались Google API. Моей задачей было расширить функционал программ, чтобы они переводили не только текст, но также картинки, сайты, файлы, голос — всё. Я был полон энтузиазма. Я был уверен, что к тому моменту, как мы улучшим программы, у нас уже будет свой переводчик. 

В марте 2017 года мы наткнулись на проект под названием Оpen NMT. Это совместная разработка компании Systran, одного из лидеров на рынке машинного перевода, и университета Гарварда. Systran тоже столкнулась с дефицитом энтузиастов на рынке перевода. Современные технологии машинного перевода принадлежат большим компаниям, они закрыты. Мелкие игроки, понимая, как сложно внедриться в этот мир, таких попыток не предпринимают. Это тормозит развитие технологий.

Поэтому Systran сделала принципиально новый манёвр: выложила свои наработки в опенсорс, чтобы такие энтузиасты, как я, могли включиться в эту работу. Они создали форум, где специалисты стали бесплатно помогать новичкам, и канал в Gitter для оперативной помощи. И это дало хорошую отдачу: начали появляться новые маленькие компании, научные работы. 

В то время ещё не было повсеместного нейронного перевода, а Оpen NMT предлагал наработки в этой области. Я и другие ребята по всему миру могли взять новейшие технологии и спросить совета у лучших специалистов. Они охотно делились опытом, это позволило мне понять, в каком направлении двигаться. В марте 2018 года Systran пригласила всё сообщество в Париж, где устроила бесплатный мастер-класс. Сначала удивлялся: как же так, зачем компания сама растит себе конкурентов? Потом понял: даже если у тебя на руках все датасеты, алгоритмы и тебе подсказывают, это ещё не значит, что ты сделаешь переводчик.

«Обновлённые программы были почти готовы, а качественного перевода всё нет. Деньги заканчивались»

Весь 2018 год я потратил на решение проблемы перевода. Думал, ещё полгода — и всё получится. Но светлый момент всё не наступал, я не был доволен качеством перевода даже в тех языках, где тренировал нейросети. 

Что делать? Чтобы не распускать всю команду и сэкономить бюджет на рекламу, принимаю решение начать внутренний подпроект — Backenster, который рекламирует одни приложения в других. Через эту систему я собираюсь в нужный момент перенаправить пользователей своих старых приложений-переводчиков в новое. 

Время шло, деньги расходовались…  За 2,5 года я вложил в разработку 600 тысяч долларов. Старые приложения, на Google API, ещё приносили доход, но теперь нужно было содержать команду из 10 человек. Обновлённые программы были почти готовы, а качественного перевода всё нет.

Деньги заканчивались. В конце 2018 — начале 2019 года я был уже в панике.  

В это время я заметил, что все начали говорить про новую архитектуру для нейросетей Transformer от Google, которую та выложила в открытый доступ. Все бросились тренировать нейронные сети на базе этой трансформер-модели и стали переходить со старой Lua (Torch) на Tensorflow. Я тоже решил попробовать.

Для обучения нейронной сети нужен был хороший компьютер. Сначала мы арендовали 20 обычных компьютеров (с GTX 1080) и одновременно запускали на них 20 простых тестов — на каждый тест уходило по неделе. Потом мы решили взять в аренду облачный сервис Аmazon. Он быстрый, но очень дорогой. Запустили на ночь тест, а утром — счёт на 1 200 долларов. Пришлось отказаться от этой идеи. Может, купить свой компьютер?

В Минске никто не занимается такими мощными машинами. Попытались купить в Москве — наткнулись на какую-то подозрительную фирму. Стали совещаться с командой и решили, что можно самостоятельно собрать компьютер из нескольких мощных GPU ценой до 10 тысяч долларов, который будет решать наши задачи. Комплектующие скребли по сусекам: звонили в Москву, что-то заказывали в Китае, что-то — в Амстердаме.

В марте у себя дома я наконец собрал этот компьютер и стал делать тесты. Тесты проходили быстро. С случае с испанским я начал замечать, что перевод близок к Google. По метрике BLEU выходило 70 относительно перевода «гугла». Но я не понимал этот язык. На ночь поставил тренироваться модель  англо-русского переводчика. Компьютер всю ночь гудел и жарил — спать было невозможно. Утром  запускаю тест на перевод 100 предложений и смотрю — хороший перевод получился. Эта ночь изменила всё. Я увидел свет в конце туннеля.

Конечно, дело не в трансформер-модели. На самом деле, там было много мелких нюансов: мы взяли новый токенизатор, сделали новый токенизатор, по-другому стали фильтровать и размечать данные, иначе обрабатывать текст после перевода. Сработало правило 10 тысяч часов: было много шажков к цели, и в определённый момент я понял, что качество перевода уже достаточно для того, чтобы продавать людям мой API для перевода. Трансформер-модель не была волшебной таблеткой, она просто добавила 10-20% качества, которых не хватало для критической массы. 

Потом мы начали подключать разные инструменты, которые позволяли и дальше улучшать качество перевода: определитель именованных сущностей, транслитерацию, тематические словари, систему исправления ошибок в словах. За пять месяцев этой работы качество переводах на некоторых языках стало приближаться к качеству «гугла». Теперь, когда мы заменяем Google API для нескольких языков своим, люди в целом не жалуются. Это был переломный момент. Ты уже можешь продать программу, и из-за того, что это твой собственный переводчик, он — дешёвый. Можно наращивать продажи, а расходы будут только на серверы. 

«Я в 5 тысяч раз отстаю от Google — ну и что?»

На сегодня готовы переводчики для шести языков — испанского, португальского, французского, немецкого, итальянского и русского, все — в паре с английским. В будущем планируем делать прямые модели, без участия английского, например, арабо-французский. (Вот тестовый вариант переводчика).

Мы сделали не только переводчик, но и большую платформу под него, чтобы можно было фильтровать данные, парсить их, обрабатывать, тренировать нейронные модели и выкладывать их на серверах — как сервис «гугла». Запустили три языка в тестовом режиме на 10 тысяч пользователей в день — всё легло.

Сейчас два человека переделывают платформу, чтобы она не развалилась под наплывом пользователей. Ещё месяца два уйдёт на это, потом планируем полностью уйти от «гугла».

Пока же клиенты пользуются старыми приложениями. Чтобы сократить расходы на Google API, я урезал его использование до минимума — специально ограничил функции, чтобы приложения не переводили большие тексты, в результате в месяц трачу две тысячи долларов. Когда же у меня будет свой API, я резко начну масштабировать проект. 

Правда сейчас команда не успевает за проектом. Когда доходы упали, я вынужден был сократить число сотрудников с десяти до шести. А прямо сейчас нам снова нужны люди — с горящими глазами. Нужен хороший компьютерный лингвист, который понимает язык программирования, знает TensorFlow и в идеале — трансформер-модель. Ещё нужен хороший пиарщик, бэкенд-разработчик со знанием JavaScript и MacOs-разработчик.

До недавних пор я привлекал людей как ИП, но недавно зарегистрировал ООО «Лингванекс» и сейчас буду переводить ребят туда. Готовим документы для вступления в ПВТ.

Моя цель — через три года заработать 350 млн долларов, заняв 0,5% мирового рынка переводов. Выручка должна составить 35 млн долларов в год на команду из 40 человек.

Это не такая большая сумма. К 2023 году мировой рынок переводов, по данным сервисов аналитики, составит 70 млрд долларов. Тут учитываются все виды переводов, и прежде всего те, которые делает человек. Доля машинного перевода сейчас невелика, так как машина ещё не может выполнить его идеально. Но нейронный перевод совершенствуется, его качество всё ближе подходит к уровню человеческого. И когда большие компании добьются хороших результатов, случится огромный скачок. В этой статье, например, прогнозируют, что к 2024 году рынок машинного перевода будет оцениваться в 1,5 млрд долларов. Я думаю, что на самом деле цифры будут гораздо больше, и это произойдет в ближайшие 2-3 года. Благодаря тому, что наработки выкладываются в открытый доступ, маленькие компании тоже смогут участвовать в этом процессе. Очень важно к этому моменту иметь технологии, которые будут переводить как человек. Возможно, и я в тот самый момент окажусь в эпицентре событий.

У Google — 500 млн пользователей в месяц, а у itranslate.com, второго по популярности переводчика, — 5 млн, он отстаёт от лидера в 100 раз. Я в 5 тысяч раз отстаю от Google — ну и что? У меня нет цели победить корпорацию и захватить большой объём.

Если я отхвачу 0,5% рынка, Google даже не заметит, но для команды в 40 человек это будут нереальные деньги.

По теме
Все материалы по теме

Хотите сообщить важную новость?

Пишите в наш Телеграм

Читайте также

Студента БГУИР задержали  на марше в Минске
Студента БГУИР задержали на марше в Минске
Студента БГУИР задержали на марше в Минске
1 комментарий
Где больше всего студентов получают STEM-образование
Где больше всего студентов получают STEM-образование
Где больше всего студентов получают STEM-образование
1 комментарий
Основатели MSQRD вложили $1+ млн в проект с супермоделью Натальей Водяновой
Основатели MSQRD вложили $1+ млн в проект с супермоделью Натальей Водяновой
Основатели MSQRD вложили $1+ млн в проект с супермоделью Натальей Водяновой
Uber и «Яндекс.Такси» не смогут работать в Беларуси из-за новых правил игры?
Uber и «Яндекс.Такси» не смогут работать в Беларуси из-за новых правил игры?
Uber и «Яндекс.Такси» не смогут работать в Беларуси из-за новых правил игры?
5 комментариев

Обсуждение

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
12

Всем привет!

Решил выложить ответы на часто задаваемые вопросы:

1) Чем вы лучше Google ?

В данный момент наша цель добиться качества перевода Google на основных европейских языках и после этого предоставлять решения для:

a) Перевода больших объемов текста через наше API втрое дешевле конкурентов (Google, Amazon, Microsoft), предоставляя лучший сервис поддержки и простую интеграцию. Сейчас у нас себестоимость перевода 1$ за миллион символов. Google продает API перевода $20 за миллион. Хороший отдел продаж позволит быстро откусить небольшой кусок огромного рынка. Даже если Google когда-либо заметит нас, то скорее даст нам вырасти и купит, чем будет демпинговать по ценам. Наш стартап — это просто «патроны» в войне за машинный перевод против Microsoft, Amazon и др. Поэтому наша компания сразу делается на продажу.

b) Голосового перевода для мобильных приложений (с 2 языков одновременно) без доступа в интернет. Чаты с голосовым переводом для туристических групп. Много разных функций с уклоном в изучение языков (Единый аккаунт для синхронизации работы на всех устройствах, функции дополненной реальности, и т.д)

c) Тематического перевода документов (медицина, металлургия, юриспруденция и т.д.) для компьютеров под управлением Mac OS и Windows c интеграцией в инструменты для профессиональных переводчиков (типа SDL Trados)

d) Интеграция в бизнес-процессы предприятий для запуска моделей перевода на их серверах по нашей лицензии. Это позволяет сохранить приватность данных, не зависеть от объема переведенного текста и оптимизировать перевод под специфику конкретной компании.

e) Перевода телефонных звонков.

2) У вас столько приложений. Почему такая расфокусировка ?

На самом деле продукт один — переводчик. Просто у него много функций и платформ на которых он работает. Надо не отставать от конкурентов , а в некоторых нишах — превзойти.

3) Почему вы думаете, что достигните качества Google ?

Потому-что все больше компаний стараются выкладываться свои наработки в opensource и растить рынок обработки естественного языка (NLP). Ежегодно проводятся соревнования по машинному переводу и все обмениваются идеями (http://www.statmt.org/wmt18/ )

Наше сообщество openNMT хорошо помогает друг-другу (http://opennmt.net/)
У наших стартапов есть общий чат для помощи, где сотрудники компаний Systran, Ubiqus, ребята с кафедры NLP университета Гарварда и многие другие помогают оперативно решать проблемы новичкам.

Что делать для улучшения качества — нам известно, надо просто найти еще DataScience инженеров, чтобы делегировать на них задачи.

3) На чем тренируются модели и развернуто API

В основном — Hetzner Dedicated GPU, для пиковой нагрузки подключается AWS в облаке, для тестов нейронок — собрана собственная машина в офисе. В ближайших планах взять в лизинг DGX-2

https://www.nvidia.com/en-us/data-center/dgx-2/

4) Где берете датасеты для тренировки ? А если датасетов мало для определенного языка ?

В основном берем на этом сайте http://opus.nlpl.eu/., но там их надо сильно фильтровать. Также есть площадки, где можно купить сразу качественные датасеты. Если данных мало — то можно использовать технику обратного перевода на моно-данных. Их легко собрать парсерами.

https://arxiv.org/abs/1511.06709

5) Какой сейчас лучший переводчик на твой взгляд ?

Если смотреть по качеству перевода, то на мой взгляд — DeepL (www.deepl.com) Это маленький стартап. У него интересная история. Почитайте о нем в интернете.

6) У вас есть API протестировать ?

В данный момент доступен перевод текста (8 языков ) и распознавания голоса (сейчас только английский язык) Инструкция по ссылке https://lingvanex.com/en/apireference/

7) В статье ты указал, у тебя 27 миллионов скачек, но в приложениях на сайте их совсем мало.

27 миллионов — это скачки всех старых приложений, на которых делались тесты для поиска ниш рынка. Из них где-то 15 млн приходится на переводчики. Они разнесены на 8 аккаунтов. Новые приложения вынесены в отдельный аккаунт. Сейчас там 5 тыс пользователей для тестов и поиска багов. Дизайна еще нет. Когда будет готово, то именно они будут раскручиваться. Если кому интересно посмотреть старые переводчики — напишите в личку, пришлю ссылки.

8) Что за команда ?

Сейчас в проекте принимает участие 12 человек. Из них 5 инженеров, у каждого из них от 10 лет опыта работы по специальности. Один основатель (к сожалению). До недавнего момента вся разработка велась на аутсорс. 3 месяца назад я начал собирать команду с нуля для работы в офисе.

9) Вы брали инвестиции ?

Пока нет необходимости. Проект на самоокупаемости. Сейчас стоит задача повышать выручку и нанимать людей, чтобы сразу идти на раунд A.

10) Где можно узнать о проекте больше ?

Сайт находится в разработке. Поэтому приходите в наш офис на Скорины 8. Мы с радостью покажем объем проделанной работы и ответим на все ваши вопросы. Но также можно просто пообщаться через социальные сети или мессенджеры.

3

По поводу #3:

Btw, достичь условных 85% от качества Гугла может оказаться проще/дешевле, чем подняться с 85% до 90%.

И даже если Гугл когда-либо отдаст свои наработки в opensource (why not, Kubernetes же случился) -- не факт, что удастся повторить: we're entering the world in which data are more important than software (c).

Хотя качество перевода - это, думаю, скорее гигиенический фактор для такого продукта, а больший challenge - в его дистрибуции/монетизации. Как с браузерами - есть Chrome, Firefox, а есть нишевые сборки..

Желаю успеха вам!

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
4

Все верно! Спасибо!

Рост по качеству с 85% и дальше - самое трудное, каждый следующий процент. Главное - пройти "этот фактор", когда пользователи продолжают пользоваться. Самая сильная сторона у нас как раз дистрибуции/монетизация и на это было потрачено несколько лет экспериментов. На это и делается ставка.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
6

11) Почему нет русского языка на демо-странице? Как проверить качество перевода относительно Google?

Не успел сделать русский язык к публикации статьи. Проект находится в фазе тестирования и переноса всех 40 API в Kubernetes. Работает 2 человека, большинство API отключено.

Сейчас доступны несколько европейских языков в переводе с английского.

Самый простой способ сравнить качество относительно Google Translate - это использовать сервис https://text-compare.com/ (Он наглядно покажет отличия в переводах)

0

Здравствуйте, Алексей! Расскажите пожалуйста, как нужно рекламировать приложение в App Store.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
1

Здравствуйте! Добавьте меня в друзья на Facebook и напишите этот вопрос. Расскажу

4

Привет из 9-ой школы! Удачи, Леша, все получится!

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
3

Спасибо :)

0

круто! а модель когда платят за количество использованного апи к гуглу не работает? ну т.е. чтобы расходы на гугл переложить пропорционально на пользователей. Например заплатил он 5$ за месяц, получил 5 млн символов, 10$ - 10 млн.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
1

Думал над этим.

Если рассмотреть наше главное приложение по переводу, то пользователям будет трудно понять эту модель и оценить сколько они будут переводить. Проще или подписка без ограничений по переводу или все бесплатно, но с рекламой.

Хотя в переводчиеке для телефонных разговоров сделана как раз эта модель. Например купил 10 минут разговора за 10 евро

2

ну просто это конечно смело, сесть и писать свой собственный переводчик, вкинув в это все заработанные деньги и не такие себе 5-10 тык, а целое состояние, по белорусским меркам, на кажущуюся со стороны утопической идею )

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

В начале мне казалось, что я просто возьму opensource проект и подыму на своих серверах потратив не более чем за 5 тыс $. Но как же я ошибался :)

3

Здорово! Отличный пример как можно не идти за хайпом, найти нишу и отлично заработать не пытаясь при этом изменить мир, как принято у модных стартапов.

Алексей, а вы еще сами программируете в этом проекте? Если да, то в каком объеме? Если нет, то на каком этапе отошли?

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
2

Все попытки по изменению мира обычно заканчиваются вместе с деньгами. Поэтому лучше просто делать бизнес :)

Сейчас практически не программирую. Последний раз писал программу с нуля 4 года назад.

0

Хорошо, что так не думали разработчики Open NMT, которые сделали самую наукоемкую часть и подарили её вам.
Получилось немного изменить мир всё-таки :)

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

OpenNMT - это проект сообщества, хотя его стартовали всего 2 компании. Много людей внесли свой вклад, в том числе и мы. Например, портировали его для мобильных платформ и тоже выложили в opensource

https://github.com/hunter-packages/onmt

и потом на базе его, написали эту научную работу, о том как получить модели нейронок небольшого размера и переводить на телефонах без интернет.

Которая тоже в открытом доступе.

https://rua.ua.es/dspace/bitstream/10045/76108/1/EAMT2018-Proceedings_33.pdf?fbclid=IwAR1BxipmZMR8Rt0d32gcJ7BaFt1Tf1UEm9LkJCYytBJLgdtx3ujAPFCwE80

2

Ну круто, желаю успехов, машинное обучение это прикольная тема, когда дорастёте до готовности переучивать обычных программистов немного посмотревших курсы по машинному обучению в датасайентисты, то пишите новую статью на dev.by, хотя жаль что я далёк от филологии/лингвистики.
Ну и следующий этап развития перевода это выкупить/сделать аналог ABBYY Compreno )

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
1

Спасибо! Сейчас взял двоих для обучения, посмотрим, что выйдет :)

Compreno – крутой проект, посмотрю детально позже. Мы пока используем NLTK и Spacy

0

Ну NLTK это вообще детство, его нельзя использовать, это чисто академический инструмент, уже давно не развивающийся

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Чтобы делать тесты фильтров, нам NLTK / Spacy хватает вполне. Хотя согласен, что инструмент не для продакшн.

1

Что dev.by в очередной раз не осиливает прислать уведомления о комментариях.

ABBYY Compreno мне показался очень интересным проектом, но что-то с 2015 года новостей про него в блоге компании на хабре нет, судя по тому что известно, несмотря на крутизну есть сложности - сложно добавлять новые языки т.е. это кадый раз большой объём работы по созданию правил конвертации языка в унивесальное представление и похоже там есть проблемы с производительностью, думаю первое никак не решить, это необходимый объём работы для того чтобы получить близкий в идеальному машинный перевод, а второе - верю, что решается, хотя гарантии нет.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Благодаря статье, мне написало множество интересных людей. У одного из них компания как раз сильно продвинулась в этой области. Сейчас обсужданием интеграцию их API в нашу платформу.

Anonymous
Anonymous
5

Завидую герою статьи, это надо быть очень увереным и целеустремленным, чтоб вот так вот от двух инпутов и кола в гугл транслейт и потом придти к дип лернингу и компьютерной лингвистике и собственному переводу не взирая на преграды и сомнения, что вот есть большие игроки типа гугла, у них есть свои закрытые сервисы и они контролируют поляну.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
2

Спасибо! Путь был очень долгим, со множеством ошибок. Часто хотелось опустить руки. Просто когда уже потратил много денег, я просто не смог его закрыть без какого-либо результата. А там уже стало получаться :)

Anonymous
Anonymous
1

Интересно, а у компьютерной лингвистики есть еще практические кейсы кроме машинного перевода и собственно извлечения информации и поиска, где есть успешные стартапы?

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
2

Есть! Например: голосовые ассистенты, чатботы, смысловой анализ текста. С десяток стартапов есть в Минске. Мне, например, нравится проект Andy (приложение для изучения языка через общение с ботом)

https://andychatbot.com/

Что-то похоже делают ребята из нашего сообщества openNMT. Тренируют разговоры бота на субтитрах к фильмам :)

На самом деле рынок NLP растет очень быстро по мере того, как совершенствуется распознавание и анализ речи. Весь хайп тут начнется через 2-3 года, когда сегодняшная раскрутка рынка большими компаниями принесет свои плоды. Начнется череда сделок по слиянию / поглощению. Главное в этот момент - иметь подготовленную компанию на продажу, пока все заняты другими нишами.

Anonymous
Anonymous
2

Cпасибо! Мне стало очень интересно что там под капотом, настолько что четко решил, что пройду https://web.stanford.edu/class/cs224n/ с домашкой.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
1

Отличный выбор! Чем больше в Минске будет специалистов по NLP, тем быстрее будут развиваться такие стартапы. Наш, ограничивает лишь только это :)

0

Это лишь ваше заблуждение. 1)Специалистам NLP нужно платить 2)Найти специалиста ,среди тех кто себя таким называет еще та проблема 3)Специалисты сами упираются в отсутствие современных алгоритмов, всё что сейчас есть не дает качественного скачка.
НЛП это дойная корова, которую уже доют 30 лет

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
1

1) Мы готовы платить NLP специалистам
2) Согласен. Но если не будет больше джуниоров, то потом не будет больше сеньоров.
3) Согласен. Ответил развернуто в самом последнем комментарии

13

Наконец-то dev.by написал об интересном проекте.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
3

Спасибо :)

1

Очень познавательная статья! Спасибо!
Вопрос, если не секрет - рассматривали ли при регистрации компании другие страны, например Кипр, Ирландия и т.д.? Если рассматривали, почему выбор пал на РБ?

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
1

Да, зарегистрировали фирму заграницей. В Беларуси - центр разработки.

3

Леша ты классный парень удачи тебе!

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Спасибо :)

0

Ты все сделаешь сам, главное с Мишкой не связывайся, будешь жалеть потом, мое сугубо личное мнение.

-1

Как-то меня очень смущают амбициии завоевать 0,5% мирового рынка переводов с одним GPU server'ом дома и двумя разработчиками, которые должны масштабировать проект. По поводу планируемого качества перевода я б тоже сильно не обобщался: opennmt - проект академический, а у академических проектов жизнь нестабильная (вспомнить хотя бы theano). Ну и в Гугле тоже не дураки сидят: там над одной этой темой будет работать более 100 researcher'ов с h-index'ом не меньше 30, включая Оха, Перейру и Хинтона. А тут одного комп. лингвиста ищут. Не говоря уже про несопоставимые вычислительные и финансовые мощности, и объёмы доступных данных. Да и на рынке MT конкуренция была огромная уже лет пять назад. Хотя в одном я со статьёй, хороший пиарщик компании явно не повредит - у всех статей на dev.by от силы 3 комментария, а тут под 20, и почти все как-будто одним человеком написаны.

Но дерзайте. Амбиции есть, если вдруг получится, буду за вас рад.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
5

Мы заработали больше чем 600 тыс $, просто именно эта сумма потрачена на разработку и указана в статье.

У нас сейчас 20 Dedicated GPU серверов Hetzner в аренде уже год. В офисе просто собрали компьютер для разных тестов.

Сейчас финансы позволяют нам взять топовую в мире AI станцию от Nvidia DGX-2 с производительностью 2 petaFlops (FP16) и получить мощности достаточные для тренировки модели с качеством лучше чем у Google.

Что такое мощность в 2 petaFlops ?

Для примера, рассмотрим историю со стартапом DeepL.

В 2017 DeepL была маленькой и предоставляла перевод всего на 6 языков.
DeepL позиционировался как инструмент для профессиональных переводчиков, чтобы тратить меньше времени на корректуру документов после машинного перевода. Даже небольшое изменение в качестве перевода позволяет сэкономить много денег для компаний, занимающихся переводами. Они постоянно отслеживают API для машинного перевода от разных компаний, так как качество на множестве языковых пар у всех разное и нет единого лидера. По количеству языков – больше всех у Google.
Чтобы продемонстривать качество перевода, DeepL решил устроить тесты на некоторых языках.

https://techcrunch.com/2017/08/29/deepl-schools-other-online-translators-with-clever-machine-learning/

Оценка качества проводилась методом слепого тестирования, когда профессиональные переводчики выбирают лучший перевод из Google, Microsoft, Deepl, Facebook. По результатам победил DeepL, жюри оценило его перевод как наиболее “литературный”.

Как так получилось?

У DeepL очень интересная история. Они много лет владеют стартапам Linguee – крупнейшей базой ссылок на переведенные тексты. Скорее всего, у них гигантское количество датасетов, собранных парсерами и чтобы натренировать их – нужно большая вычислительная мощность.

В 2017 году у них вышла статья о том, что они собрали в Исландии суперкомпьютер в 5 петаФлопс (на тот момент он был 23 – м по производительности в мире). Натренировать лучшую по качеству модель было лишь делом времени. В том момент казалось, что даже если мы купим качественные датасеты, то все равно никогда не сможем конкурировать с ними, не имея такой машины.

https://www.top500.org/news/startup-launches-language-translator-that-taps-into-five-petaflop-supercomputer/?fbclid=IwAR3kPvVCYwnEHpIkAVUazy5O649g_K3aKiCFaaFbDyPfuCKyuRCmSX6O8To

В марте 2018 Nvidia выпускает компьютер DGX-2 размером с тумбочку и производительностью в 2 петаФлопса (FP16), который сейчас можно взять в лизинг от 5000$ / месяц (первые 6 месяцев, потом 15 тыс $ / месяц)

https://www.nvidia.com/en-us/data-center/dgx-leasing/

Имея такой компьютер, можно тренировать свои модели с гигантскими датасетами быстро как и держать большую нагрузку по API. Это кардинально меняет расклад сил всего рынка Machine Learning и позволяет небольшим компаниям конкурировать с гигантами в области работы с большими данными.

Это сейчас лучшее предложение на рынке в соотношении цена производительность.

Если DeepL в количестве 10 человек победил Google имея в 2017 машину в 5 petaFlops (большого размера), а я сейчас могу арендовать машину в 2 petaFlops и у меня 12 человек. Почему я не могу теоретически победить Google ?

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
2

В продолжение ответа выше:

Проект openNMT (TensorFlow) не является академическим. Это первый opensource проект для машинного перевода, ставшей основой для многих коммерческих стартапов, в том числе для Ebay и Booking для перевода описания отелей и акционов. Он не закроется, так как уже большое сообщество.

В 2018 мы все встречались в Париже. Посмотрите список участников

http://workshop-paris-2018.opennmt.net/

То, что мы маленькой командой проделали большую работу — в этом ничего удивительного нет. Просто собрал крутейших ребят и были деньги для реализации задуманного (по аналогии с историей DeepL) В сумме над проектом участвовало более 30 человек по всему миру, в том числе с кафедры NLP Политехнического университета Валенсии (Испании) - фирма Sciling. Наша фирма — NordicWise LLC (Кипр)

Мы выступили на ассоциации машинного перевод в г. Аликанте (Испания) и одни из первых портировали перевод на нейронных сетях на телефонами. Об этом написали научную работу и человек из команды защитил phD

https://rua.ua.es/dspace/bitstream/10045/76108/1/EAMT2018-Proceedings_33.pdf?fbclid=IwAR1BxipmZMR8Rt0d32gcJ7BaFt1Tf1UEm9LkJCYytBJLgdtx3ujAPFCwE80

Нам помогали ребята из кафедры NLP Гарварда и другие топовые специалисты.
А то что у Google, Amazon и других больше возможностей — это как посмотреть. По железу — в 2019 году у них преимуществ нет (рассказано постов выше). Все новые идеи выкладываются в открытий доступ.

Например тут
http://www.statmt.org/wmt18/papers.html

Мы не конкуренты Google, Amazon, FB, Microsoft и других гигантам. У них, с большего одинаковое качество перевода, и они все уперлись в это. Каждому из них надо преимущество. Они сами растят этот рынок NLP, чтобы были стартапы типа DeepL. Если не помогать нам, то ничего не будет (так как большой порог входа на этот рынок) и они все будут топтаться на одном месте, даже если у каждого из них по 100 специалистов. Это все неочевидно, я все прекрасно понимаю и небольшой статьей не описать.

PR- щика у меня нет, к сожалению. Так как все 3 года делали проект и нигде не участвовали. А когда мы сделали платформу и пошли заказы с B2B людей стало не хватать. Поэтому и ищу людей для расширения команды до 25 человек, чтобы потянуть текущий объем работы, на который ранее было достаточно 10 человек.

0

При выпуске большого количества приложений с похожим функционалом не приходилось сталкиваться с отказами от Apple из-за Design Spam? Если да, как решали проблему? Использованием нескольких аккаунтов?

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
1

Сталкиваюсь постоянно. Но разнесение на несколько аккаунтов, постепенно перестает работать. Напишите мне в Facebook. Расскажу.

2

Отличная статья.
Нужен более основательный R&D, оптимизировать алгоритмы сбора/обработки/хранения данных.
Здорово что бейслайн по существующим технологиям имеете, но каждый доп % качества будет вам стоит экспоненциально по отношению к предыдущему.
Ретейл инвесторы вам не интересны?

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Спасибо! Напишите в Facebook, обсудим, что конкретно предлагаете.

Николай Варанкин
Николай Варанкин смотрите профиль LinkedIn в ИП Варанкин
2

Удачи!

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Спасибо!

4

Очень интересный путь, герою публикации удачи!

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Спасибо!

1

может если копнуть, то окажется, что с запалом в сердце и небольшим капиталом можно обойти любой сервис гугла в четыре руки )

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
1

Абсолютно верно! Главное собрать нужных людей в нужном месте :)

0

Эх, найвные люди . Вы думаете что достаточно запала, и капитала, вы глубоко ошибаетесь, за этими разработками огромный пласт скрытых целей и инвестиций.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
2

Первое свое мобильное приложение я начал делать в 2009 году. За 10 лет в разных проектах я выполнял тысячи задач. Самое сложное из всего этого, вплоть до сегодняшнего дня, это был - поиск "мотивированных квалифицированных людей", которые могу работать друг с другом.

В первую очередь - команда.

Технология, капитал и продукт - вторичны.

Это лично мое мнение, основанное - только на моем опыте. У каждого может быть разная история.

-4

Все что я понял - деньги закончились, продукта нет, нужны деньги чтобы продолжать и возможно 350млн (я бы конечно тут написал 10млрд) будут наши (мои?) !)))

по существу:
1) дело тут не в 100 специалистах которые в Гугле, а в том что один спец из гугла в данной области = 100 местным спецам (которых причем нет)
что касается спецов из Гарварда - это не очень понятно, так как тройка выгребает всех разными методами (деньги/интерес/блэк-джек)

2) получается технически все свелось - дайте нам датасет (компутер у нас для обучения уже есть) и мы захватим 0.5% рынка - это утопия... (при этом я нисколько не умоляю 600к на спам-приложениях - это сильно, но не имеет никакого отношения к науке или разработке и к данному проекту)

3) еще есть проблема ведущего разработчика(ов) - фактически в данном проекте он владеет всем (а не вы или инвестор). В спам-приложениях ситуация такая - всем владеет тот кто владеет аккаунтом))
имея реально работающую технологию на руках - вы более не нужны (и NDA не помогут как показывает практика даже в Штатах)

4) выжать максимум из OpenSource проекта (как показал маскарад на ОпенСВ) идея хорошая. Даже очень хорошая - бесплатно использовать наработки сотен людей (что может быть лучше). На самом деле - в свете что компания на продажу - все что нужно это топ-манагер из топ-компании для лоббирования покупки, он еще и деньги на разработку даст за своих 70% от будущих 350млн)))

2

а ты конечно хотел прийти и чтобы тебе сразу долю дали на предполагаемые миллионы ) сколько там, процентов 10 хватит? ведь ты такой не заменимый, всё понимающий, на твоей спине уже не один заказчик заработал миллион долларов, а тебе не доплатил? ) Да, ты мог и сам таких спамных приложений из 2-х эдитов наклепать 100 штук, просто не захотел )

-2

ДА!!!

кодер ты как в воду глядишь))) или в волшебное зеркальце)))

не болеешь? а то не могу найти где про себя писал)))

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
4

Вы абсолютно неправильно поняли статью.

Спам - приложения нужны было просто для проверки рыночных ниш и рекламных стратегий. Это не продукты, а тесты рекламных сетей, встроенных покупок, конверсии и прочего. Чтобы научиться «Какие приложения и как делать»

Я многого не знал и про это было начало статьи. Это был 2011 год в маленьком городе. Тогда не было всех возможностей, что есть сейчас. На самообучение потратил около 5 лет (2011 — 2016 годы)

Целиком и полностью «за качественные приложения». У Моего знакомого, который работал в Минске в крутой продуктовой компании вышло в 2 раза больше прибыли чем у меня на всех 500 тестовых приложениях сразу, при том, что у него всего было 25 тыс активных пользователей в месяц (игрушка на Android)

Делать качественные приложения - намного выгоднее! (В десятки раз)

Тема простых приложений давно умерла и там сейчас не заработать денег. Я полностью за что, чтобы делать качественные приложения, но в тот момент у меня не было знаний и денег, чтобы нанять качественных дизайнеров, программистов, продукт-менеджеров и вообще понять, как это все делается. Но когда, путем ошибок я разобрался — я вложил деньги заработанные на «хламе» в качественные приложения приложения по переводу и последние 3 года, занимаюсь только ими. Ничем больше.

Ответы по существу:

1) Произвольный опытный спец из Google может также быть сильнее / слабее аналогичного из условного EPAM или сильного минского стартапа. Там абсолютно такие же люди. Просто Google больше на слуху, не более. Хотя если брать в разрезе 1000 человек, то количество Senior в Google будет больше, просто потому, что они реже берут junior / middle для последующего обучения. Google — не аутсорс компания.

Гиганты Google, MS, FB не выгребают всех.

Академическое сообщество предпочитает работать в своих университетах, на своих кафедрах, занимаясь тем что нравиться со своими студентами, а не решая бизнес-задачи Google, летя сломя голову. Деньги профессоров не сильно мотивируют, а интересных задач в Google на всех не хватит.

Чтобы приблизительно оценить, какой процент выгребают гиганты для нашего случая - выполните простую работу по ссылке, которую я уже приводил несколько раз

a) Открываете http://statmt.org/wmt18/papers.html. В таблице научных статей, правой кнопкой мыши открываете каждую их них в новой вкладке. Потом смотрите авторов и название организаций в которых они работают. Когда видите Google, Facebook, Microsoft, Amazon — ставьте плюсик. Потом считаете количество плюсиков и общее количество статей. Делите первое на второе и получаете соотношение, которое показывает какой процент специалистов выгребают компании гиганты. Результат — напишите в комментариях, чтобы все видели.

2) Технически все не сводится скачать датасет и натренировать. Если бы было так просто, то вы бы просто купили разных автозапчастей на Жданах и собирали бы с нуля семерки BMW по инструкции из интернет, так ?

3) Проблемы ведущего разработчика нет, если есть толковая документация по проекту. А другие люди из его команды, такие же квалифицированные как и он. Проблемы NDA в нашем проекте решаются аналогично, как и во всем мире.

4) Тогда возьмите любой opensource проект и постройте на основе его качественный продукт, который заработает нормальные деньги. Найдете этого топ-менеджера с деньгами и лобби. Уговорите его. Profit!

В абзаце выше — 4 предложения, в жизни — 40 тысяч действий, которые нужно выполнить в правильном порядке, разными людьми, о которых вы даже не подозреваете.

Потом покатайте меня на вашей яхте :)

0

У вас лишь ваши домыслы, я лично набирал спецов в США, так вот при равном выборе все не дураки уходят к гигантам

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Вы набирали людей именно академического круга, а не просто талантливых инженеров, так ? И в вашем случае они все ушли в Google, Amazon, Microsoft ? На какой выборке у вас такой результат ?

В моем комментарии - речь идет именно про людей ведущую научную деятельность в университетах, которые пишут научные статьи.

0

Я набирал разных людей, как и интернов из NY University так и научных сотрудников
Поиск был по США в течении года

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Ок. А на основании какого количества людей, вы сделали такой вывод ?

-1

Странно что DeepL после такой сокрушительной победы никто не купил (или я не нашел никакой информации о покупки)

И почему DeepL сейчас не занимает 10% рынка - раз у них самые лучшие переводы... Да и финансы их - это похоже на десятки милионов (сужу по компу 2017 года выпуска)
Единственное объяснение - слишком много денех хотят и 70 процентов отдавать откатом не готовы)))

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
5

Единственное объяснение — это сначала надо искать информацию, а не комментировать «сгоряча» ))

У Google за 2018 год 500 миллионов пользователей

https://www.independent.co.uk/life-style/gadgets-and-tech/news/google-translate-how-work-foreign-languages-interpreter-app-search-engine-a8406131.html

У DeepL - 50 миллионов, ( статья от 12 декабря 2018 )

https://slator.com/ma-and-funding/benchmark-capital-takes-13-6-stake-in-deepl-as-usage-explodes/

500 / 50 = 10

10 % от ежемесячной аудитории Google пользуются DeepL

DeepL запустил платное API только в марте 2018 года

https://www.deepl.com/blog/20180305.html

До этого они просто рекламировались, разместив на сайте форму для бесплатного перевода, чтобы пользователи оценили его качество относительно Google. Запуск состоялся в августе 2017

https://lingo-star.com/deepl-translator/

Чуть более, чем за год они захватили 10 % рынка

Чтобы оценить его рост по финансам, надо аналитика хотя бы за 2019-2020 годы. Рост по пользователям уже очевиден. Профессиональные переводчики выбирают его вместо Google.

DeepL не будет сейчас продаваться первому попавшемуся покупателю

Нормальный проект не будет работать как:

Cделал МVP, получил первое предложение о покупке за 500 тыс, продал проект, купил Bentley, покатал одноклассниц, разбил авто, пошел опять джуниором на завод.

-4

Еще я понял что 500к было потрачено впустую)
Если бы сразу ОпенСорс проект нашелся и комп нужный, датасет скачался - то вот сразу текущий результат)))

0

Стратегическую цель надо бы поменять, эта звучит плохо. Вместо 0.5% рынка лучше указать нишу, на которую направлен ваш продукт.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
3

Спасибо за совет! Просто 0,5% указано для привлечение внимания, как некий ориентир исходя из показателей компании Systran, на которую мы равняемся. Суть в том, что достаточно взять небольшую часть рынка, чтобы заработать хорошие деньги.

Описание ниш, на которую направлен продукт находится в самом первом сообщении под статьей (Ответ на "Вопрос 1" )

Anonymous
Anonymous
1

Я согласен, основная цель VC - это сделать 20-40х от первоначальных инвестиций. 0.5% процента от рынка прозвучит так себе в питче для потенциальных инвесторов.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
1

Спасибо за совет!

Я никогда не был специалистом по "питчам" и презентациям. Также не смог рассказать текст статьи и всех комментариев за 2 минуты питча, а больше - никто не хотел слушать.

После фразы: "- мы делаем переводчик типа Google", люди теряли интерес :) Из-за этого было трудно нанимать команду в самом начале и пришлось искать людей на аутсорс по коммерческим ценам.

Когда стало получаться, все пошло гораздо проще :)

Это историю не рассказать за час, так как сильно много "подводных камней", которые понимают только люди из индустрии переводов.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Всех, кто хочет посмотреть объем проделанной работы "вживую" и посмотреть, как устроен проект изнутри - приглашаю завтра, 19 июля к 18-00 в Imaguru (Фабрициуса 4) на Datathon, чтобы ответить на все вопросы сразу.

https://datathon.by/#about

3

Крутой проект, молодцы!

Я занимаюсь computer vision, но NLP всегда был интересен. Хотелось бы задать несколько вопросов по теме:

1) Какой нужен минимальный размер датасета для языковой пары, чтобы получить вменяемый перевод?
2) Как фильтруете датасеты?
3) У вас отдельная модель для каждой языковой пары или учите мультимодели?
4) Используете ли синтетический датасет, генерированный с помощью Google Translate/Microsoft Translate?
5) Сколько времени (и на каком железе) занимает тренировка 1 продакшн модели?

Спасибо.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
2

Спасибо!

Вот ответы:

1) Из нашего опыта, 5 млн качественных переведенных строк достаточно для хорошего датасета для перевода общей тематики (типа новостей). Для каждой отдельной темы (медицина, недвижимость, металлургия и т.д) надо дотренироровывать модель. Это можно делать итеративно на основе базовой модели.

2) Написаны свои фильтры, около 20 штук.

3) Отдельная модель для каждой пары. Пробовали мультимодель, хорошего результата не добились.

4) Нет

5) От 1 до 2 недель на 2 x RTX 2080 Ti на 1 языковую пару.

0

А вы не пробовали использовать тензорные процессоры типа Google TPU вместо общих GPU?

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Не пробовали, но если у вас есть такой опыт - напишите.

1

Пока читал про растущие расходы за пользование Google API задавался вопросом, почему нельзя было создать свой "здоровенный кеш" с самыми популярными фразами для перевода? Да. это не решение проблемы в целом, но кеш легко сделать и на мой взгляд благодаря ему можно неплохо экономить.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
3

Кеш был сразу сделан и работает. Хорошо работает на 1 и 2 словных фразах и позволяет экономить. Проблема была с пользователями, которые переводили блоки от 1 тыс символов за раз. Их не так много, но они платящие. Когда они упираются в лимит на перевод - пишут плохие отзывы и возвращают деньги.

-8

Отличный пример того, что все упиратеся в деньги. Они всегда в приоритете. Мы будем засорять площадки сотнями и тысячами однокнопочных и бесполезных приложений, будем оборачивать уже существующий и невероятно успешный продукт в свой и будем выдавать под новым именем.
В данной ситуации конечный пользователь вместо того, чтобы без каких либо проблем воспользоваться переводчиком от гугла, который кстати без рекламы, будет устанавливать 18 разных приложений с рекламой для каждой комбинации перевода, которые однозначно будут работать хуже, если будут работать вообще.
Мне стыдно за то, что такие проекты приходят в голову.
Создавайте новое и оригинальное, а не оборачивайте уже готовое в свою убогую обертку, в попытках получить денег.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
11

В нашем мире 1400 млн кубических километров воды. И я уверен, что вода может отлично решить проблему утоления жажды.

Я абсолютно не против того, что в мире существует молоко, чай, виски или кола. И рад, что все это могу купить в Евроопте, хотя у меня в кране много воды, и никуда идти не надо.

Мне не стыдно за этот проект, а также за любой другой минский стартап, который делает продукты, которые уже есть на рынке.

Стыдно сидеть на шее у мамы и жаловаться на жизнь.

Это мое личное мнение.

3

Поздравляю с достигнутым результатом и желаю добиться его большего.)
Это круто - иметь такой энтузиазм и стремление.)
По поводу "уникальности" приложения я считаю, что альтернативы определенно должны быть! Всегда, везде и во всем.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Спасибо! Полностью вас поддерживаю :)

0

Насчет сказки что всё упирается в мощности, я вам скажу, что я даже кватновый компьютер от IBM использовал для NLP никаких серьезных улучшений нету.
Современные NLP алгоритмы достаточно сильно ограниченны, и это ограничено уже заложено на уровне теоретического подхода, они все статистические. В них заложена одна идея ,мол статистикой можно сделать искусственный интеллект. Пошло еще от лаборатории Белла

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
1

Согласен с тем, что не все упирается в мощности. Но до определенного момента, мощность имеет важное значение в достижении качества. Сейчас к нейронкам добавляются системы основанные на правилах (Ruled-based). То есть они всегда гибридные, а не все чисто на нейронках. DeepL выигрывает Google как раз за счет этой части, когда можно правильно переводить фразеологизмы, например.

Вы сказали: "Современные NLP алгоритмы достаточно сильно ограниченны".

Полностью с этим согласен и поэтому уже много раз, я описываю проблему с которой столкнулись все гиганты (Google, Microsoft, Amazon) у которых в штате, пусть 100 крутых NLP специалистов.

Качественный перевод или 100% -е распознавание речи - это очень сложные инженерные задачи. Даже для очень больших компаний. Долго время (Google, Microsoft, Amazon) топтались на месте со своими спецами без какого-либо серъезного прогресса. Ученые, которые ведут разработки в NLP не идут массово к гигантам, по причинам описанных в комментариях ранее. Каждый вариться в своей каше, закрывая наработки от других.

Новые специалисты, которым потенциально интересна тема NLP не идут в эту нишу из-за того, что большой порог входа (по деньгам и технологии). Если бы я не заработал 600 тыс $ на приложениях-хлам, то я бы тоже не вошел в эту отрасль. Такой маленькой суммы мне хватило только из-за того, что проект openNMT был opensource. Если бы не он, то мне потребовалось минимум 3 млн $ чтобы разработать аналогичное с нуля. И другим тоже самое. И мы бы сюда не полезли. Поэтому в этой нише участвовало мало людей и стартапов и, как следствие, долгое время не было прорыва.

Все поменялось с того момента, когда гиганты и поменьше начали выкладывать наработки в opensource и развивать сообщества. Все поняли, чтобы без этого - долго не будет прорыва.

Но сейчас - все меняется. Результат заметен. Все будет.

0

Выйграть Google не большая победа, он хорош тем что все тематики пытается охватить, т.е универсален, по специализациям он проигрывает. Например мой алгоритм еще 2 года назад по тематическому моделированию в финансах и бизнесу, был лучше, но далеко от настоящего специалиста который сам решает какие тематики освещены в текста
"Ученые, которые ведут разработки в NLP не идут массово к гигантам"
Расскажите про таких, не разу не слышал. Я то что я реально видел и знаю, эти ученые или идут к гигантам или в университеты устраиваются.

"Новые специалисты, которым потенциально интересна тема NLP не идут в эту нишу из-за того, что большой порог входа (по деньгам и технологии). Если бы я не заработал 600 тыс $ на приложениях-хлам, то я бы тоже не вошел в эту отрасль. Такой маленькой суммы мне хватило только из-за того, что проект openNMT был opensource. Если бы не он, то мне потребовалось минимум 3 млн $ чтобы разработать аналогичное с нуля. И другим тоже самое. И мы бы сюда не полезли. Поэтому в этой нише участвовало мало людей и стартапов и, как следствие, долгое время не было прорыва."

Вы очень ошибаетесь , и это лишь ваш опыт. Порог входа очень малекий, иначе не было бы столько стартапов. В реальности основная часть расходов стартапа это ЗП.
Мои прошлый инвестор, например каждый год выбивал по 100 000 у.е на серваки по программам поддержки предпринимателей в США у Амазона,Гугла,ИБМ и др.
Но в реальности можно обойтись меньшими затратами. Например у меня сейчас системы, и я сам их пишу, из железа, просто обычный мощный комп, за 2000 у.е (системник) , просто надо подходить ко всему с умом. Когда у тебя много мощностей, это тоже развращает.
К примеру тоже же Spacy там не было вложений 600 000

Прорыва не было, т.к. никто не вкладывался в исследования, все как и вы хотели и хотят на всё готовенькое. Research сейчас никакого, максимум лишь на базе существующих алгоритмов и попытке их улучшить(Bert,Elmo и т.п).

"Но сейчас - все меняется. Результат заметен. Все будет."
Вы подымите подшивки газет и журналов, в период весны искусственного ителлекта(60года, 80года), там тоже люди такое писали и им казалось ,вот вот и они получат результат.

2

>к 2024 году рынок машинного перевода будет оцениваться в 1,5 млрд долларов

Цифра по переводу мне сперва показалось слишком оптимистичной, но помогал сейчас девушке выбирать машину из Германии на mobile.de, посмотрел сколько раз мне пришлось всё перевести с немецкого на русский, и понял что рынок есть, и он очень даже реальный.

Очень крутой проект, и круто вы всё описываете. Если бы не кридиты, то попросился бы к вам в команду!

Успехов!

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Спасибо!

На самом деле все еще интереснее!

Если 1.5 млрд $ - это только машинный перевод, то весь рынок переводов - 70 млрд $(на 2023)

Почему такая разбежка около 50 раз ?

Допустим, лучший машинный переводчик сейчас переводит хорошо 80% текста. Остальные 20% нужно редактировать человеком. Самое большие расходы в переводе - это корректура, то есть - зарплаты людей.

Увеличение качества перевода даже на 1-2 % (до 82 % в нашем примере) может на 3-5 % сократить расходы на корректуру текста.

3-5 % от разницы между всеми переводами за вычетом машинного будет (70 - 1.5 = 68.5 млдрд $) или 2 - 3,5 млрд $ уже. То есть увеличение доли рынка машинного перевода в 2 раза. Цифры выше даны приблизильно - чтобы передать суть.

То есть улучшение качества даже на 1% позволяет значительно экономить большим компаниям по услугам перевода.

100 % качества, или идеальный перевод машиной по всем тематикам - недостижим в ближайшее время. А каждый следующий процент улучшения качества будет даваться труднее.

Тем не менее, это не мешает рынку машинного перевода занять 10% от общего рынка к 2023 год (по аналогии как DeepL незаметно отхватил 10% рынка Google), так как большие компании каждый день тестируют API разных переводчиков. И улучшение качества одного из них на процент (для какого-нибудь языка) позволит им экономить сотни миллионов $

0

Странный вы человек, в mobile.de есть кнопочка переключится на русский язык.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Продолжение ответов на популярные вопросы:

12) Вы просто взяли все готовое, сделанное многими людьми. И теперь продаете чужой труд.

Мы взяли основу — openNMT. Это было начало 2017 года, он был сырой и в нем почти ничего не было кроме базовых функций. И было это все на Lua (Torch) , чисто для академических исследований. В нем было куча багов и все это работало медленно, нестабильно и крешилось при небольшой нагрузке. Для production он вообще не годился.

Потом в общем чате все вместе мы тестировали, ловили ошибки, делились идеями (тогда нас было человек 100) В том числе и мы. Пусть наших сообщений там менее 1 %, и немного коммитов кода — но вклад был. По Data Science в нашей команде было 2 человека тогда. И я просто не мог больше внести вклада, хоть сильно хотел. Всем в чате нужна была production — версия. Ее небыло тогда! А у меня не было ресурсов, чтобы серьезно на это повлиять.

Так как с Lua-версией у многих были проблемы, основатели перенесли логику скрипта translate.lua в C++ версию (CTranslate), которая служила для более удобных экспериментов с переводами. На Lua-версии можно было тренировать модели, на C-версии запускать. К маю 2017 это уже можно было хоть как-то использовать за основу production для наших целей.

Основная фишка нашего проекта — был офлайн перевод на мобильных телефонах и на десктоп компьютерах. Эта функция в приложениях были только у Google / MS / Yandex / Promt. Эта функция была ключевой и самой сложной для реализации, за которую люди платили деньги. Качественных приложений переводчиков, которые работают только через интернет используя API Google — даже в 2017 были тысячи.

Мы портировали CTranslate для работы под приложения и выложили все это в opensource под лицензией MIT. Чтобы каждый мог бесплатно воспользоваться результатом нашей работы, хоть мне пришлось за нее заплатить.

Вот ссылка на эту ветку
https://github.com/hunter-packages/onmt

Портировать CTranslate под разные платформы — это только первый шаг. Надо было понять как сделать офлайн модели небольшого размера и нормального качества для работы в телефонах и компьютерах. Первые версии моделей для перевода занимали в оперативной памяти телефона 2GB, что абсолютно никуда не годилось.

Я нашел ребят в Испании, которые вышли с Политехнического университета г. Валенсии (Испании) с хорошим опытом в области проектов по машинному переводу. Около 3 месяцев мы сообща вели R & D в области уменьшения размера модели нейронки для перевода в 150 мб на пару, чтобы ее можно было запускать на мобильных телефонах.

Размер надо было уменьшать таким образом, чтобы в определенный размер словаря (к примеру 30 тыс слов) вложить как можно больше вариантов по переводу слов разных длин и тематик.

Результат наших исследований был выложен в открытый доступ и представлен на Европейской ассоциации машинного перевода в г. Аликанте (Испания), в мае 2018

https://rua.ua.es/dspace/bitstream/10045/76108/1/EAMT2018-Proceedings_33.pdf?fbclid=IwAR1BxipmZMR8Rt0d32gcJ7BaFt1Tf1UEm9LkJCYytBJLgdtx3ujAPFCwE80

Для сравнения:

Google добавил в свое приложение offline перевод на нейронках в июня 2018

https://techcrunch.com/2018/06/12/google-brings-offline-neural-machine-translation-for-59-languages-to-its-translate-app/

У нас на пару английский — испанский, офлайн перевод на нейронках для телефонов было готово уже в марте 2018 и можно было сделать на все остальные языки до лета.

Но возникла проблема, абсолютно другого плана, о которой я вообще не подозревал. Если кому интересно — отвечу в личку в Facebook.

13) Компании-гиганты выгребли всех крутых специалистов

Каждый год проводятся международные соревнования по задачам для машинного перевода. Где участвуют гиганты, университеты и энтузиасты.

Чтобы оценить, какой процент выгребают гиганты за 2018 год — сделайте следующее.

a) Открываете http://statmt.org/wmt18/papers.html.

В таблице научных статей, открываете каждую их них в новой вкладке. Потом смотрите авторов и название организаций в которых они работают. Когда видите Google, Facebook, Microsoft, Amazon — ставьте плюсик. Потом считаете количество плюсиков и общее количество статей. Делите первое на второе и получаете соотношение, которое показывает какой процент специалистов выгребают компании гиганты. Результат будет небольшим.

Так происходит из-за того, что академическое сообщество предпочитает спокойно работать в своих университетах, на своих кафедрах, занимаясь тем что нравиться со своими студентами, а не решая бизнес-задачи Google, работая на износ.

14) Что было самое сложное в проекте ?

Самое сложное из всего этого, вплоть до сегодняшнего дня, это был - поиск "мотивированных квалифицированных людей", которые могу работать друг с другом.

В первую очередь - команда.

Технология, капитал и продукт - вторичны.

Это лично мое мнение, основанное - только на моем опыте. У каждого может быть разная история.

15) Зачем вы так подробно рассказываете про свой проект ?

Несколько лет подряд мы делали проект, нигде особо не рекламируясь. И когда 3 месяца дошли до фазы масштабирования — столкнулись с проблемой поиска людей в команду, так как никто не понимал, что это вообще можно сделать и зачем. Пришлось собеседовать около 100 человек и каждому по 1-3 часа рассказывать множество неочевидных деталей. На что было потрачено много сил.

Но стало понятно, что если бы человек знал о проекте заранее и ему каким-то образом передать весь опыт, который я рассказываю за 3 часа на встрече — то все бы недоверие исчезло.

Поэтому вместо разработки — пришлось заниматься пиаром, что сильно тормозит движение вперед по развитию платформы. Но по-другому сейчас никак.

16) Зачем мне идти работать к вам ?

Во первых — обработка естественного языка это очень интересно и весело. Можно делать не только переводы, но и голосовые ассистенты (чат-боты) с которым можно вести беседы как по делу, так и « за жизнь ». Можно изменять свой голос на другого человека, анализировать смысл или писать музыку в стиле любой группы

https://meduza.io/shapito/2016/06/28/neyronnaya-oborona-robot-napisal-teksty-pesen-pod-egora-letova

Мы делаем не продукт и не сервис. Мы делаем платформу, состоящую из многих сервисов (сейчас 40), на которых можно быстро делать произвольный продукт в нише NLP.

Начав с переводчика текста, чтобы закрыть свои проблем по расходам на API, потом добавили туда функции по распознавателю, синтезу, переводу сайтов / документов / звонков. Но в ближайшее время будут новые NLP продукты на базе нашей платформы.

Во вторых — Мы небольшая продуктовая компания. Уже многое сделано. Работа инженеры, дизайнеры, менеджеры все работают сообща и вовлечены в задачи бизнеса.

Каждой таск мы обсуждаем как он повлияет на бизнес, так как правильность решения — отражается на всех.

Возможность пройти этот путь от начала до продажи компании, чтобы получить отличный опыт в связке разработка / бизнес, принимая непосредственное участие в бизнес решениях.

Чтобы потом, на основании полученного опыта, вы смогли построить уже свою большую компанию или поработать с нами в следующем, еще большем проекте.

2

Добрый день, Алексей. Шикарная статья, огромное спасибо за открытость. Скажите, при работе над данным проектом, привлекаете ли вы непосредственно переводчиков, есть ли у них своя роль в подобных проектах или тут без знания программирования не обойтись?

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Спасибо! Переводчиков пока не привлекаем. У нас есть специалист по локализации.

Хотя, в ближайшем будущем - возможно. Будем на связи :)

3

Смотрю часто звучит утверждение, что мол гиганты всех специалистов выгребают с рынка, честно говоря это звучит странно, учитывая, что гигнты поросли бюрократией и часто не могут ни отсобеседовать ни удержать крутых специалистов, вспоминается сразу история человека который уволился из гугла потому, что поощрали за KPI, а хорошо сделанная работа снижала метрики, ну и собеседования про всякие люки вспоминаются, которыми много лет людей терроризировали, а потом отказались т.к. оказалось что эти задачки не помогают нанять лучших. Да и не всем нравится работать отсюда и до обеда (часто основатели купленных гигнтами стартапов после передачи знаний уходят делать новые проекты), так что у небольших, но делающих интересные вещи вполне есть шансы набрать крутых людей.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Все верно!

0

Добрый вечер, Алексей. Интересны ли вам проекты по быстрому обучению людей иностранным языкам ? И можно ли пообщаться с вами по телефону или напрямую?

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Добрый вечер. Темы обучения языкам - интересны. Напишите мне в Facebook, созвонимся!

George Kachanouski
George Kachanouski HR в ООО Ямото Самокато
1

Леша успеха тебе!

Если бы у меня были свободные деньги, в том масштабе, который тебе нужен, я бы в тебя инвестировал, чувствуется что ты знаешь что делаешь и цель поставил себе реальную!

Георгий из клуба фаундеров.

Алексей Рудак
Алексей Рудак Основатель в Lingvanex
0

Спасибо, Георгий! Тебе тоже удачи с твоим стартапом! :)

Константин Конопко
Константин Конопко Android developer в ITRex Group
0

Смеркалось. Сильно хотелось есть и петь песни о любви.
DeepL: It was freezing. I wanted to eat and sing songs about love.
Google: It was getting dark. I really wanted to eat and sing love songs.

Спасибо! 

Получать рассылки dev.by про белорусское ИТ

Что-то пошло не так. Попробуйте позже