«Я умру не сегодня». Гик с ДЦП делает софт для голосового общения (нужна помощь с разработкой)

9 сентября 2019, 09:02

Иван Бакаидов — программист, который не говорит, но активно общается с миром и делает всё, чтобы эта возможность появилась у других людей с проблемами речи. У Ивана ДЦП, отсюда неразборчивая артикуляция, так что за пределами семьи он пользуется компьютером и собственным ПО.

Таких программ у Ивана несколько — для людей с разными возможностями. На прошлой неделе Иван приехал из родного Петербурга в Минск, где выступил с лекцией об альтернативной и дополнительной коммуникации (АДК). После лекции в Международном образовательном центре им. Йоханнеса Рау dev.by встретился с Иваном, чтобы познакомиться поближе и опробовать альтер-коммуникацию. В беседе участвовала также доцент кафедры психологии БГУ, основатель проекта FreeMowa Татьяна Синица.

Вообще-то Иван — знаменитость. В Петербурге его называют гик с ДЦП. О нём сняты видео и написаны статьи, он сам — автор на Habr, страниц в FB и VK, где рассказывает об альтернативной коммуникации, продвигает свой проект LINKa и по большому счёту — силу человеческого духа. 

Что известно об Иване из СМИ

Ему 20 лет, рос в полной семье, есть младший брат. Окончил петербургскую специализированную школу «Динамика» два года назад. Начинал учиться в классе для умственно отсталых, так как общался жестами и не мог продемонстрировать комиссии навыки говорения и письма. Исключили оттуда после урока математики, на котором учитель объяснял детям, что из трёх можно вычесть два, а из двух три — нет. «Почему нельзя? — возразил мальчик. — Будет минус один». За компьютером — с двух лет. В четвёртом классе в кружке программирования научился задавать координаты для ползающей черепашки, в пятом купил книжку по «бэйсику», потом начал писать сайты. Дальше учился программировать с помощью Coursera. Владеет Node.js, Java, Android dev, Unity3d. В старших классах написал программы альтернативной коммуникации DisType, DisTalk и DisQwerty, использующие синтезатор речи и помогающие людям с нарушениями речи и опорно-двигательной системы общаться с миром. Позже переименовал их в LINKa: напиши, LINKa: покажи и LINKa: нажми.

Название LINKa — в память о девочке Ангелине, Лине, которая училась в той же школе, что и Иван. Она была музой Ивана, вдохновившей его на создание ПО для общения. Лина могла лишь немного шевелить головой, но освоила набор текста с помощью одной кнопки, которую нажимала щекой. Девочка умерла в 2017 году.

Несмотря на ограничения в движении, Иван играет в бочча (паралимпийский вид спорта с мячом) и ездит по городу на трёхколёсном велосипеде. Способен преодолевать до 50 км. Не так давно съехал из родительской квартиры и живёт один. Собирается поступать в вуз.  В 2016 году выступил на всемирном саммите ООН в Стамбуле с посланием о правах человека с нарушениями речи. 

Про LINKa

Это простые программы — интерфейсы для набора текста или выбора картинок, подключённые к синтезаторам речи Apple и Google. Вот здесь Иван подробно рассказывает, как их создавал.

Они помогают людям с нарушениями речи и опорно-двигательной системы общаться с миром. Целевая группа — люди с ДЦП, нарушениями речи после инсульта, аутизмом. 

Всё ПО распространяется бесплатно.

  • LINKa: напиши. Для тех, кто может легко печатать на обычной клавиатуре.
  • LINKa: покажи. Для тех, кто может нажимать на картинки на экране планшета.
  • LINKa: нажми. Для тех, кто может нажимать только на одну кнопку.
  • LINKa: бумажная клавиатура. Для тех, кто может попадать в крупные буквы на планшете.

Проект включает мерч — онлайн-магазин футболок с ироничными надписями, и это ещё один способ для человека без речи коммуницировать с миром.

«Telegram быстро работает. И ещё тут прекрасная архитектура»

Готовясь к встрече с Иваном, журналист dev.by прочитал несколько интервью и просмотрел видеозаписи, но до конца всё же не понимал, как пойдёт устная коммуникация. Первые минуты проясняют этот вопрос. Иван открывает макбук с LINKa: напиши, теперь он готов отвечать на вопросы.

— Как тебе Минск?

На полторы минуту Иван уходит в компьютер, программа выдает звук набираемого текста. Наконец он нажимает Enter, и голос из динамиков произносит:

— В России сейчас происходят очень жёсткие события, а тут прям дышать легче. Telegram быстро работает. И ещё тут прекрасная архитектура.

— Вчера экскурсовод провела для нас большую экскурсию по Минску, у Ивана был запрос на конструктивизм, — вступает в разговор Татьяна Синица.

Не сталинский ампир?

— Ампир был уже позже, а конструктивизм прекрасен минимализмом форм, — отвечает Иван.

Зачем ты в Минске?

— Я выступал с лекцией на тему альтернативной коммуникации. Моя задача — показать, как восстановление способности коммуницировать возвращает человеку его личность. Лекция была не столько о моём проекте, сколько о самой философии — о том, что говорить — важно.

Ты сам пользуешься Линка: напиши? 

Да, я же пишу. Тут есть набор с предиктором и список категорий с фразами. Например: 

«Меня зовут Иван. Я из Петербурга. Мой любимый фильм — «Криминальное чтиво», моя любимая книга — «Лолита». Вот, это мои заготовки.

Чем принцип работы LINKa отличается от ACAT, с помощью которой общался Хокинг?

Не изучал подробно ACAT, но, думаю, основное отличие — в наличии русского языка и  линейки приложений для разных форм двигательного поражения.

Когда один говорит, а другой пишет, скорость общения — так себе. Сказать, что беседа протекает непринуждённо — значит соврать. Зато мысли собеседника — предельно ясны, и если плохо расслышал слова синтезатора, их легко повторить.

Иван, если о чём-то не договорим сегодня, пообщаемся письменно?

Конечно. Не беспокойтесь, я умру не сегодня.

 

Твои программы — не уникальные, почему вообще в них есть необходимость? Разве нельзя скачать что-то похожее?

Большинство аналогов — англоязычные, по-русски они не говорят.

Русскоязычных аналогов вообще нет?

Есть, но не такие универсальные. И у меня все фразы хранятся в облаке.

Татьяна. Я искала синтезаторы речи для своих детей. Оказывается, они неудобные: там очень маленький экран, в который надо вписать фразу, выбрать нужный язык, и только потом идёт озвучка. Иван знает проблему изнутри и понимает, что и как нужно делать. В его ПО есть тематические категории (например, еда), в которых уже заложены слова и фразы. Можно выбрать что-то без набора текста. 

В этот момент к нашему столику подходит официант, и Иван просит: «Чай с сахаром».

Татьяна. Тезис «Неговорящие люди могут думать» очень актуален. Серьёзно этот вопрос начали изучать в 70-х годах. И оказалось, что люди, которые вопреки своему состоянию, смогли себя выразить, обладают глубоким внутренним миром, они могут классно формулировать свои мысли.

Пока человек не начнёт себя проявлять, окружающие к нему относятся некорректно: его потребности не понимают и игнорируют. Когда человек не может ничего сказать или написать, невозможно точно определить его интеллектуальные способности. Зачастую ему необоснованно ставят диагноз «глубокая умственная отсталость» и назначают неадекватную программу обучения. Представьте, вас каждый раз на уроке спрашивают: «Какого цвета? Какого цвета?» Человек начинает возмущаться, бунтовать, что может быть истолковано против него: «Вот видите, он ещё и буянит». 

«Сейчас моя задача — легко и быстро болтать в маршрутке»

Иван, к твоему приложению подключена библиотека?

Пока нет.

Почему? Это сложно?

Потому что я ленивый засранец. 

Общение с помощью клавиатуры — довольно медленный процесс. Как увеличить скорость? Это вопрос количества и сочетаемости шаблонов?

Это проблема действительно решается с помощью заготовленных фраз. Думаю, общаться с помощью шаблонов вполне реально при двух условиях: 1.Нужен метод создания фраз под конкретного человека, то есть система должна проводить интервью с человеком перед началом использования и подбирать нужные фразы или делать новые. 2. Быстрый поиск по фразам, с помощью грамотного интерфейса и ИИ.

Я думаю над такой системой, где будет очень много готовых фраз, позволяющих мне легко болтать, но пока нет метода их создания и удобного хранения. Для этого нужно машинное обучение и филология, надо проделать большую работу.

Сколько человек пользуются LINKa?

У LINKa 700 регистраций, 30 активных пользователей в день.

Насколько развиты и доступны технологии альтернативной коммуникации в русскоязычном пространстве?

Сложность развития АДК в русскоязычном пространстве связана с двумя факторами. Во-первых, нет сложных программ для АДК, которые бы говорили на грамотном русском, были бы доступны для заказа в Ulmart (российский интернет-магазин. — Прим. dev.by) или предоставлялись бы государством. Во-вторых, мешает архаичное сознание людей, представление о том, что, получая альтернативу, человек перестает что-то делать сам. Родственники людей без речи считают, что, дав человеку «говорилку», они затормозят развитие его речи.  В «русском мире» у людей нет задачи сделать человеку хорошо, есть задача сделать человека как все.

Что реально можно и нужно сделать для русскоязычных людей с проблемами речи? 

Работа должна  идти в двух направлениях:

— разработка программ, которые будут позволять легко и быстро болтать с окружающими с помощью заготовок, которые будут подстраиваться под ситуацию;

— проведение семинаров, тренингов и обнародование «историй успеха», которые будут менять отношение и показывать, что говорить нужно здесь и сейчас.

Я дособрал команду, которая занимается организацией и прочей бумажной работой (сам я — жёсткий нигилист и считаю всё это лишним). Мы готовим бизнес-проект и своё устройство для коммуникации — неубиваемый планшет, который говорит громко.

Сейчас моя задача — легко и быстро болтать в маршрутке. Соответственно нужно сделать устройство удобного ввода, которое будет крепиться к руке или ноге и будет громко говорить. В этом устройстве должен быть продуман интерфейс с учетом особенностей нашего языка.

Какие ресурсы нужны для проекта?

Нужны деньги и люди — программисты, дизайнеры и филологи. Программисты нужны, чтобы провести дебаг текущих разработок и двинуться дальше. Особенно актуальна помощь iOS разработчика, так как этого я совсем не умею.

Татьяна, а какая помощь нужна неговорящим белорусам?

Нужны программисты, которые могли бы написать обучающие программы. Дети учатся через интерес: чтобы научить их управлять взглядом или нажимать кнопку, нужны игры, много разных игр. Пусть это будет совсем несложная программа, но она должна быть заточена под потребности конкретной группы людей.

Подобные программы есть за рубежом, но они англоязычные. У нас же в этой области никто не работает. Там, где понадобится простейшая вспомогательная программа, окажется, что её просто некому написать. 

Иван, в старших классах ты писал, что планируешь поступить в вуз. Поступил?

Нет. Но собираюсь. На филфак.

Почему филфак?

Потому что Бродский.

Почему не ИТ?

Потому что есть Coursera.

Как ты обычно читаешь?

Хреново. У меня нет внутреннего голоса, поэтому я плохо читаю тексты — обычно слушаю. Прочёл от силы книжек семь. Да, я могу напрячься и включить в голове голос Бродского, но нужно минут 10, чтобы собраться.

Но ты же отлично излагаешь мысли на письме. А чтобы сформировалась грамотность, надо видеть текст, на слух пунктуация и орфография не приходят.

Есть же правила,  я строю текст по ним. Язык я понимаю как систему.

Печатать очень утомительно?

Я постоянно этим занимаюсь и привык. Давно прошу, чтобы меня забрали в армию, но не берут.

Расскажи про мерч. Надпись на футболке «Я не овощ» — тоже ведь способ коммуникации с людьми?

Сидел я вечером, думал о жизни и решил сделать магазин. Нашел дизайнера и типографию, сделал сайт. Брат отправляет футболки покупателям, уже продали 150 штук. В Беларусь пока нет доставки, но приеду — сделаю.

Ты недавно съехал от родителей. Как обстоят дела с бытом?

Да, девятый месяц живу один. Метро «Лесная», 17-й этаж. Брат убирает раз в неделю за 650 рублей, а так сам справляюсь. Брат — студент, и у него с женщинами лучше. Я не студент, и у меня плохо с женщинами, так что денежки текут.

Как обычным людям преодолеть неловкость в общении с особенными людьми?

Забываться. Я слышал, для этого есть специальные вещества.

Валерий Цуриков: «Даже авторы не совсем понимают, как это работает»

О том, по какому пути в мире развивается альтернативная коммуникация, dev.by спросил у основателя ИИ в Беларуси, создателя семантического процессора и True Machina Валерия Цурикова.

— Я делал интеллектуальные интерфейсы, и мне было интересно, как ускорить интерфейс между быстрым компьютером и медленными руками человека. Очевидно, его можно ускорить через мозг, ведь мысли появляются очень быстро. Эксперименты по вытаскиванию паттернов, или образов, из энцефалограммы ведутся уже давно. Например, в 1995 году в университете штата Джорджия группа исследователей вживила в мозг парализованного человека чип с тонкими золотыми контактами, и клетки мозга приняли его за свои, таким образом они выводили желания пациента прямо в компьютер. Человек управлял компьютером, не умея ни двигаться, ни разговаривать. Это была ранняя работа, потом учёные пошли дальше, но устойчивых результатов в этом направлении добиться пока не удалось.

Хотя была игра: вы смотрите на шарик на экране и заставляете его прыгнуть, второй человек играет против вас. Это такой пинг-понг, где вместо ракеток — мозговое усилие. Таких экспериментов становится всё больше, он направлены на то, чтобы люди, имеющие ограничения в общении, могли посылать свои мысли напрямую в компьютер.

Это называется Brain computer interface, нейрокомпьютерный интерфейс. Но между ним и обычным интерфейсом — очень большая градация, в том числе выбор частотных слов, а также семантический выбор, когда программа, поддерживающая контакт человека с компьютером, понимает о чём идет речь, и подсказывает слово не просто по частоте употребления, а по смыслу. Это уже из области глубокого обучения.

В случае со снятием паттернов мозга как производится дешифровка сигналов?

Думаю, даже авторы этих работ не совсем понимают, как это происходит. Идёт тренировка нейросети, которая фактически настраивается на этот инструмент. Суть в том, что когда мы о чём-то думаем, наша нейросистема перестраивается. Если мы думаем о каком-то слове, она выдает электромагнитный образ, который можно уловить и расшифровать. В паре «образ-слово» качество расшифровки очень низкое, но если между ними стоит система глубокого обучения, которая распознает не слово, а серию связанных слов, семантику, тогда качество резко возрастает. Это как будто вы сидите в шумном кафе и слышите только отдельные слова собеседника, но и по отдельным словам вы понимаете, о чём речь.

подписка на главные новости 
недели != спам
# ит-новости
# анонсы событий
# вакансии
Обсуждение