Люди и технологии: что думают пользователи о голосовых помощниках

10 августа 2018, 16:41

Сегодняшние «умные» помощники все еще далеки от прохождения теста Тьюринга — для большинства взаимодействий люди легко поймут, что они не разговаривают с человеком. Это показывают и результаты исследования Nielsen, согласно которым голосовые и оборудованные экраном умные помощники работают хорошо только для ограниченного числа простых задач. Специалисты стартапа Storyline выделили интересные особенности исследования специально для dev.by.

Читать далее

Иллюстрация: ilsole24ore.it

Выделяют 5 фундаментальных критериев оценки опыта взаимодействия пользователей с умными помощниками:

  • Речевой ввод: команды произносятся вместо того, чтобы печатать или кликать;
     
  • Понимание естественного языка: пользователям не запрещается использовать специализированный словарь или синтаксис и они должны иметь возможность структурировать предложения любым образом, как если бы они общались с человеком;
     
  • Речевой вывод: произношение информации, вместо отображения на экране;
     
  • Умная интерпретация: ассистент должен учитывать различные данные, такие как контест или предыдущий опыт для четкого определения желаний пользователя;
     
  • Содействие: ассистент понимает и совершает дополнительные действия, о которых явно не просил юзер (интеграции, сервисы).

Таким образом, при оценке опыта ассистентов необходимо рассмотреть 6 моментов: каждую из 5 технологий, а также их интеграцию. Не все ассистенты всегда используют полный набор из пятёрки характеристик. Например, если экран доступен, помощники могут использовать визуальный вывод вместо речевого вывода.

Тем не менее, 5 технологий поддерживают и дополняют друг друга. И их грамотная интеграция даёт следующие плюсы:

  • позволяет упразднить визуальный интерфейс и формулировать цели на естественном языке. Теоретически это значит, что стоимость прилагаемых усилий, чем траты на изучение нового пользовательского интерфейса, нажатия кнопок и т.д.;
     
  • помогает «читать мысли», проявляя инициативу и предлагая решения на основе контекстной информации или предыдущего опыта.

Понимание и анализ контекста пока ещё достаточно ограничены, но в этом направлении осуществляется множество шагов. Например, Google парсит емейлы и добавляет рейсы или брони ресторана в календарь.

В целом исследования показали, что современные интеллектуальные помощники терпят неудачу по всем 6 аспектам, что приводит к низкому уровню удобства использования, который близок к бесполезному для даже слегка усложнённых взаимодействий.

Для простых взаимодействий устройства соответствуют минимальным требованиям к юзабилити. Поэтому на данном этапе развития технологии пользователи должны научиться понимать, когда ассистент будет полезен, и когда лучше избегать его использования — даже несмотря на то, что это противоречит основной предпосылке человеко-ориентированного дизайна,

Исследование

По итогам исследования, только речевой ввод сегодня работает на удовлетворительном уровне (для английского языка без учёта сильных акцентов). Всё остальное — сплошное поле для постоянных улучшений.

В подавляющем большинстве случаев, входные данные распознаются корректно, за исключением некоторых имен собственных. Многословные предложения не распознаются в смысловом плане, а идентичные формулировки запросов дают разные результаты. Кроме этого, отмечают ограниченное понимание местоимений.

За исключением нескольких задач (например, навигации, погодных условий), помощники не могут последовательно предоставлять ответы для цепочки связанных запросов. Для поиска ответов они используют простые контекстные данные, такие как текущее местоположение, контактные данные или прошлые местоположения, но редко выходят за рамки этого.

Иллюстрация: TechCrunch

Пока имеет место только очень ограниченное использование внешних источников информации (например, календаря или электронной почты) для определения потенциальных задач, требующих автоматизации и представляющих интерес для пользователя. Кроме этого, помощники не работают со многими доступными приложениями на устройстве, а взаимодействие с различными «навыками» не использует преимущества всех технологий голосового интерфейса.

Стоит отметить, что большинство людей не имеет завышенных ожиданий относительно возможностей голосовых помощников: они сочли, что сложные, многословные предложения (например, «В какое время я должен уехать в Мосс-Бич в субботу, если я хочу избежать пробок?» Или «Найти статус рейса из Лондона в Ванкувер, который уходит в 4 : 55 вечера сегодня ») вряд ли будут поняты помощниками.

Однако некоторые люди считали, что помощники способны выполнить даже сложные задачи при условии, что им задали правильный вопрос.

Если респонденты изначально тратили время, чтобы подумать над чёткой формулировкой запроса, помощник, как правило, корректно понимал его. Но многие участники начали говорить до того, как формулировали запрос полностью (как это обычно делают в человеческой беседе), и иногда останавливались на поиске наиболее подходящего слова. Такие паузы естественны в разговоре, но ассистенты часто истолковывают их неправильно.

При этом большинство людей считает, что усилия, затраченные на то, чтобы думать о правильной формулировке вопроса, того не стоят.

Одной примечательной областью, в которой голосовые помощники выигрывали, была диктовка: длинные сообщения или поисковые запросы легче произносить, чем печатать, —  особенно на мобильных устройствах.

Некоторые участники жаловались, что ассистент говорил слишком быстро и не давал возможности повторить ответ. Когда ответ был слишком длинным или сложным, участники не могли запомнить всю информацию. А когда помощники неправильно понимают вопрос и предлагают неправильный ответ, опыт их использования становится крайне раздражающим. В процессе исследования люди возмущались необходимостью ждать завершения длинного ответа, который был совершенно неактуален, и изо всех сил пытались вставить «Алекса, стоп» в разговор.

Иллюстрация: Creative Strategies

Типичные ситуации

Одним из основных способов использования интеллектуальных помощников является использование в автомобиле, на кухне или в других подобных ситуациях.

Респонденты в большинстве своём считали, что голосовой ответ превосходит отображение результатов на экране. Исключения включали ситуации, в которых ответ содержал конфиденциальную информацию — например, одна женщина возмущалась тем, что ее запись к врачу была прочитано вслух.

Когда правильный ответ зачитывался, «это было похоже на магию».Такой опыт оценивался респондентами как наиболее полезный.

Иногда Алекса и вовсе открыто признавала, что ответа у неё нет.  В таких случаях она предлагала варианты, которые по-прежнему были актуальны, хотя и не были прямым ответом на запрос пользователя, и в таких случаях респонденты оставались довольны.

Другой пользователь спросил: «Алекса, сколько стоит двухкомнатная квартира в Маунтин-Вью?», И когда помощник ответил «Извините, я не знаю этого. На данный момент я могу найти номера телефонов, часы работы и адреса», — пользователь прокомментировал «Спасибо. Это действительно полезно — вроде «Хорошо, я не могу этого сделать, но я могу сделать это».

Люди осознают, что умные помощники несовершенны

Например, когда пользователь спросил рецепт, Alexa предоставила «лучший рецепт» с опцией для перехода к остальным.  Но это не дает информации о том, что означает «лучший рецепт», и по какому принципу были отобраны и показаны рецепты: «были ли эти рецепты с высоким рейтингом? Рецепты, опубликованные известным блогом или кулинарным сайтом?». Люди должны были доверять выбору, который сделала Alexa для них, без каких-либо подтверждающих доказательств в виде оценок или количества отзывов.

Даже ассистенты на телефоне вызывали проблемы доверия, хотя они могли использовать экран для подтверждения доказательств. Например, в одной из задач пользователи попросили Сири найти рестораны по дороге в Мосс-Бич. Помощник вернул список ресторанов с соответствующими рейтингами Yelp, но не показала карту, чтобы доказать, что рестораны действительно удовлетворяют указанному пользователем критерию.

К слову, Google Assistant намного лучше справился с таким же запросом: он сразу показал все релевантные рестораны на карте.

Иллюстрация: Tecla

Как показали тесты, задачи, связанные со сравнением, имели особенно низкий уровень юзабилити по нескольким причинам:

  • речь — не самый эффективный способ вывода данных;
     
  • требуется много времени, чтобы послушать помощника, который зачитывает каждую возможную альтернативу: пользователи раздражались, слушая длинные тексты;
     
  • многословность помощника была особенно раздражающей. Если два человека разговаривают друг с другом, они могут использовать сигналы тона, лица или тела, чтобы направлять разговор в направлении, интересном для обоих. Но голосовые помощники не могут понять, когда пользователь не заинтересован в выборе и перестать говорить об этом.

Использование нескольких критериев для выбора усложняет задачу.

Например, при использовании Google Assistant для сравнения пиццерий в Нью-Йорке пользователи не могли эффективно сравнивать, насколько далеко они были, а затем выбирать среди близлежащих вариантов, исходя из количества звезд, которые они имели в отзывах, — вся эта информация была представлена для каждого ресторана индивидуально, и пользователи сохраняли все детали в своей памяти, чтобы сравнить разные рестораны самостоятельно. У пользователей не было возможности легко перемещаться и сравнивать варианты. Они должны были запоминать всю информацию об одном товаре, чтобы сравнить её с последующими.

Отсутствие сопровождающих визуальных указателей для каждого пункта списка имело значение — особенно для таких вещей, как интернет-магазины, рестораны или гостиницы. Пользователи регулярно отклоняли идею покупки предмета, не имея возможности просмотреть его изображения, чтобы оценить его, а также удостовериться, что это был релевантный результат..

Таинственные «навыки»

Большинство пользователей Alexa в принципе не знали, что такое «навыки». Некоторые сталкивались с ними раньше, устанавливали один или два, а затем полностью забывали об их существовании.

У навыков есть две большие проблемы:

  • Они требуют, чтобы пользователи точно помнили имя скилла;
     
  • Они требуют от пользователей запоминания имени активации. Теоретически это «запустить <навык>», поговорить с <навыком>», спросить <навык> <конкретный вопрос>», но на практике респондентам не удалось заставить некоторые из этих фраз работать: одно слово хорошо работает с одним приложением, но может плохо взаимодействовать с другим.

Один юзер рассказал, как главная причина, по которой он купил Echo, — управлять своей домашней стерео системой с помощью пульта Harmony, но затем он попытался вспомнить имя активации для вызова навыка Harmony, и в итоге отказался от использования девайса.

Люди были еще менее знакомы с Google Assistant actions, чем со скиллами Alexa. Но даже когда пользователи наконец получают доступ к одному из навыков Алекса, взаимодействие с ними было непростым.

В отличие от самой Alexa, которая принимала относительно свободный язык, навыки требуют ограниченного набора ответов. Во многих отношениях они казались очень похожими на традиционные интерактивные системы голосового ответа, которые требуют от пользователей сделать выбор, произнеся определенное слово или номер.

Иллюстрация: Wired

Люди не понимали разницы между режимом «ограниченный язык» и режимом «естественный язык», и многие из взаимодействий со скиллами потерпели неудачу, потому что они не нашли подходящего способа поговорить с приложением.

В большинстве случаев пользователи просто игнорировали инструкции и формулировали свои ответы и запросы в свободной форме.

Например, скилл для поиска ресторанов заставлял пользователей выбирать рестораны из списка, называя «1», «2» или «3» вместо того, чтобы разрешить им использовать имя ресторана.

Скилл Lonely Planet требовал от пользователей указать конкретные ключевые слова, такие как «лучшее время для перехода», и не понимал таких вопросов, как «Какие будут ивенты в Сиднее в июле 2018 года?».

Когда пользователи задавали этот или другой непредвиденный вопрос, скилл повторял набор общих фактов о Сиднее. Один из участников прокомментировал: «Слишком много информации. Это как если бы я слушал энциклопедию — это не интерактивно. [...] Он просто рассказывает мне факты, и ему все равно, если я не хочу слушать ».

Навык Air Canada также предоставляло пользователям ограниченную функциональность и требовал конкретной формулировки; когда люди спрашивали: «Каков статус полета из Сан-Франциско в Ванкувер, который уходит в четыре пятьдесят пять часов вечера», скилл в значительной степени игнорировал все слова, кроме «четырех пятидесяти пяти», которые он интерпретировал как номер рейса.

Еще одна проблема, вызванная навыками и действиями — дезориентация пользователей: респонденты не были уверены, что они всё еще взаимодействуют с приложением, или могут возобновить нормальное взаимодействие с Алексой.

Один из участников попытался решить эту проблему, обратившись к Алексе явно: «Алекса, мы все еще в скилле?», Чтобы выяснить, что ему нужно делать дальше.

Этот вопрос является характеристикой интерфейса, которая полностью провалила первую эвристику юзабилити — очевидность текущего статуса системы.

Общая проблема с помощниками заключалась в том, что они не очень хорошо интегрировались в экосистемы.

Читайте также: Белорусский стартап Storyline привлёк $770 тысяч

Обсуждение