Голосовое управление

Норберт Пфлегер, специалист по информатике и компьютерной лингвистике, — об успехах и сложностях в программировании голосового ассистента, способного действительно понимать людей.

Люди все чаще используют голосовые ассистенты в быту или в автомобилях. Что должно произойти за кулисами, чтобы я мог спросить машину: «Что сегодня вечером идет в кино?»

НОРБЕРТ ПФЛЕГЕР: На первом месте стоит система распознавания речи, которая фиксирует частотную структуру речи, то есть определяет, какие слова услышала система. И здесь очень важен хороший микрофон с функцией подавления шумов. Формируется первое представление о том, что же сказал пользователь. А на втором этапе нам нужен менеджер диалога, способный определить наиболее вероятный вариант интерпретации в контексте ситуации: что имел в виду пользователь? Затем нам важен доступ к дополнительной информации, например, о том, какие фильмы находятся в прокате в различных кинотеатрах; как правило, для этого используются устройства, приложения и интернет-сервисы.
Безымянный.jpg

То есть требуется быстрый доступ к максимально большому количеству баз данных?

Верно. Умный цифровой ассистент должен быть в состоянии учитывать контекст или знания о мире. Например, я нахожусь в Саарбрюккене, на часах чуть больше 8 вечера, соответственно, меня интересуют поздние сеансы, которые начинаются после 21 часа. Кроме того, хороший ассистент должен запоминать полученную информацию. Например, если он знает, что я предпочитаю остросюжетные фильмы романтическим, он может предложить вариант, подходящий именно мне. Все это возможно только благодаря интеллекту, и только в этом случае ассистент создает реальные преимущества. Наконец, необходим компонент, который представляет полученную информацию в понятной форме. О чем сообщить устно, а что лучше отобразить на экране? Ведь не имеет смысла озвучивать длинный список из 40 фильмов!

Скажем честно: обычные пользовательские интерфейсы в большинстве случаев не способны давать такие рекомендации. В чем причина?

В действительности это зачастую связано с такими простыми явлениями, как акцент или двусмысленность. Современные умные устройства просто не достигли уровня ассистента, поскольку у них отсутствуют контекст и сохраненная информация о пользователе. Хорошие системы, напротив, могут работать с эллипсисами, то есть неполными предложениями, или ссылками. Например, наша система в Audi A8 знает, что я только что разговаривал с кем-то по телефону, и понимает, когда после разговора я говорю: «Поехали туда».

Учитывая современный уровень технологического развития, в чем заключаются основные сложности для действительно умного голосового ассистента?

Здесь следует выделить две тематические области. Во-первых, степень интеграции и глубина сетевого подключения сервисов недостаточны для делегирования задач. Это можно описать как недостаточный уровень интеллекта. В настоящее время ассистенты представляют собой, по сути, набор изолированных приложений. Например, мне нужно сказать: «Привет, голосовой ассистент. Сообщи MyTaxi, что мне нужно такси». Для меня как пользователя это означает необходимость знать названия приложений или функций и уметь ими управлять. Таким образом, приходится выполнять много ненужных действий. А я хочу просто сказать: «Вызови мне такси», а система пусть сделает все остальное. Подобная проблема существует в смартфонах. Чтобы найти нужное приложение, приходится постоянно крутить экран туда-сюда.
Безымянный1.jpg

А в чем заключается вторая сложность?

Это все еще сугубо технические интерфейсы, которые кажутся мне крайне однообразными. Отсутствуют участие, эмпатия. Мне нужен ассистент, который будет понимать меня, исходить из того, как я себя чувствую, и взаимодействовать со мной на эмоциональном уровне. Диалог строится эффективнее, если ассистент настраивается на эмоциональное состояние пользователя. Предположим, я нахожусь в пробке, нервничаю, и тут мне приходит напоминание, что нужно что-то быстро организовать. Но если система знает, как я себя чувствую, она может показать напоминание по-другому. Сейчас умные устройства отвечают в основном за небольшие задачи, например за управление освещением, прослушивание музыки и рассылку новостей. Но если системы берут на себя выполнение все большего числа повседневных задач, они должны иначе взаимодействовать с нами, в противном случае это может вызвать раздражение и неприятие.

Даже если мы еще в самом начале пути, как распознавание речи изменяет нашу повседневную жизнь?

Очевидно, что такие системы все чаще используются в повседневной жизни, особенно детьми. Я вижу это в своей семье. Для двух моих дочерей, шести и десяти лет, общение с устройством, например при переключении телеканалов, — абсолютно естественное явление. Они быстро и интуитивно поняли, что это наиболее эффективный способ чего-то добиться.

А как выглядит ситуация на рабочем месте?

В этой сфере подобные системы также приобретают все большее значение, поскольку они позволяют экономить время и деньги, например при диктовке текстов в судебных канцеляриях или составлении медицинских отчетов. Можно привести примеры и в области медицинского оборудования. Один из наших клиентов производит роботизированные системы управления камерой для малоинвазивной хирургии. Врач, обе руки которого заняты хирургическими инструментами, может голосом управлять камерой. Это расширяет его способность действовать быстро, не дожидаясь операционной сестры или ассистента. Сейчас почти на всех современных складах используются речевые диалоговые системы, которые подсказывают сотрудникам, где находится следующее изделие, оставляя обе руки сотрудника свободными. Таким образом, можно утверждать, что речевое управление позволяет оптимизировать многие рабочие процессы и сократить время ожидания.

Что ждет нас в будущем? Как речевое управление повлияет на сетевой мир через пять или десять лет?

Я бы не сказал «повлияет», скорее речевое управление будет помогать нам в повседневной жизни. С одной стороны, эти системы будут постоянно доступны, но при этом скроются на заднем плане, так, что мы почти не будем их замечать. Я исхожу из того, что мы будем меньше физически контактировать с машинами, используя комбинацию различных интерфейсов, например управления с помощью голоса, жестов и сенсорных экранов, с искусственным интеллектом. Эти системы не будут нуждаться в таком большом количестве команд, но будут обеспечивать интеллектуальную и потому деликатную поддержку на основании данных о нас и полученной от нас информации. Классические интерфейсы начнут постепенно исчезать и заменяться высокоорганизованной системой, при этом искусственный интеллект уйдет на задний план повседневной жизни.

Если отвлечься от клавиатуры, сенсорных экранов и жестового интерфейса: неужели устная речь действительно является наиболее естественным способом взаимодействия человека с машиной?

Она является одним из наиболее эффективных, но отнюдь не единственным способом. Все зависит от того, что конкретно я хочу сделать. При диктовке номера счета в банке сложности возможны даже при взаимодействии двух людей: можно оговориться или неправильно записать. Лучше всего непосредственно ввести или сфотографировать эти данные. Таким образом, речь идет о сочетании функций или мультимодальных системах, при использовании которых пользователь может принимать решения. Если свет можно включить или выключить с помощью голосовой команды, эта возможность не нужна, если я нахожусь рядом с выключателем, но полезна, если я уже сижу на диване.

Какие еще более футуристические возможности управления вы предвидите?

Если подумать о том, как мы, люди, между собой общаемся, то возможностей множество. Мы обмениваемся жестами, мимическими сигналами и взглядами. В будущем все это может стать важными источниками входящей информации. Управление с помощью мыслей — это следующий большой и захватывающий этап достижения результатов без слов или действий.

Учитывая эти многочисленные и пока не завершенные проекты, мы еще далеки от действительно интеллектуального голосового ассистента?

Несмотря на огромные успехи в сфере мик­рофонных технологий и распознавания речи, технология все еще в начале своего пути. О действительно интеллектуальном ассистенте речь пока не идет. Это очень заметно, когда я выступаю с докладами и спрашиваю у аудитории, у кого есть умные колонки. Откликаются 80–90% слушателей, но, когда я задаю вопрос, кто рассматривает эти системы в качестве реального помощника, руку не поднимает никто.

Машинам безразлично, говорим ли мы «спасибо» или «пожалуйста», они слышат только команды. Как речевое управление может повлиять на взаимоотношения между людьми?

Это вопрос перспективы, а именно насколько далеко мы продвинемся в развитии эмпатии, чтобы система была не просто ограниченным исполнителем команд, но находилась на одном уровне с пользователем. Это повлияет на наше отношение к машинам. Кроме того, это вопрос дизайна изделия. Ассистент должен в той или иной форме проявлять вежливость и характер, и мы будем отражать это поведение. С другой стороны, такая система не должна казаться слишком человечной, поскольку в противном случае у нас возникнут слишком высокие ожидания, что быстро приведет к разочарованию.

Многие пользователи полагают, что рядом с ними находится бездушный ящик, который постоянно слушает и, возможно, записывает или передает данные…

Границы должны быть четко обозначены. Я полагаю, что в будущем не будет места для централизованных облачных служб голосового ассистента в существующей сегодня форме. Тема архитектуры периферийных вычислений, то есть наличия сервера в собственном доме, будет становиться все более значимой. Мне как личности нужна цифровая система в форме ассистента, через которую я смогу контролировать, где хранятся и обрабатываются данные, и которую я смогу использовать на других платформах. Разумеется, бесплатных моделей больше не будет. Вместо этого интеллектуальный помощник приобретет такое значение для пользователя, что он будет готов платить за это. Таким образом, будет устранена основная проблема неприятия, которая заключается в страхе пользователя, касающемся несанкционированного использования его данных.
Безымянный2.jpg

В каких сферах повседневной жизни не нужен голосовой ассистент?

Абсолютно точно есть зоны, в которых нечего делать электронным устройствам, например в спальне или в детской. Речь идет о пространстве без электроники, которое имеет огромное значение для некоей ментальной гигиены.

Alexa на борту

В новом Audi e-tron с полностью электрическим двигателем облачная голосовая служба Alexa от Amazon по желанию клиента полностью интегрируется в систему управления MMI благодаря пакету Connect+. Смартфон по большому счету больше не нужен. Таким образом, можно не только слушать музыку и аудиокниги через Amazon Music и Audible (требует отдельного приобретения платной подписки и трафика), но и заказывать продукты питания или с помощью системы управления «умным домом» прямо из автомобиля запирать двери, управлять освещением и закрывать гаражные ворота.

Пожалуйста, спасибо

Даже голосовые ассистенты ценят вежливость. Например, если в США сказать: «Окей, Google, пожалуйста, установи таймер на десять минут», то ассистент Google ответит следующим образом: «Спасибо, что задали вопрос так вежливо! Десять минут пошли». Google называет эту функцию Pretty Please («О, пожалуйста!»). Служба Echo Amazon содержит практически такую же функцию.

Доктор Норберт Пфлегер, специалист по информатике, с 2002 по 2008 год работал в Немецком центре исследований искусственного интеллекта (DFKI) и является сооснователем и директором компании paragon semvox GmbH в Саарбрюккене. Предприятие было создано в 2008 году на основе проекта DFKI и занимается разработкой семантических технологий и решений в сфере речевой коммуникации, в частности системы интерактивного речевого взаимодействия Audi A8. В 2018 году предприятие вошло в состав компании paragon GmbH & Co. KGaA.