Игорь Ашманов о голосовом помощнике «Алиса»

Почему первый же голосовой помощник вызвал огромный ажиотаж, как помощники используют нейронные сети и в каком направлении они будут развиваться дальше.

Где-то полтора-два года назад начался довольно серьезный бум так называемых чат-ботов. Под чат-ботами, конечно, понимались виртуальные собеседники, которые человечество пытается сделать примерно последние 30-40 лет. 

В этот раз хайп, то есть шум, вокруг них возник потому, что были сделаны платформы, на которых удобно хостить и разрабатывать этих чат-ботов, а не потому, что появились новые технологии. Одновременно начали появляться голосовые помощники для мобильных телефонов и устройства типа колонки Alexa. 

Единственное, что отличало эту волну виртуальных собеседников от предыдущих (их было пять или шесть) — это то, что с помощью нейронных сетей научились распознавать голос. Сейчас с ними можно нормально разговаривать, потому что хорошо заработаны технологии распознавания голоса.

Почему я это комментирую

Я сам занимаюсь искусственным интеллектом примерно с 87 года, то есть тридцать лет. Начинал я в вычислительном центре Академии Наук как раз с систем общения на естественном языке. Последние 12 лет у меня есть компания «Наносемантика», которая занимается как раз разработкой виртуальных собеседников. Мы их всегда называли «инфами», а не ботами, потому что мы считаем, что это понятие — информационный эльф, инф — немного шире, чем чат-бот, которыми сейчас все занимаются.

Я хотел прокомментировать выпуск Яндексом так называемой «Алисы». Я так понимаю, что Яндекс планирует выпустить и устройство, которое будет разговаривать, аналог говорящей колонки от Амазона под названием Alexa. Но пока это просто голосовой помощник и, фактически, разъем к поиску, голосовой поиск. Такой же есть у Google, естественно. Он ее довольно часто рекламирует — «Ок, google». Что про них можно сказать?

Немного истории

Первый виртуальный собеседник появился в США. Его сделал Джозеф Вейценбаум больше 30 лет назад. Он назвал его «Элиза». Это был виртуальный психотерапевт, который просто переиначивал ваши реплики, превращал их в вопросы. Довольно простая штука. Особенно просто ее было сделать потому, что английский язык несложен с точки зрения изменения слов. 

Тем не менее, эта Элиза вызвала совершенно чудовищный ажиотаж в Америке. СМИ начали писать, что вот изобретен наконец искусственный разум. Там были мнения, что мы же очень больная нация, нам не хватает психотерапевтов, у людей не хватает денег на них — а теперь мы можем сделать 100 тысяч психотерапевтов, миллион психотерапевтов, и вылечить всю нацию. 

Джозефа Вейценбаума эта реакция совершенно поразила, потому что это был  простой код. И код был открыт, он его показывал другим, и было понятно, что там нет никакого разума. Тем не менее, люди отказывались в это верить. Он, например, застукал свою собственную секретаршу, которая разговаривала с этой самой Элизой. Когда Джозеф вошел в комнату, она начала закрывать экран, краснеть и говорить, что он нарушает ее приватность, потому что в этот момент она рассказывала про свои отношения с отцом.

Джозеф по этому поводу написал книгу «Возможности вычислительных машин и человеческий разум», где он попытался объяснить людям, что проблема не в том, хорошо ли работает искусственный интеллект — проблема в том, что нельзя ему передавать ответственность. То есть передавать ему право решать, или лечить, или судить, или присуждать штрафы и так далее. 

Надо понимать, что современные виртуальные собеседники как бы наследуют Элизе, поэтому, как я думаю, виртуальный собеседник от Яндекса называется Алиса, а у Амазона — Alexa и так далее. То есть, они как бы продолжают дело Вейценбаума, но, к сожалению, с тех пор все забыли о том, что можно отдавать машине, а что нет. И сейчас нам новые евангелисты искусственного интеллекта рассказывают, что скоро мы все отдадим машинам, а сами будем жить на безусловном базовом доходе.

Недостатки современных голосовых помощников

Надо сказать, что некоторые функции сейчас успешно имитируются, например, распознавание лиц, предметов и так далее. Но разговор на естественном языке и прочие лингвистические функции имитируются пока не слишком хорошо. Вообще в прикладной лингвистике, то есть в обработке естественного языка, есть такие две вершины, условно говоря, Эверест и К-2: это машинный перевод и общение на естественном языке. 

Машинный перевод наконец хоть немного заработал. До последнего года он был очень плохой, несмотря на то, что и Google, и Яндекс им занимались последние 10 лет. Но применение нейронных сетей сейчас позволило его улучшить, он стал гораздо более гладким. 

С диалогом на естественном языке так не получается. Возьмем, допустим, Алису. Что мы про нее можем рассказать? 

Стандартные шаблоны

Если вы посмотрите внимательно, то увидите, что в есть какое-то количество шаблонов, которые занесены вручную, запрограммированы. Это касается самой Алисы: когда она отвечает, сколько ей лет, кто она такая и так далее. Есть некоторое количество шаблонов реагирования на мат, на оскорбления. Такие вещи все равно приходится делать руками, и от этого никуда уйти нельзя, потому что реакция должна быть предопределенной. 

Все остальное вроде бы разработчики рассчитывают сделать с помощью обучения нейронной сети, на примерах диалогов. Что вы видите, когда общаетесь с Алисой? Это, на самом деле, можно сказать и про Siri, и про Alexa, голосовую колонку от Amazon. 

Шаблонов мало. Чуть-чуть в сторону — и собеседник тебя не понимает. 

Нет модели собеседника

У Алисы нет модели пользователя, она не запоминает даже имя. Например, если сказать Алисе, что меня зовут так-то, и потом спросить как меня зовут — она начнет отговариваться тем, что не запоминает персональные данные. 

Алиса. Имя.jpg

Кроме того, там нет модели самой Алисы, насколько я могу понять. То есть надо понимать, что виртуальный собеседник такого масштаба, который так рекламируется — это медийный проект. Для него нужен сценарист, продюсер и так далее. Похоже, этих людей не нанимали. 

То есть у Алисы, например, нет персонажа. Его не удается увидеть. У нее нет ни характера, ни каких-то особенностей. 

Кроме того, конечно, база данных диалогов, по которым учили эти нейронные сети, была, похоже, небольшой. Возможно, разработчики рассчитывали, что они должны раздать сначала этого виртуального собеседника, а потом он обучится на тех диалогах, которые будут с ним вести люди. На самом деле, у меня, как у разработчика таких систем, есть серьезные сомнения, что нейронные сети могут позволить всерьез научиться диалогам. Там есть огромный разрыв по количеству информации между тем, что может спросить человек, и тем, что есть в реальных диалогах. Всегда этот разрыв будет, поэтому научиться будущим вопросам в общем нельзя; то есть, это значит, что нужно программировать также сценарии диалогов. 

Глубина диалога равна единице

У Алисы, как вы сами могли заметить, глубина диалога в среднем равна единице, то есть она отвечает репликой на реплику. Она не запоминает что было, не использует параметры из предыдущих реплик для того, чтобы сформировать следующую реплику и так далее. 

Я думаю, что это, в частности, потому, что разработчикам кажется это зазорным; они считают, что нейронные сети все сделают за них. Делать что-то руками в Яндексе вообще, как правило, считается зазорным. Мы знаем, что они руками не регулируют обработку запросов и так далее. Все должен делать искусственный интеллект. Здесь та же самая история.

Общий эффект этого таков, что получилось довольно тупое существо, которое, в общем, не отвечает на большинство вопросов, но имеет некоторое количество функций.

Например, можно спросить, какое сегодня число. Если спросишь, какой сегодня месяц, Алиса уже не понимает. Точнее, она тебе снова сообщает, какое сегодня число. Если спросить какой сегодня год, она опять же не понимает этого, или, в крайнем случае, скажет тебе опять, что сегодня понедельник такое-то число месяца.

Алиса. Время и дата

Главная проблема голосовых помощников

Почему так происходит? Во-первых, как я уже сказал, этот проект нужно было делать как медийный, но основная проблема не в этом. Дело в том, что есть две разные постановки задачи для информационного помощника. 

Вы можете делать именно помощника, который вам помогает выполнять какие-то функции на компьютере. Это значит, что эти функции вам все равно придется запрограммировать, и нейронная сеть не поможет это сделать. Например, этот помощник может там организовывать что-то на вашем компьютере или заказывать билеты (как нам обычно рассказывают евангелисты искусственного интеллекта) и так далее.

Проблема в том, что, во-первых, таких функций не может быть очень много. А во-вторых, неизвестно, нужны ли они людям. 

Помощник на экране человеку в принципе не нужен. Очень мало кто хочет смотреть в экран и разговаривать с ним: это неудобно делать в публичных помещениях или в офисе, это странно делать даже в семье. Кроме того, на экране есть кнопки, и нажимать их гораздо быстрее, чем разговаривать. 

То есть, если мы задумаемся, где вообще применимы информационные помощники, то выбор окажется ограниченным: это те места, где у человека руки заняты и можно захватить голосовой канал, например, в автомобиле, или, например, при звонке по телефону в колл-центр. Там, где уже гораздо проще говорить голосом, чем наоборот, нажимать кнопки (нажмите один, нажмите два и так далее).
То есть сами применения голосового помощника оказываются довольно узкими, и это показывает обычно время удержания внимания этим самым голосовым помощником. На самом деле, мало об этом пишут, но и у Siri, и у любых таких приложений от частных игроков, от сторонних компаний, удержание внимания — примерно сутки. Это проблема не Алисы, а постановки задачи.

Информационный помощник в общем-то — это ложная постановка задачи. Он похоже не очень нужен. Я могу ошибаться, но я над этим долго размышлял.

Не помощник, а компаньон

А что же тогда нужно? Похоже, что людям в смысле голосового общения с компьютером (и текстового, то есть на естественном языке), нужен личный компаньон, с которым можно много о чем поговорить. Скорее всего, он нужен не всем. Он буден полезен детям (условно говоря, с 4-5 до 13-14 лет) и пожилым людям. Этот персонаж должен быть очень умным, он должен уметь поддерживать разговор на довольно широкие темы. Он не должен быть просто разъемом поисковой машины. 

Сделать такого помощника гораздо труднее. Именно поэтому таких пока не появилось ни одного. Сейчас, скажем, говорящая колонка от Амазона Alexa имеет много функций, но, естественно, ее основное предназначение — помогать в покупках на Амазоне. Для для этого ее и выпускали. Она может выполнять много разных функций, но свободный диалог поддерживать не сможет. 

При этом лично у меня есть опыт создания инфов или чат-ботов, которые поддерживают свободный диалог. Мы делаем их последние 12, наверное, лет, и там очень интересные эффекты: людям реально хочется общаться, даже если они знают, что с ними разговаривает робот.

Самые большие сессии, которые у нас были, когда мы своих инфов ставили в мессенджеры, составляли примерно полторы тысячи реплик. Это означает, что человек разговаривал с этим виртуальным собеседникам весь день, не переставая. Представьте себе, что такое полторы тысячи реплик — это 12-15 часов разговора. Это значит, что человека затягивает именно сам процесс общения, сама метафора общения — даже если человек знает, что общается с роботом. А современный информационный помощник «не цепляет». Этот «хайп» вокруг чат-ботов начинает спадать, и это понятно: сделать хорошо говорящего чат-бота оказалось сложно. Платформы есть, а сделать невозможно, слишком много работы.

Эйфория о том, что мы сейчас сделаем таких помощников, скорее всего, закончится тем, что на рынке останется несколько компаний, которые в это очень серьезно вложились, а остальные переключатся на то, чтобы заниматься чем-то другим. 

Я думаю, что перспективы голосовых помощников таковы.

Приложения на телефонах умрут, ими никто не будет пользоваться.
Распознавание речи будет встроено практически в любое устройство, которое в состоянии эту речь принять и обработать, там, где есть узкая предметная область (в чайник, стиральную машину, микроволновку и так далее). Большинство людей не читают инструкцию, и используют обычно несколько процентов функциональности своих устройств. Если туда встроить голосового помощника, устройство можно будет использовать эффективнее. Там все будет прекрасно работать, потому что распознавание речи уже работает, а в узкой предметной области можно запрограммировать понимание довольно полно. Голосовые помощники будут и в банкоматах, и в торговых центрах, и так далее.

Голосовые помощники будут везде, где есть массовое обслуживание. «Наносемантика» продает своих инфов в крупные компании для оказания технической поддержки или приема заказов, это и будет продолжаться и развиваться. В скором времени на входе в очень крупные сервисы вас будет встречать механическая женщина, которая будет вас расспрашивать, что вам нужно, и проводить вас по тем же примерно деревьям выбора, по которым сейчас проводят IVR. 

В конце концов, конечно, будет сделан домашний компаньон, товарищ ребенка, который примерно его уровня по развитию интеллекта, но гораздо более начитанный. У него будет доступ в википедию, в поисковики, к курсам, он сможет научить английскому и так далее. И самое главное, сможет поддерживать естественный свободный диалог на обычном языке. Сделать это будет непросто. Я думаю, что до появления таких домашних помощников, которые свободно разговаривают, остается примерно года два-три. Кстати говоря, я не уверен, что там для этого будут применяться нейронные сети.

14.11.2017

Следите за нашими новостями

Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз