Клавиатура, тачскрин и голос: как человечество общалось с машинами

Мы общались с компьютерами и искусственным интеллектом давно, еще до того, как стали доступны функции голосового помощника. Просто раньше это было гораздо сложнее, хотя и такая коммуникация не была лишена очарования. Люди постоянно стремятся приблизить искусственный интеллект к еще лучшему пониманию человеческой речи и команд. Рассказываем, с чего все начиналось и как общение человека и машины будет продолжаться в будущем.

Двоичный код и командная строка

Когда человек только вставал на путь своего общения с машинами, коммуникация была, в общем-то, односторонней. Человек давал входные данные — компьютер производил вычисления. Когда эпоха перфокарт и зажигающихся лампочек прошла и функционал компьютера стал обширнее, появились новые способы ввода, некоторые из которых сохранились до наших дней.

Человек не сразу изобрел знакомую нам оболочку Windows, или macOS, или Linux и не сразу взял в руки компьютерную мышь. До всех этих изысков интерфейса у человека была командная строка, или терминал. Вы до сих пор можете найти ее в меню своего компьютера. Она выглядит как черный экран, на котором вы вводите команды; если что-то не так — компьютер выдавал ошибку.

Но это общение с большим трудом можно назвать похожим на диалог. А человек в своем созидательном порыве все пытался сделать искусственный интеллект более похожим на достойного собеседника.

Когда компьютеры начали отвечать

Компьютер научился вести диалог в 1960-х годах. Да, еще толком не был создан знакомый пользователю интерфейс, а чат-бот (как его сейчас бы назвали) уже появился. Бота, или диалоговую систему, звали ELIZА. Это была диалоговая система-психоаналитик, диалог с ней строился следующим образом:

человек вводил в окне диалога фразу, например «У меня болит голова», а «Элиза» (названная в честь Элизы Дулиттл из пьесы Бернарда Шоу «Пигмалион») анализировала фразу, выделяла ключевое слово или словосочетание и перефразировала сообщение в вопрос. Например: «Почему у вас болит голова?» Или же «Элиза» подбирала один из заготовленных ответов, если не могла выделить главное слово или смысловую конструкцию.

Конечно, «Элиза» не была создана, чтобы вытеснить с рынка психологов и психотерапевтов. Она имитировала беседу, которую психолог или психотерапевт вел бы на первом сеансе, поскольку там допустим ответ вопросом на вопрос. В таких условиях создатель «Элизы», Джозеф Вейценбаум, мог проследить, как искусственный интеллект составляет свою базу знаний.

На момент создания «Элиза», хотя и быстро заваливала тест Тьюринга (машину в ней опознавали через несколько реплик), произвела фурор. Однако уже через 15 лет появятся персональные компьютеры и простые диалоги с машиной перестанут быть чем-то из ряда вон. Компьютер будет желать пользователю доброго дня при включении; выдавать ошибку. Но основу диалоговой системы, которая была заложена в «Элизе», будут впоследствии использовать как в чат-ботах, так и в голосовых и цифровых помощниках, только теперь в их системах будут записаны тысячи строк ответов. Сегодня диалоговые системы используются при создании чат-ботов в Telegram, а также на крупных платформах: AliExpress, «Яндекс.Алиса» и других.

Научиться анализировать Большие Данные и начать управлять «Матрицей» вам поможет наш курс «Big Data».

С первого жеста, с первого взгляда

Следующим этапом отношений между человеком и компьютером стало общение с помощью жестов. Этому способствовало развитие сенсорных технологий в 1972 году, однако в это время основные жесты совпадали с движениями на клавиатуре. С более современным управлением с помощью жестов мы познакомились благодаря игровым технологиям и сенсорам с захватом движений, а также благодаря смартфонам. Мы привыкли связывать управление жестами уже со смартфонами последних поколений, когда нам стали доступны безрамочные экраны и минимум кнопок, но стоит вспомнить самые первые шаги смартфонов, когда такие простые жесты, как смахивание, свайп или увеличение фотографии на экране с помощью двух пальцев, казались чем-то невероятным.

Вот с какой реакцией публика впервые встретила знакомые нам жесты

Хотя такой формат коммуникации все еще молод и актуален (можно сказать, он входит в пору своей зрелости), это не самый элегантный или эффективный способ общения. Коммуникация жестами требует, чтобы машина, с которой мы общаемся — она в данном случае представляет собой и программное обеспечение, которое вы используете, и устройства, — хорошо и быстро обучалась, чтобы практически мгновенно отвечать на запросы. Ведь стоит только экрану зависнуть, нетерпеливый человек начинает нервничать и проводить терапевтическую встряску устройства.

Что посмотреть

Управление жестами во всей красе показали создатели серии «15 миллионов заслуг» — второго эпизода сериала «Черное зеркало».

Общение голосом

Голос — наше самое естественное устройство ввода. Это основной способ, которым мы общаемся с другими людьми на протяжении тысячелетий. Естественно-языковой интерфейс (Natural Language Processing) — это технология, которая переводит наш голос так, чтобы он лучше всего использовался машиной. Доведенный до совершенства естественно-языковой интерфейс будет интерпретировать наши слова, громкость голоса, интонацию и другие факторы, чтобы лучше понимать наши намерения.

Но до этого момента разработчикам предстоит проделать еще долгий путь. Сегодня, как отмечает исследователь компьютерных систем Шивали Гоэль, который работал в SYSTRAN и Adobe, ИИ часто даже не может понять, какой из записанных ответов выбрать в телефонном разговоре с человеком. А человек не намерен терпеть и ждать, пока робот-помощник на том конце провода проговорит записанную фразу, вместо того чтобы просто принять показания со счетчиков.

Тем не менее в своих лучших проявлениях эта технология понимает человеческую речь и мастерски подражает ей. Одним из примеров является служба Google Duplex, которая использует человеческий голос для назначения встреч. Также многие голосовые помощники, такие как «Алиса» или Siri, наделены функциями диалогов с нотками сарказма, а могут быть прошиты так, чтобы общаться в стиле злобных роботов — такими голосовыми прошивками развлекаются владельцы роботов-пылесосов.

Ученые все еще считают, что за голосовым каналом — будущее. Некоторые ученые считают, что, кроме базового удобства такого способа коммуникации, его популярность гарантирует затянувшаяся волна карантинов и локдаунов, когда человеку стал нужен просто собеседник. Однако создать полноценного робота-собеседника сейчас — несмотря на все технологические прорывы — сложно примерно так же, как во времена «Элизы». Но если раньше машину было легко отличить от человека, то сегодняшние разработчики сталкиваются с эффектом «зловещей долины», когда машина либо не похожа на человека и не вызывает доверия (как механический голос автоответчика или переводчика Google), либо, наоборот, когда машина слишком похожа на человека и становятся заметны мелкие несоответствия, которые вызывают у нас неприязнь. Закрадывается подозрение, что машина только притворяется машиной с записанными ответами.

Однако здесь важно понимать, что мы боимся не самих машин, а того, что мы не сможем их контролировать и что те, каким-то образом обретя свободу воли, будут использовать ее вразрез с интересами человечества. Но для свободы воли нужно сознание — а что это такое, человек до сих пор силится разгадать. Пока машина не обретет сознание в той же полноте, которой обладает человек, она не сможет обрести свободу воли и построить планы по завоеванию мира.

Что посмотреть:

«Окей, Лекси!» — комедия о голосовом помощнике, который взял на себя контроль над жизнью хозяина-неудачника.