Кто придумал голосовой помощник
Перейти к содержимому

Кто придумал голосовой помощник

  • автор:

История голосового управления: когда мы начали пытаться говорить с машинами и как они научились нас слышать

В 1970-х общение с роботами казалось научной фантастикой: R2D2 и C3PO из «Звёздных войн», способные понимать и говорить, были героями далекого будущего. На самом деле технологии распознавания голоса существовали тогда уже больше двух десятилетий, а синтезом речи учёные занялись еще в XVIII веке. Ну а сегодня прохожий, разговаривающий с умными часами, уже не вызывает удивления. Рассказываем, как человек учил машины общаться: от первых искусственных звуков до персональных виртуальных ассистентов.

1773: Первые попытки научить машины говорить

Первым имитировать человеческое общение с помощью техники попытался в 1773 году немецкий учёный Христиан Кратценштейн, работавший в России. Он изобрёл синтезатор речи на основе трубок органа, который издавал гласные звуки: а, э, и, о, у. Металлические детали резонировали в трубах подобно голосовым связкам. Ещё одно раннее изобретение — говорящая машина австрийца Вольфганга фон Кемпелена 1791 года. Меха подавали воздух на металлический язычок, а человек помогал аппарату генерировать нужные звуки, прикрывая клапан ладонью: устройство произносило простые слова, например «мама» и «папа».

Говорящая машина Кемпелена, экспонат Deutsches Museum, Мюнхен

В XX веке на смену механическим машинам пришли электрические. В 1922 году появилась схема английского физика Джона Стюарта: она издавала несколько гласных звуков с помощью резонаторов — подобно радиоприёмнику. А в 1938 году представили синтезатор на электронных осцилляторах и фильтрах, способный произносить любые слова. Машина Voder, напоминавшая фортепиано, даже умела петь. Её разработала компания Bell Laboratories, которая сейчас называется Nokia Bell Labs.

1952: Audrey от Bell Labs — машина, которая понимает речь

Поняв физику электронного синтеза речи, ученые начали описывать ее формантами — наборами резонансных частот звуков, которые создают связки, язык и губы. Эти описания стали основой технологии распознавания: в 1952 году машина Audrey от Bell Laboratories понимала, когда человек называет цифры от 0 до 9. Audrey воспринимала форманты говорящего и сравнивала их с образцами. Устройство работало точнее, когда слова произносил человек, чьи записи использовались как эталонные. Так возникла задача, которую будут решать в течение следующих десятилетий: научить машины распознавать форманты одних и тех же слов у разных людей.

Графические описания формант слов, обозначающих цифры

1962: IBM Shoebox — появление голосового управления

В 1962 году технологию распознавания голоса публично представила корпорация IBM. Экспериментальная машина Shoebox (дословно – коробка от обуви, по габаритам аппарата) понимала 16 слов: цифры и команды для операций с числами, такие как «плюс», «минус» и «равно». Shoebox принимала речь с помощью микрофона, передавала команды на счетное устройство, которое печатало ход и результаты арифметических операций на бумаге.

Работу Shoebox демонстрировали по телевидению и на Всемирной выставке 1962 года в Сиэтле. Фото из архива IBM

В 1960–1970-х годах идея голосового управления стала популярной благодаря голливудским блокбастерам. Один из самых известных — «Космическая одиссея 2001 года» Стенли Кубрика. В фильме компьютер HAL синтезирует и распознает беглую человеческую речь — совсем как живой. Позднее общающиеся роботы R2D2 и C3PO появились в «Звёздных войнах» Джорджа Лукаса.

1971: Harpy — государственный проект и новый алгоритм

Разработкой технологий распознавания голоса заинтересовалось Министерство обороны США. В рамках программы DARPA Speech Understanding Research (SUR) в 1971 году разработали систему Harpy. Она понимала 1011 слов. Всё благодаря новому подходу: подобие записанных слов сравнивали с эталонами при помощи теории графов. С алгоритмом «поиск луча» (beam search) машина способна воспринимать речь по частям, исходя из синтаксиса и разных форм слов. «Поиск луча» также используют в машинном переводе. Несмотря на новаторство, система всё ещё была исследовательской и была непригодна для коммерческого использования.

1986: IBM Tangora — пишущая машинка с большим словарным запасом

В 1970-х к IBM присоединился Фред Йелинек из Корнелльского университета. Он считал, что в новых разработках нужно отказаться от «подражания» человеческой речи. Он начал искать способы распознавания, основанные на работе компьютера, — и в 1986 году создал пишущую машинку Tangora с голосовым управлением.

В Tangora работал статистический алгоритм на основе скрытой модели Маркова: компьютер рассчитывал вероятности того, что воспринимаемый звук будет частью какого-то слова. Изобретение позволило серьёзно расширить словарный запас: Tangora понимала 20 тысяч слов и несколько предложений. Машинка обучалась под работу с новым пользователем в течение 20 минут. Исследователи начали применять её в своей работе: рабочие станции Tangora на основе компьютеров IBM помогали создавать текстовые документы голосом.

1987: Джули — умная кукла

В 1987 году компания Worlds of Wonder выпустила в продажу умеющих общаться кукол Джули. Электроника внутри понимала 16 слов и отвечала с помощью синтезатора речи. Датчики помогали умной кукле «отличать» день от ночи, а также «чувствовать» холод и тепло — так разговоры получались содержательными. Как и машинку Tangora, Джули нужно было обучать под голос конкретного человека.

До 1980-х разработчики в основном занимались методами преобразования звуковых волн в текст. После появления массовых устройств исследователи начали изучать пользовательский опыт. Выяснилось, что с машинами люди говорят так же, как друг с другом: с упрощённым синтаксисом и искажением литературного языка. Для корректного диалога устройствам не хватало словарного запаса и способности понимать нестандартные речевые конструкции. Ограничения были связаны прежде всего с низкой производительностью процессоров.

1990–1997: Dragon NaturallySpeaking — непрерывный распознаватель речи

С распространением интернета и персональных компьютеров технологии распознавания голоса начали развивать как программное обеспечение — так в 1990 году появилась Dragon Dictate. Супруги Джеймс и Джанет Бейкеры разрабатывали подобные программы с 1977 года, но для полноценной работы компьютерам не хватало мощности процессоров и оперативной памяти. Dragon Dictate работала на операционной системе DOS и распознавала 30 тысяч слов естественного языка. Слова приходилось чётко выговаривать и диктовать по одному.

В 1997 году систему улучшили — появилась Dragon NaturallySpeaking (DNS). Первые версии уже распознавали непрерывную речь — до 100 слов в минуту. Для корректной работы пользователь тренировал программу в течение 45 минут. DNS стала коммерчески успешной — и совершенствуется до сих пор.

Dragon NaturallySpeaking стала первой программой распознавания речи на Windows

2008–2011: Голосовые помощники Google, Apple и другие

В 2000-х технологию развивали с помощью машинного обучения. В 2008 году Google создал Voice Search — программу голосового управления для iOS: собственной мобильной операционной системы у компании не было. На тот момент в iPhone уже были подобные приложения, например SayWho. Но Voice Search отличался инновациями. Он использовал GPS-датчик для более точных ответов на запросы, такие как «Где ближайший Starbucks?». К тому же, Voice Search был облачным: запись голоса обрабатывалась не на iPhone, а отправлялась на серверы Google.

Эпоха смартфонов дала голосовому управлению полноценное применение. Появились настоящие виртуальные ассистенты, помогающие использовать разные функции смартфона через речевые команды.

Позднее Google стал использовать своего голосового помощника на Android. Компания Apple разработала собственную технологию, в 2011 году представив Siri — первого помощника с узнаваемым голосом. На английском языке Siri говорит голосом Сьюзан Беннетт — актрисы озвучивания рекламных роликов. Спустя несколько лет голосовыми помощниками обзавелись и другие IT-гиганты: в 2014 году Microsoft представил Cortana, а Amazon — Alexa. Позднее технологией заинтересовались и российские компании — появились голосовые помощники Алиса, Маруся и Олег.

Рынок устройств с технологиями распознавания речи растёт: их используют не только в качестве голосовых помощников в гаджетах, но и для управления беспилотными автомобилями и даже в автоматизации производств. По прогнозам экспертов, к 2025 году размер мирового рынка технологий распознавания голоса составит $27,16 млрд. Для сравнения: в 2019 году он был почти в три раза меньше — $10,7 млрд.

А голосовые ассистенты, которые раньше могли выполнять ограниченный круг задач, становятся умнее с каждым днём. Благодаря прорыву в синтезе речи их голоса сегодня звучат естественнее, а из программ, способных только ставить будильник и совершать звонки, они превратились в полноценных помощников.

Мы в SberDevices развиваем целое семейство виртуальных ассистентов с тремя персонажами — это Сбер, Джой и Афина. Сейчас технологии позволяют наделять ассистентов характерами, чтобы дать пользователям возможность выбрать близкого по духу персонажа. Способы взаимодействия тоже изменились: если первые голосовые помощники могли понимать только речь (и то не всегда хорошо), то с современными ассистентами можно общаться ещё и жестами. Для этого, разумеется, нужна камера — о том, как это работает у нас, мы уже рассказывали. И, конечно, виртуальные ассистенты сегодня умеют гораздо больше, чем их предшественники: они живут в банковских приложениях и помогают управлять финансами, а ещё — умеют заказывать еду, рекомендовать подходящий контент и многое другое.

Как разработчик «Яндекса» придумал голосовой помощник «Горшок»

Сотрудник российской компании отредактировал голосовой ассистент «Алису» так, чтобы она переключалась в режим «Горшка» (прозвище музыканта Михаила Горшенева) и отвечала на вопросы цитатами из песен группы «Король и Шут».

На платформе «Яндекс.Диалоги» каждый может создавать для приложения «Алиса» собственные навыки. Этой возможностью воспользовался один из разработчиков компании, когда увидел одну из работ петербургского художника Duran. Его комикс появился в Сети в начале ноября: герои, обращаясь к умной колонке «Горшок», получали ответы в виде цитат из популярных песен группы «Король и Шут» в исполнении покойного музыканта (Михаил Горшенев скончался в 2013 году).

Голос будущего: как появились голосовые ассистенты

Голос будущего: как появились голосовые ассистенты

Как часто вы пользуетесь голосовыми поиском, либо голосовым ассистентом на своем смартфоне? С каждым годом количество поисковых запросов с помощью голоса растет в геометрической прогрессии, буквально каждый пятый владелец мобильного устройства не упускает возможность сэкономить время и «завойсить» интересующий вопрос в интернете. По прогнозам экспертов, к 2020 году больше половины всех запросов в интернете будут выполняться с помощью технологий распознавания речи.

Лучший Telegram-канал про технологии (возможно)

Голос будущего: как появились голосовые ассистенты

Из недавних релизов хочу отметить умную колонку Яндекс.Станция с фирменным голосовым помощником Алиса. Благодаря наличию HDMI-разъема колонка может выступать в роли телеприставки, и абсолютно всё взаимодействие с графической оболочкой, поиском в интернете и видео-контентом выполняется с помощью голоса.

Это уже, пожалуй, можно назвать маленьким шагом к далекому будущему. Но давайте по порядку, и узнаем, с чего все началось.

1779 год — первый синтезатор речи

Голос будущего: как появились голосовые ассистенты

Возможно, это может показаться кому-то странным, но именно в 1779 году было разработано первое в истории устройство для синтеза речи, созданное немецким инженером — Христианом Кратценштайном. Работая в России, он создал аппарат, который мог воспроизводить всего несколько гласных звуков (а, э, и, о, у). На фоне нынешних технологий — это всего ничего, но для того времени и с учетом того, что это не программный, а механический синтезатор речи, можно со всей уверенностью считать это революцией и первым шагом в развитии существующих фонетических систем. К сожалению, фотографии и схемы устройства не дошли до наших дней.

1937 год — Voder

Голос будущего: как появились голосовые ассистенты

Изобретение ученого, сотрудника Американской лаборатории Bell — Гомера Дадли — является самым первым электронным речевым синтезатором. Аппарат Voder был представлен в 1937 году. Интонация речи вводились ассистентом с клавиатуры, напоминающей таковую у музыкальных инструментов, на презентации в видео, слышно, что аппарат умеет «выговаривать» лишь одно имя, но с разными интонациями.

1939 год — первые шаги к распознаванию речи

Голос будущего: как появились голосовые ассистенты

Куда более интересной и, пожалуй, сложной задачей было научить «железки» не имитировать, а распознавать человеческую речь. Советский физик Лев Мясников как раз был занят таким исследованием с 1939 года в рамках диссертации «Техническая фонетика». В 1942 году, несмотря на войну и ужасы блокадного Ленинграда, ученый защитил свой проект, продемонстрировав фокус-группе аппарат, умеющий распознавать несколько гласных и согласных звуков.

1952 год — Audrey (Automatic digit recognizer)

Голос будущего: как появились голосовые ассистенты

В 1952 году был представлен первый голосовой распознаватель чисел от 1 до 9, разработанный в стенах лаборатории Bell. Размеры аппарата были внушительными даже для того времени. Его высота составляла порядка 180 сантиметров. При соблюдении того условия, что диктующий цифры человек является для аппарата «знакомым», система работала практически беспрекословно, с точностью около 90%, выходит погрешность в распознавании речи была 10%. На сегодняшний день, голосовые ассистенты имеют погрешность всего в 5%, то есть это уже является уровнем человеческого звуковосприятия.

Работа с распознавателем чисел происходила с помощью телефона: абонент произносил число в трубку, система распознавала звук, как электрический сигнал и сопоставляла его с загруженными ранее в систему голосовыми референсами фраз.

1962 год — Shoebox

Голос будущего: как появились голосовые ассистенты

Спустя ровно десять лет компания IBM представила собственную технологию распознавания речи — Shoebox.

Система могла распознавать кроме 16 заложенных слов и 6 цифр еще и 10 математических команд. Семейства, представляемых в тот период времени «речевиков», мало чем отличались друг от друга, и соответственно прогресс шел семимильными шагами, без особого развития, породив потерю надежды и доверия к разрабатываемой технологии.

Стагнация

Голос будущего: как появились голосовые ассистенты

После публикации в 1969 году открытого письма американского инженера Джона Пирса, в котором он обосновал свое сомнение относительно исследованиям в области фонетических технологий, лидирующая тогда команда Bell, потеряла интерес со стороны инвесторов и на несколько лет осталась без финансовой поддержки.

1980-е — Julie the talking doll

Голос будущего: как появились голосовые ассистенты

Как и в большинстве случаев, развитие технологий стала двигать несерьезная, не привлекающая со стороны взрослых внимания, и на первый взгляд, не представляющая собой никакой пользы вещь — игрушка. Говорящая кукла Джулия (Julie the talking doll) появилась на прилавках американских магазинов в 1987 году. Её уникальность состояла в том, что ребенок мог научить куклу распознавать его речь.

За семь лет до выпуска игрушки, в научном обществе произошел переворот, который по важности безусловно превосходит вышеупомянутую Джулию. В 1980 году инженеры впервые научились применять методы «Скрытой Модели Маркова», разработанной отечественным ученым в области математики Андреем Марковым.

Скрытая Модель Маркова, Марковские цепи

Голос будущего: как появились голосовые ассистенты

Немного отойдя от темы, постараюсь объяснить что это за такая математическая модель. «Скрытая Модель Маркова» (СММ), или «Марковская цепь» была выведена учеными в 1907 году, и именно она дала возможность совершенствования таким наукам как: физика, химия, механика и так далее. По сути это описание вероятностей перехода объекта из одного состояние в другое. То есть будущая вариация объекта не зависит от прошлого, а зависит от настоящего — от того, в каком состоянии объект находится в данный момент времени. Выходит, это матричная система генерации случайных событий в рамках заданного аргумента.

Для примера рассмотрим такую модель графа с возможными физическими состояния человека:

Голос будущего: как появились голосовые ассистенты

По картинке мы можем определить, что человек может находиться в четырех состояниях, причем не в каждое может перейти сразу. Например, если человек лежит, то он не может просто взять и пойти, для этого ему нужно пройти цепочку последовательности — сесть, встать и только потом уже пойти.

Голос будущего: как появились голосовые ассистенты

Алгоритмы марковской модели в распознавании речи работают примерно по тому же принципу матричного графа. Например, если мы имеем матрицу (базу данных) 1000×1000 слов, где каждое из них уникально и не повторяется, благодаря отдельно написанному алгоритму, мы можем научить систему распознавания речи построению предложений, где генерация каждого последующего слова будет создаваться с учетом предыдущих 2-4 слов при совмещении с системой сравнения проговариваемых фраз с ранее загруженными фонетическими паттернами. А благодаря наличию нейросетей, любой желающий при должных знаниях может «научить» свой сервис обучаться, то есть чем больше люди будут пользоваться теми или иными функциями, тем лучше будут оптимизированы алгоритмы работы распознавания речи, благодаря улучшению генерирующей работы Марковской модели, расширением словарного запаса и пополнением библиотеки голосовых паттернов.

1990-е

Голос будущего: как появились голосовые ассистенты

В период 1990-х появилось достаточно большое количество систем распознавания речи от разных издателей, и каждая из них становилась все лучше и лучше. Так, например, в 1990 году увидела свет одна из первых коммерческих программ по распознаванию речи — Dragon Dictate, ориентированная на массовый рынок потребителей. К сожалению, за весьма бедные возможности софта разработчики просили целых $9 тыс. За эту космическую сумму денег пользователь получал возможность писать текст, просто проговаривая его в микрофон. К сожалению, программа не всегда работала корректно, и допускала даже по тем меркам достаточно серьезные ошибки.

Голос будущего: как появились голосовые ассистенты

1996 год запомнился выпуском системы обработки справочных запросов по телефону. Представляла она из себя портал VAL, призванный помочь покупателям в поиске нужной информации о интересующих товарах. Сферой использования этой системы были торговые центры, информационные стенды и прочие коммерчески ориентированные области деятельности.

Голос будущего: как появились голосовые ассистенты

В 1997 году, вышла обновленная версия вышеупомянутой Dragon Dictate, в ней разработчики потрудились над скоростью и качеством распознавания речи. Система могла без затруднений распознать до 100 слов в минуту, а благодаря цене в 600$ разработчики смогли вывести свой продукт на широкий рынок.

2001-2002 годы — Microsoft и Google

Голос будущего: как появились голосовые ассистенты

В 2001 году Microsoft решили интегрировать технологию распознавания речи в свой обновленный офисный пакет Office XP. Такое дополнение было приятным бонусом для покупателей, и несмотря на то, что система требовала “тренировки”, имела некие неточности в распознавании, это не помешало Microsoft сделать её одним из самых массовых продуктов в этой сфере и разработать почву для своих будущих проектов в этом направлении, о которых вы обязательно узнаете в статье, но чуть позже.

Google уже в 2002 году предприняла решение по развитию голосового поиска и интеграцией его в свою экосистему. Voice Search не имел особого успеха, но послужил отправной точкой для будущего приложения Voice Search для iPhone и Android, ставшим впоследствии интерактивным помощником Google Now, а с недавних пор Google Assistant. Система распознавания речи 2002 года от Google как и аналоги конкурентов работала при помощи телефонного звонка на специальный номер, пользователи не оценили такой способ поиска, так как он оказался попросту неудобен. Но разработчики компании засучив рукава продолжили движение в этой сфере, и судя по нынешним продуктам, время в стенах офиса на Mountain View было потрачено не зря.

2005-2006 годы — Apple и Microsoft

Голос будущего: как появились голосовые ассистенты

С выходом OS X Tiger, Купертиновцы также решили не отставать и влиться в гонку разработки «речевиков». В систему была введена фирменная система распознавания и синтезирования речи VoiceOver. Её главным отличием была независимость от «спикера», то есть пользоваться ей мог кто угодно — систему не нужно было обучать к определенному голосу. Возможность синтеза речи нашла применение для людей с плохим зрением, система могла читать любой текст на экране, от статей в интернете, электронных писем до элементов системы, например пунктов в меню настроек и названия файлов на рабочем столе.

Голос будущего: как появились голосовые ассистенты

Позже Microsoft решили не отставать от Apple и интегрировали голосовое управление в свою новую Windows Vista.

Google Voice Search

Наконец, мы переходим к становлению нынешних голосовых помощников.

Голос будущего: как появились голосовые ассистенты

Как я говорил, Google уже в 2002 году попробовали себя в создании поиска по телефону. Спустя 7 лет компания представила приложение голосового поиска на смартфонах iPhone. Приложение функционировало с помощью облачных вычислений на серверах Google. Благодаря огромному числу голосовых запросов пользователей, словесная и фонетическая база данных на серверах к 2011 году насчитывала уже около 230 миллиардов слов на разных языках мира. Благодаря колоссальному успеху, приложение Voice Search по сей день закрепляет за собой славу самого популярного сервиса Google.

Позже появилась версия и под собственную операционную систему Android. В связи с этим корпорацией была развернута масштабная рекламная кампания смартфонов на фирменной платформе, акцентируя внимание клиентов на уникальной для того времени фишке — голосовом поиске.

Голос будущего: как появились голосовые ассистенты

В 2011 году функцию голосового поиска получил и фирменный браузер Google Chrome.

Голос будущего: как появились голосовые ассистенты

В 2012 году вместе с презентацией Android 4.1, компанией был представлен персонализированный ассистент Google Now с расширенными возможностями голосового поиска. Функционал работы сервиса строился на подборе актуальной информации для пользователя с учетом его местоположения, личной информации календаря, поисковых запросов, истории браузера и маршрутам перемещения. Каждый пользователь имел возможность настроить карточки с рекомендациями под себя. Например, добавить карточки с актуальными новостями, играми любимых спортивных команд, проходящими рядом с ним мероприятиями и котировками акций.

Голос будущего: как появились голосовые ассистенты

В 2016 году на презентации Google I/O был представлен умный персональный помощник Google Assistant, являющийся идеологическим продолжением Google Now. Умный ассистент стал эксклюзивом для умной колонки Google Home и смартфонов Pixel. Позже функция появилась в оригинальном приложении Google на всех смартфонах Android.

Siri

Голос будущего: как появились голосовые ассистенты

Ныне фирменный голосовой ассистент Apple некогда был отдельным приложением, которое распространялось в App Store. Разработкой Siri занимался «Всемирный центр исследования искусственного интеллекта» аж с 2007 года. И именно Siri является первым в мире голосовым ассистентом, потому что система умела не только делать поиск в сети интернет, как например Voice Search от Google, но и вести какой-никакой диалог с пользователем при помощи синтезатора речи и заготовленных фраз. В Apple понимали перспективность технологии и уже в 2010 году выкупили права на её использование. А в 2011 году на презентации iPhone 4s объявили о полной интеграции голосового помощника в iOS.

Голос будущего: как появились голосовые ассистенты

Уже тогда Siri умела прокладывать маршруты на карте, заказывать такси, включать музыку, оглашать котировки акций, ставить напоминания, создавать будильники, события в календаре и прочее.

Голос будущего: как появились голосовые ассистенты

Хочется сказать, что за 7 лет существования Siri в iOS, возможности ассистента не особо серьезно эволюционировали. Единственное что было добавлено компанией за последнее время это возможность работы с другими приложениями, поддержка новых языков, макросы (с iOS 12) и обновленный интерфейс. Причиной такой неспешности, с точки зрения внедрения компанией новых функций, может является уход основной команды разработчиков Siri, в связи с кадровой перестановкой нового руководства, пришедшего после смерти Стива Джобса.

Microsoft Cortana

Голос будущего: как появились голосовые ассистенты

Виртуальная голосовая помощница Cortana была впервые продемонстрирована Microsoft на собственной презентации Build 2 апреля 2014 года. Назван ассистент в честь персонажа из игровой серии шутеров Halo. Голосом ассистента стала актер озвучки Джен Тейлор, подарившая голос Кортане в игре.

Голос будущего: как появились голосовые ассистенты

Особенностью ассистента является кроссплатформенность. По умолчанию Cortana предустановлена на компьютерах и мобильных устройствах с операционной системой Windows 10, а также на игровых консолях Xbox One. Владельцам Android и iOS устройств доступно для скачивания приложение Cortana в Google Play и App Store.

Голос будущего: как появились голосовые ассистенты

Также ассистент предугадывает нужды пользователя при условии, что вы разрешите сервису доступ к своим личным данным — электронной почте, календарю, местоположению и другим.

Подобное уже было представлено Google в собственном помощнике Now в 2012 году, но, к сожалению, он не имел такой проработки в плане понимания контекста и уступал по количеству и качеству голосовых возможностей.

Amazon Alexa

Голос будущего: как появились голосовые ассистенты

Следующими на очереди идут Amazon. Компания решила влиться в набирающий обороты технологический тренд и опубликовала в 2014 году фирменный голосовой ассистент, разработка которого велась аж с 2010 года. Изначально, как в случае с Siri, Alexa являлась отдельным приложением для смартфонов на iOS и Android. Понимая, что на одном приложении далеко не уедешь, компанией также было представлено отдельное устройство — первая в мире умная колонка с голосовым ассистентом Amazon Echo.

Голос будущего: как появились голосовые ассистенты

Её уникальность состояла в том, что кроме обычных пользовательских запросов, Amazon Echo могла послужить эдаким мозгом для всей техники умного дома. То есть по голосовому запросу владелец мог контролировать температуру на термостате, управлять освещением и делать прочие подобные вещи у себя дома.

Позже конкурентами в лице Google и Apple были представлены свои умные колонки Google Home и HomePod с аналогичным функционалом. Говорить подробно о них я не вижу смысла, так как различия между ними заключаются лишь в более глубокой интеграции под каждую из собственных экосистем.

Голос будущего: как появились голосовые ассистенты

Общей проблемой этой троицы для пользователей, родившихся и проживающих в СНГ, является отсутствие поддержки русского языка и несовместимость с местными сервисами навигации, вызова такси, заказа еды.

Яндекс.Станция

Голос будущего: как появились голосовые ассистенты

Но совсем недавно, 29 мая, наша отечественная компания Яндекс, провела конференцию Yet another Conference 2018, на которой представила свою первую железку — умную колонку Яндекс.Станция с интегрированным в неё голосовым помощником Алиса.

Голос будущего: как появились голосовые ассистенты

Станция от Яндекса была полностью спроектирована в стенах Московского офиса компании. Кроме возможности работы в качество умного помощника, колонка имеет видеовыход HDMI и может работать с внешними проекторами, мониторами и само собой с телевизорами. Поиск фильмов осуществляется при помощи интеграции библиотеки онлайн сервисов: ivi, Кинопоиск, Амедиатека и Яндекс.Видео

Музыкальные возможности колонки явно не хуже конкурентов, максимальная мощность звука составляет целых 50 Вт. В довесок имеется возможность звучания в стереорежиме. Внутреннее убранство гаджета можно увидеть на официальной схеме:

Голос будущего: как появились голосовые ассистенты

В качестве основного источника аудио-контента выступает фирменный сервис Яндекс.Музыка, насчитывающий в себе коллекцию из 35 млн композиций. Также приятным бонусом является наличие открытого протокола Bluetooth, позволяющего выводить на колонку звук с любого вашего устройства при отсутствии возможности подключения колонки к сети интернет. Работает она только через Wi-Fi.

К функционалу Алисы добавили раздел Диалоги. Что это такое? Это отдельная платформа для голосовых чат-ботов, пополнить которую может любой желающий при условии прохождения модерации своего проекта командой Яндекс. Уже сейчас в библиотеке есть несколько забавных Диалогов, которые помогут вам приятно провести время.

Из таких я выделил: «Игра Математика» — замечательнейшая возможность занять ребенка на некоторое время, в течение которого он будет обучаться простой арифметике в игровой форме; «Верю — не верю» — проверка на то, отличите ли вы реальный факт от выдумки, лично я давеча пока тестировал этот навык, узнал много интересных вещей, незнакомых мне ранее. И интерактивную игру «Фантастический квест», в которой с помощью своих решений вы можете решить судьбу космического путешественника — тем, кто когда-то играл в Lifeline, наверняка должно понравится.

Голос будущего: как появились голосовые ассистенты

Продажи колонки совсем начнутся скоро, уже этим летом вы сможете приобрести себе такой гаджет за скромные 9 990 руб. Всем покупателям будет предоставлен год доступа к Яндекс.Музыке, 2 месяца ivi.ru и 3 месяца использования Амедиатеки.

Также на презентации было отмечено, что колонка получит три режима фильтрации контента. Например, если дома имеются дети, будет возможность ограничить доступ к сервисам с контентом для взрослых.

В будущем колонка получит поддержку управления элементами умного дома по причине того, что в России, к сожалению, на данный отсутствуют полноценные системы такого рода. На первое время разработчиками будет добавлено управление светом и кондиционерами.

Заключение

Голос будущего: как появились голосовые ассистенты

Подводя итоги, хочу сказать, что мы живем в очень интересное время, и пускай голосовые ассистенты, системы умного дома, нейросети сейчас находятся, по факту, в зачаточном состоянии, можно быть абсолютно точно уверенными, что в будущем нас ждут куда более интересные вещи от мира высоких технологий, а венцом этой эпохи будут явно куда более лучшие продукты.

Топ 5 голосовых помощников 2021

Топ 5 голосовых помощников 2021

Топ 5 голосовых помощников 2021. Эта заметка нашего Блога не подразумевает какое-либо соревнование. Мы не ставим целью сравнивать эти продукты. Ведь, по сути дела, мы находимся на начальном этапе развития данной технологии. Уже сейчас они серьезно помогают нам в работе и в жизни. Но о реальных возможностях искусственного интеллекта мы имеем представление лишь по фантастическим фильмам и книгам.

Голосовые помощники и немного истории

Вообще, если углубляться в тему, то нужно вернуться на 80 лет назад. В 1939 советский физик Мясников придумал устройство, способное распознавать человеческую речь: несколько гласных и согласных звуков. В 1962 году будущий компьютерный гигант IBM разработал собственную технологию распознавания речи под названием «Shoebox». В 90-ых годах появились действительно прорывные решения, когда голосового ассистента можно было использовать на практике. Например, в обработке телефонных запросов (VAL от BellSouth).

Первый голосовой ассистент, умеющий вести диалог с пользователем, появился уже в новом тысячелетии. Развитие нейронных сетей, увеличение мощности смартфонов и облачных технологий. Именно эти факторы в своей совокупности привели к тому, что голосовой помощник смог найти постоянное место рядом с нами: в ноутбуках, смартфонах и даже в смарт-часах.

Диалог с голосовым помощником становится в наше время совершенно обыденной вещью. Мы уже не удивляемся, когда на улице турист спрашивает у своего смартфона адрес ближайшего кафе, абсолютно спокойно наблюдаем как водитель задает курс навигатора, просто сказав адрес своему автомобилю. Дети играют с умным помощником в развивающие игры, а люди пожилого возраста интересуются какая завтра будет погода. Вся индустрия стремительно пришла к тому, что пользователи не хотят вбивать длинную поисковую фразу в строку браузера. Они хотят вести диалог на обычном, человеческом языке. И голосовой помощник 2021 года уже готов к этому.

Топ 5 голосовых помощников 2021 - 2

Google Assistant

Неудивительно, что интернет-гигант Гугл оказался одним из фаворитов в борьбе за умы и кошельки потребителей. В 2016 году корпорация представила фразу, которая стала в своем роде иконой технологии голосовых помощников. Теперь «Ok Google» знают абсолютно все. С помощью голосового помощника можно звонить, отправлять сообщения, устанавливать напоминания, добавлять мероприятия в календаре, узнавать новости и прогноз погоды, включать музыку. Также помощник умеет шутить и давать советы. Например, у него можно спросить о его любимых фильмах или пообщаться на философские темы. В 2018 году Google Assistant стал распознавать русский язык. Благодаря операционной системе Android Гугл Ассистент стал самым распространенным голосовым помощником на планете.

Топ 5 голосовых помощников 2021 - 3

SIRI от компании Apple

Первая Siri заговорила на устройствах iPhone 4S 4 октября 2011 года. Спустя несколько лет ее адаптировали и для русскоговорящих пользователей. Именно SIRI оказалась самым первым голосовым помощником, который умел не только слушать, но и отвечать. Вести диалог. В этом компании Apple помогла технология голосового синтеза. Теперь вместо роботизированного неживого голоса с нами общается абсолютно реальный человек. Который умеет даже понимать и поддерживать тему разговора. Нейросети способны учиться и запоминать.

Топ 5 голосовых помощников 2021 - 4

Салют, Сбер!

Самый крупный банк России не остался в стороне. Разумеется, в статье «Топ 5 голосовых помощников 2021» мы не могли не рассказать про «Салют». Для пользователей мобильных приложений Сбер запустил функцию голосового помощника, который поможет перевести деньги, разобраться с платежами и состоянием счета, заказать еду домой, купить товары. Сразу три доброжелательных помощника всегда готовы прийти к вам на помощь. Выбирайте, кто вам больше по душе. Сбер — интеллигент, мужчина средних лет, четкий, пунктуальный. Афина — мягкая, добрая, успокаивающая. Джой — радостная и заводная, с ней можно «на ты». Не так давно Сбер представил семейство умных устройств, которые оснащены «Салютом»: тв-приставки «Сбербокс» и «Сберпортал». Эти девайсы еще больше расширяют возможности голосового помощника: можно слушать музыку, смотреть любимые фильмы и сериалы, общаться с друзьями, играть в игры. Кстати, голос для Джой записала наш диктор Татьяна Ермилова.

Топ 5 голосовых помощников 2021 - 5

Маруся от Mail.ru

Один из лидеров Интернет-индустрии поддерживает тренд. Голосовой помощник «Маруся» поселился в браузерах и мобильных приложениях компании Mail.ru. Поиск по Интернету, голосовое управление почтовым сервисом, работа с корреспонденцией. Плюс стандартные функции ассистентов уже привычные большинству пользователей: вызов такси, покупка билетов, справочная информация. В 2019 году появилась «Капсула». Это умная колонка с голосовым управлением. Теперь «Маруся» может находиться в вашем доме. Включит музыку, расскажет о погоде за окном, прочитает свежие новости и поставит таймер. Стоит только сказать: — Привет, Маруся. А вы знаете, что «Маруся» разговаривает с нами голосом нашей замечательной Елены Соловьевой?

Топ 5 голосовых помощников 2021 - 6

Алиса Яндекс

Скорее всего, именно «Алиса» от компании Яндекс в настоящее время является самым известным голосовым помощником в России. Разработка началась в 2016 году. И уже в 2018 году «Алиса» начала покорение Интернет-пространства. Первоначально «Алиса» умела искать только информацию в поисковой системе Яндекса, но постепенно программисты вывели уровень искусственного интеллекта на качественно новый уровень. «Алиса» умеет слушать и понимать. В основе «Алисы» — нейронные сети: они распознают речь, анализируют её, определяют тематику диалога, выделяют полезную для поиска информацию, синтезируют ответы помощника. Почти все вычисления, помимо голосовой активации (распознавания фразы «Слушай, Алиса»), проводятся в облаке, разгружая процессор смартфона. Поэтому «Алиса» может работать и на самых простых устройствах.

В настоящее время компания Яндекс расширила возможности «Алисы», представив пользователям систему «умного дома». Умная лампочка, умная розетка, умная колонка — с их помощью вы можете удаленно управлять своей квартирой, бытовыми приборами и многим другим. Осталось только напомнить нашим читателям, что вот уже 4 года голос для синтеза «Алисы» записывает актриса театра и известный мастер дубляжа Татьяна Шитова.

Топ 5 голосовых помощников 2021

Студия «Рексквер» обладает всеми необходимыми ресурсами для производства голосовых помощников. За последние годы мы наработали серьезный опыт в области синтеза голоса. В нашем распоряжении опытная команда и огромный выбор лучших актеров озвучки. Мы знаем досконально все тонкости процесса и предлагаем заказчикам продукт «под ключ». Без ложной скромности отметим, что еще в далеком 2012 году мы записывали первые работы в области голосового синтеза для «Мегафон». Принимали непосредственное участие в записи голосового помощника «Олег» для банка «Tinkoff» и «Джой» для банка «Сбер».

Можно ли заказать у нас разработку голосового помощника? Разумеется. Если уровень вашего бизнеса вырос до такого уровня, что вы готовы предложить своим клиентам и пользователям новейшие решения, то мы готовы к сотрудничеству. Всё необходимое для выполнения подобной работы у нас в наличии. Человеческий ресурс — дикторы, звукорежиссеры, корректоры, менеджеры. Современная студия в центре Москвы. Качественное оборудование, актуальный софт. Мы знаем логистику процесса «от А до Я», мы умеем и можем. Готовы? Просто напишите нам или позвоните: +7 (495) 535 55 45

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *