Программное обеспечение для распознавания голоса, большинство из нас, вероятно, согласятся, довольно крутая вещь. Но разговоры с машинами - будь то смартфон, экран телевизора или приборная панель - ну, не так много. Спрашивать совет устройства? Пахнет Компьютерщик Излагая каждое слово, чтобы тебя поняли? Как здорово ты можешь быть на самом деле?
Но Apple, верная форме, взяла эту голову на себя, наняв три иконки «круто», чтобы сыграть звезду в их последней рекламной кампании для Siri, голоса iPhone 4S. Есть Зуи Дешанель (Adorable Cool) и Джон Малкович (Cerebral Cool) и Сэмюэл Л. Джексон (Ultimate Cool), и все они делают участие в игре слов с телефоном кажущимся спортом богов.
Критики, тем не менее, указывают, что в реальной жизни Сири не так отзывчива и не всезнайка, как ее изображают в рекламе. Вы тоже, я уверен, в шоке, услышав это. Другие видят, что все готово для пародии - посмотрите, как брат Зуи, Джуи, делает смешную или умирающую версию дождливого дня Зуи и Сири вместе.
Независимо от того. Сири стала ведущей певицей в хоре роботов, голосом нового поколения «You Got Mail».
В некоторых кругах модно утверждать, что Сири не заслуживает Стива Джобса, что если бы он был еще жив, Джобс снял бы его с рынка или, по крайней мере, никогда не одобрил бы такую громкую рекламу Кампания за столь ущербный продукт.
Но, как сказал преемник Джобса Тим Кук ранее на этой неделе, владельцы iPhone 4S любят Siri. Согласно результатам опроса, опубликованного в марте, почти 90 процентов говорят, что используют его хотя бы раз в месяц. И имейте в виду, что Siri, один из очень немногих продуктов Apple, который, как утверждается, находился в бета-версии, не будет отмечать свой первый день рождения до октября. Она все еще изучает язык и, что еще более важно, только начинает использовать потенциал искусственного интеллекта.
Siri, вероятно, станет центральным элементом Apple TV, дебют которого ожидается в декабре. Но, скорее всего, место, где общение с машинами превратится в мейнстрим, - это наши автомобили.
Драйв, сказала она
Конечно, это уже происходит, но вы все равно должны переключиться на речь робота, если хотите, чтобы вас поняли. И даже тогда нет гарантии. Это изменится этим летом, когда появятся некоторые новые модели с приводом Dragon Drive!
Это изобретение Nuance Communications, основанной в Массачусетсе компании, которая стала локомотивом в бизнесе распознавания голоса. (Широко распространено мнение, что именно мозги стоят за Сири.) На прошлой неделе нюанс и распознавание голоса в автомобилях сделали большой шаг вперед, когда фирма объявила о Dragon Drive! сможет подключиться к облаку.
Это означает, что система значительно увеличит свои вычислительные мощности и возможности памяти. А это значит, что голос в вашей приборной панели станет более похожим на Siri и позволит вам на самом деле общаться с ним. Нет больше односложных криков. Наступает день, когда вы сможете случайно упомянуть, что чувствуете себя как некоторые Братья Аллман, и через несколько секунд через колонки зазвучит «Whipping Post».
Ключ в том, насколько хорошо мы можем научить машины контексту и прагматике - как язык используется в социальных ситуациях. И это сложное дело. Для начала, даже самому сложному устройству распознавания голоса нужно подождать, пока человек закончит говорить, чтобы он мог анализировать и интерпретировать все предложение. Тогда есть «теория ума», способность понимать, что другие люди могут иметь иные убеждения и намерения, чем наши. Насколько нам известно, это могут делать только люди.
Недавнее исследование, проведенное двумя психологами из Стэнфорда, может дать вам представление о том, что помогает машинам интуитивно помочь. Исследователи Майкл Франк и Ноа Гудман организовали онлайн-эксперимент, в котором участников попросили посмотреть набор объектов, а затем выбрать, какой из них относится к определенному слову. Например, одна группа участников увидела синий квадрат, синий круг и красный квадрат. Вопрос для этой группы был следующим: представьте, что вы разговариваете с кем-то и хотите сослаться на средний объект. Какое слово вы бы использовали, «синий» или «круг»?
Другую группу спросили: представьте, что кто-то разговаривает с вами и использует слово «синий» для обозначения одного из этих объектов. О каком объекте они говорят?
Ответы помогли исследователям получить более четкое представление о том, как слушатель понимает говорящего и как говорящий решает, что ему сказать. Исходя из этого, они разработали математическую модель, которая может расширить и усовершенствовать мыслительный процесс компьютера.
Фрэнк сказал: «Потребуются годы работы, но мечта - о компьютере, который действительно думает о том, что вы хотите и что вы имеете в виду, а не только то, что вы сказали».
Манера речи
Вот несколько последних разработок в области распознавания голоса:
- Сири умолкает: IBM, как правило, очень нервничает по поводу раскрытия корпоративных секретов, поэтому теперь она запрещает своим сотрудникам использовать публичные сайты передачи файлов, такие как Dropbox. Но у него также есть запрет на использование Siri в офисе, потому что руководители служб безопасности беспокоятся, что кто-то, разговаривая с их телефоном, может раскрыть конфиденциальную информацию, которая попадает на серверы Apple.
- Примите это, Apple !: Samsung выпустил свой новый смартфон Galaxy X III в Лондоне на этой неделе, и хотя его большой сенсорный экран привлекает к себе большое внимание, он также оснащен новым программным обеспечением для распознавания голоса и лица.
- Делай то, что я говорю, а не то, что я делаю: и Samsung не останавливается там. Недавно она подала заявку на патент робота, который понимает человеческую речь. Робот сможет настроить свои возможности «прослушивания», чтобы учитывать окружающий шум, который может прерывать или прерывать команды, которые ему даны. Он также сможет распознать, кто говорит с ним, даже если фоновый шум очень громкий.
Инфографический бонус: вы думаете, что ваш автомобиль компьютеризирован. Подождите, пока он полностью не подключится к Интернету. Получить представление о том, что может сделать подключенный автомобиль.