Car-tech

Системы распознавания речи должны стать более умными, говорит профессор

URL Encode [HTML in Arabic #24]

URL Encode [HTML in Arabic #24]
Anonim

Те, кто неспособность разговаривать по телефону с автоматизированными системами распознавания речи может усомниться в том, что ученые работают над тем, чтобы сделать такие системы более реалистичными и менее раздражающими для использования.

«Из опыта потребителей люди находят эти системы очень расстраивающими», - сказал Джеймс Аллен, который является председателем информатики Университета Рочестера, выступая перед конференцией SpeechTEK 2010, состоявшейся в Нью-Йорке на этой неделе.

Большинство компьютеризированных систем распознавания речи могут понять, что говорит человек до 98 процентов времени, и все же люди все еще раздражаются при использовании автоматизированных телефонных справочных систем. Ключ к тому, что эти системы будут менее расстраивать, - это дать им более глубокое понимание языка и сделать их более интерактивными, сказал Аллен.

[Читать дальше: Ваш новый компьютер нуждается в этих 15 бесплатных, отличных программах]

К настоящему времени отделы обслуживания клиентов большинства крупных организаций предлагают автоматизированные телефонные справочные системы. Пользователь вызывает номер справки, а искусственный голос задает вызывающему абоненту ряд вопросов. Большинство из этих систем основаны на структурах, которые являются в основном большими деревьями принятия решений. С такими системами «вы не узнаете, чего хочет человек, вы следуете сценарию», - сказал он.

Системы на самом деле представляют собой совокупность различных технологий. Один из них - распознавание речи или способность компьютера понимать или успешно переводить текст, что говорит оратор.

Другая технология, обработка естественного языка (NLP), пытается либо преобразовать сообщение говорящего в команду что компьютер может выполнить или может быть скомпонован для оператора-оператора.

В течение последних нескольких десятилетий были достигнуты большие успехи как в распознавании речи, так и в НЛП, но они, по-видимому, вызвали в основном разочарование для их пользователей. «Я только звоню в банк, когда у меня проблема, и сражаюсь с этими системами. [Я спрашиваю], что я могу ответить, чтобы как можно быстрее пройти к человеку», - сказал Аллен.

Академическая исследовательская работа Аллена была в поиске способов «мы можем поговорить с машиной так же, как мы можем поговорить с человеком», - сказал он.

Беседы между двумя людьми могут быть точными, так как компьютеры сталкиваются с трудностями. Аллен указал на некоторые ранние работы, которые он сделал в качестве аспиранта, в которых он записывал разговоры на информационном столе на вокзале. В одном взаимодействии пассажир подходит к стенду и говорит «8:50 Виндзору», а сопровождающий отвечает «Ворота 10, опоздавшие на 20 минут». В то время как сопровождающий точно знал, какую информацию запрашивал искатель, компьютеризированные системы обнаруживают, что первое заявление пассажира одурманивается.

Как видит Аллен, в современных системах отсутствуют два элемента: способность анализировать, что говорит оратор, и способность разговаривать со спикером, чтобы узнать больше о том, что намеревается сказать оратор.

«Множество готовых НЛП имеет тенденцию быть мелким. У нас нет технологии, которая дает вам смысл предложений», он сказал. Статистические инструменты обработки и службы определения слов, такие как WordNet, могут помочь определить слово, а также отношения слова, поэтому система будет знать, что, например, «дочерняя компания» является частью «компании».

Подробнее также необходима двусторонняя связь между пользователями и компьютерами. Говоря о своих потребностях, люди могут предоставлять информацию в определенном порядке. Это должно быть до компьютера, чтобы объединить эту информацию и не обременять пользователя вопросами, ответы на которые уже были предоставлены.

«Это будущее, это то, что вы хотите, чтобы системы работали, и мы можем построить диалог систем, которые могут поддерживать этот диапазон сложности », - сказал он.

Чтобы проиллюстрировать эту идею, Аллен и команда исследователей разработали программу под названием« Сердечник », которая могла бы имитировать вопросы, которые медсестра задавала пациенту с сердечными заболеваниями. Программа была создана при финансовой поддержке Национального института здравоохранения США. С помощью этой системы, как только пользователь поставляет информацию, система не будет запрашивать ее снова, сказал Аллен. Система будет рассуждать о том, какой материал уже был предоставлен и что еще нужно.

Другая программа, разработанная Алленом и его командой под названием «Плуг», может узнать, как выполнять общие задачи на компьютере. «Это система, которая позволяет вам по существу использовать диалог для обучения вашей системы, как делать что-то для вас», - сказал он.

В качестве примера Аллен продемонстрировал программу обучения тому, как найти близлежащие рестораны с помощью браузера. Пользователь откроет браузер, перейдем к сайту локатора ресторана, набирает тип приглашенного ресторана и место, а затем вырезает и вставляет результаты на пустую страницу. Пользователь описал каждый шаг, как он был выполнен.

В этом процессе Плуг записывает каждый шаг и слышит ответный сигнал, когда этот шаг понимается. Позже, когда пользователь захочет посмотреть еще один ресторан, программа будет проходить все те же ходы, автоматически создавая другой список ресторанов. Агентство развития перспективных исследований США финансировало разработку этой программы.

Больше данных является ключом для более человекоподобных систем обработки текстов, - согласился главный научный сотрудник Microsoft в речи Ларри Хек, в другом разговоре на конференции. «Если у вас нет данных, неважно, насколько сложны ваши алгоритмы, - сказал он.

Одно место, чтобы найти больше данных, было бы в запросах поисковых систем, - предложил он. Поисковые службы получают огромное количество запросов, все из которых связаны с ответами. «Я рассматриваю поиск как близкого родственника технологии обработки языков», сказал Хек.

В наши дни люди обучаются структурировать свои запросы в виде набора ключевых слов. Вместо этого, если пользователи должны вводить полные предложения, описывающие, что им нужно, результирующий набор данных может пройти долгий путь, помогая системам лучше понять, что ищут люди.

Хек предсказал, что, поскольку все больше людей используют услуги голосовой активации от Microsoft и Google, они станут более привыкнуть к структурированию своих запросов в виде полных предложений, которые со временем могут помочь системам НЛП лучше предвосхищать потребности пользователей.

Joab Jackson охватывает корпоративное программное обеспечение и общую технологию, новости о новостях для Новости IDG Сервис. Следуйте за Joab в Twitter на @Joab_Jackson. Адрес электронной почты Joab - [email protected]