Amazon представила новую фундаментальную модель Nova Sonic, которая может одновременно распознавать и генерировать речь. Алгоритм также улавливает тон, интонацию и темп речи, что позволяет создавать более естественные голосовые диалоги в ИИ-приложениях. Nova Sonic предназначена для разработки голосовых приложений для различных отраслей, включая туризм, образование, здравоохранение и развлечения.
Традиционный подход к созданию голосовых приложений требовал сложной оркестровки нескольких моделей: распознавания речи для преобразования звука в текст, использования больших языковых моделей для понимания и генерации ответов, и синтеза речи для преобразования текста обратно в аудио. Такой фрагментированный подход не только усложняет разработку решений, но и не учитывает акустический контекст и нюансы, необходимые для естественного общения.
В Nova Sonic понимание и генерация речи объединены. Это позволяет адаптировать голосовой ответ к акустическому контексту и особенностям входящей речи. Система понимает нюансы человеческого разговора, включая естественные паузы и колебания. Она может терпеливо ждать подходящего момента для ответа и корректно перебивать собеседника.
Amazon продемонстрировала применение технологии на примере виртуального туристического помощника. В примере клиент обсуждает поездку на Гавайи, и когда его тон меняется с восторженного на обеспокоенный из-за стоимости, ИИ также меняет тон на более успокаивающий, предоставляя релевантную информацию о ценах. В другом примере на базе новой модели разработчики создали корпоративного ИИ-ассистента, который может предоставлять информацию о компании по запросу.