Google добавил в свой ИИ Gemini синтез реалистичного голоса

Фото: Логотип Google
Разработчики смогут создавать голосовые интерфейсы прямо в API без внешних сервисов.

Google официально интегрировал генерацию речи в API своей ИИ-платформы Gemini, сообщает пресс-служба компании. Теперь разработчики могут превращать текстовые ответы модели в реалистичный голос, используя единый сервис без подключения сторонних библиотек.

Новая функция поддерживает множество языков и акцентов. Параметры голоса — стиль, тембр, скорость и выразительность — можно настраивать под конкретные задачи. Например, для навигационного помощника можно выбрать энергичное звучание, а для образовательного приложения — более спокойный голос.

«Работа с генерацией звука осуществляется через стандартные REST‑вызовы к Gemini API. Разработчик передаёт текст и параметры желаемого голоса, а сервис возвращает готовый аудиофайл», — говорится в технической документации Google.

Это упрощает интеграцию, так как отпадает необходимость в ручной настройке аудиодвижков. Google отмечает, что синтез ориентирован на естественность, но при работе с узкоспециальной лексикой возможны ошибки в произношении. Для таких случаев в API есть инструменты фонетической коррекции.

Ранее «Жуковский.Life» сообщал, что компания Google опровергла планы по внедрению рекламы в чат-бот Gemini. Вице-президент по глобальной рекламе Google Даниэль Тэйлор назвал сообщения СМИ неточными, основанными на неинформированных источниках, и заявил, что текущих планов по размещению рекламы в приложении не существует.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Рейтинг
( Пока оценок нет )
Ксения Семашко/ автор статьи
Загрузка ...
Интернет-газета «ЖУК»

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: