Google официально интегрировал генерацию речи в API своей ИИ-платформы Gemini, сообщает пресс-служба компании. Теперь разработчики могут превращать текстовые ответы модели в реалистичный голос, используя единый сервис без подключения сторонних библиотек.
Новая функция поддерживает множество языков и акцентов. Параметры голоса — стиль, тембр, скорость и выразительность — можно настраивать под конкретные задачи. Например, для навигационного помощника можно выбрать энергичное звучание, а для образовательного приложения — более спокойный голос.
«Работа с генерацией звука осуществляется через стандартные REST‑вызовы к Gemini API. Разработчик передаёт текст и параметры желаемого голоса, а сервис возвращает готовый аудиофайл», — говорится в технической документации Google.
Это упрощает интеграцию, так как отпадает необходимость в ручной настройке аудиодвижков. Google отмечает, что синтез ориентирован на естественность, но при работе с узкоспециальной лексикой возможны ошибки в произношении. Для таких случаев в API есть инструменты фонетической коррекции.
Ранее «Жуковский.Life» сообщал, что компания Google опровергла планы по внедрению рекламы в чат-бот Gemini. Вице-президент по глобальной рекламе Google Даниэль Тэйлор назвал сообщения СМИ неточными, основанными на неинформированных источниках, и заявил, что текущих планов по размещению рекламы в приложении не существует.
