Yandex tts engine windows — Ваш верный помощник с OS Windows

yandex-tts-free

Этот Python пакет позволяет генерировать речь из текста, используя бесплатное Yandex SpeachKit API. Доступен только Русский язык. Вы можете выбрать голос и настроение для синтезированной речи.

Установка

Для начала работы установите пакет через pip:

pip install yandex-tts-free

Требования

Для использования этого пакета необходимо иметь установленный ffmpeg в системе.

Доступные голоса

levitan
zahar
silaerkan
oksana
jane
omazh
kolya
kostya
nastya
sasha
nick
zhenya
tanya
ermilov
alyss
ermil with tunning
robot
dude
zombie
smoky

Доступные настроения

neutral
evil
good

Использование

from yandex_tts_free import YandexFreeTTS
import os

tts = YandexFreeTTS()
output_path = 'output'

# Создаем папку если её нет
if not os.path.exists(output_path):
    os.makedirs(output_path)

text = 'Это тестовый текст для проверки голосов.'

# Генерация речи с голосом levitan и нейтральным настроением
tts.generate_speech_ya(output_path, 'test.mp3', text, 'levitan')

# Генерация речи с голосом oksana и настроением good
tts.generate_speech_ya(output_path, 'test_good.mp3', text, 'oksana', 'good')

Отказ от ответственности

Этот пакет не является официальным продуктом Яндекса и использует их бесплатное TTS API. Используйте его на свой страх и риск. Разработчики не несут ответственности за любые проблемы, которые могут возникнуть в результате использования этого пакета.

Источник

Время на прочтение3 мин

Количество просмотров4.5K

Вчера понадобилось мне записать голос для голосового (IVR) меню.. Решил воспользоваться голосами от яндекс.облака, тем более что они теперь все высококачественные, и от человеческого неотличимы. Но как бы это сделать поудобнее, чтобы не надо было потом файлы редактировать и конвертировать? Казалось бы, можно воспользоваться демкой на странице описания, но во первых там есть ограничение длины текста, во вторых она дает сохранить только запись в формате ogg, и в третьих иногда добавляет в запись рекламу. Оно и понятно в общем то, эта демка предназначена для показа технологии а не для коммерческого использования.

Резюме — надо получать записи как положено, через api, тем более что оно простое и понятное, только небольшая сложность с авторизацией. Но то что оно несложное не значит что им можно легко и просто с нуля воспользоваться, нужен хоть какой то интерфейс.

Беглый гуглёж ничего не принес, только несколько малопонятных проектов на гитхабе.

Уже думал быстренько наваять какой нибудь свой веб-интерфейс но тут вспомнил что есть Postman. Для тех кто не в теме — это замечательная программа для тестирования любых api интерфейсов.

Для дальнейших действий предполагается что вы уже зарегистрированы в яндекс.облаке, ваш аккаунт активен и оплачен (деньгами или грантом).

Итак, вооружимся документацией. Запрос к text2speech по сути это простой post запрос. Параметры передаются в теле запроса. Единственная сложность — это авторизация. Подписывать запросы надо IAM токенами, но у них срок жизни — до 12 часов, в некоторых случаях меньше. Яндекс рекомендует обновлять токены раз в час или вообще получать при каждом запросе. Получить токен можно в командной строке, но если это не автоматизировать, это придется делать руками и часто.

К счастью, у postman есть функционал pre-request script. Это когда программа, перед тем как отправить запрос к api, выполняет какие то действия. Скрипты пишутся там на js, ничего сложного. Результаты потом отправляются в запрос в переменных.

Получим сначала пару нужных значений: id каталога и oauth-токен.

Первое берется просто из адресной строки браузера

Oauth-токен берется по инструкции на этой странице (вкладка api). Я намеренно не привожу тут ссылку для его получения, чтобы вы использовали только ссылку из официальной документации. Помните, что oauth-токен — это ключ к вашему облаку, распоряжайтесь им бережливо. Кроме того, можно использовать токен для сервисного аккаунта, ему можно дать только нужные права.

Итак, открываем Postman, и заполняем запрос:

Адрес post запроса https://tts.api.cloud.yandex.net/speech/v1/tts:synthesize, тип авторизации Bearer Token, вместо самого токена пишем конструкцию {{token}}.

Заполняем тело запроса:

Тип кодирования x-www-form-urlencoded.
Ключи:
text — {{text}}
lang — ru-RU
speed — 1
voice — oksana (список голосов доступен в документации)
emotion — good (список эмоций доступен в документации)
folderId — id каталога, который вы получили выше
format — mp3 (список форматов доступен в документации)

Ну и на вкладку pre-request script вставляем простой скрипт. Не забудьте вставить ваш oauth-токен.

const postRequest = {
  url: 'https://iam.api.cloud.yandex.net/iam/v1/tokens?yandexPassportOauthToken=<ваш oauth-токен>',
  method: 'POST',
};
pm.sendRequest(postRequest, (error, response) => {
  console.log(error ? error : response.json());
  var tok = response.json();
  console.log(tok['iamToken']);
  pm.collectionVariables.set("token", tok['iamToken']);
});

var text = "\
Это пример текста который надо озвучить. Для переноса строки пользуйтесь обратным слешем.\
";

pm.collectionVariables.set("text", text);

Ну вот собственно и все. Теперь если нажать на кнопку «Send» в нижнюю часть окна загрузится mp3 файл, который можно там же прослушать и сохранить.

Источник

Голосовые технологии становятся неотъемлемой частью цифрового мира, и Yandex SpeechKit — один из популярных инструментов для работы с синтезом и распознаванием речи. Одна из его функций — озвучка текста с помощью знакомого всем голоса Алисы, виртуального помощника Яндекса.

Этот инструмент позволяет превращать текст в естественную, выразительную речь, что делает его подходящим для создания подкастов, аудиокниг, голосовых уведомлений и даже озвучки видео. В этой статье мы разберем, как использовать синтезатор речи для генерации голоса Алисы, какие возможности он предлагает, а также как его интегрировать в свои проекты.

Бесплатный вебинар: как заработать с нуля на нейросетях. Простые шаги, реальные кейсы, старт без опыта. Присоединиться

Yandex SpeechKit — это технология от Яндекса для работы с голосом, включающая синтез и распознавание речи. Этот инструмент позволяет преобразовывать текст в естественно звучащий голос (Text-to-Speech, TTS) и наоборот — превращать аудиозапись или голос в текст (Speech-to-Text, STT).

СпичКит активно используется в чат-ботах, голосовых помощниках, мобильных приложениях, навигаторах, системах автоответов и других сервисах, где требуется взаимодействие с пользователем с помощью голоса. Одна из самых популярных возможностей — синтез речи голосом Алисы, который делает озвучку более живой и реалистичной.

Технология доступна через веб-интерфейс или API, что позволяет разработчикам легко интегрировать ее в свои проекты.

Как озвучить текст голосом Алисы с помощью Yandex SpeechKit

НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025 году

Мы проанализировали рынок и готовы поделиться самой свежей информацией о том, как каждому эффективно взаимодействовать с нейросетями!

ТОП-подарки всем участникам лекции:

ТОП-подарки всем участникам лекции:Открытая лекция РЕГИСТРАЦИЯ пошаговая PDF-инструкция “Как сделать нейрофотосессию из своего фото бесплатно
подборка из 3800+ нейросетей
доступ в бот с безлимитным доступом к ChatGPT

Озвучить текст голосом Алисы с помощью Сервиса синтеза речи Яндекса можно всего за несколько шагов. Этот процесс включает в себя отправку запроса к API или использование готовых инструментов Яндекса для синтеза речи. SpeechKit позволяет задать скорость, интонацию и другие параметры, чтобы голос звучал максимально естественно. Давайте разберем, как именно это сделать.

Шаг 1: регистрация в Yandex Cloud

Прежде чем начать использовать SpeechKit, необходимо зарегистрироваться в Yandex Cloud — облачной платформе Яндекса, где доступны API для синтеза и распознавания речи.

Перейдите на сайт Yandex Cloud и нажмите кнопку «Войти» или «Создать аккаунт», если у вас его еще нет.
Авторизуйтесь с помощью Яндекс ID или зарегистрируйте новый аккаунт.
Создайте облачный аккаунт – для этого необходимо указать платежные данные. При первой регистрации Яндекс предоставляет бесплатный пробный период с бонусным балансом, который можно использовать для тестирования SpeechKit.
Активируйте платежный аккаунт, даже если вы планируете использовать бесплатные лимиты. Без этого доступ к API будет ограничен.

После регистрации вы получите доступ к консоли управления Yandex Cloud, где сможете создать новый проект и настроить использование SpeechKit.

Узнай, как использовать нейросети в жизни и карьере — инструменты, кейсы, пошаговые примеры. Подробнее в курсе

Шаг 2: получение API-ключа

Чтобы начать использовать Yandex SpeechKit, необходимо получить API-ключ, который позволит отправлять запросы к сервису синтеза речи. Для этого выполните следующие шаги:

Перейдите в консоль управления Yandex Cloud по адресу https://console.cloud.yandex.ru/.
Создайте новый каталог (если он еще не создан) – это будет основное пространство для ваших проектов.
Создайте новый сервисный аккаунт:
- В меню слева выберите «Управление доступом» → «Сервисные аккаунты».
- Нажмите «Создать сервисный аккаунт», введите название и нажмите «Создать».
Назначьте роли сервисному аккаунту:
- Откройте созданный сервисный аккаунт и перейдите во вкладку «Роли».
- Добавьте роль editor (редактор) или ai.speechkit-user для работы с SpeechKit.
Создайте API-ключ:
- В разделе «Ключи API» нажмите «Создать новый ключ».
- Выберите «Сервисный аккаунт», укажите созданный ранее аккаунт и нажмите «Создать».
- Сохраните ключ – он будет нужен для отправки запросов к API.

Шаг 3: настройка запроса для синтеза речи

Теперь, когда у вас есть API-ключ, можно настроить запрос для синтеза речи. Важно учесть параметры запроса, такие как текст, язык и голос (в данном случае — Алиса).

Пример HTTP-запроса для синтеза речи:

POST https://tts.api.cloud.yandex.net/speech/v1/tts:synthesize

Content-Type: application/x-www-form-urlencoded

Authorization: Api-Key <ваш_API_ключ>

text=Привет, как дела?&voice=alena&lang=ru-RU&speed=1.0&format=oggopus

Шаг 4: Обработка ответа и сохранение аудиофайла

После отправки запроса сервер вернёт аудиофайл в указанном формате. Его можно сохранить на локальный диск или использовать непосредственно в вашем приложении.

import requests

api_key = '<ваш_API_ключ>'

text = 'Привет, это Алиса. Как я могу помочь вам?'

url = 'https://tts.api.cloud.yandex.net/speech/v1/tts:synthesize'

headers = {

'Authorization': f'Api-Key {api_key}',

}

data = {

'text': text,

'voice': 'alena',

'lang': 'ru-RU',

'format': 'oggopus',

'speed': '1.0',

}

response = requests.post(url, headers=headers, data=data)

if response.status_code == 200:

with open('output.ogg', 'wb') as f:

f.write(response.content)

print('Файл сохранён как output.ogg')

else:

print('Произошла ошибка:', response.text)

Преимущества Yandex SpeechKit

Yandex SpeechKit предоставляет широкие возможности для разработчиков и компаний, желающих интегрировать функции синтеза речи в свои продукты:

Высокое качество озвучивания: голос Алисы звучит естественно, что делает взаимодействие с приложениями более приятным.
Поддержка нескольких языков: помимо русского, Yandex SpeechKit поддерживает несколько других языков, что расширяет его возможности для международных проектов.
Гибкость настроек: сервис позволяет настраивать параметры озвучивания, такие как скорость речи и формат выходного файла.
Интеграция с другими сервисами: Спичкит легко интегрируется с другими продуктами Яндекса, такими как Яндекс.Браузер или Яндекс.Станция.

Yandex SpeechKit — это мощный инструмент для преобразования текста в речь, который предоставляет возможности для разработчиков. Используя голос Алисы, вы можете создать уникальные голосовые интерфейсы, улучшить пользовательский опыт, а также автоматизировать озвучивание контента.

Этот сервис применяется в чат-ботах, голосовых помощниках, навигаторах или других цифровых продуктах, где требуется естественное голосовое взаимодействие. Благодаря этому сервису разработчики могут интегрировать искусственный интеллект (ИИ) в свои приложения, создавая реалистичные голосовые интерфейсы.

Современные нейросети делают синтез речи адаптивным, а голосовые технологии открывают новые возможности для пользователей. Использование SpeechKit в чат-ботах или голосовых ассистентах помогает автоматизировать общение, улучшая доступность цифровых сервисов.

Нейросети для жизни и карьеры в 2025:

как использовать для успеха

Вы узнаете о том:

Как нейросети могут изменить вашу деятельность, от фриланса до управления бизнесом.
Как использовать GPT-агентов, цифровые двойники и другие ИИ-решения.
Важность безопасности в эпоху нейросетей.
Какие нейросети помогут вам и как на них зарабатывать.
10 способов применения ИИ для бизнеса.

Участвовать бесплатно

Как «хакнуть» Python с помощью ChatGPT

и стать «программистом будущего»

Вы узнаете:

Как внедрение ИИ в бизнес-процессы помогает улучшить финансовые результаты компаний в 2025 году.
Мы асскажем, кто такой промпт-инжинер, чем он занимается и какие результаты можно ожидать от его работы.
Также обсудим, где найти промт-инжинера, сколько стоят его услуги в России и за рубежем, и кто может стать промпт-инженером.

Участвовать бесплатно

Нейросети для жизни и карьеры в 2025:

как использовать для успеха

Вы узнаете о том:

Как нейросети могут изменить вашу деятельность, от фриланса до управления бизнесом.
Как использовать GPT-агентов, цифровые двойники и другие ИИ-решения.
Важность безопасности в эпоху нейросетей.
Какие нейросети помогут вам и как на них зарабатывать.
10 способов применения ИИ для бизнеса.

Участвовать бесплатно

Как «хакнуть» Python с помощью ChatGPT

и стать «программистом будущего»

Вы узнаете:

Как внедрение ИИ в бизнес-процессы помогает улучшить финансовые результаты компаний в 2025 году.
Мы асскажем, кто такой промпт-инжинер, чем он занимается и какие результаты можно ожидать от его работы.
Также обсудим, где найти промт-инжинера, сколько стоят его услуги в России и за рубежем, и кто может стать промпт-инженером.

Участвовать бесплатно

Источник

Что такое Yandex SpeechKit?

Yandex SpeechKit — это набор технологий и инструментов от компании Яндекс, предназначенных для обработки речи.

На IIPanel вы можете использовать Yandex SpeechKit для синтеза речи, т.е. преобразовывать текст в устную речь. Эта функция позволяет создавать голосовые уведомления, озвучивать текстовые сообщения и использовать в приложениях, где необходимо общение с пользователем через голос.

Получившиеся mp3 файлы можно использовать для :

Озвучки видеороликов на Youtube, Tiktok и других соц. сетях.
Озвучивать книги.
Делать подкасты.
Озвучивать приложения и игры.
Делать шутливые речи для друзей.
И других целей.

Источник