Как расшифровать аудио и видео бесплатно
Устанавливаем Whisper на компьютер: без навыков программирования и танцев с бубнами
Whisper — это модель преобразования речи в текст от OpenAI, которую можно использовать для бесплатного транскрибирования аудио- и видеофайлов. Поддерживает 99 языков.
Навыки программирования не потребуются. Инструкция подойдет для пользователей ОС Windows (тестировал на Windows 10).
Немного теории. За качество расшифровки отвечает модель распознавания. У Whisper их всего пять: tiny, base, small, medium и large. Чем «больше» модель распознавания, тем качественнее будет расшифровка.
В этой таблице указаны требования к производительности вашего компьютера. Больше всего нас интересуют значения VRAM. Запомните их.
Чтобы узнать VRAM на вашем компьютере, выполните следующие действия:
1. Откройте рабочий стол.
2. Нажмите на любую пустую область рабочего стола правой кнопкой мыши.
3. Во всплывающем меню нажмите «Параметры экрана»
4. В разделе «Дисплей» (он откроется сразу) прокрутите вниз и нажмите «Дополнительные параметры дисплея»
5. Нажмите на кнопку «Свойства видеоадаптера для дисплея 1»
В новом окне появятся свойства видеокарты. Мы искали значение «Используется видеопамяти».
Теперь, понимая возможности компьютера, выбираем подходящую модель:
1. base (~1000MB VRAM): Скачать
2. small (~2000MB VRAM): Скачать
3. medium (~4000-5000MB VRAM): Скачать
4. large (~10000MB VRAM): Скачать
Выбранную модель нам нужно будет загрузить в программу, которая называется Whisper Dekstop: Скачать
Распаковываем ZIP-архив и открываем программу через WhisperDekstop.exe
Откройте программу, нажмите на «…» и выберите скачанную ранее модель распознавания. Нажмите OK, и программа подгрузит нашу модель. На это потребуется некоторое время.
Выберите язык (Language) и файл, который хотите расшифровать (Transcribe File).
Поддерживаемые форматы: M4A, MP3, MP4, MPEG, MPGA, WAV и WEBM.
Далее выбираем текстовый документ, куда будет сохраняться расшифровка (Output Format).
Подсказка:
1. Text file — обычная расшифровка
2. Text with timestamps — расшифровка с тайм-кодами [00:00:00]
Теперь нам нужно выбрать или создать новый текстовый документ в формате .txt. Нажмите на нижнюю кнопку «…». В появившемся окне нажмите на любую пустую область, выберите «Создать» и «Текстовый документ». Задайте имя файла и нажмите «Открыть»
Когда всё готово, нажимаем Transcribe и ждем окончания расшифровки.
Если вы сделали всё правильно, у вас начнётся процесс расшифровки файла.
На расшифровку файла длительностью 100 минут с использованием модели medium у меня ушло 28 минут. Чем тяжелее модель, тем больше времени потребуется на расшифровку.
Можно говорить в микрофон и параллельно превращать голос в текст. В меню с выбором файла для расшифровки нажмите на кнопку Audio Capture. Выберите язык (Language) и микрофон (Capture device).
Если микрофон не подключен, список будет пустым.
Нажмите на кнопку Capture и начинайте говорить. По окончании нажимаем Stop и получаем готовую расшифровку
Whisper довольно неплохо справляется с расшифровкой одного голоса, но не умеет делить спикеров по ролям. Иногда в тексте могут быть ошибки, потому что нейросеть не вникает в контекст, как это сделал бы человек. Со сложной записью, шумами на улице и музыкой на фоне нейросеть справится так себе.
Эта инструкция размещена в моем боте @NeuroNavigator_bot. В нём я сохраняю обучающие материалы по работе с нейросетями, промты для генерации текстов и изображений, обзоры на полезные сервисы и многое другое. Буду рад обратной связи.
На этом всё. Если статья помогла, ставьте лайк, класс, сердечко или что угодно еще.
This guide can also be found at Whisper Full (& Offline) Install Process for Windows 10/11
Whisper Full (& Offline) Install Process for Windows 10/11
Purpose: These instructions cover the steps not explicitly set out on the main Whisper page, e.g. for those who have never used python code/apps before and do not have the prerequisite software already installed.
Requirements:
- Full admin rights on your computer.
- A PC with a CUDA-capable dedicated GPU with at least 4GB of VRAM (but more VRAM is better). See: Available models and languages
- For online installation: An Internet connection for the initial download and setup.
- For offline installation: Download on another computer and then install manually using the «OPTIONAL/OFFLINE» instructions below.
Installation
Step 1: Unlisted Pre-Requisites
- Before you can run whisper you must download and install the follopwing items. (For offline installation just download the files on another machine and move them to your offline machine to install them.)
- NVIDIA CUDA drivers: https://developer.nvidia.com/cuda-downloads
- Python 3.9 or 3.10 (x64 version) from https://www.python.org/ (Whisper claims to run with >3.7 but as of 2023-01-18 some dependencies require >3.7 but <3.11).
- FFMPEG
- To install via Scoop (https://scoop.sh/), in powershell run
- Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
- irm get.scoop.sh | iex
- scoop install ffmpeg
- OPTIONAL/OFFLINE: Follow instructions here: How to install and use FFMPEG and make sure not to skip the part about adding FFMPEG to the Windows PATH variable.
- To install via Scoop (https://scoop.sh/), in powershell run
- Git for windows from https://gitforwindows.org/
- Reboot after installing these items.
Step 2B: Whipser Install (Online Install for Online Use)
- Open a command prompt and type this command:
pip install git+https://github.com/openai/whisper.git
- You may now use Whisper online and no further steps are required.
Step 2B: Whipser Install (Online Install for later Offline Use)
- Open a command prompt and type these commands:
pip install git+https://github.com/openai/whisper.git
pip install blobfile
- Continue to Step 3: Download Other Required Files
Step 2C: Whipser Install (Offline Install for later Offline Use)
- Option 1: Get the most up to date version of Whisper:
- Install Python and Git from Step 1 on an second computer you can connect to the internet and reboot to ensure both are working.
- On the ONLINE machine open a command prompt in any empty folder and type the following commands:
pip download git+https://github.com/openai/whisper.git
pip download blobfile
- Option 2: Download all the necessary files from here OPENAI-Whisper-20230314 Offline Install Package
- Copy the files to your OFFLINE machine and open a command prompt in that folder where you put the files, and run
pip install openai-whisper-20230314.zip
(note the date may have changed if you used Option 1 above).pip install blobfile-2.0.2-py3-none-any.whl
. (note the version may have changed if you used Option 1 above).
- Continue to Step 3: Download Other Required Files
Step 3: Download Other Required Files (for Offline Use)
- Download Whisper’s Language Model files place them in
C:\Users[Username]\.cache\whisper
Note: If the links are dead updated links can be found at lines 17-27 here: init.py- Tiny.En
- Tiny
- Base.En
- Base
- Small.En
- Small
- Medium.En
- Medium
- Large-v1
- Large-v2 (Annoucing the large-v2 model)
- Download Whisper’s vocabulary and encoder files. (Per issue 1399).
- Download Vocab.bpe
- Download Encoder.json
- Install the files to a folder of your choosing, e.g.
C:\Users[Username]\.cache\whisper
. - Update file links in your local copy of openai_public.py which will be installed in your python folder e.g.
C:\Users[UserName]\AppData\Local\Programs\Python\Python310-32\Lib\site-packagespython3.9/site-packages/tiktoken_ext/openai_public.py
to point to where you downloaded the files.- Remove the URL
"https://openaipublic.blob.core.windows.net/gpt-2/encodings/main/"
and replace it with your local copy, e.g."C:/Users/[Username]/.cache/whisper/vocab.bpe"
and"C:/Users/[Username]/.cache/whisper/encoder.json"
- Remove the URL
def gpt2(): mergeable_ranks = data_gym_to_mergeable_bpe_ranks( vocab_bpe_file="C:/Users/nic/.cache/whisper/vocab.bpe", encoder_json_file="C:/Users/nic/.cache/whisper/encoder.json", )
Alternative Offline Method
See the pre-compiled .exe version of Whisper provided here: Purfview / Whisper Standalone
🧠 Установка и использование Whisper от OpenAI (на Windows)
Whisper — это мощная нейросеть от OpenAI для распознавания речи из аудиофайлов. Работает офлайн, поддерживает множество языков, включая русский, и не требует интернета после установки.
Содержание
-
🧠 Установка и использование Whisper от OpenAI (на Windows)
- 🚀 Что делает Whisper?
-
📥 Установка Whisper на Windows
- 1. Установите Python (если ещё не установлен)
- 2. Установите FFmpeg
- 3. Установите Whisper
- 4. (Опционально) Установка PyTorch с поддержкой GPU (CUDA)
- 🧠 Как работает Whisper
- 🗂️ Где хранятся модели Whisper?
- 🧬 Доступные модели
-
📂 Примеры использования
- Распознавание аудио с моделью small и языком Russian:
- Распознавание всех файлов в папке (батник):
- 🧩 Дополнительные параметры
- ❗ Возможные ошибки и решения
- 🧠 Заключение
- Распознаёт речь из
.mp3
,.wav
,.m4a
и других форматов - Работает полностью локально (без отправки данных в облако)
- Поддерживает множество языков (включая русский, английский, китайский и др.)
- Может использовать видеокарту (GPU) для ускорения, если установлена
📥 Установка Whisper на Windows
1. Установите Python (если ещё не установлен)
- Скачайте Python 3.10–3.12 отсюда: https://www.python.org/downloads/windows/
- При установке обязательно поставьте галочку «Add Python to PATH»
2. Установите FFmpeg
Следуйте этой инструкции, чтобы FFmpeg работал из любой папки — он нужен для обработки аудио.
3. Установите Whisper
Откройте командную строку и выполните:
pip install git+https://github.com/openai/whisper.git
📦 Whisper автоматически загрузит нужные файлы при первом запуске — убедитесь, что интернет был доступен хотя бы один раз.
4. (Опционально) Установка PyTorch с поддержкой GPU (CUDA)
Если у вас видеокарта Nvidia (например, RTX 3050), вы можете ускорить работу модели:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Затем проверьте, что всё работает:
import torch
print(torch.cuda.is_available()) # → должно быть True
🧠 Как работает Whisper
Whisper использует глубокую нейросеть, обученную на огромном количестве аудио, для преобразования звука в текст.
Она преобразует аудио в спектрограмму и предсказывает слова на основе акустического сигнала.
🗂️ Где хранятся модели Whisper?
Когда вы запускаете Whisper с выбранной моделью впервые, она автоматически скачивается и сохраняется в папку:
C:\Users\<ваше_имя>\.cache\whisper\
Вы можете предварительно скачать их вручную, если работаете офлайн.
🧬 Доступные модели
Название | Размер | Скорость | Точность | Примечание |
---|---|---|---|---|
tiny |
~75 МБ | 🔥 Очень быстро | 🟠 Базовая | Подходит для черновика |
base |
~140 МБ | ⚡ Быстро | 🟡 Лучше | Лучше понимает речь |
small |
~460 МБ | 🆗 Средне | 🟢 Хорошая | Рекомендуется на CPU |
medium |
~1.5 ГБ | 🐢 Медленно | 🔵 Отличная | Хороша с GPU (CUDA) |
large |
~2.9 ГБ | 🐌 Очень медленно | 🟣 Максимум | Только с мощной видеокартой |
Выбор зависит от баланса скорость ↔ точность.
📂 Примеры использования
Распознавание аудио с моделью small
и языком Russian
:
whisper "audio.mp3" --model small --language Russian --output_format txt
Whisper создаст .txt
, .srt
и .vtt
файлы с расшифровкой в той же папке.
Распознавание всех файлов в папке (батник):
@echo off
for %%f in (*.mp3 *.wav *.m4a) do (
whisper "%%f" --model small --language Russian --output_format txt
)
pause
Сохрани как расшифровать_всё.bat
и помести рядом с файлами — скрипт обработает всё сразу.
🧩 Дополнительные параметры
--task translate
— перевести речь на английский--output_format srt
— сохранить в формате субтитров.srt
--temperature 0.0
— делает модель менее «фантазийной»--fp16 False
— отключить ускорение через half precision (важно, если возникают ошибки)
❗ Возможные ошибки и решения
Ошибка | Причина | Решение |
---|---|---|
ffmpeg not found |
FFmpeg не установлен или не в PATH | Установите FFmpeg |
RuntimeError: CUDA not available |
GPU не используется | Проверьте, что PyTorch установлен с CUDA |
ModuleNotFoundError |
Whisper не установлен | Установите с помощью pip install git+... |
🧠 Заключение
Whisper — это мощный инструмент, который превращает ваш ПК в офлайн-сервис по распознаванию речи. Его можно использовать:
- для расшифровки интервью и подкастов
- в научных, журналистских и бизнес-проектах
- для генерации субтитров и перевода аудио
С Whisper ваш компьютер начнёт понимать речь — без облаков, подписок и слежки.
Содержание страницы
Нейросетью от OpenAI, которая максимально точно расшифровывет аудио или видео запись и переводит ее в текст. Эту модель выпустили в сентябре 2022 года, но самое главное — у нее открытый код.
Нейросеть обучали на 680 тысячах часов аудио с разными языками, акцентами и даже фоновым шумом. По этому она понимает термины любой сложности, акценты или запись в шумном месте.
А ещё Whisper — бесплатный, что не принято в семье OpenAI. В отличие от ChatGPT, который доступен через подписку, эту модель можно свободно использовать, модернизировать и встраивать в свои проекты. Мы уже разобрались, как работать с ней — делимся инструкцией.
Давайте разберемся, как работает Whisper. Представьте: модель делит аудио на 30-секундные кусочки и превращает их в «график» звука — что-то вроде визуальной карты речи. Это помогает ей анализировать данные.
А дальше — самое крутое. Система не просто печатает услышанное. Она сама определяет, на каком языке вы говорите, отмечает начало и конец фраз (будто ставит маркеры в аудио), а еще может моментально перевести речь на английский. И всё это — в одном инструменте! Никаких отдельных настроек для каждой задачи. Просто загружаете запись — Whisper делает остальное.
У Whisper есть пять вариантов точности — от самого компактного (tiny) до самого вместительного (large).
Чем «крупнее» модель, тем детальнее она анализирует аудио. Например, large справится с шумной записью лекции или сложным акцентом, а tiny подойдёт для быстрой расшифровки чёткой речи. Но есть нюанс: большие модели требуют больше времени и мощности.
Зачем нужен whisper transcription?
Представьте себе, вы копирайтер, нашли классное видео по теме, но сидеть и перепечатывать текст с нуля очень долго. Рерайтить через ChatGPT? То же время. А если нужно быстро превратить час лекции или интервью в статью?
Решение проще, чем кажется:
- Устанавливаете Whisper на компьютер (это займёт пару минут).
- Загружаете видео или аудио — нейросеть за 5-10 минут выдаст готовый текст.
- Редактируете: убираете повторы, добавляете структуру (можно через тот же ChatGPT).
- Вставляете скриншоты, фото — и статья готова к публикации.
Важный нюанс: для скорости нужен мощный компьютер. Идеально — видеокарта Nvidia RTX с 10 ГБ памяти (или аналоги). Но если такой нет — не страшно. Whisper работает и на процессоре, просто чуть медленнее. А ещё есть облачные сервисы с похожим функционалом — о них расскажем ниже.
Давайте разберемся, что понадобится для старта. Чтобы Whisper заработал, нужно подготовить «фундамент» — как собрать простой конструктор.
Шаг 1: Ставим Python
Представьте, что Python — это «мотор» для всех операций. Без него ничего не запустится. Качаем одну из этих версий:
- 3.11.4
- 3.10.11
Ссылка: python
Выбирайте любую — обе подойдут.
Главное — не пропустите галочку «Добавить Python в PATH» при установке. Это как дать системе понять, где искать команды.
После установки сделайте простой тест — как проверить, работает ли новый инструмент.
- Откройте командную строку:
- Нажмите Win + R → введите cmd → Enter.
- Или просто начните печатать «CMD» в поиске Windows — найдет сразу.
Введите команду: python —version. Если всё хорошо, система покажет версию Python — например, «3.11.4».
Зачем это нужно? Чтобы убедиться, что компьютер «видит» Python. Иногда после установки система не распознаёт его автоматически — тогда придётся повозиться с настройками. Но если версия отображается — можно выдохнуть и двигаться дальше.
Следующий шаг — установка PyTorch
PyTorch — это набор инструментов, без которого Whisper не запустится. Но тут есть нюанс: команда для установки зависит от вашей видеокарты.
Ссылка: PyTorch
Для NVIDIA (самый простой путь):
- Если у вас драйверы обновлены, а видеокарта относительно новая (например, RTX 30xx/40xx), вводите в консоль:
pip3 install torch torchvision torchaudio —index-url https://download.pytorch.org/whl/cu121
Это версия для современных GPU.
- Если видеокарта старше (например, GTX 10xx) или возникают ошибки, попробуйте:
pip3 install torch torchvision torchaudio —index-url https://download.pytorch.org/whl/cu118
Для AMD или если нет видеокарты:
Выберите вариант для процессора (CPU):
pip3 install torch torchvision torchaudio
Как понять, что подходит вам?
- Не уверены → начинайте с CPU-версии.
- Если Whisper будет работать медленно — позже можно переустановить под GPU.
Если не удалось запустить установку, можно поменять «pip3» на «python -m pip».
Скачиваем FFmpeg
Whisper — это эксперт по расшифровке, но он не умеет открывать файлы «напрямую». Тут на помощь приходит FFmpeg — инструмент, который превратит любой формат (MP4, MKV, FLAC и даже редкие) в удобный для работы «язык».
Как его поставить?
- Скачайте FFmpeg с официального GitHub:
→ Перейдите по ссылке.
→ Выберите файл ffmpeg-master-latest-win64-gpl.zip — как самый универсальный вариант. - Распакуйте архив в удобную папку (например, C:\FFmpeg).
- Добавьте FFmpeg в системный PATH — так вы объясните Windows, где искать программу.
→ Нажмите Win + S → начните вводить «Система» → выберите Настройка представления и производительности системы → вкладка Дополнительно → Переменные среды → в разделе «Системные переменные» найдите Path → Изменить → Создать → укажите путь к папке bin внутри распакованного FFmpeg (например, C:\FFmpeg\bin).
Зачем это нужно? Без FFmpeg Whisper не сможет обработать 90% аудио и видео.
Совет: Если не хотите возиться с PATH, просто копируйте файлы в формате WAV или MP3 — их Whisper понимает без FFmpeg.
Ставим Git
Git — доставляет обновления и компоненты для программ. Без него некоторые инструменты Whisper не установятся. Но пусть название вас не пугает — ставится он в пару кликов.
Как установить:
- Зайдите на официальный сайт Git → нажмите «Downloads» → скачайте версию для Windows (сайт сам предложит нужный файл).
- Запустите установщик → везде жмите «Next», кроме одного места:
— В окне Adjusting your PATH environment выберите:
«Git from the command line and also from 3rd-party software» (это важно, чтобы Git работал с консолью).
Теперь добавим пути к Git в систему:
Иногда после установки нужно «познакомить» Python с Git. Делается это через настройки:
- Найдите папку Git:
— Обычно она лежит в C:\Program Files\Git.
— Внутри будут две важные папки: bin и cmd (как «ключи» для доступа). - Добавьте их в переменные среды:
— Нажмите Win + S → введите «Система» → выберите «Настройка представления…» → «Дополнительно» → «Переменные среды».
— В списке «Системные переменные» найдите Path → «Изменить» → «Создать».
— Вставьте два пути:
C:\Program Files\Git\bin
C:\Program Files\Git\cmd
— Сохраните изменения.
Проверяем, всё ли работает:
- Откройте командную строку (Win + R → cmd → Enter).
- Введите: git —version
Если увидите что-то вроде git version 2.40.0 — поздравляем! Git готов к работе.
Теперь переходим к самому интересному — установке «мозга» системы — Whisper. Не нужно ничего качать вручную с GitHub. Всё проще!
Откройте командную строку (Win + R → cmd → Enter).
Введите одну из этих команд: pip install -U openai-whisper
Или, если первая не сработала: python -m pip install -U openai-whisper
Нажмите Enter — система сама скачает и установит Whisper.
Что происходит?
Представьте, что вы заказываете пиццу: говорите «хочу Whisper» → курьер (pip) привозит его прямо к вам в консоль.
Проверяем установку:
Введите в консоль:whisper —help
Если увидите список команд и параметров — всё в порядке.
А если не работает?
— Убедитесь, что Python добавлен в PATH (мы это проверяли раньше).
— Попробуйте перезапустить консоль.
Важно! Не путайте команды. Разработчики специально сделали установку в одну строку — чтобы не копаться в GitHub. Их шутка про «просто введите pip install» — это намёк на то, как всё должно быть легко.
Как использовать whisper transcription?
Подготовьте файл:
Скачайте видео с YouTube (например, через yt-dlp) и сохраните его в отдельную папку. Назовите файл просто — например, обзор_ноутбука.mp4.
Откройте консоль прямо в папке с видео:
- Зайдите в папку → кликните на путь в верхней строке проводника → удалите текст → введите cmd → Enter.
- Или: удерживайте Shift + правой кнопкой мыши в папке → «Открыть в терминале».
Запустите Whisper с нужной моделью:
Введите в консоль:
whisper обзор_ноутбука.mp4 —model large
Что это даёт?
- large — максимальная точность: расставит пунктуацию, распознает термины и акценты.
- medium — компромисс: быстрее, но может пропустить нюансы.
Через 5-30 минут (зависит от длины видео) в папке появятся:
- .txt — чистый текст.
- .srt — субтитры с тайм-кодами (удобно для монтажа).
Лайфхак:
- Для интервью или лекций используйте large — она лучше справляется с паузами и шумами.
- Если Whisper «не видит» файл, проверьте:
- Название файла в команде совпадает с исходным.
- Видео не в формате MKV (конвертируйте в MP4 через HandBrake).
- Чтобы ускорить обработку, закройте браузер и тяжёлые приложения.
Пример результата:
После обработки ролика про ноутбук вы получите текст вида:
FAQ
Как установить Whisper на Windows?
Требования:
ОС: Windows 10/11.
Железо:
Для скорости: видеокарта NVIDIA (от RTX 2060) или аналог с 10+ ГБ VRAM.
Минимум: 4-ядерный процессор и 8 ГБ ОЗУ (но обработка займёт больше времени).
Почему Whisper не видит мой файл?
Формат не поддерживается → конвертируйте в MP4/WAV через HandBrake.
Ошибка в названии файла → убедитесь, что в команде указано точное название (регистр символов важен!).
FFmpeg не добавлен в PATH → используйте файлы MP3/WAV или настройте PATH.
Можно ли использовать Whisper без программирования?
Да! Достаточно базовых команд в консоли. Если не хотите разбираться с установкой — пробуйте облачные аналоги (например, AssemblyAI), но они платные.
Как ускорить обработку в open ai whisper?
Для NVIDIA:
Обновите драйверы видеокарты.
Используйте команду —device cuda в конце запроса (пример: whisper file.mp4 —model large —device cuda).
Больше инструкций, реальных кейсов и примеров из практики по AI для бизнеса, работы и жизни в Telegram-канале, подпишитесь!
Introducing Whisper
What’s Whisper?
OpenAI Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multitasking model that can perform multilingual speech recognition, speech translation, and language identification.
Whisper is a series of pre-trained models for automatic speech recognition (ASR), which was released in September 2022 by Alec Radford and others from OpenAI. Whisper is pre-trained on large amounts of annotated audio transcription data. The annotated audio duration used for training is as high as 680,000 hours, so it shows comparable performance to the most advanced ASR systems.
Available models and languages
There are five model sizes, four with English-only versions, offering speed and accuracy tradeoffs. Below are the names of the available models and their approximate memory requirements and inference speed relative to the large model; actual speed may vary depending on many factors including the available hardware.
In December 2022, OpenAI released an improved large model named large-v2, and large-v3 in November 2023.
System Requirements
GPU support requires a CUDA®-enabled card, 4GB+ VRAM
This guide uses the Advanced GPU — V100 Plan on GPUMart, which is equipped with a dedicated NVIDIA V100 graphics card with 16GB HBM2 GPU Memory and can easily run the latest large-v3 multi-language model. Since Whisper has many dependencies to run, the process of installing whisper is a bit long but simple. It mainly consists of the following 5 steps.
Step 1 — Install Git
Click here (https://git-scm.com/download/win) to download the latest 64-bit version of Git for Windows, then right click on the downloaded file and run the installer as administrator.
Step 2 — Install Miniconda3 and create Python 3.10 Environment
Miniconda is a minimal installer provided by Anaconda. Please download the latest Miniconda installer (https://docs.anaconda.com/free/miniconda/) and complete the installation.
Whisper requires Python3.8+. You’ll need Python 3.8-3.11 and recent versions of PyTorch on your machine. Let’s set up a virtual environment with conda if you want to isolate these experiments from other work.
> conda create -n Whisper python=3.10.11 > conda activate Whisper
Step 3 — Install PyTorch Stable(2.3.0) with CUDA 12.1 support
Whisper requires a recent version of PyTorch (we used PyTorch 1.12.1 without issues).
> conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
Step 4 — Install Chocolatey and ffmpeg
Open a PowerShell terminal and from the PS C:\> prompt, run the following command:
> Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
If you don’t see any errors, you are ready to use Chocolatey! Whisper also requires FFmpeg, an audio-processing library. If FFmpeg is not already installed on your machine, use one of the below commands to install it.
Step 5 — Install Whisper
Pull and install the latest commit from this repository, along with its Python dependencies:
> pip install git+https://github.com/openai/whisper.git
How to Use Whisper for Speech-to-text Transcription
Command-line usage
The following command will transcribe speech in audio files, using the medium model:
> whisper audio.wav --model medium
The default setting (which selects the small model) works well for transcribing English. To transcribe an audio file containing non-English speech, you can specify the language using the —language option:
> whisper chinese.mp3 --language Chinese
Adding —task translate will translate the speech into English:
> whisper chinese.mp3 --language Chinese --task translate
Specify the output format and path:
> whisper Arthur.mp3 --model large-v3 --output_format txt --output_dir .\output
To learn more about usage, please see the help:
Python usage
Transcription can also be performed within Python:
import whisper model = whisper.load_model("base") result = model.transcribe("audio.mp3") print(result["text"])
JupyterLab usage
If you have not installed JupyterLab, please install it first, and then start it. The reference command line is as follows.
(Whisper) PS > conda install -c conda-forge jupyterlab (Whisper) PS > jupyter lab
Conclusion
In this tutorial, we cover the basics of getting started with Whisper AI on Windows. Whisper AI provides a powerful and intuitive speech recognition solution for Windows users. By following the steps outlined in this guide, you can easily install and utilize Whisper AI on your Windows operating system. Experience the convenience and efficiency of speech recognition technology as you embrace a hands-free approach to various tasks.
Additional — GPU Servers Suitable for Running Whisper AI
Please choose the appropriate GPU server based on the maximum model size you need to use. The medium model requires 5G of VRAM, and the large model requires 10GB of VRAM.
Express GPU Dedicated Server — P1000
$ 64.00/mo
1mo3mo12mo24mo
Order Now
- 32GB RAM
- Eight-Core Xeon E5-2690
- 120GB + 960GB SSD
- 100Mbps-1Gbps
- OS: Windows / Linux
- GPU: Nvidia Quadro P1000
- Microarchitecture: Pascal
- CUDA Cores: 640
- GPU Memory: 4GB GDDR5
- FP32 Performance: 1.894 TFLOPS
Flash Sale to May 6
Basic GPU Dedicated Server — GTX 1650
$ 79.20/mo
34% OFF Recurring (Was $119.00)
1mo3mo12mo24mo
Order Now
- 64GB RAM
- Eight-Core Xeon E5-2667v3
- 120GB + 960GB SSD
- 100Mbps-1Gbps
- OS: Windows / Linux
- GPU: Nvidia GeForce GTX 1650
- Microarchitecture: Turing
- CUDA Cores: 896
- GPU Memory: 4GB GDDR5
- FP32 Performance: 3.0 TFLOPS
Basic GPU Dedicated Server — GTX 1660
$ 139.00/mo
1mo3mo12mo24mo
Order Now
- 64GB RAM
- Dual 10-Core Xeon E5-2660v2
- 120GB + 960GB SSD
- 100Mbps-1Gbps
- OS: Windows / Linux
- GPU: Nvidia GeForce GTX 1660
- Microarchitecture: Turing
- CUDA Cores: 1408
- GPU Memory: 6GB GDDR6
- FP32 Performance: 5.0 TFLOPS
Professional GPU Dedicated Server — RTX 2060
$ 199.00/mo
1mo3mo12mo24mo
Order Now
- 128GB RAM
- Dual 10-Core E5-2660v2
- 120GB + 960GB SSD
- 100Mbps-1Gbps
- OS: Windows / Linux
- GPU: Nvidia GeForce RTX 2060
- Microarchitecture: Ampere
- CUDA Cores: 1920
- Tensor Cores: 240
- GPU Memory: 6GB GDDR6
- FP32 Performance: 6.5 TFLOPS
- Powerful for Gaming, OBS Streaming, Video Editing, Android Emulators, 3D Rendering, etc
Basic GPU Dedicated Server — RTX 4060
$ 149.00/mo
1mo3mo12mo24mo
Order Now
- 64GB RAM
- Eight-Core E5-2690
- 120GB SSD + 960GB SSD
- 100Mbps-1Gbps
- OS: Windows / Linux
- GPU: Nvidia GeForce RTX 4060
- Microarchitecture: Ada Lovelace
- CUDA Cores: 3072
- Tensor Cores: 96
- GPU Memory: 8GB GDDR6
- FP32 Performance: 15.11 TFLOPS
- Ideal for video edting, rendering, android emulators, gaming and light AI tasks.
Flash Sale to May 6
Advanced GPU Dedicated Server — RTX 3060 Ti
$ 116.35/mo
51% OFF Recurring (Was $239.00)
1mo3mo12mo24mo
Order Now
- 128GB RAM
- Dual 12-Core E5-2697v2
- 240GB SSD + 2TB SSD
- 100Mbps-1Gbps
- OS: Windows / Linux
- GPU: GeForce RTX 3060 Ti
- Microarchitecture: Ampere
- CUDA Cores: 4864
- Tensor Cores: 152
- GPU Memory: 8GB GDDR6
- FP32 Performance: 16.2 TFLOPS
Flash Sale to May 6
Advanced GPU Dedicated Server — A4000
$ 139.50/mo
50% OFF Recurring (Was $279.00)
1mo3mo12mo24mo
Order Now
- 128GB RAM
- Dual 12-Core E5-2697v2
- 240GB SSD + 2TB SSD
- 100Mbps-1Gbps
- OS: Windows / Linux
- GPU: Nvidia Quadro RTX A4000
- Microarchitecture: Ampere
- CUDA Cores: 6144
- Tensor Cores: 192
- GPU Memory: 16GB GDDR6
- FP32 Performance: 19.2 TFLOPS
- Good choice for hosting AI image generator, BIM, 3D rendering, CAD, deep learning, etc.
Flash Sale to May 6
Advanced GPU Dedicated Server — V100
$ 149.50/mo
50% OFF Recurring (Was $299.00)
1mo3mo12mo24mo
Order Now
- 128GB RAM
- Dual 12-Core E5-2690v3
- 240GB SSD + 2TB SSD
- 100Mbps-1Gbps
- OS: Windows / Linux
- GPU: Nvidia V100
- Microarchitecture: Volta
- CUDA Cores: 5,120
- Tensor Cores: 640
- GPU Memory: 16GB HBM2
- FP32 Performance: 14 TFLOPS
- Cost-effective for AI, deep learning, data visualization, HPC, etc
If you do not find a suitable GPU server plan, please leave us a message.