Установка whisper на windows

Как расшифровать аудио и видео бесплатно

Устанавливаем Whisper на компьютер: без навыков программирования и танцев с бубнами

Whisper — это модель преобразования речи в текст от OpenAI, которую можно использовать для бесплатного транскрибирования аудио- и видеофайлов. Поддерживает 99 языков.

Навыки программирования не потребуются. Инструкция подойдет для пользователей ОС Windows (тестировал на Windows 10).

Немного теории. За качество расшифровки отвечает модель распознавания. У Whisper их всего пять: tiny, base, small, medium и large. Чем «больше» модель распознавания, тем качественнее будет расшифровка.

В этой таблице указаны требования к производительности вашего компьютера. Больше всего нас интересуют значения VRAM. Запомните их.

Чтобы узнать VRAM на вашем компьютере, выполните следующие действия:

1. Откройте рабочий стол.

2. Нажмите на любую пустую область рабочего стола правой кнопкой мыши.

3. Во всплывающем меню нажмите «Параметры экрана»

4. В разделе «Дисплей» (он откроется сразу) прокрутите вниз и нажмите «Дополнительные параметры дисплея»

5. Нажмите на кнопку «Свойства видеоадаптера для дисплея 1»

В новом окне появятся свойства видеокарты. Мы искали значение «Используется видеопамяти».

Теперь, понимая возможности компьютера, выбираем подходящую модель:

1. base (~1000MB VRAM): Скачать

2. small (~2000MB VRAM): Скачать

3. medium (~4000-5000MB VRAM): Скачать

4. large (~10000MB VRAM): Скачать

Выбранную модель нам нужно будет загрузить в программу, которая называется Whisper Dekstop: Скачать

Распаковываем ZIP-архив и открываем программу через WhisperDekstop.exe

Откройте программу, нажмите на «…» и выберите скачанную ранее модель распознавания. Нажмите OK, и программа подгрузит нашу модель. На это потребуется некоторое время.

Выберите язык (Language) и файл, который хотите расшифровать (Transcribe File).

Поддерживаемые форматы: M4A, MP3, MP4, MPEG, MPGA, WAV и WEBM.

Далее выбираем текстовый документ, куда будет сохраняться расшифровка (Output Format).

Подсказка:

1. Text file — обычная расшифровка
2. Text with timestamps — расшифровка с тайм-кодами [00:00:00]

Теперь нам нужно выбрать или создать новый текстовый документ в формате .txt. Нажмите на нижнюю кнопку «…». В появившемся окне нажмите на любую пустую область, выберите «Создать» и «Текстовый документ». Задайте имя файла и нажмите «Открыть»

Когда всё готово, нажимаем Transcribe и ждем окончания расшифровки.

Если вы сделали всё правильно, у вас начнётся процесс расшифровки файла.

На расшифровку файла длительностью 100 минут с использованием модели medium у меня ушло 28 минут. Чем тяжелее модель, тем больше времени потребуется на расшифровку.

Можно говорить в микрофон и параллельно превращать голос в текст. В меню с выбором файла для расшифровки нажмите на кнопку Audio Capture. Выберите язык (Language) и микрофон (Capture device).

Если микрофон не подключен, список будет пустым.

Нажмите на кнопку Capture и начинайте говорить. По окончании нажимаем Stop и получаем готовую расшифровку

Whisper довольно неплохо справляется с расшифровкой одного голоса, но не умеет делить спикеров по ролям. Иногда в тексте могут быть ошибки, потому что нейросеть не вникает в контекст, как это сделал бы человек. Со сложной записью, шумами на улице и музыкой на фоне нейросеть справится так себе.

Эта инструкция размещена в моем боте @NeuroNavigator_bot. В нём я сохраняю обучающие материалы по работе с нейросетями, промты для генерации текстов и изображений, обзоры на полезные сервисы и многое другое. Буду рад обратной связи.

На этом всё. Если статья помогла, ставьте лайк, класс, сердечко или что угодно еще.

This guide can also be found at Whisper Full (& Offline) Install Process for Windows 10/11

Whisper Full (& Offline) Install Process for Windows 10/11

Purpose: These instructions cover the steps not explicitly set out on the main Whisper page, e.g. for those who have never used python code/apps before and do not have the prerequisite software already installed.

Requirements:

  • Full admin rights on your computer.
  • A PC with a CUDA-capable dedicated GPU with at least 4GB of VRAM (but more VRAM is better). See: Available models and languages
  • For online installation: An Internet connection for the initial download and setup.
  • For offline installation: Download on another computer and then install manually using the «OPTIONAL/OFFLINE» instructions below.

Installation

Step 1: Unlisted Pre-Requisites

  • Before you can run whisper you must download and install the follopwing items. (For offline installation just download the files on another machine and move them to your offline machine to install them.)
    • NVIDIA CUDA drivers: https://developer.nvidia.com/cuda-downloads
    • Python 3.9 or 3.10 (x64 version) from https://www.python.org/ (Whisper claims to run with >3.7 but as of 2023-01-18 some dependencies require >3.7 but <3.11).
    • FFMPEG
      • To install via Scoop (https://scoop.sh/), in powershell run
        • Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
        • irm get.scoop.sh | iex
        • scoop install ffmpeg
      • OPTIONAL/OFFLINE: Follow instructions here: How to install and use FFMPEG and make sure not to skip the part about adding FFMPEG to the Windows PATH variable.
    • Git for windows from https://gitforwindows.org/
  • Reboot after installing these items.

Step 2B: Whipser Install (Online Install for Online Use)

  • Open a command prompt and type this command:
    • pip install git+https://github.com/openai/whisper.git
  • You may now use Whisper online and no further steps are required.

Step 2B: Whipser Install (Online Install for later Offline Use)

  • Open a command prompt and type these commands:
    • pip install git+https://github.com/openai/whisper.git
    • pip install blobfile
  • Continue to Step 3: Download Other Required Files

Step 2C: Whipser Install (Offline Install for later Offline Use)

  • Option 1: Get the most up to date version of Whisper:
    • Install Python and Git from Step 1 on an second computer you can connect to the internet and reboot to ensure both are working.
    • On the ONLINE machine open a command prompt in any empty folder and type the following commands:
      • pip download git+https://github.com/openai/whisper.git
      • pip download blobfile
  • Option 2: Download all the necessary files from here OPENAI-Whisper-20230314 Offline Install Package
  • Copy the files to your OFFLINE machine and open a command prompt in that folder where you put the files, and run
    • pip install openai-whisper-20230314.zip (note the date may have changed if you used Option 1 above).
    • pip install blobfile-2.0.2-py3-none-any.whl. (note the version may have changed if you used Option 1 above).
  • Continue to Step 3: Download Other Required Files

Step 3: Download Other Required Files (for Offline Use)

  • Download Whisper’s Language Model files place them in C:\Users[Username]\.cache\whisper Note: If the links are dead updated links can be found at lines 17-27 here: init.py
    • Tiny.En
    • Tiny
    • Base.En
    • Base
    • Small.En
    • Small
    • Medium.En
    • Medium
    • Large-v1
    • Large-v2 (Annoucing the large-v2 model)
  • Download Whisper’s vocabulary and encoder files. (Per issue 1399).
    • Download Vocab.bpe
    • Download Encoder.json
    • Install the files to a folder of your choosing, e.g. C:\Users[Username]\.cache\whisper.
    • Update file links in your local copy of openai_public.py which will be installed in your python folder e.g. C:\Users[UserName]\AppData\Local\Programs\Python\Python310-32\Lib\site-packagespython3.9/site-packages/tiktoken_ext/openai_public.py to point to where you downloaded the files.
      • Remove the URL "https://openaipublic.blob.core.windows.net/gpt-2/encodings/main/" and replace it with your local copy, e.g. "C:/Users/[Username]/.cache/whisper/vocab.bpe" and "C:/Users/[Username]/.cache/whisper/encoder.json"
def gpt2():
    mergeable_ranks = data_gym_to_mergeable_bpe_ranks(
        vocab_bpe_file="C:/Users/nic/.cache/whisper/vocab.bpe",
        encoder_json_file="C:/Users/nic/.cache/whisper/encoder.json",
    )

Alternative Offline Method

See the pre-compiled .exe version of Whisper provided here: Purfview / Whisper Standalone

🧠 Установка и использование Whisper от OpenAI (на Windows)

Whisper — это мощная нейросеть от OpenAI для распознавания речи из аудиофайлов. Работает офлайн, поддерживает множество языков, включая русский, и не требует интернета после установки.

Содержание

  • 🧠 Установка и использование Whisper от OpenAI (на Windows)

    • 🚀 Что делает Whisper?
    • 📥 Установка Whisper на Windows

      • 1. Установите Python (если ещё не установлен)
      • 2. Установите FFmpeg
      • 3. Установите Whisper
      • 4. (Опционально) Установка PyTorch с поддержкой GPU (CUDA)
    • 🧠 Как работает Whisper
    • 🗂️ Где хранятся модели Whisper?
    • 🧬 Доступные модели
    • 📂 Примеры использования

      • Распознавание аудио с моделью small и языком Russian:
      • Распознавание всех файлов в папке (батник):
    • 🧩 Дополнительные параметры
    • ❗ Возможные ошибки и решения
    • 🧠 Заключение
  • Распознаёт речь из .mp3, .wav, .m4a и других форматов
  • Работает полностью локально (без отправки данных в облако)
  • Поддерживает множество языков (включая русский, английский, китайский и др.)
  • Может использовать видеокарту (GPU) для ускорения, если установлена

📥 Установка Whisper на Windows

1. Установите Python (если ещё не установлен)

  • Скачайте Python 3.10–3.12 отсюда: https://www.python.org/downloads/windows/
  • При установке обязательно поставьте галочку «Add Python to PATH»

2. Установите FFmpeg

Следуйте этой инструкции, чтобы FFmpeg работал из любой папки — он нужен для обработки аудио.


3. Установите Whisper

Откройте командную строку и выполните:

pip install git+https://github.com/openai/whisper.git

📦 Whisper автоматически загрузит нужные файлы при первом запуске — убедитесь, что интернет был доступен хотя бы один раз.


4. (Опционально) Установка PyTorch с поддержкой GPU (CUDA)

Если у вас видеокарта Nvidia (например, RTX 3050), вы можете ускорить работу модели:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Затем проверьте, что всё работает:

import torch
print(torch.cuda.is_available())  # → должно быть True

🧠 Как работает Whisper

Whisper использует глубокую нейросеть, обученную на огромном количестве аудио, для преобразования звука в текст.
Она преобразует аудио в спектрограмму и предсказывает слова на основе акустического сигнала.


🗂️ Где хранятся модели Whisper?

Когда вы запускаете Whisper с выбранной моделью впервые, она автоматически скачивается и сохраняется в папку:

C:\Users\<ваше_имя>\.cache\whisper\

Вы можете предварительно скачать их вручную, если работаете офлайн.


🧬 Доступные модели

Название Размер Скорость Точность Примечание
tiny ~75 МБ 🔥 Очень быстро 🟠 Базовая Подходит для черновика
base ~140 МБ ⚡ Быстро 🟡 Лучше Лучше понимает речь
small ~460 МБ 🆗 Средне 🟢 Хорошая Рекомендуется на CPU
medium ~1.5 ГБ 🐢 Медленно 🔵 Отличная Хороша с GPU (CUDA)
large ~2.9 ГБ 🐌 Очень медленно 🟣 Максимум Только с мощной видеокартой

Выбор зависит от баланса скорость ↔ точность.


📂 Примеры использования

Распознавание аудио с моделью small и языком Russian:

whisper "audio.mp3" --model small --language Russian --output_format txt

Whisper создаст .txt, .srt и .vtt файлы с расшифровкой в той же папке.


Распознавание всех файлов в папке (батник):

@echo off
for %%f in (*.mp3 *.wav *.m4a) do (
  whisper "%%f" --model small --language Russian --output_format txt
)
pause

Сохрани как расшифровать_всё.bat и помести рядом с файлами — скрипт обработает всё сразу.


🧩 Дополнительные параметры

  • --task translate — перевести речь на английский
  • --output_format srt — сохранить в формате субтитров .srt
  • --temperature 0.0 — делает модель менее «фантазийной»
  • --fp16 False — отключить ускорение через half precision (важно, если возникают ошибки)

❗ Возможные ошибки и решения

Ошибка Причина Решение
ffmpeg not found FFmpeg не установлен или не в PATH Установите FFmpeg
RuntimeError: CUDA not available GPU не используется Проверьте, что PyTorch установлен с CUDA
ModuleNotFoundError Whisper не установлен Установите с помощью pip install git+...

🧠 Заключение

Whisper — это мощный инструмент, который превращает ваш ПК в офлайн-сервис по распознаванию речи. Его можно использовать:

  • для расшифровки интервью и подкастов
  • в научных, журналистских и бизнес-проектах
  • для генерации субтитров и перевода аудио

С Whisper ваш компьютер начнёт понимать речь — без облаков, подписок и слежки.

Содержание страницы

Нейросетью от OpenAI, которая максимально точно расшифровывет аудио или видео запись и переводит ее в текст. Эту модель выпустили в сентябре 2022 года, но самое главное — у нее открытый код. 

Нейросеть обучали на 680 тысячах часов аудио с разными языками, акцентами и даже фоновым шумом. По этому она понимает термины любой сложности, акценты или запись в шумном месте.

А ещё Whisper —  бесплатный, что не принято в семье OpenAI. В отличие от ChatGPT, который доступен через подписку, эту модель можно свободно использовать, модернизировать и встраивать в свои проекты. Мы уже разобрались, как работать с ней — делимся инструкцией.

Давайте разберемся, как работает Whisper. Представьте: модель делит аудио на 30-секундные кусочки и превращает их в «график» звука — что-то вроде визуальной карты речи. Это помогает ей анализировать данные.

А дальше — самое крутое. Система не просто печатает услышанное. Она сама определяет, на каком языке вы говорите, отмечает начало и конец фраз (будто ставит маркеры в аудио), а еще может моментально перевести речь на английский. И всё это — в одном инструменте! Никаких отдельных настроек для каждой задачи. Просто загружаете запись — Whisper делает остальное.

У Whisper есть пять вариантов точности — от самого компактного (tiny) до самого вместительного (large).

Чем «крупнее» модель, тем детальнее она анализирует аудио. Например, large справится с шумной записью лекции или сложным акцентом, а tiny подойдёт для быстрой расшифровки чёткой речи. Но есть нюанс: большие модели требуют больше времени и мощности.

Зачем нужен whisper transcription?

Представьте себе, вы копирайтер, нашли классное видео по теме, но сидеть и перепечатывать текст с нуля очень долго. Рерайтить через ChatGPT? То же время. А если нужно быстро превратить час лекции или интервью в статью?

Решение проще, чем кажется:

  1. Устанавливаете Whisper на компьютер (это займёт пару минут).
  2. Загружаете видео или аудио — нейросеть за 5-10 минут выдаст готовый текст.
  3. Редактируете: убираете повторы, добавляете структуру (можно через тот же ChatGPT).
  4. Вставляете скриншоты, фото — и статья готова к публикации.

Важный нюанс: для скорости нужен мощный компьютер. Идеально — видеокарта Nvidia RTX с 10 ГБ памяти (или аналоги). Но если такой нет — не страшно. Whisper работает и на процессоре, просто чуть медленнее. А ещё есть облачные сервисы с похожим функционалом — о них расскажем ниже.

Давайте разберемся, что понадобится для старта. Чтобы Whisper заработал, нужно подготовить «фундамент» — как собрать простой конструктор.

Шаг 1: Ставим Python
Представьте, что Python — это «мотор» для всех операций. Без него ничего не запустится. Качаем одну из этих версий:

  • 3.11.4 
  • 3.10.11

Ссылка: python

Выбирайте любую — обе подойдут.

установка pyton

Главное — не пропустите галочку «Добавить Python в PATH» при установке. Это как дать системе понять, где искать команды.

После установки сделайте простой тест — как проверить, работает ли новый инструмент.

  1. Откройте командную строку:
    • Нажмите Win + R → введите cmd → Enter.
    • Или просто начните печатать «CMD» в поиске Windows — найдет сразу.
начните печатать «CMD»

Введите команду: python —version. Если всё хорошо, система покажет версию Python — например, «3.11.4».

python --version

Зачем это нужно? Чтобы убедиться, что компьютер «видит» Python. Иногда после установки система не распознаёт его автоматически — тогда придётся повозиться с настройками. Но если версия отображается — можно выдохнуть и двигаться дальше.

Следующий шаг — установка PyTorch

PyTorch — это набор инструментов, без которого Whisper не запустится. Но тут есть нюанс: команда для установки зависит от вашей видеокарты.

Ссылка: PyTorch 

Для NVIDIA (самый простой путь):

  • Если у вас драйверы обновлены, а видеокарта относительно новая (например, RTX 30xx/40xx), вводите в консоль:

pip3 install torch torchvision torchaudio —index-url https://download.pytorch.org/whl/cu121 

Это версия для современных GPU.

  • Если видеокарта старше (например, GTX 10xx) или возникают ошибки, попробуйте:

pip3 install torch torchvision torchaudio —index-url https://download.pytorch.org/whl/cu118 

Для AMD или если нет видеокарты:
Выберите вариант для процессора (CPU):

pip3 install torch torchvision torchaudio 

Как понять, что подходит вам?

  • Не уверены → начинайте с CPU-версии.
  • Если Whisper будет работать медленно — позже можно переустановить под GPU.

Если не удалось запустить установку, можно поменять «pip3» на «python -m pip».

Скачиваем FFmpeg 

Whisper — это эксперт по расшифровке, но он не умеет открывать файлы «напрямую». Тут на помощь приходит FFmpeg — инструмент, который превратит любой формат (MP4, MKV, FLAC и даже редкие) в удобный для работы «язык».

Как его поставить?

  1. Скачайте FFmpeg с официального GitHub:
    → Перейдите по ссылке.
    → Выберите файл ffmpeg-master-latest-win64-gpl.zip — как самый универсальный вариант.
  2. Распакуйте архив в удобную папку (например, C:\FFmpeg).
  3. Добавьте FFmpeg в системный PATH — так вы объясните Windows, где искать программу.
    → Нажмите Win + S → начните вводить «Система» → выберите Настройка представления и производительности системы → вкладка Дополнительно Переменные среды → в разделе «Системные переменные» найдите Path Изменить Создать → укажите путь к папке bin внутри распакованного FFmpeg (например, C:\FFmpeg\bin).

Зачем это нужно? Без FFmpeg Whisper не сможет обработать 90% аудио и видео. 

Совет: Если не хотите возиться с PATH, просто копируйте файлы в формате WAV или MP3 — их Whisper понимает без FFmpeg. 

Ставим Git 

Git — доставляет обновления и компоненты для программ. Без него некоторые инструменты Whisper не установятся. Но пусть название вас не пугает — ставится он в пару кликов.

Как установить:

  1. Зайдите на официальный сайт Git → нажмите «Downloads» → скачайте версию для Windows (сайт сам предложит нужный файл).
  2. Запустите установщик → везде жмите «Next», кроме одного места:
    — В окне Adjusting your PATH environment выберите:
    «Git from the command line and also from 3rd-party software» (это важно, чтобы Git работал с консолью).

Теперь добавим пути к Git в систему:
Иногда после установки нужно «познакомить» Python с Git. Делается это через настройки:

  1. Найдите папку Git:
    — Обычно она лежит в C:\Program Files\Git.
    — Внутри будут две важные папки: bin и cmd (как «ключи» для доступа).
  2. Добавьте их в переменные среды:
    — Нажмите Win + S → введите «Система» → выберите «Настройка представления…» → «Дополнительно» → «Переменные среды».
    — В списке «Системные переменные» найдите Path → «Изменить» → «Создать».
    — Вставьте два пути:
    C:\Program Files\Git\bin
    C:\Program Files\Git\cmd
    — Сохраните изменения.

Проверяем, всё ли работает:

  1. Откройте командную строку (Win + R → cmd → Enter).
  2. Введите: git —version
    Если увидите что-то вроде git version 2.40.0 — поздравляем! Git готов к работе.

Теперь переходим к самому интересному — установке «мозга» системы — Whisper. Не нужно ничего качать вручную с GitHub. Всё проще!

Откройте командную строку (Win + R → cmd → Enter).

Введите одну из этих команд: pip install -U openai-whisper
Или, если первая не сработала: python -m pip install -U openai-whisper
Нажмите Enter — система сама скачает и установит Whisper.

Что происходит?
Представьте, что вы заказываете пиццу: говорите «хочу Whisper» → курьер (pip) привозит его прямо к вам в консоль. 

Проверяем установку:
Введите в консоль:whisper —help 

Если увидите список команд и параметров — всё в порядке. 

А если не работает?
— Убедитесь, что Python добавлен в PATH (мы это проверяли раньше).
— Попробуйте перезапустить консоль.

Важно! Не путайте команды. Разработчики специально сделали установку в одну строку — чтобы не копаться в GitHub. Их шутка про «просто введите pip install» — это намёк на то, как всё должно быть легко.

Как использовать whisper transcription?

Подготовьте файл:
Скачайте видео с YouTube (например, через yt-dlp) и сохраните его в отдельную папку. Назовите файл просто — например, обзор_ноутбука.mp4.

 Откройте консоль прямо в папке с видео:

  • Зайдите в папку → кликните на путь в верхней строке проводника → удалите текст → введите cmd → Enter.
  • Или: удерживайте Shift + правой кнопкой мыши в папке → «Открыть в терминале».

Запустите Whisper с нужной моделью:
Введите в консоль:

whisper обзор_ноутбука.mp4 —model large 

Что это даёт?

  • large — максимальная точность: расставит пунктуацию, распознает термины и акценты.
  • medium — компромисс: быстрее, но может пропустить нюансы.

Через 5-30 минут (зависит от длины видео) в папке появятся:

  • .txt — чистый текст.
  • .srt — субтитры с тайм-кодами (удобно для монтажа).

Лайфхак:

  • Для интервью или лекций используйте large — она лучше справляется с паузами и шумами.
  • Если Whisper «не видит» файл, проверьте:
    • Название файла в команде совпадает с исходным.
    • Видео не в формате MKV (конвертируйте в MP4 через HandBrake).
  • Чтобы ускорить обработку, закройте браузер и тяжёлые приложения.

Пример результата:
После обработки ролика про ноутбук вы получите текст вида:

Пример результата:

FAQ

Как установить Whisper на Windows?

Требования:
ОС: Windows 10/11.
Железо:
Для скорости: видеокарта NVIDIA (от RTX 2060) или аналог с 10+ ГБ VRAM.
Минимум: 4-ядерный процессор и 8 ГБ ОЗУ (но обработка займёт больше времени).

Почему Whisper не видит мой файл?

Формат не поддерживается → конвертируйте в MP4/WAV через HandBrake.
Ошибка в названии файла → убедитесь, что в команде указано точное название (регистр символов важен!).
FFmpeg не добавлен в PATH → используйте файлы MP3/WAV или настройте PATH.

Можно ли использовать Whisper без программирования?

Да! Достаточно базовых команд в консоли. Если не хотите разбираться с установкой — пробуйте облачные аналоги (например, AssemblyAI), но они платные.

Как ускорить обработку в open ai whisper?

Для NVIDIA:
Обновите драйверы видеокарты.
Используйте команду —device cuda в конце запроса (пример: whisper file.mp4 —model large —device cuda).

Больше инструкций, реальных кейсов и примеров из практики по AI для бизнеса, работы и жизни в Telegram-канале, подпишитесь!

Introducing Whisper

What’s Whisper?

OpenAI Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multitasking model that can perform multilingual speech recognition, speech translation, and language identification.

Whisper is a series of pre-trained models for automatic speech recognition (ASR), which was released in September 2022 by Alec Radford and others from OpenAI. Whisper is pre-trained on large amounts of annotated audio transcription data. The annotated audio duration used for training is as high as 680,000 hours, so it shows comparable performance to the most advanced ASR systems.

Available models and languages

There are five model sizes, four with English-only versions, offering speed and accuracy tradeoffs. Below are the names of the available models and their approximate memory requirements and inference speed relative to the large model; actual speed may vary depending on many factors including the available hardware.

In December 2022, OpenAI released an improved large model named large-v2, and large-v3 in November 2023.

System Requirements

GPU support requires a CUDA®-enabled card, 4GB+ VRAM

This guide uses the Advanced GPU — V100 Plan on GPUMart, which is equipped with a dedicated NVIDIA V100 graphics card with 16GB HBM2 GPU Memory and can easily run the latest large-v3 multi-language model. Since Whisper has many dependencies to run, the process of installing whisper is a bit long but simple. It mainly consists of the following 5 steps.

Step 1 — Install Git

Click here (https://git-scm.com/download/win) to download the latest 64-bit version of Git for Windows, then right click on the downloaded file and run the installer as administrator.

Step 2 — Install Miniconda3 and create Python 3.10 Environment

Miniconda is a minimal installer provided by Anaconda. Please download the latest Miniconda installer (https://docs.anaconda.com/free/miniconda/) and complete the installation.

Whisper requires Python3.8+. You’ll need Python 3.8-3.11 and recent versions of PyTorch on your machine. Let’s set up a virtual environment with conda if you want to isolate these experiments from other work.

> conda create -n Whisper python=3.10.11
> conda activate Whisper

Step 3 — Install PyTorch Stable(2.3.0) with CUDA 12.1 support

Whisper requires a recent version of PyTorch (we used PyTorch 1.12.1 without issues).

> conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

Step 4 — Install Chocolatey and ffmpeg

Open a PowerShell terminal and from the PS C:\> prompt, run the following command:

> Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

If you don’t see any errors, you are ready to use Chocolatey! Whisper also requires FFmpeg, an audio-processing library. If FFmpeg is not already installed on your machine, use one of the below commands to install it.

Step 5 — Install Whisper

Pull and install the latest commit from this repository, along with its Python dependencies:

> pip install git+https://github.com/openai/whisper.git

How to Use Whisper for Speech-to-text Transcription

Command-line usage

The following command will transcribe speech in audio files, using the medium model:

> whisper audio.wav --model medium

The default setting (which selects the small model) works well for transcribing English. To transcribe an audio file containing non-English speech, you can specify the language using the —language option:

> whisper chinese.mp3 --language Chinese

Adding —task translate will translate the speech into English:

> whisper chinese.mp3 --language Chinese --task translate

Specify the output format and path:

> whisper Arthur.mp3 --model large-v3 --output_format txt --output_dir .\output

To learn more about usage, please see the help:

Python usage

Transcription can also be performed within Python:

import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

JupyterLab usage

If you have not installed JupyterLab, please install it first, and then start it. The reference command line is as follows.

(Whisper) PS > conda install -c conda-forge jupyterlab
(Whisper) PS > jupyter lab

Conclusion

In this tutorial, we cover the basics of getting started with Whisper AI on Windows. Whisper AI provides a powerful and intuitive speech recognition solution for Windows users. By following the steps outlined in this guide, you can easily install and utilize Whisper AI on your Windows operating system. Experience the convenience and efficiency of speech recognition technology as you embrace a hands-free approach to various tasks.

Additional — GPU Servers Suitable for Running Whisper AI

Please choose the appropriate GPU server based on the maximum model size you need to use. The medium model requires 5G of VRAM, and the large model requires 10GB of VRAM.

Express GPU Dedicated Server — P1000

64.00/mo

1mo3mo12mo24mo

Order Now

  • 32GB RAM
  • Eight-Core Xeon E5-2690
  • 120GB + 960GB SSD
  • 100Mbps-1Gbps
  • OS: Windows / Linux
  • GPU: Nvidia Quadro P1000
  • Microarchitecture: Pascal
  • CUDA Cores: 640
  • GPU Memory: 4GB GDDR5
  • FP32 Performance: 1.894 TFLOPS

Flash Sale to May 6

Basic GPU Dedicated Server — GTX 1650

79.20/mo

34% OFF Recurring (Was $119.00)

1mo3mo12mo24mo

Order Now

  • 64GB RAM
  • Eight-Core Xeon E5-2667v3
  • 120GB + 960GB SSD
  • 100Mbps-1Gbps
  • OS: Windows / Linux
  • GPU: Nvidia GeForce GTX 1650
  • Microarchitecture: Turing
  • CUDA Cores: 896
  • GPU Memory: 4GB GDDR5
  • FP32 Performance: 3.0 TFLOPS

Basic GPU Dedicated Server — GTX 1660

139.00/mo

1mo3mo12mo24mo

Order Now

  • 64GB RAM
  • Dual 10-Core Xeon E5-2660v2
  • 120GB + 960GB SSD
  • 100Mbps-1Gbps
  • OS: Windows / Linux
  • GPU: Nvidia GeForce GTX 1660
  • Microarchitecture: Turing
  • CUDA Cores: 1408
  • GPU Memory: 6GB GDDR6
  • FP32 Performance: 5.0 TFLOPS

Professional GPU Dedicated Server — RTX 2060

199.00/mo

1mo3mo12mo24mo

Order Now

  • 128GB RAM
  • Dual 10-Core E5-2660v2
  • 120GB + 960GB SSD
  • 100Mbps-1Gbps
  • OS: Windows / Linux
  • GPU: Nvidia GeForce RTX 2060
  • Microarchitecture: Ampere
  • CUDA Cores: 1920
  • Tensor Cores: 240
  • GPU Memory: 6GB GDDR6
  • FP32 Performance: 6.5 TFLOPS
  • Powerful for Gaming, OBS Streaming, Video Editing, Android Emulators, 3D Rendering, etc

Basic GPU Dedicated Server — RTX 4060

149.00/mo

1mo3mo12mo24mo

Order Now

  • 64GB RAM
  • Eight-Core E5-2690
  • 120GB SSD + 960GB SSD
  • 100Mbps-1Gbps
  • OS: Windows / Linux
  • GPU: Nvidia GeForce RTX 4060
  • Microarchitecture: Ada Lovelace
  • CUDA Cores: 3072
  • Tensor Cores: 96
  • GPU Memory: 8GB GDDR6
  • FP32 Performance: 15.11 TFLOPS
  • Ideal for video edting, rendering, android emulators, gaming and light AI tasks.

Flash Sale to May 6

Advanced GPU Dedicated Server — RTX 3060 Ti

116.35/mo

51% OFF Recurring (Was $239.00)

1mo3mo12mo24mo

Order Now

  • 128GB RAM
  • Dual 12-Core E5-2697v2
  • 240GB SSD + 2TB SSD
  • 100Mbps-1Gbps
  • OS: Windows / Linux
  • GPU: GeForce RTX 3060 Ti
  • Microarchitecture: Ampere
  • CUDA Cores: 4864
  • Tensor Cores: 152
  • GPU Memory: 8GB GDDR6
  • FP32 Performance: 16.2 TFLOPS

Flash Sale to May 6

Advanced GPU Dedicated Server — A4000

139.50/mo

50% OFF Recurring (Was $279.00)

1mo3mo12mo24mo

Order Now

  • 128GB RAM
  • Dual 12-Core E5-2697v2
  • 240GB SSD + 2TB SSD
  • 100Mbps-1Gbps
  • OS: Windows / Linux
  • GPU: Nvidia Quadro RTX A4000
  • Microarchitecture: Ampere
  • CUDA Cores: 6144
  • Tensor Cores: 192
  • GPU Memory: 16GB GDDR6
  • FP32 Performance: 19.2 TFLOPS
  • Good choice for hosting AI image generator, BIM, 3D rendering, CAD, deep learning, etc.

Flash Sale to May 6

Advanced GPU Dedicated Server — V100

149.50/mo

50% OFF Recurring (Was $299.00)

1mo3mo12mo24mo

Order Now

  • 128GB RAM
  • Dual 12-Core E5-2690v3
  • 240GB SSD + 2TB SSD
  • 100Mbps-1Gbps
  • OS: Windows / Linux
  • GPU: Nvidia V100
  • Microarchitecture: Volta
  • CUDA Cores: 5,120
  • Tensor Cores: 640
  • GPU Memory: 16GB HBM2
  • FP32 Performance: 14 TFLOPS
  • Cost-effective for AI, deep learning, data visualization, HPC, etc

If you do not find a suitable GPU server plan, please leave us a message.

Понравилась статья? Поделить с друзьями:
0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
  • При загрузке windows вылазит синий экран
  • Как включить принтскрин windows 7
  • Не удается установить windows live
  • Как удалить подключение по локальной сети на windows 10
  • Glary utilities для windows 10 64 bit