Contents

用 Whisper 翻譯影片字幕,打造無國界視聽享受

隨著 AI 技術的進步,現在我們可以輕鬆利用 Whisper 這類工具,將外語影片自動產生字幕,甚至直接翻譯成中文,讓語言不再是追劇、學習的障礙。這篇文章會以親身經驗,帶你從 Windows 與 Ubuntu 的安裝、字幕產生到翻譯全流程,並分享過程中遇到的問題與解決方法,讓你也能打造屬於自己的無國界視聽體驗。

前置作業

  1. 安裝 uv
1
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
小提醒
如果你是 Ubuntu (Linux) 環境,uv 安裝完就可以直接跳到「安裝 whisper」。
  1. 建立虛擬環境
1
uv venv .whisper
  1. 切換到剛建立環境
1
2
3
4
# windows 
.venv\Scripts\activate
# ubuntu (linux)
source .venv/bin/activate
小提示
要離開虛擬環境時,直接輸入 deactivate 即可。
  1. 安裝 ffmpeg
1
2
3
4
# winget 安裝 ffmpeg
winget install -e --id Gyan.FFmpeg
# scoop 安裝 ffmpeg
scoop install main/ffmpeg

安裝 whisper

1
2
3
4
5
# 安裝 whisper
#uv pip install -U openai-whisper
uv tool install openai-whisper
# 如果你在 Windows 上遇到安裝失敗,可以改用下方指令(Ubuntu 實測可用):
uv pip install git+https://github.com/openai/whisper.git

使用 whisper 產生字幕

1
2
3
4
5
# 產生日文影片字幕
whisper japanese.mp4 --language Japanese
# 指定模型(如 large)
whisper japanese.mp4 --language Japanese --model large
# 一般推薦用 large-v2。我自己的 2060 顯卡無法跑 large,但 medium 效果也不錯。如果你有 4070 TI,跑 large 沒問題。

到這裡,日文字幕就已經產生完成。

翻譯字幕

前置作業

我自己是用 4070 TI 跑 Local LLM,字幕翻譯工具選擇 tutumomo/srt-subtitle-translator

相關建置細節這邊不贅述,推薦參考:

  • ollama
    Ollama 在 Windows 下的安装与配置.md

    如果要讓 Ubuntu 也能連線,記得設定環境變數 OLLAMA_HOST=0.0.0.0
    另外,模型通常很大,建議設定 OLLAMA_MODELS 指定到其他磁碟目錄,避免塞爆系統槽。

  • open-webui(選用):
    【Day 03】Ollama UI 本機建置
    我因為電腦沒裝 Docker,改用 uv 直接安裝,但它需要 node(npm) 和微軟 C++ 開發 SDK(6GB),所以沒事還是建議用 Docker。open-webui 除錯測試很方便,但帳號信箱請不要亂填,登入會用到。

  • Sakura-14B-Qwen2.5-v1.0
    Q78KG/Sakura-14B-Qwen2.5-v1.0
    目前用這個模型翻譯效果很滿意,但官方沒提供 ollama 版本,hugging face 下載 GGUF 不能直接用,好像要額外加工。不過後來發現有人已經上傳到 ollama 上了。

1
ollama run Q78KG/Sakura-14B-Qwen2.5-v1.0

字幕翻譯

小提醒
我這邊是在 Ubuntu 環境操作,不過 Windows 理論上也能執行。
1
2
3
4
5
6
7
git clone https://github.com/tutumomo/srt-subtitle-translator.git
cd srt-subtitle-translator
# 如果你的 ollama 不是跑在 localhost,需要修改 main.py 裡的設定。若是同一台電腦可略過。
uv venv
source .venv/bin/activate
# 啟動介面
python main.py
踩雷心得
我在 Ubuntu 執行時遇到失敗,後來發現是 tk 依賴沒安裝,記得補裝 tk。

啟動後,選取 srt 檔案就能直接進行字幕翻譯。

其他參考

彩蛋

1
2
# cuda 12
pip install paddlepaddle-gpu==3.0.0rc1 -i https://www.paddlepaddle.org.cn/packages/stable/cu123/
總結
Whisper 讓字幕產生與翻譯變得前所未有的簡單,搭配本地 LLM,真的能打造屬於自己的無國界視聽體驗。過程中雖然遇到不少小問題,但只要善用社群資源與工具,幾乎都能找到解法。歡迎大家留言分享你的字幕翻譯經驗!
mindmap root((Whisper 字幕翻譯全攻略)) 前置作業 uv安裝 虛擬環境 ffmpeg安裝 產生字幕 whisper指令 模型選擇 字幕翻譯 LLM模型 srt-subtitle-translator open-webui 踩雷心得 依賴問題 執行環境 參考資源 相關專案 技術文章 彩蛋 硬字幕提取 CUDA支援