藉由「Look in my eyes! Baby, tell me why」認識AI生成工具 – IV (end)

回顧 藉由「Look in my eyes! Baby, tell me why」認識AI生成工具 – III

前一篇最後提到Noiz已經把文字提取,這篇文章會在稍微提一下語音轉文字的方式,一個可以利用 https://sj.qq.com/appdetail/com.dougao.watqapp 來製作,另外也可以本地化執行Whisper來轉文字。

Whisper(本地安裝)語音轉文字

OpenAI Whisper 是一個功能強大的語音轉文字模型,能將音訊檔案轉錄成文字,甚至進行跨語言翻譯。根據你的使用需求,主要有兩種方式可以使用 Whisper:透過 OpenAI API本地端安裝。如果你不想依賴 API,或是需要處理大量音訊,可以將 Whisper 模型安裝在自己的電腦上。

  1. 安裝 Python 和 FFmpeg
    • 確保你的電腦上已經安裝了 Python
    • 安裝 FFmpeg,這是一個處理音訊和影片檔案的必要工具。你可以從 FFmpeg 官方網站下載安裝。
  2. 安裝 Whisper 套件
    • 使用 pip 指令安裝 Whisper:
    Bashpip install git+https://github.com/openai/whisper.git
  3. 使用命令行操作
    • 安裝完成後,你可以在終端機或命令提示字元中直接使用 whisper 指令。
    • 基本轉錄:Bashwhisper "你的音訊檔.mp3"
    • 指定語言
      • 雖然 Whisper 能自動偵測語言,但如果你想確保準確性,可以指定語言。
      Bashwhisper "你的音訊檔.mp3" --language zh 其中 zh 代表中文。
    • 選擇模型
      • Whisper 提供不同大小的模型(tiny, base, small, medium, large)。模型越大,準確度越高,但處理速度越慢且佔用更多資源。
      Bashwhisper "你的音訊檔.mp3" --model medium

*以上文章部份為AI產生內容,無商業用途。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端