回顧 藉由「Look in my eyes! Baby, tell me why」認識AI生成工具 – III
前一篇最後提到Noiz已經把文字提取,這篇文章會在稍微提一下語音轉文字的方式,一個可以利用 https://sj.qq.com/appdetail/com.dougao.watqapp 來製作,另外也可以本地化執行Whisper來轉文字。
Whisper(本地安裝)語音轉文字
OpenAI Whisper 是一個功能強大的語音轉文字模型,能將音訊檔案轉錄成文字,甚至進行跨語言翻譯。根據你的使用需求,主要有兩種方式可以使用 Whisper:透過 OpenAI API 或 本地端安裝。如果你不想依賴 API,或是需要處理大量音訊,可以將 Whisper 模型安裝在自己的電腦上。
- 安裝 Python 和 FFmpeg:
- 安裝 Whisper 套件:
- 使用 pip 指令安裝 Whisper:
pip install git+https://github.com/openai/whisper.git
- 使用命令行操作:
- 安裝完成後,你可以在終端機或命令提示字元中直接使用
whisper
指令。 - 基本轉錄:Bash
whisper "你的音訊檔.mp3"
- 指定語言:
- 雖然 Whisper 能自動偵測語言,但如果你想確保準確性,可以指定語言。
whisper "你的音訊檔.mp3" --language zh
其中zh
代表中文。 - 選擇模型:
- Whisper 提供不同大小的模型(
tiny
,base
,small
,medium
,large
)。模型越大,準確度越高,但處理速度越慢且佔用更多資源。
whisper "你的音訊檔.mp3" --model medium
- Whisper 提供不同大小的模型(
- 安裝完成後,你可以在終端機或命令提示字元中直接使用
*以上文章部份為AI產生內容,無商業用途。