回顧 藉由「Look in my eyes! Baby, tell me why」認識AI生成工具 – II
前一篇文章中,我們成功的將影片的主角替換成我們智人的祖先。
前情提要:影片換臉前後對照
利用視訊軟體分離影音,提取音軌
將檔案拖拉進入Blender的 VSE mode,會產生分別的video與audio兩軌,參考以下方式精準將開頭吸附到0秒醋處。
如何將檔案吸附到 0 秒處
使用吸附功能 (Snapping)
這是最常見且最精準的方法。

- 啟用吸附: 在 VSE 編輯器的上方工具列中,你會看到一個 磁鐵圖示。點擊這個圖示,將其啟用。
- 選擇吸附模式: 磁鐵圖示旁邊有一個下拉選單,可以選擇吸附的目標。通常,你只需要選擇
Increment
(增量)或Frame
(影格),這樣在移動時就會自動吸附到每一個影格的邊界。 - 移動檔案:
- 選擇你要移動的影片或音訊片段。
- 按下
G
鍵(Grab 的縮寫),然後開始拖曳片段。 - 由於吸附功能已經開啟,當你將片段拉到時間軸的起點時,它會自動「吸附」到 0 秒處。
*如果要用整體只render audio only的方式( Render Animation )可以參考下圖細部選項,但其實可以省略這步驟,用直接匯出音訊的方式。

如何單獨匯出音訊
- 在 Video Sequence Editor (VSE) 中,確認你已經將所有要匯出的音訊片段放在時間軸上,並設定好你需要的長度範圍(Start Frame 和 End Frame)。
- 在上方主選單列中,點擊 Render (渲染)。
- 在下拉選單中,選擇 Render Audio (渲染音訊)。
- 接著會跳出一個視窗,你可以設定音訊的匯出格式、檔案名稱和儲存位置。
- 選擇好你的設定後,點擊 Mixdown。
Blender 就會開始匯出音訊檔案,這個過程通常比匯出影片快得多。完成後,你就可以在指定的資料夾中找到單獨的音訊檔案了。

Clone 你的音色
使用 https://noiz.ai/landing 來複製說話的音色。
上傳剛剛匯出的聲音檔,上傳完可以點擊「生成預覽」試試神奇的音色提取,確認後下一步添加到語音庫。

探討 Noiz 的聲音複製技術
聲音複製(Voice Cloning)技術近年來取得了長足的進步,其核心在於利用深度學習模型,精準捕捉並再現人類語音的細微之處。以專注於此領域的 Noiz 公司為例,其技術框架可被視為一個精密的多階段流程,旨在從極短的音訊樣本中,生成高度逼真且富含情感的合成語音。本文將深入剖析此類技術背後的關鍵技術環節,揭示其如何實現從文本到特定人聲的轉換。
聲音複製系統的核心,可解構成一個由多個深度學習模型協同工作的管線(Pipeline)。此管線主要包含三大技術基石:聲學特徵提取 (Acoustic Feature Extraction)、序列到序列的語音合成 (Sequence-to-Sequence Speech Synthesis) 以及 神經聲碼器 (Neural Vocoder)。近年來,少樣本/零樣本學習 (Few-shot/Zero-shot Learning) 的引入,更是大幅降低了聲音複製的門檻。
聲學特徵提取:捕捉聲音的「指紋」
在進行聲音複製之前,系統必須先將原始的音訊波形,轉換為機器更容易理解和處理的格式,此即為聲學特徵。其中,梅爾頻譜圖 (Mel-spectrogram) 是目前最為廣泛使用的聲學特徵之一。
梅爾頻譜圖是一種二維圖像,其橫軸代表時間,縱軸則是梅爾音階(Mel Scale)下的頻率,顏色的深淺則表示在該時間點上,特定頻率的能量大小。梅爾音階是一種非線性的頻率尺度,更貼近人耳對聲音頻率的感知方式,使得模型能更有效地學習到語音中的關鍵訊息。生成梅爾頻譜圖的過程涉及以下訊號處理步驟:
- 預強化 (Pre-emphasis): 提升高頻部分的能量,以平衡頻譜。
- 分幀 (Framing): 將連續的音訊訊號,切分成短時間的幀(Frames)。
- 加窗 (Windowing): 對每一幀應用窗函數(如漢明窗),以減少頻譜洩漏。
- 短時距傅立葉變換 (Short-Time Fourier Transform, STFT): 將每一幀從時域轉換到頻域。
- 梅爾濾波器組 (Mel Filterbank): 將頻域上的能量,通過一組三角濾波器,映射到梅爾音階上。
- 對數運算: 對能量進行對數運算,以壓縮動態範圍,使其更符合人類的聽覺特性。
最終產生的梅爾頻譜圖,不僅包含了說話者的音色(Timbre),也蘊含了語調(Intonation)和韻律(Prosody)等豐富資訊,成為後續深度學習模型的理想輸入。
序列到序列的語音合成:從文字到梅爾頻譜圖
獲得了聲音的「指紋」後,下一個核心任務是建立一個模型,能夠根據輸入的文字,生成對應的梅爾頻譜圖。這通常由一個序列到序列 (Sequence-to-Sequence, Seq2Seq) 模型來完成,而 Tacotron 2 則是此領域的標誌性架構。
Tacotron 2 的架構主要由兩部分組成:
- 編碼器 (Encoder): 負責理解輸入文字的語意。它首先將文字轉換為詞嵌入向量 (Word Embeddings),然後通過多層卷積神經網路 (Convolutional Neural Networks, CNN) 和一個雙向長短期記憶網路 (Bidirectional Long Short-Term Memory, Bi-LSTM),捕捉文字序列中的上下文關係。
- 解碼器 (Decoder) 與注意力機制 (Attention Mechanism): 解碼器的任務是逐幀生成梅爾頻譜圖。它是一個自回歸 (Autoregressive) 的循環神經網路 (Recurrent Neural Network, RNN)。為了確保生成的頻譜圖與輸入文字的對應關係,Tacotron 2 引入了注意力機制。在生成每一幀頻譜圖時,注意力機制會計算編碼器輸出中,與當前生成內容最相關的部分,並將其作為解碼器的額外輸入,從而確保合成語音的內容準確無誤。
神經聲碼器:從梅爾頻譜圖到真實音訊
儘管梅爾頻譜圖包含了豐富的聲學資訊,但它本身並不是我們可以聽到的聲音。將梅爾頻譜圖轉換為原始音訊波形的工作,就交由神經聲碼器 (Neural Vocoder) 來完成。
WaveNet 是由 DeepMind 開發的,一種生成式模型,它在提升合成語音的自然度方面,扮演了革命性的角色。WaveNet 的核心思想是,直接對音訊波形的機率分佈進行建模。它利用一種稱為擴張因果卷積 (Dilated Causal Convolutions) 的特殊卷積結構,使其在預測當前音訊樣本點時,能夠考慮到前面大量的歷史樣本,從而捕捉到音訊中的長期依賴關係。
然而,原始的 WaveNet 由於其自回歸的特性,生成速度較慢。為了解決這個問題,後續出現了許多基於生成對抗網路 (Generative Adversarial Networks, GANs) 的高效聲碼器,如 HiFi-GAN。GAN 的架構包含一個生成器 (Generator) 和一個判別器 (Discriminator)。生成器負責將梅爾頻譜圖轉換為音訊波形,而判別器則學習區分真實音訊和生成器產生的音訊。透過這種對抗式訓練,生成器能夠學習產生越來越逼真的音訊,且生成速度遠快於自回歸模型。
少樣本/零樣本學習:聲音複製的普及化關鍵
傳統的聲音複製技術,通常需要目標說話者數小時的高品質錄音。而 少樣本 (Few-shot) 和 零樣本 (Zero-shot) 學習技術的出現,極大地降低了數據需求。
這類技術的核心在於引入一個說話者編碼器 (Speaker Encoder)。此編碼器通常是一個在大量不同說話者數據上預訓練的神經網路。它的功能是從一段極短的目標語音(通常只需幾秒鐘)中,提取出一個能代表該說話者音色特性的嵌入向量 (Embedding Vector)。
在進行聲音複製時,這個說話者嵌入向量會被注入到 Tacotron 2 的解碼器和 WaveNet/HiFi-GAN 等神經聲碼器中,作為一個條件 (Condition)。如此一來,整個生成過程都會受到這個嵌入向量的引導,從而確保生成的語音,帶有目標說話者的獨特音色。
- 零樣本學習 指的是,模型可以直接為從未在訓練中出現過的說話者,生成語音。
- 少樣本學習 則是指,可以利用極少量的目標語音數據,對預訓練的模型進行微調 (Fine-tuning),以達到更佳的複製效果。
總結而言,以 Noiz 為代表的現代聲音複製技術,是一個整合了訊號處理、深度學習和生成模型的高度複雜系統。從梅爾頻譜圖的精妙設計,到 Tacotron 2 的序列轉換,再到 WaveNet 和 HiFi-GAN 的逼真波形生成,以及少樣本/零樣本學習帶來的便捷性,每一個環節的技術突破,都共同推動著這項技術走向更廣泛的應用。然而,與此同時,其所引發的倫理和安全問題,也亟需我們建立相應的規範與技術防線,以確保這項強大技術的健康發展。
提取聲音文字
這個步驟的目的是準備要替換相似字數的文案,套用同個講話的調調甚至是沿用部分內容,但是換成另一套文案。以目前這個case來說,noiz已經提取了文字 ,但我們還是試著研究這個topic。
兄弟們,這個新版本一定要去試試上分符喝水。

我們會在下一篇探討音色套在新文字的製作過程。
*以上文章部份為AI產生內容,無商業用途。