藉由「Look in my eyes! Baby, tell me why」認識AI生成工具

回顧藉由「Look in my eyes! Baby, tell me why」認識AI生成工具 – II

前一篇文章中，我們成功的將影片的主角替換成我們智人的祖先。

內容目錄

前情提要：影片換臉前後對照

利用視訊軟體分離影音，提取音軌

回顧初探Blender影片剪輯

將檔案拖拉進入Blender的 VSE mode，會產生分別的video與audio兩軌，參考以下方式精準將開頭吸附到0秒醋處。

如何將檔案吸附到 0 秒處

使用吸附功能 (Snapping)

這是最常見且最精準的方法。

啟用吸附： 在 VSE 編輯器的上方工具列中，你會看到一個 磁鐵圖示。點擊這個圖示，將其啟用。
選擇吸附模式： 磁鐵圖示旁邊有一個下拉選單，可以選擇吸附的目標。通常，你只需要選擇 Increment（增量）或 Frame（影格），這樣在移動時就會自動吸附到每一個影格的邊界。
移動檔案：
- 選擇你要移動的影片或音訊片段。
- 按下 G 鍵（Grab 的縮寫），然後開始拖曳片段。
- 由於吸附功能已經開啟，當你將片段拉到時間軸的起點時，它會自動「吸附」到 0 秒處。

*如果要用整體只render audio only的方式( Render Animation )可以參考下圖細部選項，但其實可以省略這步驟，用直接匯出音訊的方式。

如何單獨匯出音訊

在 Video Sequence Editor (VSE) 中，確認你已經將所有要匯出的音訊片段放在時間軸上，並設定好你需要的長度範圍（Start Frame 和 End Frame）。
在上方主選單列中，點擊 Render (渲染)。
在下拉選單中，選擇 Render Audio (渲染音訊)。
接著會跳出一個視窗，你可以設定音訊的匯出格式、檔案名稱和儲存位置。
選擇好你的設定後，點擊 Mixdown。

Blender 就會開始匯出音訊檔案，這個過程通常比匯出影片快得多。完成後，你就可以在指定的資料夾中找到單獨的音訊檔案了。

Clone 你的音色

使用 https://noiz.ai/landing 來複製說話的音色。

點我進入 Noiz

上傳剛剛匯出的聲音檔，上傳完可以點擊「生成預覽」試試神奇的音色提取，確認後下一步添加到語音庫。

探討 Noiz 的聲音複製技術

聲音複製（Voice Cloning）技術近年來取得了長足的進步，其核心在於利用深度學習模型，精準捕捉並再現人類語音的細微之處。以專注於此領域的 Noiz 公司為例，其技術框架可被視為一個精密的多階段流程，旨在從極短的音訊樣本中，生成高度逼真且富含情感的合成語音。本文將深入剖析此類技術背後的關鍵技術環節，揭示其如何實現從文本到特定人聲的轉換。

聲音複製系統的核心，可解構成一個由多個深度學習模型協同工作的管線（Pipeline）。此管線主要包含三大技術基石：聲學特徵提取 (Acoustic Feature Extraction)、序列到序列的語音合成 (Sequence-to-Sequence Speech Synthesis) 以及 神經聲碼器 (Neural Vocoder)。近年來，少樣本/零樣本學習 (Few-shot/Zero-shot Learning) 的引入，更是大幅降低了聲音複製的門檻。

聲學特徵提取：捕捉聲音的「指紋」

在進行聲音複製之前，系統必須先將原始的音訊波形，轉換為機器更容易理解和處理的格式，此即為聲學特徵。其中，梅爾頻譜圖 (Mel-spectrogram) 是目前最為廣泛使用的聲學特徵之一。

梅爾頻譜圖是一種二維圖像，其橫軸代表時間，縱軸則是梅爾音階（Mel Scale）下的頻率，顏色的深淺則表示在該時間點上，特定頻率的能量大小。梅爾音階是一種非線性的頻率尺度，更貼近人耳對聲音頻率的感知方式，使得模型能更有效地學習到語音中的關鍵訊息。生成梅爾頻譜圖的過程涉及以下訊號處理步驟：

預強化 (Pre-emphasis): 提升高頻部分的能量，以平衡頻譜。
分幀 (Framing): 將連續的音訊訊號，切分成短時間的幀（Frames）。
加窗 (Windowing): 對每一幀應用窗函數（如漢明窗），以減少頻譜洩漏。
短時距傅立葉變換 (Short-Time Fourier Transform, STFT): 將每一幀從時域轉換到頻域。
梅爾濾波器組 (Mel Filterbank): 將頻域上的能量，通過一組三角濾波器，映射到梅爾音階上。
對數運算: 對能量進行對數運算，以壓縮動態範圍，使其更符合人類的聽覺特性。

最終產生的梅爾頻譜圖，不僅包含了說話者的音色（Timbre），也蘊含了語調（Intonation）和韻律（Prosody）等豐富資訊，成為後續深度學習模型的理想輸入。

序列到序列的語音合成：從文字到梅爾頻譜圖

獲得了聲音的「指紋」後，下一個核心任務是建立一個模型，能夠根據輸入的文字，生成對應的梅爾頻譜圖。這通常由一個序列到序列 (Sequence-to-Sequence, Seq2Seq) 模型來完成，而 Tacotron 2 則是此領域的標誌性架構。

Tacotron 2 的架構主要由兩部分組成：

編碼器 (Encoder): 負責理解輸入文字的語意。它首先將文字轉換為詞嵌入向量 (Word Embeddings)，然後通過多層卷積神經網路 (Convolutional Neural Networks, CNN) 和一個雙向長短期記憶網路 (Bidirectional Long Short-Term Memory, Bi-LSTM)，捕捉文字序列中的上下文關係。
解碼器 (Decoder) 與注意力機制 (Attention Mechanism): 解碼器的任務是逐幀生成梅爾頻譜圖。它是一個自回歸 (Autoregressive) 的循環神經網路 (Recurrent Neural Network, RNN)。為了確保生成的頻譜圖與輸入文字的對應關係，Tacotron 2 引入了注意力機制。在生成每一幀頻譜圖時，注意力機制會計算編碼器輸出中，與當前生成內容最相關的部分，並將其作為解碼器的額外輸入，從而確保合成語音的內容準確無誤。

神經聲碼器：從梅爾頻譜圖到真實音訊

儘管梅爾頻譜圖包含了豐富的聲學資訊，但它本身並不是我們可以聽到的聲音。將梅爾頻譜圖轉換為原始音訊波形的工作，就交由神經聲碼器 (Neural Vocoder) 來完成。

WaveNet 是由 DeepMind 開發的，一種生成式模型，它在提升合成語音的自然度方面，扮演了革命性的角色。WaveNet 的核心思想是，直接對音訊波形的機率分佈進行建模。它利用一種稱為擴張因果卷積 (Dilated Causal Convolutions) 的特殊卷積結構，使其在預測當前音訊樣本點時，能夠考慮到前面大量的歷史樣本，從而捕捉到音訊中的長期依賴關係。

然而，原始的 WaveNet 由於其自回歸的特性，生成速度較慢。為了解決這個問題，後續出現了許多基於生成對抗網路 (Generative Adversarial Networks, GANs) 的高效聲碼器，如 HiFi-GAN。GAN 的架構包含一個生成器 (Generator) 和一個判別器 (Discriminator)。生成器負責將梅爾頻譜圖轉換為音訊波形，而判別器則學習區分真實音訊和生成器產生的音訊。透過這種對抗式訓練，生成器能夠學習產生越來越逼真的音訊，且生成速度遠快於自回歸模型。

少樣本/零樣本學習：聲音複製的普及化關鍵

傳統的聲音複製技術，通常需要目標說話者數小時的高品質錄音。而 少樣本 (Few-shot) 和 零樣本 (Zero-shot) 學習技術的出現，極大地降低了數據需求。

這類技術的核心在於引入一個說話者編碼器 (Speaker Encoder)。此編碼器通常是一個在大量不同說話者數據上預訓練的神經網路。它的功能是從一段極短的目標語音（通常只需幾秒鐘）中，提取出一個能代表該說話者音色特性的嵌入向量 (Embedding Vector)。

在進行聲音複製時，這個說話者嵌入向量會被注入到 Tacotron 2 的解碼器和 WaveNet/HiFi-GAN 等神經聲碼器中，作為一個條件 (Condition)。如此一來，整個生成過程都會受到這個嵌入向量的引導，從而確保生成的語音，帶有目標說話者的獨特音色。

零樣本學習 指的是，模型可以直接為從未在訓練中出現過的說話者，生成語音。
少樣本學習 則是指，可以利用極少量的目標語音數據，對預訓練的模型進行微調 (Fine-tuning)，以達到更佳的複製效果。

總結而言，以 Noiz 為代表的現代聲音複製技術，是一個整合了訊號處理、深度學習和生成模型的高度複雜系統。從梅爾頻譜圖的精妙設計，到 Tacotron 2 的序列轉換，再到 WaveNet 和 HiFi-GAN 的逼真波形生成，以及少樣本/零樣本學習帶來的便捷性，每一個環節的技術突破，都共同推動著這項技術走向更廣泛的應用。然而，與此同時，其所引發的倫理和安全問題，也亟需我們建立相應的規範與技術防線，以確保這項強大技術的健康發展。

提取聲音文字

這個步驟的目的是準備要替換相似字數的文案，套用同個講話的調調甚至是沿用部分內容，但是換成另一套文案。以目前這個case來說，noiz已經提取了文字，但我們還是試著研究這個topic。

兄弟們，這個新版本一定要去試試上分符喝水。

我們會在下一篇探討音色套在新文字的製作過程。

*以上文章部份為AI產生內容，無商業用途。

藉由「Look in my eyes! Baby, tell me why」認識AI生成工具 – III

前情提要：影片換臉前後對照

利用視訊軟體分離影音，提取音軌

如何將檔案吸附到 0 秒處

使用吸附功能 (Snapping)

如何單獨匯出音訊

Clone 你的音色

探討 Noiz 的聲音複製技術

聲學特徵提取：捕捉聲音的「指紋」

序列到序列的語音合成：從文字到梅爾頻譜圖

神經聲碼器：從梅爾頻譜圖到真實音訊

少樣本/零樣本學習：聲音複製的普及化關鍵

提取聲音文字

關於作者

jsh0911

發佈留言取消回覆

前情提要：影片換臉前後對照

利用視訊軟體分離影音，提取音軌

如何將檔案吸附到 0 秒處

使用吸附功能 (Snapping)

如何單獨匯出音訊

Clone 你的音色

探討 Noiz 的聲音複製技術

聲學特徵提取：捕捉聲音的「指紋」

序列到序列的語音合成：從文字到梅爾頻譜圖

神經聲碼器：從梅爾頻譜圖到真實音訊

少樣本/零樣本學習：聲音複製的普及化關鍵

提取聲音文字

關於作者

jsh0911

發佈留言 取消回覆

發佈留言取消回覆