準備原始影片
準備替換角色的圖檔
使用 即梦! 或是 Stable Diffusion 在線 等服務生成角色圖案 (以上皆須註冊定登入帳號)

也可以考慮 ComfyUI [ 回顧: ComfyUI:視覺化工作流的藝術與效率 ]
當然也可以考慮 Deepseek, Le Chat, Gemini, ChatGPT 等…

Deepseek 如何辨識使用者繪圖指令與多模態處理過程
Deepseek 在辨識使用者繪圖指令時,主要仰賴其強大的自然語言理解(NLU)能力以及針對多模態輸入的特殊處理機制。當使用者發出繪圖指令時,Deepseek 會經歷一個複雜的解析與生成過程,確保能精確理解意圖並轉換為視覺內容。
首先,在指令辨識階段,Deepseek 會對使用者的文字輸入進行深度分析。這不單純是關鍵字比對,而是結合了語義分析、上下文理解與意圖識別。例如,當使用者輸入「畫一個藍色的圓形,旁邊再加一隻紅色的貓」時,Deepseek 不僅會辨識出「畫」、「藍色」、「圓形」、「紅色」、「貓」等關鍵詞,還會理解「一個」、「旁邊再加」等描述詞所表達的空間關係和物件數量。這有賴於模型訓練時,學習了大量的文本與圖像配對數據,使其能夠建立詞語與視覺元素之間的強關聯。某些情況下,Deepseek 可能還會結合用戶過去的偏好或對話歷史,來更精確地判斷其繪圖意圖,例如如果用戶之前一直要求繪製卡通風格的圖像,那麼即使這次沒有明確提及,模型也可能傾向於生成卡通風格。
接下來是多模態處理過程。繪圖指令的本質就是將文字資訊轉換為視覺資訊,這是一個典型的多模態任務。Deepseek 在此過程中主要採用以下策略:
- 文本嵌入 (Text Embedding): 使用者的文字指令會首先被轉換成高維度的向量表示,也就是文本嵌入 (Text Embedding)。這個嵌入會捕捉指令的語義信息,讓模型能夠「理解」指令的內容。
- 視覺概念對應 (Visual Concept Mapping): 模型內部有一個龐大的知識庫,將文本嵌入與大量的視覺概念 (Visual Concepts)(如顏色、形狀、物體、場景、風格等)及其屬性進行對應。當模型接收到「藍色的圓形」時,它能從知識庫中找到「藍色」和「圓形」這兩個視覺概念,並理解它們之間的組合關係。
- 條件生成 (Conditional Generation): 最核心的部分是基於文本指令進行條件生成 (Conditional Generation)。這通常涉及到擴散模型 (Diffusion Models) 或生成對抗網路 (GANs) 等深度學習架構。文本嵌入作為「條件」輸入,引導生成模型在潛在空間中尋找與該條件最匹配的視覺表示,並逐步去噪或迭代生成圖像。在這個過程中,模型不僅會考慮到文字指令中的明確要求,例如物體的顏色和形狀,還會自動補足一些未明確提及的細節,例如光影、紋理、背景等,以生成一個連貫且自然的圖像。
- 疊代與優化 (Iteration and Optimization): 在某些更複雜的場景中,例如多個物件的組合或複雜的場景描述,Deepseek 可能會採用疊代生成的方式。它會先生成基礎的圖像元素,然後再根據指令中更細緻的要求進行調整和優化。例如,先畫出圓形和貓,然後再處理它們的相對位置和大小。
Face Off!
使用 https://viggle.ai/home 來為影片變臉