回顧 藉由「Look in my eyes! Baby, tell me why」認識AI生成工具 – I
準備原始影片
為了準備影片素材,用Gemini Pro可以生成主播講話的短影片。

準備替換角色的圖檔
使用 即梦! 或是 Stable Diffusion 在線 或是 https://www.krea.ai/image 等服務生成角色圖案 (以上皆須註冊並登入帳號)

也可以考慮 ComfyUI [ 回顧: ComfyUI:視覺化工作流的藝術與效率 ]
當然也可以考慮 Deepseek, Le Chat, Gemini, ChatGPT 等…


Deepseek 如何辨識使用者繪圖指令與多模態處理過程
Deepseek 在辨識使用者繪圖指令時,主要仰賴其強大的自然語言理解(NLU)能力以及針對多模態輸入的特殊處理機制。當使用者發出繪圖指令時,Deepseek 會經歷一個複雜的解析與生成過程,確保能精確理解意圖並轉換為視覺內容。
首先,在指令辨識階段,Deepseek 會對使用者的文字輸入進行深度分析。這不單純是關鍵字比對,而是結合了語義分析、上下文理解與意圖識別。例如,當使用者輸入「畫一個藍色的圓形,旁邊再加一隻紅色的貓」時,Deepseek 不僅會辨識出「畫」、「藍色」、「圓形」、「紅色」、「貓」等關鍵詞,還會理解「一個」、「旁邊再加」等描述詞所表達的空間關係和物件數量。這有賴於模型訓練時,學習了大量的文本與圖像配對數據,使其能夠建立詞語與視覺元素之間的強關聯。某些情況下,Deepseek 可能還會結合用戶過去的偏好或對話歷史,來更精確地判斷其繪圖意圖,例如如果用戶之前一直要求繪製卡通風格的圖像,那麼即使這次沒有明確提及,模型也可能傾向於生成卡通風格。
接下來是多模態處理過程。繪圖指令的本質就是將文字資訊轉換為視覺資訊,這是一個典型的多模態任務。Deepseek 在此過程中主要採用以下策略:
- 文本嵌入 (Text Embedding): 使用者的文字指令會首先被轉換成高維度的向量表示,也就是文本嵌入 (Text Embedding)。這個嵌入會捕捉指令的語義信息,讓模型能夠「理解」指令的內容。
- 視覺概念對應 (Visual Concept Mapping): 模型內部有一個龐大的知識庫,將文本嵌入與大量的視覺概念 (Visual Concepts)(如顏色、形狀、物體、場景、風格等)及其屬性進行對應。當模型接收到「藍色的圓形」時,它能從知識庫中找到「藍色」和「圓形」這兩個視覺概念,並理解它們之間的組合關係。
- 條件生成 (Conditional Generation): 最核心的部分是基於文本指令進行條件生成 (Conditional Generation)。這通常涉及到擴散模型 (Diffusion Models) 或生成對抗網路 (GANs) 等深度學習架構。文本嵌入作為「條件」輸入,引導生成模型在潛在空間中尋找與該條件最匹配的視覺表示,並逐步去噪或迭代生成圖像。在這個過程中,模型不僅會考慮到文字指令中的明確要求,例如物體的顏色和形狀,還會自動補足一些未明確提及的細節,例如光影、紋理、背景等,以生成一個連貫且自然的圖像。
- 疊代與優化 (Iteration and Optimization): 在某些更複雜的場景中,例如多個物件的組合或複雜的場景描述,Deepseek 可能會採用疊代生成的方式。它會先生成基礎的圖像元素,然後再根據指令中更細緻的要求進行調整和優化。例如,先畫出圓形和貓,然後再處理它們的相對位置和大小。
Face Off!
使用 https://viggle.ai/home 來為影片變臉。
Viggle AI 角色動畫與替換技術之科技基礎
Viggle AI,由加拿大新創公司 WarpEngine Canada Inc. 開發,是一個開創性的生成式人工智慧平台,專注於影片中可控角色動畫與替換。其核心創新在於專有的 JST-1 模型,該模型被描述為「首個真正理解物理的 3D 影片基礎模型」。這種物理感知方法對於生成逼真且一致的角色動作至關重要,使其有別於其他生成式人工智慧模型。該平台主要透過「動作轉移技術」運作,讓使用者能夠透過參考動作輸入來為靜態圖像製作動畫或替換現有影片中的角色。儘管 Viggle AI 在可控角色動畫方面表現出色,但它不單純從文字提示生成全新的影片內容,而是專注於操縱現有的視覺元素。其快速成長歸因於使用者友善的介面和強大的社群驅動採用策略,使複雜的動畫過程得以普及。


待續
我們目前為止生成了一個簡短的換臉影片,接著會著手處理對話的部分在之後的文章之中。
去背 (電競椅)可能可以參考 https://www.unscreen.com/ ,有點效果的樣子。

*以上文章部份為AI產生內容,無商業用途。