藉由「Look in my eyes! Baby, tell me why」認識AI生成工具 – II

內容目錄

準備原始影片

準備替換角色的圖檔

使用即梦！或是 Stable Diffusion 在線等服務生成角色圖案 (以上皆須註冊定登入帳號）

也可以考慮 ComfyUI [ 回顧： ComfyUI：視覺化工作流的藝術與效率 ]

當然也可以考慮 Deepseek, Le Chat, Gemini, ChatGPT 等…

Deepseek 如何辨識使用者繪圖指令與多模態處理過程

Deepseek 在辨識使用者繪圖指令時，主要仰賴其強大的自然語言理解（NLU）能力以及針對多模態輸入的特殊處理機制。當使用者發出繪圖指令時，Deepseek 會經歷一個複雜的解析與生成過程，確保能精確理解意圖並轉換為視覺內容。

首先，在指令辨識階段，Deepseek 會對使用者的文字輸入進行深度分析。這不單純是關鍵字比對，而是結合了語義分析、上下文理解與意圖識別。例如，當使用者輸入「畫一個藍色的圓形，旁邊再加一隻紅色的貓」時，Deepseek 不僅會辨識出「畫」、「藍色」、「圓形」、「紅色」、「貓」等關鍵詞，還會理解「一個」、「旁邊再加」等描述詞所表達的空間關係和物件數量。這有賴於模型訓練時，學習了大量的文本與圖像配對數據，使其能夠建立詞語與視覺元素之間的強關聯。某些情況下，Deepseek 可能還會結合用戶過去的偏好或對話歷史，來更精確地判斷其繪圖意圖，例如如果用戶之前一直要求繪製卡通風格的圖像，那麼即使這次沒有明確提及，模型也可能傾向於生成卡通風格。

接下來是多模態處理過程。繪圖指令的本質就是將文字資訊轉換為視覺資訊，這是一個典型的多模態任務。Deepseek 在此過程中主要採用以下策略：

文本嵌入 (Text Embedding)： 使用者的文字指令會首先被轉換成高維度的向量表示，也就是文本嵌入 (Text Embedding)。這個嵌入會捕捉指令的語義信息，讓模型能夠「理解」指令的內容。
視覺概念對應 (Visual Concept Mapping)： 模型內部有一個龐大的知識庫，將文本嵌入與大量的視覺概念 (Visual Concepts)（如顏色、形狀、物體、場景、風格等）及其屬性進行對應。當模型接收到「藍色的圓形」時，它能從知識庫中找到「藍色」和「圓形」這兩個視覺概念，並理解它們之間的組合關係。
條件生成 (Conditional Generation)： 最核心的部分是基於文本指令進行條件生成 (Conditional Generation)。這通常涉及到擴散模型 (Diffusion Models) 或生成對抗網路 (GANs) 等深度學習架構。文本嵌入作為「條件」輸入，引導生成模型在潛在空間中尋找與該條件最匹配的視覺表示，並逐步去噪或迭代生成圖像。在這個過程中，模型不僅會考慮到文字指令中的明確要求，例如物體的顏色和形狀，還會自動補足一些未明確提及的細節，例如光影、紋理、背景等，以生成一個連貫且自然的圖像。
疊代與優化 (Iteration and Optimization)： 在某些更複雜的場景中，例如多個物件的組合或複雜的場景描述，Deepseek 可能會採用疊代生成的方式。它會先生成基礎的圖像元素，然後再根據指令中更細緻的要求進行調整和優化。例如，先畫出圓形和貓，然後再處理它們的相對位置和大小。

Face Off!

使用 https://viggle.ai/home 來為影片變臉

藉由「Look in my eyes! Baby, tell me why」認識AI生成工具 – II

準備原始影片

準備替換角色的圖檔

Deepseek 如何辨識使用者繪圖指令與多模態處理過程

Face Off!

關於作者

jsh0911

發佈留言取消回覆

準備原始影片

準備替換角色的圖檔

Deepseek 如何辨識使用者繪圖指令與多模態處理過程

Face Off!

關於作者

jsh0911

發佈留言 取消回覆

發佈留言取消回覆