這款多風格開源AI圖像生成功能在小紅書爆紅 Github也登上熱搜榜
只需一張照片,整個過程無需訓練 LoRA 模型,多風格 AI 寫真即刻呈現!
最近,有一群來自小紅書的 95 後神秘團隊,自稱 InstantX,搞了個大動作 —— 開源「InstantID」項目。
InstantID 憑藉着高質量的圖像生成能力,在開源界掀起了一股熱潮:不僅獲得了眾多技術大佬的點贊,更是在 GitHub 熱榜上迅速飆升,成為焦點。
這個「出片神器」,讓用戶只需上傳一張照片,就能輕鬆定製出多種風格的 AI 寫真。
對,你沒看錯。如圖左側所示,與之前爆火的妙鴨相機至少需要上傳 20 張照片不同的是,InstantID 只需一張自拍,不依賴模型訓練,不需要等待,瞬間變身。
無論是古典油畫的優雅,炫酷的賽博朋克,或是 3D 雕像的立體感,只要是你喜歡的風格,InstantID 都能輕鬆駕馭。
它不僅風格多樣,還能在保持人物面部高保真的同時,無需模型訓練,實現秒級出圖,效率大幅提升。
InstantID 目前位列 Hugging Face Space Trending 榜首,許多小夥伴玩得不亦樂乎~
比如,把馬斯克送上了火星。
讓蒙娜麗莎拍「櫻花寫真」,微笑依舊很神秘。
甚至可以讓語文課本中的杜甫從二維變三維,穿越到現代變身「帥大叔」。
圖靈獎得主 Yann LeCun,化身多種動漫人物,你猜出了幾個角色?
就連 Yann LeCun 本人也點贊轉發,調侃自己的「鋼鐵俠」衣服在哪裏。
在個性化圖像合成領域,實現強烈風格化寫真的同時保持面部高保真度,一直是個挑戰。
從效果上看,InstantID 做到了。那它背後運用了哪些方法,有什麼獨到之處嗎?
回顧過去,儘管 Textual Inversion、 DreamBooth 和 LoRAs 等技術已經取得了重大進展。但它們在實際應用中仍受限於高存儲需求、耗時的微調過程以及對多張參考圖像的依賴。相比之下,現有基於 ID 嵌入的方法雖然只需一次前向推理,但也面臨不小挑戰:要麼需要對大量模型參數進行廣泛的微調,要麼與社區預訓練模型不兼容,要麼無法保持高真實性。
InstantID 的出現,打破了這些侷限。小紅書 InstantX 團隊公開了論文《 InstantID: Zero-shot Identity-Preserving Generation in Seconds 》和推理代碼,他們表示:InstantID 巧妙地避免了對文生圖模型 UNet 部分的訓練,僅通過訓練一個輕量級的可插拔模塊,實現了在推理過程中無需 test-time tuning,同時保持了文本控制的靈活性,確保了面部特徵的高保真度。
如圖所示,InstantID 的工作原理可分為三個關鍵部分:
ID Embedding:團隊利用預訓練的面部識別模型代替 CLIP 來提取語義人臉特徵,並使用可訓練的投影層,將這些特徵映射到文本特徵空間,形成 Face Embedding,具有豐富的語義訊息,包括如面部特徵、表情、年齡等,為後續的圖像生成提供了堅實的基礎。
Image Adapter:引入一個輕量級的適配模塊,將提取的身份訊息與文本提示結合起來。這個模塊通過解耦的交叉注意力機制,使得圖像和文本能夠獨立地影響生成過程,從而在保持身份訊息的同時,允許用戶對圖像風格進行精細控制,實現「雙贏」。
IdentityNet:小紅書提出了一個名為 IdentityNet 的網絡,是 InstantID 的核心部分。它通過強語義條件(如面部特徵的詳細描述)和弱空間條件(如面部關鍵點的位置)來編碼參考面部圖像的複雜特徵。在 IdentityNet 中,生成過程完全由 Face Embedding 引導,無需任何文本訊息。僅更新新添加的模塊,而預先訓練的文本到圖像模型保持凍結以確保靈活性。
在實際的圖像生成過程中,InstantID 首先會接收到用戶的文本提示和麪部圖像。然後通過 ID Embedding 提取關鍵訊息,接着 Image Adapter 將這些訊息與文本提示融合。IdentityNet 會根據這些融合後的訊息生成圖像。
整個過程是自動化的,用戶不需要進行任何額外的微調或訓練,只需等待二十幾秒,就能得到一個既符合文本描述又保留個人身份特徵的定製圖像。
InstantID 不僅解決了訓練效率與身份保真度之間的平衡問題,還提供了一系列令人印象深刻的特性。
首先,InstantID 的即插即用和兼容性是其最大的賣點之一。它無需對 UNet 進行額外訓練,即可與現有的預訓練模型無縫集成,如社區內的文生圖基礎模型、LoRAs 和 ControlNets。這意味着用戶可以在不增加成本的情況下,輕鬆地在推理過程中保持人物的身份特徵,裂變性強。
其次,InstantID 的無需微調特性,使得它在實際應用中極具經濟性和實用性。用戶只需進行一次前向傳播,即可快速生成圖像,同時保持對文本編輯的強大控制力,讓身份訊息與各種風格完美融合。如下圖所示,其編輯性強的特點讓用戶能夠通過文本控制性別、頭髮、服裝等細節,確保生成圖像的多樣性。
性能方面的表現同樣卓越,它能夠僅憑一張參考圖像,就生成具有高保真度和靈活性的先進結果。這一性能不僅超越了基於單張圖片特徵的嵌入方法,如 IP-Adapter-FaceID,而且在特定場景下,其效果與 ROOP、LoRAs 等方法不相上下。
對於相似度有更高要求的真人寫真場景,InstantID 也能完成得不錯。不僅能夠在秒級時間內完成高質量的圖像生成,還避免耗時的 LoRa 訓練,相比妙鴨成本更低,大約是其 1/300。通過精細化控制臉部區域,InstantID 能夠增強臉部相似度,同時保持整體風格的和諧。
此外,InstantID 的分區域生成方案支持多人多風格的圖像生成,耗時基本無增。
它的魯棒性和泛化性,使其能順利處理誇張的五官比例。
多視角的生成也沒問題。按你指定的姿勢圖和麪部特徵,生成新的 AI 寫真。
InstantID 的可擴展性良好,能夠快速支持多種衍生功能。
比如快速換臉。與 Inswapper 相比,InstantID 生成的作品在面孔和背景的融合上更加靈活。
ID 訊息插值。InstantID 支持兩臉自定義融合,保留雙方特徵。
非人像與 ID 的結合,很有特點。
聊到這兒,不妨你親自嘗試一下,感受它的魅力。
操作方式非常簡單,進入 InstantID 的 Demo 頁面,直接上傳照片,便可免費體驗 :
https://huggingface.co/spaces/InstantX/InstantID
InstantID 的這些優勢,不僅為個人用戶提供了強大的創作工具,也為商業應用如電子商務、廣告和娛樂產業開闢了新的可能性。InstantID 本次表現令人驚喜,其高效、靈活、強大的性能和易用性,印象深刻。期待小紅書該開源項目的後續進展,未來能在多個領域發揮出更大的價值。
附錄:
論文地址:https://arxiv.org/abs/2401.07519
InstantID 主頁:https://instantid.github.io/
Demo 嚐鮮:https://huggingface.co/spaces/InstantX/InstantID
延伸閱讀:宮崎駿發布龍年賀卡腳踏彩色祥雲 網民:看起來不太聰明的樣子
【本文轉自「機器之能」,微信公眾號:almosthuman2017】