MJ、Ideogram 2.0、Flux、Imagen 3,誰能坐上AI生圖第一把交椅?
AI 圈,卷完視頻捲影像。
繼 FLUX 生成的各種惡搞影像滿天飛後,其他 AI 生圖玩家也坐不住了,紛紛迎戰:就在今天,Midjourney 一改往日「高冷範」,宣佈所有使用者可免費使用一個月(暗藏小心思:只能免費生成 25 張影像);
同時,Ideogram 也正式推出 2.0 版本,聲稱文本渲染能力更強;
Google曾多次「劇透」的 AI 生圖模型 Imagen 3 前幾天也終於亮相。
-1- 挑戰 Midjourney 等老牌玩家
今年 2 月份,Ideogram 推出了 1.0 版本,短短半年時間,它再次進化,上線了 2.0 版本,並給每位使用者免費體驗額度,每天可免費生成 40 張影像。
不得不說,Ideogram 2.0 的「寫字」能力有不小的長進,無論是賀卡、T 恤設計、海報還是插圖,它都能呈現更長、更準確的文本。
Prompt:A modern website design with a bubble tea theme. The background is a soft teal color. There's a peach bubble tea with tapioca pearlsin a clear cup. Next to the cup is a peach laptop with a blog post open. There's a comfortable teal chair with a curved back. The text "Relax, create, and work from home" is written in a modern font.
prompt:A 3D render illustration of Hello Kitty in a celebration of love. Hello Kitty is the centerpiece, surrounded by five fluffy,star-shaped objects that glow with warmth and life. Each star displays a word in elegant golden italics: "Be," "Happy," "Kind," "Cool," and "Thankful." The background is a vibrant, contrasting yellow and pink. The scene is enchantingly adorned with soft pink transparent butterflies, small red and orange hearts, and delicate white flowers, adding a touch of romance and whimsy.
prompt:A 3D render of three emojis (Happy, Sad, and Angry) in a new fashion style. They are placed on a dark paper background. In front of the emojis, there is a panel with the text "Therapy Talk" written on it. The overall image has a great weather effect.
為了和 FLUX 掰掰手腕,Ideogram 2.0 也在寫實影像方面下了苦功。
有網友直接使用 Ideogram2.0 生成影像,並讓 Runway Gen-3 轉成視頻,幾乎看不出 bug。
此外,Ideogram2.0 還打出了差異化,上線了「調色盤控制」功能,使用者可選擇多種色彩方案,精準控制影像色彩,如此一來,無論是品牌一致性還是營造特定氛圍,它都能實現。
據介紹,去年 Ideogram 的使用者生成了超過 10 億張影像,為了方便呼叫、激發創作靈感,他們還推出了搜尋功能,使用者只需通過文字進行搜尋即可。
例如,我們在聊天框中輸入「happy birthday」,系統自動跳出一系列相關圖片。
不僅如此,Ideogram 還一口氣推出了 iOS 應用程序以及 API 測試版。
-2- 四款文生圖神器大亂鬥
據官方介紹,Ideogram 2.0 在評估中的表現明顯優於 Flux Pro 和 OpenAI 的 DALLE-3。
既然如此,我們就讓它與市面上最牛的四款 AI 生圖神器來個同台競技,孰優孰劣,實力說話。
Prompt:a young woman with red hair in a blue and white polka dot dress, in the style of helios 44-2 58mm f/2, intense coloration, photo-realistic techniques, dark orange and white, intensity, simplicity, webcam photography.
Prompt:There are houses on the streets, roadside, and across the street in Paris, captured by a Sony camera, high-resolution, masterpiece, 8k.
Prompt:the most epic japanes mini tart, high resolution photo, realistic photo CAMERA: Canon EF, 4k resolution, | LIGHTING: natural light, cinematic still, studio lighting | DETAILS: photorealism, ultra detail, 100mm, f 2.8 Macro IS USM —no wotermark.
Prompt:film still, a, exhausted with a messy hair young woman dancing alone, exhausted at the end of a day party.
Prompt:A horizontal bronze metal sign with the word "Studio Christmas" in an elegant font, surrounded by pine cones and evergreen branches on each side of it. The background is dark wood, creating a contrast between warm colors and cool tones. A close-up shot focuses only on the gold inscription, highlighting its texture and design. This scene evokes the feeling of Christmas season decor.
Prompt:Minimalistic stock photo of a little boy with blonde hair wearing glasses and a blue shirt holding a "Back to School" sign, standing outside in a sunny park, blurred green trees in the background, the boy is smiling confidently, waist-up shot, minimalistic background.
Prompt:A group of farmers are hard at work in the fields, they grow small vertical garden-like pumpkins. In one elaborate scene, tiny people make planks on top of giant, oversized pumpkins. The background is chloroplast, creating a cinematic feel. High-definition detail captures Descartes's resolution, creative composition and bold close-up shots of miniature character states, axial displacement photography, exquisite detail, 8K.
Prompt:The rabbit family plays happily in the room, Disney style, 3D, high detail.
Prompt:eucalyptus and mint classic refreshing drops minimalist packaging.
-3- 前Google工程師創立,AI 大佬投資
論起來,Ideogram 與Google還有點「親戚關係」。
Google可以說是 AI 領域的「黃埔軍校」,其內部搞出過不少好東西,但Google囿於安全、倫理方面的顧慮,不少好產品被「埋沒」。因此不少工程師紛紛出走,自己創業。
Ideogram 亦是如此。
去年 8 月,Ideogram 成立,創始團隊 7 人,來自 Google Brain、加州大學伯克利分校、卡內基梅隆大學和多倫多大學。
其中,Mohammad Norouzi(CEO )、Jonathan Ho (聯合創始人)、 William Chan 和 Chitwan Saharia 都是Google AI 文生圖模型 Imagen 的核心作者,相關論文曾入圍 NeurIPS 2022 Outstanding paper 。
創業前,Mohammad Norouzi 曾在Google大腦工作近 7 年,職位也一路升至高階研究科學家,主要研究的就是生成模型,但涉獵的範圍很廣,包括 Imagen 、 Imagen Video 、用於語音合成的 WaveGrad 、 神經機器翻譯 、用於學習視覺表示的對比學習等。
聯合創始人 Jonathan Ho ,UC 伯克利博士畢業,在擴散模型方面做了非常重要的工作,當年他離開Google時,一度被業內人士視為Google的重大損失。
2022 年 4 月,Google提出了視頻擴散模型(Video Diffusion Models),首次報告了擴散模型根據文本生成視頻的結果效果不俗。而 Mohammad Norouzi 、Jonathan Ho 正是文章的主要作者。
Jonathan Ho 也是擴散模型奠基作品之一、提出去噪擴散模型 Denoising Diffusion Probabilistic Models 一作。(有趣的是,合著者之一 Pieter Abbeel 也是這家公司的投資人)。
Chitwan Saharia 在Google工作時,主要負責領導 image-to-image 擴散模型的工作。
除了擴散模型方面的工作,Willian chan 在Google工作時從事過 神經語音識別 研究,與 Mohammad Norouzi 合作研究用於語音合成的 WaveGrad 。
