實測4款AI文字生成圖片神器 Midjourney面對強者還是技勝一籌?

撰文:機器之心
出版:更新:

MJ、Ideogram 2.0、Flux、Imagen 3,誰能坐上AI生圖第一把交椅?

AI 圈,卷完視頻捲圖像。

繼 FLUX 生成的各種惡搞圖像滿天飛後,其他 AI 生圖玩家也坐不住了,紛紛迎戰:就在今天,Midjourney 一改往日「高冷範」,宣佈所有用戶可免費使用一個月(暗藏小心思:只能免費生成 25 張圖像);

同時,Ideogram 也正式推出 2.0 版本,聲稱文本渲染能力更強;

Google曾多次「劇透」的 AI 生圖模型 Imagen 3 前幾天也終於亮相。

更有趣的是,Ideogram和Google,還沾點「親戚」關係。

-1- 挑戰 Midjourney 等老牌玩家

今年 2 月份,Ideogram 推出了 1.0 版本,短短半年時間,它再次進化,上線了 2.0 版本,並給每位用戶免費體驗額度,每天可免費生成 40 張圖像。

不得不說,Ideogram 2.0 的「寫字」能力有不小的長進,無論是賀卡、T 恤設計、海報還是插圖,它都能呈現更長、更準確的文本。

圖01:

Prompt:A modern website design with a bubble tea theme. The background is a soft teal color. There's a peach bubble tea with tapioca pearlsin a clear cup. Next to the cup is a peach laptop with a blog post open. There's a comfortable teal chair with a curved back. The text "Relax, create, and work from home" is written in a modern font.

圖02:

prompt:A 3D render illustration of Hello Kitty in a celebration of love. Hello Kitty is the centerpiece, surrounded by five fluffy,star-shaped objects that glow with warmth and life. Each star displays a word in elegant golden italics: "Be," "Happy," "Kind," "Cool," and "Thankful." The background is a vibrant, contrasting yellow and pink. The scene is enchantingly adorned with soft pink transparent butterflies, small red and orange hearts, and delicate white flowers, adding a touch of romance and whimsy.

圖03:

prompt:A 3D render of three emojis (Happy, Sad, and Angry) in a new fashion style. They are placed on a dark paper background. In front of the emojis, there is a panel with the text "Therapy Talk" written on it. The overall image has a great weather effect.

為了和 FLUX 掰掰手腕,Ideogram 2.0 也在寫實圖像方面下了苦功。

其現實主義風格可以創造出以假亂真的圖像,紋理、人物肌膚以及頭髮都更逼真。

有網友直接使用 Ideogram2.0 生成圖像,並讓 Runway Gen-3 轉成視頻,幾乎看不出 bug。

此外,Ideogram2.0 還打出了差異化,上線了「調色板控制」功能,用戶可選擇多種色彩方案,精準控制圖像色彩,如此一來,無論是品牌一致性還是營造特定氛圍,它都能實現。

輕鬆調色(機器之能提供)

據介紹,去年 Ideogram 的用戶生成了超過 10 億張圖像,為了方便調用、激發創作靈感,他們還推出了搜索功能,用戶只需通過文字進行搜索即可。

例如,我們在聊天框中輸入「happy birthday」,系統自動跳出一系列相關圖片。

簡單生成圖片(機器之能提供)

不僅如此,Ideogram 還一口氣推出了 iOS 應用程序以及 API 測試版。

已有API版(機器之能提供)

-2- 四款文生圖神器大亂鬥

據官方介紹,Ideogram 2.0 在評估中的表現明顯優於 Flux Pro 和 OpenAI 的 DALLE-3。

既然如此,我們就讓它與市面上最牛的四款 AI 生圖神器來個同台競技,孰優孰劣,實力說話。

照片寫實圖01

Prompt:a young woman with red hair in a blue and white polka dot dress, in the style of helios 44-2 58mm f/2, intense coloration, photo-realistic techniques, dark orange and white, intensity, simplicity, webcam photography.

照片寫實圖02

Prompt:There are houses on the streets, roadside, and across the street in Paris, captured by a Sony camera, high-resolution, masterpiece, 8k.

照片寫實圖03

Prompt:the most epic japanes mini tart, high resolution photo, realistic photo CAMERA: Canon EF, 4k resolution, | LIGHTING: natural light, cinematic still, studio lighting | DETAILS: photorealism, ultra detail, 100mm, f 2.8 Macro IS USM —no wotermark.

照片寫實圖04

Prompt:film still, a, exhausted with a messy hair young woman dancing alone, exhausted at the end of a day party.

文本渲染01:

Prompt:A horizontal bronze metal sign with the word "Studio Christmas" in an elegant font, surrounded by pine cones and evergreen branches on each side of it. The background is dark wood, creating a contrast between warm colors and cool tones. A close-up shot focuses only on the gold inscription, highlighting its texture and design. This scene evokes the feeling of Christmas season decor.

文本渲染02:

Prompt:Minimalistic stock photo of a little boy with blonde hair wearing glasses and a blue shirt holding a "Back to School" sign, standing outside in a sunny park, blurred green trees in the background, the boy is smiling confidently, waist-up shot, minimalistic background.

多風格生成01

Prompt:A group of farmers are hard at work in the fields, they grow small vertical garden-like pumpkins. In one elaborate scene, tiny people make planks on top of giant, oversized pumpkins. The background is chloroplast, creating a cinematic feel. High-definition detail captures Descartes's resolution, creative composition and bold close-up shots of miniature character states, axial displacement photography, exquisite detail, 8K.

多風格生成02

Prompt:The rabbit family plays happily in the room, Disney style, 3D, high detail.

多風格生成03

Prompt:eucalyptus and mint classic refreshing drops minimalist packaging.

-3- 前Google工程師創立,AI 大佬投資

論起來,Ideogram 與Google還有點「親戚關係」。

Google可以說是 AI 領域的「黃埔軍校」,其內部搞出過不少好東西,但Google囿於安全、倫理方面的顧慮,不少好產品被「埋沒」。因此不少工程師紛紛出走,自己創業。

Ideogram 亦是如此。

去年 8 月,Ideogram 成立,創始團隊 7 人,來自 Google Brain、加州大學伯克利分校、卡內基梅隆大學和多倫多大學。

其中,Mohammad Norouzi(CEO )、Jonathan Ho (聯合創始人)、 William Chan 和 Chitwan Saharia 都是Google AI 文生圖模型 Imagen 的核心作者,相關論文曾入圍 NeurIPS 2022 Outstanding paper 。

創業前,Mohammad Norouzi 曾在Google大腦工作近 7 年,職位也一路升至高級研究科學家,主要研究的就是生成模型,但涉獵的範圍很廣,包括 Imagen 、 Imagen Video 、用於語音合成的 WaveGrad 、 神經機器翻譯 、用於學習視覺表示的對比學習等。

(機器之能提供)

聯合創始人 Jonathan Ho ,UC 伯克利博士畢業,在擴散模型方面做了非常重要的工作,當年他離開Google時,一度被業內人士視為Google的重大損失。

(機器之能提供)

2022 年 4 月,Google提出了視頻擴散模型(Video Diffusion Models),首次報告了擴散模型根據文本生成視頻的結果效果不俗。而 Mohammad Norouzi 、Jonathan Ho 正是文章的主要作者。

Jonathan Ho 也是擴散模型奠基作品之一、提出去噪擴散模型 Denoising Diffusion Probabilistic Models 一作。(有趣的是,合著者之一 Pieter Abbeel 也是這家公司的投資人)。

Chitwan Saharia 在Google工作時,主要負責領導 image-to-image 擴散模型的工作。

除了擴散模型方面的工作,Willian chan 在Google工作時從事過 神經語音識別 研究,與 Mohammad Norouzi 合作研究用於語音合成的 WaveGrad 。

工具鏈接 ——
Ideogram 2.0鏈接:https://ideogram.ai/t/explore
Midjourney 鏈接:https://www.midjourney.com/home
Flux 鏈接:https://fal.ai/models/fal-ai/flux/schnell
Imagen3 鏈接:https://aitestkitchen.withgoogle.com/tools/image-fx

延伸閱讀:AI繪圖逆天了 透過細節、畫質與邏輯 你能破解Real or Not?(點擊連結看全文)

+8

【本文轉自「機器之心」,微信公眾號:almosthuman2014】