「AI畢加索」號稱什麼也畫得出　人們輸入指示　結果是這樣

由「企鵝」構成的「炸雞」長什麼樣？用「長頸鹿」組成的「雞」是什麼鬼……長頸雞嗎？你或許覺得這種並不存在的事物過於荒誕，而且靠自身的想像力有點難以描述，但最近，有AI能把這些東西畫出來了。

例如當你給出設定，用「大象」構成的「雞」，一般人還在愁雞頭應該安排在哪，這款最新的AI已經畫完了，而且一口氣畫了幾十張。

點擊放大瀏覽OpenAI圖像生成器DALL·E的「作品」▼▼▼

+29

蘇格蘭球賽AI取代攝影師　誤認旁證光頭是球全場追拍　氣壞球迷印度男用「垃圾」造出AI女機械人　會說38種語言　成本不到5500元

情不自禁的想來一個「看懂，掌聲」。沒錯，OpenAI又成熱話了，今天要介紹的這位AI界的新晉畢加索正是他們最近訓練出的圖像生成器，DALL·E。關於會畫畫的AI，狂丸之前沒少介紹過，但DALL·E有點特別，在一定的框架下，它能按照人類的文字描述，給出畫面圖像，無論這段描述有多不着調。如果讓你畫一幅「一個小白菜寶寶穿着芭蕾舞裙遛狗」，你可能會一臉懵，但DALL·E直接就整出來了；主角換成比卡超也沒問題，而且每隻狗子都不一樣。所以，這看起來就是一個可以利用文本描述生成圖像的AI。人類的指令就是像是完成填空題，有一些可選選項，模式類似：繪製一個「xxx」的「xxx」，比如選取了「綠色，六邊形，鐘錶」，得到了綠色的錶。於是，不同的關鍵詞就組成了千奇百怪的東西，雖然看着有一絲絲惡搞味，但其實這款AI在製圖方面有着比較全面的功能。

DALL·E都能「畫」些什麼？比較基礎的就是「控制屬性」。我們剛才介紹過，例如「立方體」的「老虎」，通過兩個簡單的關鍵詞構成的一組詞彙，然後生成畫面，或是「環面」的「水」，還可以「繪製多個對象」，包括他們的空間關係，像是一個「小」的「紅色」的方塊，「立」在一個大的「綠色」方塊上。此時AI不僅要將詞組正確組合，而且要形成正確的關聯，避免混淆。上方圖輯中的「一隻綠色的大象坐在一隻紅色老鼠身上」，足可以感受到AI的抽像畫法。另外還可以根據「畫面的視角」生成圖片，如「美洲獅」「坐在山上」的「鳥瞰圖」，當然也可以選擇平視或者特寫等多個視角選項；根據「畫面風格」變動生成圖片，「狐狸」「坐在森林裏」的「3D渲染圖」；類似的關鍵詞，還可以換成前幾年比較火的低多邊形風格，也可以改成像素風格；還可以生成「橫截面圖」，將西瓜切的稀碎。

其他的功能還有很多，例如「推理背景細節」，給出一個大概的方向讓AI補充畫面；像是「早晨，一隻水豚坐在森林裏的畫」，AI會根據關鍵詞，推斷光線一類的需求，然後生成不同風格的「畫」這個結果，看效果確實藝術極了。而我最喜歡的是「合併不相關的概念」。通常來說，我們組合一個詞彙都是用於描述真實存在的事物，例如木質的桌子。不過好玩的是，DALL·E可以將不同概念的對象「強行」縫合，創造出新的東西，舉個例子，設置由「蝸牛」組成的「漢堡」，於是就出現了漢堡蝸牛，感覺類似的生成方式，很適合做設計。更進一步還可以製作「腦洞插畫」，「比卡超」「穿着西裝」「擤鼻涕」；「動物與動物之間的嵌合體」，用「長頸鹿」組成的「雞」；還有神話中的不太好想像的「貓龍」，在AI眼裏，竟然是長成這樣的（點擊上方圖輯瀏覽）？

DALL-E是什麼？怎麼做到的？

如果你對GPT-3有印象，就能更簡單的理解DALL·E。對，GPT-3就是那個給一些詞或者句子，就能夠自己寫文章的那個AI。這次的DALL·E也是類似的功能，只不過變成給文字生成圖片了。其本質跟GPT-3一樣，還是變壓器語言模型。在GPT-3那裏，變壓器是從「文字到文字」，這個DALL·E則更進一步，變成了「文字到圖片」。是不是很神奇？那麼，這個AI又是如何做到的呢？根據DALL·E創造者OpenAI的介紹，實現這個DALL·E，有兩個關鍵的核心。第一個，是接收數據流進行訓練。 DALL·E會接收圖像和文字所組合的數據流，在模型訓練之前，需要對數據進行預處理，一次接受後，會用到1280個標記，其中256個用於標記文本，1024個用於標記圖像。之後，便是對這些數據進行自回歸建模，這時候，DALL·E使用了一種名為「自註意力層」以及其中的「注意遮罩」。

怎麼理解這個概念呢？大家可以回想一下，平時你在聚精會神地觀察某個東西的時候，是不是會忽略周圍的東西，這時候，你的注意力都集中在那個事物上？是的，在AI上，也有類似的概念：注意力機制。簡單來說，就是用算法，讓AI可以在不同外界需要下去選擇性地觀察，找出最有用的點。不同的算法得出的不同結果，就類似於咱們對同一事物的不同聚焦點，正如詩云「橫看成嶺側成峰」。而在「自註意力」上，其實與註意力，只差了一個字，它是後者的一種變體。二者的區別，就是「自註意力」減少了對外部信息的依賴，在原本就具有的「注意力」分析上，更側重於分析數據流內部各標記的相關性。在這個DALL·E中，這樣的不同註意力「遮罩」，一共有着64個。正是有了足夠多關注和分析的角度，保證了訓練中同一輸入中的每個圖像標記，都能或強或弱地與文字標記產生關聯。其次，DALL·E還有另外一個核心：看看自己畫得好不好。你讓他畫畫，他其實會先畫出512幅畫，不過嘛，AI在給你輸出結果前，還會自己斟酌斟酌。這個使用的便是CLIP網絡，這是一個評價系統，它會對自己的作品進行評分，然後根據高低順序排列，排名靠前的，才會輸出給你。不過無論是哪一種，都挺萌，而且看起來似乎也挺好吃的。

俄美術館保安「因為太悶」　竟為名畫「加工」下場曝光 FF7蒂法Tifa｜成人動畫突然插播　意大利參議院網上會議遭惡搞打格仔就安全了嗎？AI消除馬賽克技術面世　厚格文字也能神還原韓國首位AI主播亮相　語調動作超逼真　可24小時不間斷工作 AI為《衛報》撰寫專欄稱「無意消滅人類」　為何仍惹讀者反感？AI與美軍頂尖戰機駕駛員對決　「虛擬空戰」人類首敗陣手冢治虫復活！？AI學習重現創作方式製作全新漫畫《斐多》發布！

【本文獲「狂丸研究所」授權轉載，微信公眾號：kuangwanplay】

「AI畢加索」號稱什麼也畫得出 人們輸入指示 結果是這樣

「AI畢加索」號稱什麼也畫得出 人們輸入指示 結果是這樣

「AI畢加索」號稱什麼也畫得出　人們輸入指示　結果是這樣

「AI畢加索」號稱什麼也畫得出　人們輸入指示　結果是這樣