人工智能領(lǐng)域缺錢,但這兩個月來,他們不缺「好消息」。

2021 年的第一周還沒過去,AI 就再次向人類發(fā)起了「挑釁」。
AI 研究機構(gòu) OpenAI,繼去年部分開放了 AI 模型 GPT-3 并引爆整個科技圈之后,又于近期連發(fā)了 DALL·E 和 CLIP 這兩個連接文本與圖像的神經(jīng)網(wǎng)絡(luò)。它們剛一面世,就點燃了整個 AI 社區(qū)。因為人們發(fā)現(xiàn)有了這些神經(jīng)網(wǎng)絡(luò),就能通過自然語言操縱視覺概念,比如,你輸入「一把牛油果造型的扶手椅」,它們就能通過圖像合成,「憑空捏造」出一系列的目標圖像。
DALL·E 率先在社交網(wǎng)絡(luò)上刷起了屏,因為人們放出了很多看起來像憑空捏造的合成圖,比如「立方體狀的豪豬」、「由烏龜變成的長頸鹿」和「豎琴狀的蝸?!?,這些就像是超現(xiàn)實主義畫家薩爾瓦多·達利在夢里會看到的奇異造物。有意思的是,DALL·E 也正是「Dalí」和皮克斯動畫形象「WALL-E」的合成詞。
DALL·E 是 OpenAI 基于 GPT-3 開發(fā)的一種「用字生圖」的 AI。GPT-3 本質(zhì)上是一個自然語言處理(NLP)模型,機器就是依靠 NLP 理解了我們平時說的「人話」。在 1750 億參數(shù)量基礎(chǔ)上的 GPT-3,展現(xiàn)出了驚人的翻譯、問答和文本填空能力,寫出來的新聞甚至通過了圖靈測試,人們分辨不出是人還是機器寫的。
GPT-3 可擴展性非常強大,甚至可以用在無代碼開發(fā)領(lǐng)域。無代碼就是就是不用敲代碼也可以直接生成程序,而 GPT-3 就是強大的無代碼開發(fā)平臺,只要對它輸入你想要什么樣的網(wǎng)頁或者 app,它就能幫你直接生成。因此,業(yè)內(nèi)認為基層碼農(nóng)將會被 AI「干掉」。
而 DALL·E 是 GPT-3 的一個小版本,使用了 120 億個參數(shù)。它使用的是「文本-圖像對」的數(shù)據(jù)集,而非像 GPT-3 那樣廣泛的數(shù)據(jù)集?!笍脑砩蟻砜?,它應(yīng)該就是 GPT-3 在文本合成圖像方向上的擴展版本?!筀eras 創(chuàng)始人 Fran ois Chollet 表示。
DALL·E 可以利用自然語言從文字說明中「捏造」圖像,就像 GPT-3 創(chuàng)建網(wǎng)站和寫故事一樣。DALL·E 生成復(fù)雜圖像的表現(xiàn),讓人驚喜,比如下面這則包含多個要素的目標文本:「一只戴著紅帽子、黃手套、藍襯衫和綠褲子的刺猬」。
要正確地解釋這句話,DALL·E 不僅要正確地將每件衣服與動物組合在一起,還要將(帽子、紅色)、(手套、黃色)、(襯衫、藍色)和(褲子,綠色)形成各種聯(lián)想,而且還不能混淆它們。
這張圖顯示了 DALL·E 掌握了理解相對定位、堆疊對象和控制多個屬性方面的能力|OpenAI
因為足夠強大的 NLP 底層,DALL·E 還能執(zhí)行多種圖像到圖像的翻譯任務(wù),比如「參照上面的貓在下面生成草圖」、「畫出和上面一樣的茶壺,并在茶壺上寫上『GPT』」等等。除此之外,DALL·E 也能理解地理事實,生成讓人信服的「中國食物的圖片」,它甚至也能理解「時間」,畫出從 20 年代起發(fā)明的電話,甚至聯(lián)想未來的手機。
中國食物
另外,它還能根據(jù)文字指令「看日出的水豚鼠」,生成諸如波普風(fēng)格、超現(xiàn)實主義風(fēng)格、浮世繪風(fēng)格等不同藝術(shù)風(fēng)格的畫作,還能渲染出各個角度下美洲獅的細節(jié)。
Coursera 創(chuàng)始人、斯坦福大學(xué)教授吳恩達還特別對 OpenAI 表示祝賀,并挑選了自己最喜歡的「藍色襯衫 + 黑色長褲」的 AI 生成圖。DALL·E 能不能成為藝術(shù)家不敢說,但成為 AI 大神的著裝參謀,綽綽有余。
一個生成圖像,一個匹配文字和圖像
但 DALL·E 目前也存在局限,比如當人們引入更多的對象時,DALL-E 容易混淆對象及其顏色之間的關(guān)聯(lián)。另外,用意思相同的詞重新表述指令,生成的圖像也不一致。還有一些跡象表明,DALL·E 只是在模仿它在網(wǎng)上看到的圖片,而不是生成新穎的圖像。
而 OpenAI 同期發(fā)布的 CLIP(Contrastive Language–Image Pre-training),則是為了加強文本和圖像的關(guān)聯(lián)程度而誕生的。CLIP 是一個從互聯(lián)網(wǎng)上收集的 4 億對圖像和文本來進行訓(xùn)練的多模態(tài)模型。
CLIP 使用了大量可用的監(jiān)督資源,即網(wǎng)絡(luò)上找到的文本-圖像對。這些數(shù)據(jù)用于創(chuàng)建 CLIP 的代理訓(xùn)練任務(wù),即給定一張圖像,然后預(yù)測數(shù)據(jù)集中 32768 個隨機采樣文本片段中哪個與該圖像匹配。
簡單來說,CLIP 能根據(jù)視覺類別名稱,自己分類圖像,創(chuàng)新點在于它學(xué)會了識別圖像,而不是像大多數(shù)現(xiàn)有模型那樣,通過數(shù)據(jù)集中的標簽(比如「貓」或「香蕉」)識別圖像,而是從互聯(lián)網(wǎng)上獲取的圖像及其標題中識別圖像。
CLIP 瞄向的,就是當前深度學(xué)習(xí)的兩個「痛點」:一是數(shù)據(jù)集構(gòu)建成本高昂;二是數(shù)據(jù)集應(yīng)用范圍狹窄。具體來說,深度學(xué)習(xí)需要大量的數(shù)據(jù),而視覺模型傳統(tǒng)上采用人工標注的數(shù)據(jù)集進行訓(xùn)練,這些數(shù)據(jù)集的構(gòu)建成本很高,而 CLIP 可以從互聯(lián)網(wǎng)上已經(jīng)公開可用的文本圖像對中自行學(xué)習(xí);CLIP 可以適應(yīng)執(zhí)行各種各樣的視覺分類任務(wù),而不需要額外的訓(xùn)練樣本。
另外,實驗結(jié)果表明,經(jīng)過 16 天的 GPU 訓(xùn)練,在訓(xùn)練 4 億張圖像之后,Transformer 語言模型在 ImageNet 數(shù)據(jù)集上僅實現(xiàn)了 16% 的準確率。CLIP 則高效得多,實現(xiàn)相同準確率的速度快了大約 9 倍。
簡單來說,DALL·E 可以基于文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。
出門問問 CEO 李志飛曾告訴極客公園(ID: GeekPark),「GPT-3 隨著數(shù)據(jù)和參數(shù)規(guī)模增大而展現(xiàn)出的學(xué)習(xí)能力曲線,目前也還沒有要停止的意思。雖然 AI 的學(xué)習(xí)能力還沒有達到大家公認的「摩爾定律」,但是過去幾年確實看到模型每幾個月就翻倍??梢灶A(yù)測到的是,GPT-4 參數(shù)又會增大至少 10 倍,而且處理的數(shù)據(jù)將會更加多模態(tài)(文字、圖像、視覺、聲音)?!?/div>
OpenAI 首席科學(xué)家 Ilya Sutskever 也在推特上發(fā)文表示:「人工智能的長期目標是構(gòu)建多模態(tài)神經(jīng)網(wǎng)絡(luò),即 AI 能夠?qū)W習(xí)不同模態(tài)之間的概念(文本和視覺領(lǐng)域為主),從而更好地理解世界。而 DALL·E 和 CLIP 使我們更接近『多模態(tài) AI 系統(tǒng)』這一目標。」
DALL·E 和 CLIP 的出現(xiàn),讓人們看到自然語言與視覺的壁壘正在被逐漸打通。
幾十年前,柯達說出了那句經(jīng)典的廣告語,「你負責按快門,剩下的交給我們」。在未來,AI 興許也會打起類似的廣告,「你什么都不用干,剩下的交給我們」。
常山圖庫
新聞排行榜
