谷歌新AI工具使用圖像提示代替文本

?? 由 文心大模型 生成的文章摘要

谷歌最新人工智能工具“Whisk”可讓人們上傳照片來(lái)獲得由人工智能生成的組合圖像——甚至無(wú)需用戶輸入任何文字。

用戶可輸入描繪主題、設(shè)置和風(fēng)格的圖像,然后Whisk便能將所有內(nèi)容組合成一張圖像。

谷歌博文表示,Whisk是一款快速激發(fā)靈感的“創(chuàng)意工具”,而不是“傳統(tǒng)的圖像編輯器”。

自O(shè)penAI于2021年首次推出其文本轉(zhuǎn)圖像創(chuàng)作工具Dall-E以來(lái),人工智能生成藝術(shù)作品的概念已席卷社交媒體,并成為消費(fèi)產(chǎn)品的焦點(diǎn)。谷歌Whisk是一款圖像轉(zhuǎn)圖像生成器,它建立在流行的文本轉(zhuǎn)圖像生成器概念之上。

使用Whisk的用戶可通過(guò)編輯輸入和混合類別來(lái)“重新混合”最終圖像,以制作不同的圖像, 如毛絨玩具;如果用戶想要指定某些細(xì)節(jié),可以添加文本,但創(chuàng)建圖像時(shí)無(wú)需添加文本。

谷歌實(shí)驗(yàn)室產(chǎn)品管理總監(jiān)Thomas Iljic表示:“Whisk的設(shè)計(jì)目標(biāo)是讓用戶以新穎、有創(chuàng)意的方式重新混合主題、場(chǎng)景和風(fēng)格,提供快速的視覺(jué)探索,而不是像素完美的編輯?!?/p>

谷歌Whisk建立在谷歌2014年收購(gòu)的人工智能實(shí)驗(yàn)室DeepMind開(kāi)發(fā)的生成式人工智能之上。

Whisk的工作原理是使用谷歌核心AI產(chǎn)品Gemini,并將其與DeepMind于12月發(fā)布的最新文本轉(zhuǎn)圖像生成器Imagen 3配對(duì)。

當(dāng)用戶上傳圖像時(shí),Gemini會(huì)生成一個(gè)標(biāo)題并輸入到Imagen 3中,該過(guò)程捕捉了主題的“本質(zhì)”,而不是精確的復(fù)制品,這允許重新混合最終圖像,但也意味著最終產(chǎn)品可能會(huì)偏離提示。

例如,谷歌在一篇博文中表示,生成的圖像可能與提示圖像具有不同的身高、發(fā)型或膚色。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」