谷歌新AI工具使用圖像提示代替文本

?? 由 文心大模型 生成的文章摘要

谷歌最新人工智能工具“Whisk”可讓人們上傳照片來獲得由人工智能生成的組合圖像——甚至無需用戶輸入任何文字。

用戶可輸入描繪主題、設(shè)置和風(fēng)格的圖像,然后Whisk便能將所有內(nèi)容組合成一張圖像。

谷歌博文表示,Whisk是一款快速激發(fā)靈感的“創(chuàng)意工具”,而不是“傳統(tǒng)的圖像編輯器”。

自O(shè)penAI于2021年首次推出其文本轉(zhuǎn)圖像創(chuàng)作工具Dall-E以來,人工智能生成藝術(shù)作品的概念已席卷社交媒體,并成為消費(fèi)產(chǎn)品的焦點(diǎn)。谷歌Whisk是一款圖像轉(zhuǎn)圖像生成器,它建立在流行的文本轉(zhuǎn)圖像生成器概念之上。

使用Whisk的用戶可通過編輯輸入和混合類別來“重新混合”最終圖像,以制作不同的圖像, 如毛絨玩具;如果用戶想要指定某些細(xì)節(jié),可以添加文本,但創(chuàng)建圖像時(shí)無需添加文本。

谷歌實(shí)驗(yàn)室產(chǎn)品管理總監(jiān)Thomas Iljic表示:“Whisk的設(shè)計(jì)目標(biāo)是讓用戶以新穎、有創(chuàng)意的方式重新混合主題、場景和風(fēng)格,提供快速的視覺探索,而不是像素完美的編輯?!?/p>

谷歌Whisk建立在谷歌2014年收購的人工智能實(shí)驗(yàn)室DeepMind開發(fā)的生成式人工智能之上。

Whisk的工作原理是使用谷歌核心AI產(chǎn)品Gemini,并將其與DeepMind于12月發(fā)布的最新文本轉(zhuǎn)圖像生成器Imagen 3配對。

當(dāng)用戶上傳圖像時(shí),Gemini會生成一個(gè)標(biāo)題并輸入到Imagen 3中,該過程捕捉了主題的“本質(zhì)”,而不是精確的復(fù)制品,這允許重新混合最終圖像,但也意味著最終產(chǎn)品可能會偏離提示。

例如,谷歌在一篇博文中表示,生成的圖像可能與提示圖像具有不同的身高、發(fā)型或膚色。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」