7月2日,據(jù)中國青年報報道,智象未來(合肥)信息技術(shù)有限公司在人工智能領(lǐng)域取得重大突破。其自主研發(fā)的HiDream-I1圖像生成大模型與HiDream-E1交互編輯模型于今年4月份全面開源,這一舉措在全球AI領(lǐng)域引起了廣泛關(guān)注。開源后不到24小時,HiDream-I1便在國際權(quán)威的AI測評榜單Artificial Analysis中登頂,成為首個獲此殊榮的中國自研生成式AI模型。?
HiDream-I1是一個擁有170億參數(shù)的圖像生成基礎(chǔ)模型,采用了先進(jìn)的擴散模型技術(shù)和混合專家架構(gòu)(MoE)。這種創(chuàng)新性的架構(gòu)使得模型在圖像生成質(zhì)量、提示詞遵循能力等方面表現(xiàn)出色,能夠支持逼真、卡通、藝術(shù)等多種風(fēng)格的圖像生成。例如,當(dāng)用戶輸入“在寧靜的森林中,陽光透過樹葉灑在地面上,一只小鹿在溪邊飲水”這樣的描述時,HiDream-I1能夠迅速生成細(xì)節(jié)豐富、色彩協(xié)調(diào)且符合描述場景的高質(zhì)量圖像,無論是樹葉的光影效果,還是小鹿的神態(tài)動作,都栩栩如生。?
同時,為了滿足不同用戶的需求和硬件條件,HiDream-I1提供了完整版(HiDream-I1-Full)、蒸餾版(HiDream-I1-Dev)和極速版(HiDream-I1-Fast)三個版本。完整版適合追求極致圖像質(zhì)量的專業(yè)用戶,其推斷步驟為50步;蒸餾版在效率和效果之間取得了良好平衡,推斷步驟減少到28步;極速版則適合對生成速度要求較高的實時應(yīng)用場景,推斷步驟僅為16步。?
而HiDream-E1交互編輯模型同樣亮點十足,它基于HiDream-I1核心架構(gòu)開發(fā),專注于通過自然語言指令實現(xiàn)高質(zhì)量的圖像編輯。用戶可以通過自然語言指令,輕松實現(xiàn)對圖像的裁剪、濾鏡應(yīng)用、風(fēng)格遷移和對象移除等操作。比如,用戶只需說出“將這張圖片中的天空換成藍(lán)色,添加復(fù)古濾鏡效果”,HiDream-E1就能快速準(zhǔn)確地完成相應(yīng)編輯,大大降低了圖像編輯的門檻,為從專業(yè)設(shè)計到個人創(chuàng)作的各類用戶提供了極大的便利。?
這兩款模型的全面開源具有深遠(yuǎn)意義。一方面,開源能夠促進(jìn)全球AI開發(fā)者共同參與模型的優(yōu)化和創(chuàng)新,加速技術(shù)的迭代升級。通過開源,開發(fā)者可以基于HiDream-I1和HiDream-E1進(jìn)行二次開發(fā),探索更多的應(yīng)用場景和創(chuàng)新功能。另一方面,開源也推動了AI技術(shù)的普惠化,讓更多的企業(yè)和個人能夠使用先進(jìn)的圖像生成和編輯技術(shù),為創(chuàng)意產(chǎn)業(yè)、教育、科研等領(lǐng)域帶來新的發(fā)展機遇。?
在登頂Artificial Analysis榜單后,HiDream-I1獲得了全球AI行業(yè)的高度認(rèn)可。Artificial Analysis榜單通過人類用戶對匿名生成的圖像進(jìn)行盲測投票,直接反映真實場景下的用戶體驗。HiDream-I1能夠在開源后短時間內(nèi)超越眾多國際知名模型,如Flux1.1、RecraftV3等,登頂該榜單,充分證明了其在圖像生成技術(shù)方面的領(lǐng)先地位。這不僅是智象未來公司的重大成就,也是中國在全球AI領(lǐng)域技術(shù)實力的有力彰顯,標(biāo)志著中國自研生成式AI模型在國際舞臺上邁出了重要一步。
全球領(lǐng)先的獨立AI基準(zhǔn)測試與分析平臺 Artificial Analysis公布了最新競技場榜單,來自智象未來的圖像生成大模型HiDream-I1在開源僅24小時的情況下,強勢登頂圖像生成模型榜首。這是中國自研生成式AI模型首次獲此成就,有望重塑現(xiàn)有AI格局,向GPT-4o發(fā)起有力挑戰(zhàn),為全球AI行業(yè)帶來全新變革。?
Artificial Analysis隨后正式宣布了HiDream-I1的上榜綜合成績,該模型以微弱優(yōu)勢位居第二。盡管HiDream-I1開源時間較短,但已參與了超過5000次測評,涵蓋“文字排版”、“人物肖像”、“動漫”、“科幻題材”等多個關(guān)鍵細(xì)分領(lǐng)域。在圖像質(zhì)量、語義理解、藝術(shù)表現(xiàn)這三大維度上,HiDream-I1更是刷新了行業(yè)錄,其實力令人驚嘆,為全球AI社區(qū)注入了全新活力。
HiDream-I1是由HiDream.ai團隊開發(fā)的17億參數(shù)開源圖像生成模型,采用MIT許可證,在圖像質(zhì)量和對提示詞的理解方面表現(xiàn)卓越。它支持寫實、卡通和藝術(shù)等多種風(fēng)格,廣泛應(yīng)用于藝術(shù)創(chuàng)作、商業(yè)設(shè)計、科研教育以及娛樂媒體等領(lǐng)域。
HiDream-I1提供三個版本以滿足不同需求:完整版 (HiDream-I1-Full) 注重高質(zhì)量生成;蒸餾版 (HiDream-I1-Dev) 平衡速度和效果;極速版 (HiDream-I1-Fast) 則專注于實時生成。
在技術(shù)架構(gòu)上,HiDream-I1基于先進(jìn)的擴散模型技術(shù),通過逐步去除圖像噪聲來生成圖像,確保細(xì)節(jié)和圖像一致性。它采用混合專家架構(gòu) (MoE) 的 DiT 模型,結(jié)合雙流和單流 DiT模塊,并通過動態(tài)路由機制高效分配計算資源。為了增強語義理解能力,HiDream-I1整合了 OpenCLIP ViT-bigG、OpenAI CLIP ViT-L、T5-XXL和Llama-3.1-8B-Instruct等多種文本編碼器。此外,大規(guī)模預(yù)訓(xùn)練策略和Flash Attention等優(yōu)化機制,使其在速度和質(zhì)量上達(dá)到最佳平衡。