Google Gemini 影像生成加入更多編輯工具,強調角色一致性、以數位浮水印保障透明度

管理員 | Android
【此文章來自:Mashdigi】

Google宣布,旗下 Gemini 影像生成模型加入新一波功能升級,特別針對 AI 編輯、生成一致性,以及靈活性進行加強。此次更新由 DeepMind 團隊打造,目前已經率先於 Gemini App 開放使用,Google 也強調所有經由 Gemini 生成或編輯的影像,將同步附加數位可見浮水印,以便清楚標示影像的 AI 生成來源。

Blog_hero_image_JSSFrGW.jpg


 

強化角色一致性,提升編輯精準度

新版本最大亮點之一,是在影像連續編輯過程中,能確保人像角色保持一致性。

以往 AI 生成或多次修改圖片時,角色往往會在細節上產生偏差,如臉部特徵、服飾或比例不一致。Gemini 新模型則能維持生成人物真實性,讓使用者可以更自然地將自身影像置入不同場景或服裝中,而不會因反覆編輯而有「變臉」情況。

另一項改進則是加入多階段影像編輯,允許使用者逐步更換影像元素,例如先調整背景,再替換特定物件,過程中不會遺失前一步的修改成果。此外,Gemini 還能合成兩張影像成為新場景,或利用既有影像中的元素,轉化為全新設計提示詞,藉此增加創作彈性。

 

與其他影像生成工具的對比

Gemini 的進化,讓 Google 更能直接面對其他生成式 AI 工具的競爭:

• OpenAI DALL·E 3:目前在 ChatGPT 內整合度高,支援文字到影像的生成,也具備「編輯與修補」 (inpainting) 功能。但在角色一致性控制上,Gemini 新模型顯然更具優勢,對於需要連續創作的使用者有大吸引力。AI-driven cybersecurity tools

• Adobe Firefly:以創作者與設計產業為核心,強調生成影像可商用授權,並且整合旗下 Photoshop、Illustrator 等工具。Gemini 雖然缺乏完整的專業軟體生態,但在「跨場景角色維持」的能力上,有望成為創作者輔助的輕量選項。

• Stable Diffusion:以開源與可高度自訂著稱,用戶可透過本地端模型或社群插件實現多樣化的編輯。但對於一般使用者而言,Gemini 透過雲端與 Google 服務整合,提供更易上手的體驗,降低學習門檻。

 

AI 生成透明度與未來影響

Google 強調,所有透過 Gemini 產生的影像將自動附加數位浮水印,確保其生成透明度與來源可追溯性。在生成式 AI 影像逐漸應用於媒體、廣告、教育與娛樂領域的同時,這樣的設計也回應了外界對「深偽內容」與錯假資訊的擔憂。

Gemini 此次的功能提升,讓 Google 在 AI 影像生成市場不僅於只是提供工具,更進一步思考「如何讓生成影像能長期可信任」。隨著競爭者各自加強不同方向,Gemini 在角色一致性、編輯彈性與透明度上找到切入點,未來能否與 DALL・E、Firefly 與 Stable Diffusion 形成更直接的市場競爭,將是值得觀察的下一步。
 

Mashdigi

Mashdigi

出生自台灣高雄的楊又肇,以前聯合新聞網 (udn.com)數位頻道主編,以及在各網站頻道以本名或Mash Yang名稱維持提供撰寫、授權內容等身分,持續在網路、科技相關活動、展覽出沒。撰寫內容涵蓋個人感興趣內容,包含手機、網路、軟體、零組件,以及科技市場動態,另外也包含各類惡趣味內容,並且持續關注蘋果、微軟、Google、Intel、AMD、Nvidia等經常在你我生活中出現的科技廠商動態。