科技| Gemini推生成图像编辑功能修复三眼狗古怪建筑

2024年07月31日 13:00

[星岛综合报道] 人工智能可以创作令人印象深刻的图像，但这些图像经常会有奇怪的问题，例如拥有太多牙齿的人或奇怪街道布局的城市景观。根据科技网站Android Authority 发现的未完成代码，Google Gemini 正在升级其 AI 图像生成功能，以修复这些问题。看来即将推出一项微调功能，允许用户对 AI 生成的图像进行详细编辑。

目前，Google Gemini 的“文本到图像”工具无法在创建图像后进行编辑。用户必须提交新的提示，希望新提示能修正任何问题并创建符合他们期望的图像。根据发现的代码，Gemini 的微调功能将通过两种编辑方法来解决这种有限更改的需求。

第一种选项将允许用户提交有关 AI 生成图像的提示，并要求对其中一个方面进行更改。例如，如果你喜欢上面的图像但希望将其设置在城市中，你可以保留机器人和鸟，但更改背景，让Gemini 将它们移到城市中。代码中描述的第二种方法是一种更具互动性的方法。用户可以用手指或触控笔圈出图像中想要更改的部分。选定区域后，他们可以描述所需的更改，Gemini 将理解这些指示仅针对圈出的部分。

这些编辑工具可以特别有利于图形设计、行销和社交媒体等领域，这些领域需要视觉准确性和快速变更时间。Google Gemini 能够更好地满足艺术家、设计师和寻求更高效创建精美视觉内容的普通用户的需求。虽然这些功能的确切发布日期尚不确定，但代码中的出现表明它们很快就会推出。这也很好地配合了即将推出的 Ask Photos 图像搜索功能。

Google 并不是第一个向 AI 图像创作者部署编辑工具的公司。这些方法在 OpenAI 的 Dall-E AI 图像创作模型组合中已有所应用。在 ChatGPT 中，用户可以要求调整已生成的图像，或者他们可以突出显示图像的某些部分并提交新的文本提示，调整该部分的图片。许多 AI 图像创作者如 Ideogram.ai 和 Adobe Firefly 也有类似功能。尽管如此，Google 计划将这些微调工具整合进 Gemini，这对其技术来说是一个跳跃。这标志着 Google 不断推动在生成式 AI 工具方面与 OpenAI、Meta 和其他竞争对手匹配甚至超越的努力。

图片：Google

T10

TAGS
科技

---------------------------------------------

>>>星岛网WhatsApp爆料热线(416)6775679，爆料一经录用，薄酬致意。

>>>立即浏览【生活百答】栏目：新移民抵埗攻略，老华侨也未必知道的事，移民、工作、居住、食玩买、交通、报税、银行、福利、生育、教育。

点击以下6大平台接收加拿大新闻及生活资讯