谷歌最近推出了一款名为Whisk的全新AI图像生成工具,这款工具的核心功能是通过图像而非冗长的文本提示来生成新的图像。用户可以上传多张图片作为输入,这些图片将被用作生成新图像的主题、场景和风格的提示。
在使用Whisk时,用户可以选择为主题、场景和风格分别提供多张图像,从而让AI根据这些图像的特征生成新的视觉作品。如果用户没有合适的图像,还可以点击一个骰子图标,由谷歌自动填充一些AI生成的图像作为提示。
Whisk的设计初衷是实现快速的视觉探索,而非精细的像素级编辑。因此,它允许用户在生成过程中灵活地调整和优化图像。例如,在生成图像后,用户可以在文本框中输入额外的文字细节,以进一步细化目标图像的特征。虽然这一步骤并非必需,但可以为最终结果提供更精确的指导。
值得注意的是,Whisk使用了谷歌最新一代的Imagen 3图像生成模型,并结合了Gemini模型的视觉理解能力。Gemini模型会自动为用户上传的图像生成详细的文字描述,并将这些描述传递给Imagen 3,从而实现对场景、风格和主体的灵活重新混合。
Whisk还支持用户将生成的图像进行收藏或下载,并允许通过编辑底层提示词来优化生成结果。尽管有时生成的图像可能会出现一些偏差或奇怪之处,但这些内容都易于迭代修改。
Whisk是一款创新的AI工具,旨在通过图像提示快速生成新的视觉作品,为用户提供一种直观且便捷的创作体验
声明:文章来源于网络,如有侵权请联系删除!