论文阅读_善用Midjourney
论文信息
name_en: Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate Fairytales name_ch: 用Midjourney生成格林童话插图 paper_addr: http://arxiv.org/abs/2302.08961 date_publish: 2023-02-17 author: Martin Ruskov,米兰大学
读后感
介绍
之前的提示工程研究包含:主语,动词,环境,风格;之后又有人提出:主题词,风格修饰语,图像提示,质量助推器,重复,和魔术术语的方法。 Midjourney是实践中最受欢迎的工具之一,尽管它是商业的,对建筑也知之甚少。目前的Midjourney V4更为复杂,它支持更多知识,能生成更多细节,可接受更复杂的提示,能处理多实体的场景。
方法
主题
第一步,从原始文本中推导出主题提示,并对其进行简化和调整(如用特定的名词替换代词),以改善结果。
风格
这里的风格指代了前人文中的媒体和风格,由于生成童话插画,希望生成器不要引入过多细节(Midjourney默认的艺术画风格细节比较丰富),所以尝试了书籍插图或极简主义插图等风格修饰语来限制风格。
图像提示
实验并没有上传参考图片,利用了Midjourney提供的图像微调功能。在不使用基于图像的微调的情况下,图像之间的一致性是一个挑战,比如对同一个童话生成不同场景时,同一人物可能生成的完全不同,本文不讨论此问题。
结果
生成图所的四个阶段
图-1展示了原始文本,调整后的提示文本,以及最终生成的比较满意的图片。
生成器当前的问题
-
计数困难:比如描述画三只乌鸦结果生成五只,手指数量不对等,这可以通过多试几次或微调来修正。 难以生成假定的场景:模型不具备先验知识,如图-2中第1条。 无法描述过于奇异的情况:对于非传统情境,自非现实文本(也称为不可能场景),生成效果不好,如图-2中第2,3条。
Midjourney用法
网址
https://www.midjourney.com/
注册
-
科学上网 主界面点Sign in,选无帐号,创建一个,然后通过邮件激活 必须手机收短信才能完成注册,可以支持国内手机
打开Midjounery
主界面点Join the Beta,此时就进入了绘画的聊天室,可以看到别人的画作