文生图怎么控制
“文生图怎么控制”是一个非常好的问题,因为AI生成图像的随机性很大,很多时候我们不希望AI“自由发挥”,而是希望它能尽可能地按照我们的意图来生成。
控制文生图主要体现在以下几个方面:
通过Prompt进行“内容”和“风格”的控制。
通过参数设置进行“生成过程”和“结果细节”的控制。
通过模型选择和组合进行“基础能力”的控制。
通过“图生图”(Image-to-Image)或“局部重绘”等高级功能进行“精确修改”的控制。
下面我将详细展开这些控制方式:
一、 通过Prompt进行内容和风格的控制
这是最基础也是最重要的控制方式。一个好的Prompt能极大地引导AI生成你想要的内容和风格。
1. 精确描述主体和细节:
* 越具体越好: 不要只写“猫”,而要写“一只橘色虎斑短毛猫,戴着蓝色项圈,坐在窗台上”。
* 描述形状、颜色、大小、材质: 比如“一个圆形的、黄铜材质的古老时钟”。
2. 设定环境和背景:
* 明确主体所处的空间,这会影响光影、氛围和构图。
* 例如:“在一个宁静的日式庭院里,一座木制的小桥横跨在潺潺流水之上。”
3. 强调光照和氛围:
* 光照是决定图像质感和情绪的关键。
* 类型: natural light (自然光), studio lighting (影棚灯光), cinematic lighting (电影光照), dramatic lighting (戏剧光照), soft lighting (柔和光照), backlighting (逆光)。
* 时间/氛围: golden hour (黄金时刻), blue hour (蓝色时刻), foggy morning (雾蒙蒙的早晨), rainy day (雨天), mysterious (神秘), peaceful (宁静)。
4. 指定艺术风格和渲染方式:
* 这是控制图像“长什么样”的关键。
* 写实类: photorealistic, hyperrealistic, 8k, ultra detailed, sharp focus。
* 渲染器风格: Octane render, V-Ray render, Unreal Engine 5 render, Cycles render。
* 艺术媒介: oil painting, watercolor, pencil sketch, digital illustration, concept art。
* 艺术家风格: in the style of Van Gogh, by H.R. Giger (注意版权和道德问题)。
5. 使用负面Prompt (Negative Prompt):
* 排除不想要的内容,这是非常有效的控制手段。
* 通用排除词: low quality, blurry, ugly, deformed, bad anatomy, extra limbs, watermark, text, signature。
* 风格排除: 如果你想要写实图,可以加上 cartoon, anime, illustration。反之亦然。
* 内容排除: 如果你不想出现特定物体,可以加入。
6. 调整Prompt的权重(部分工具支持):
* 例如,在AUTOMATIC1111中,可以使用 (keyword) 来增加关键词的权重, ((keyword)) 权重更高;[keyword] 降低权重。也可以用 (keyword:1.2) 这样的语法精确控制权重值。这能让你更侧重Prompt中的某些部分。
二、 通过参数设置进行生成过程和结果细节的控制
大多数文生图工具都提供一系列参数来微调生成过程。
1. 采样器 (Sampler) 和步数 (Sampling Steps):
* 采样器: 不同的采样器(如Euler a, DPM++ 2M Karras, DDIM等)会影响图像的生成速度和最终细节。通常需要尝试,找到最适合你模型和需求的采样器。
* 步数: 步数越多,AI“思考”和迭代的次数越多,图像通常会越精细,但也会增加渲染时间。一般20-50步是比较常见的范围,再高可能边际效应递减。
2. CFG Scale (Classifier-Free Guidance Scale):
* 这个参数控制AI在多大程度上遵循你的Prompt。
* 值越高: AI越严格按照Prompt生成,图像可能更准确,但也可能变得僵硬或出现伪影。
* 值越低: AI更自由发挥,图像可能更有创意,但也可能偏离Prompt。
* 常用范围: 7-12。
3. 图像尺寸 (Width & Height):
* 直接控制生成图像的像素尺寸。
* 注意: 模型在训练时有其“最适合”的尺寸(通常是512x512或768x768 for SD1.5, 1024x1024 for SDXL)。生成远超其训练尺寸的图像,容易出现重复、变形等问题。通常建议先生成一个较低分辨率的图像,再通过“高分辨率修复”(Hires. fix) 或专门的放大工具进行提升。
4. 种子 (Seed):
* 每个图像生成都有一个对应的Seed值。
* 固定Seed: 使用相同的Prompt、参数和Seed,可以生成几乎完全相同的图像。这对于迭代优化Prompt非常有用,你可以只改Prompt的一部分,然后观察变化。
* 随机Seed: 如果不指定Seed,每次生成都会是随机的,可以探索不同的可能性。
5. 高分辨率修复 (Hires. fix) / 放大 (Upscale):
* 这是控制最终图像质量的关键。
* Hires. fix: 在生成低分辨率图像后,AI会进行一次额外的“放大”和“细节重绘”过程,以生成更高分辨率的图像,同时尽量保持内容一致性。
* Upscale: 单纯将低分辨率图像放大到高分辨率,可能使用AI算法(如ESRGAN, Latent Diffusion Upscaler等)来增加细节。
三、 通过模型选择和组合进行基础能力的控制
文生图的底层是AI模型,模型的选择决定了AI的基础能力和擅长领域。
1. 选择基础模型 (Checkpoint Models):
* Stable Diffusion 1.5: 经典模型,生态庞大,有无数微调版本。
* Stable Diffusion 2.1: 在某些方面有所改进,但生态不如1.5。
* SDXL (Stable Diffusion XL): 更先进的模型,对Prompt理解更强,能生成更高质量、更复杂的图像,通常需要更高显存。
* 特定风格模型: 有些Checkpoint模型就是为了生成特定风格(如动漫、写实、赛博朋克)而训练的。
2. 使用LoRA (Low-Rank Adaptation) / Embeddings:
* LoRA: 轻量级模型,可以“叠加”在基础Checkpoint模型之上,用于添加特定的角色、风格、物体或概念。
* Embeddings / Textual Inversion: 也是用于添加特定概念的小文件,但原理和LoRA略有不同。
* 控制方式: 通过在Prompt中调用LoRA(例如,在AUTOMATIC1111中,在Prompt中写
四、 通过图生图 (Image-to-Image) 和局部重绘进行精确修改
当Prompt无法完全控制时,可以通过图像本身来引导AI。
1. 图生图 (Image-to-Image):
* 原理: 上传一张基础图像,AI会在这张图像的基础上,根据你输入的Prompt和参数进行修改和重绘。
* 控制方式:
* Denoising Strength (去噪强度): 这是最关键的参数。
* 值低: AI会较大程度保留原图的结构和细节,只做微小改动。
* 值高: AI会更多地参考Prompt,原图的作用更像是提供一个“草稿”或“构图参考”。
* Prompt: 描述你希望在原图基础上产生的变化。
* 应用: 修复不满意细节、改变图像风格、给草图上色、将低分辨率图转为高分辨率。
2. 局部重绘 (Inpainting):
* 原理: 在生成图像后,你可以选择图像的某个区域,然后输入新的Prompt,只对这个选定的区域进行重绘。
* 控制方式:
* 选择区域: 通过画笔工具在图像上“涂抹”出需要重绘的区域。
* Prompt: 描述你希望在这个区域生成的内容。
* Denoising Strength: 同样控制重绘的程度。
* 应用: 精确修改某个物体的外观(如人物的衣服、表情),添加或移除某个元素,修复AI生成图像中的瑕疵(如多余的手指、奇怪的面部)。
总结:
控制文生图是一个多维度、迭代的过程:
基础控制: 精心编写Prompt,利用负面Prompt排除干扰。
过程控制: 调整采样器、步数、CFG Scale、Seed等参数。
能力控制: 选择合适的模型,并可能叠加LoRA等。
精确控制: 利用图生图和局部重绘,对具体区域或细节进行有针对性的修改。
掌握这些控制方法,你就能从一个“看AI运气”的用户,变成一个能与AI“沟通协作”的创作者。