Stable-Diffusion深度学习文本到图像生成模型网站首页 技术杂谈

Stable-Diffusion深度学习文本到图像生成模型

AI研究院 2024-09-18 12:01:06

简介Stable-Diffusion深度学习文本到图像生成模型

1. Stable Diffusion
1.1 用法和争议
1.2 许可证
1.3 不可控性
1.4 一点想法
1.5 用途
1.6 教程链接
2. Setup
2.1 Draw Things
2.2 diffusionbee
2.3 AUTOMATIC1111
3. Models
3.1 模型名词
3.2 模型下载
3.3. 中文详解链接
4. Prompts

1. Stable Diffusion

https://zh.wikipedia.org/zh-cn/Stable_Diffusion

https://en.wikipedia.org/wiki/Stable_Diffusion

https://github.com/Stability-AI/stablediffusion

Stability AI

https://github.com/CompVis/stable-diffusion

Stable Diffusion是2022年发布的深度学习文本到图像生成模型。

它主要用于根据文本的描述产生详细图像，尽管它也可以应用于其他任务，如内补绘制、外补绘制，以及在提示词（英语）指导下产生图生图的翻译。

它是一种潜在扩散模型，由慕尼黑大学的CompVis研究团体开发的各种生成性人工神經网络。

它是由初创公司StabilityAI，CompVis与Runway合作开发的，并得到EleutherAI和LAION（英语）的支持。

Stable Diffusion的代码和模型权重已公开发布，可以在大多数配备有适度GPU的电脑硬件上运行。

而以前的专有文生图模型（如DALL-E和Midjourney）只能通过云计算服务访问。

1.1 用法和争议

Stable Diffusion 对生成的图像不主张任何权利，并免费授予用户使用模型生成的任何图像的权利，前提是图像内容不违法或对个人有害。

为用户提供的图像使用自由引发了所有权伦理方面的争议，因为 Stable Diffusion 和其他生成模型是在未经所有者同意的情况下从受版权保护的图像中训练出来的。

由于视觉风格和构图不受版权保护，因此通常认为生成艺术作品图像的 Stable Diffusion 用户不应被视为侵犯视觉相似作品的版权。

然而，如果使用他们的肖像，生成的图像中描绘的个人可能会受到人格权的保护，和知识产权例如可识别的品牌标识仍然受版权保护。

尽管如此，视觉艺术家表示担心，Stable Diffusion 等图像合成软件的广泛使用可能最终会导致人类艺术家以及摄影师、模特、电影摄影师和演员逐渐失去与基于 AI 的竞争对手的商业可行性。

与基于生成式 AI 的其他商业产品相比，Stable Diffusion 在用户可能生成的内容类型方面明显更加宽容，例如暴力或色情图像。

针对该模型可能被用于滥用目的的担忧，Stability AI 的首席执行官 Emad Mostaque 解释说，“[这是]人们的责任，即他们如何操作这个模型是否符合伦理、道德和法律技术”，并且将稳定扩散的能力交到公众手中将导致该技术提供净收益，尽管存在潜在的负面后果。

此外，Mostaque 认为，Stable Diffusion 的开放可用性背后的意图是结束企业对此类技术的控制和支配，这些技术以前只开发了用于图像合成的封闭人工智能系统。

这反映在以下事实中：由于源代码的可用性，Stability AI 对用户可能生成的内容施加的任何限制都可以很容易地被绕过。

1.2 许可证

与DALL-E等模型不同，Stable Diffusion 提供其源代码以及模型（预训练权重）。

它将 Creative ML OpenRAIL-M 许可证（一种 Responsible AI License (RAIL) 形式）应用于模型 (M)。

该许可证禁止某些用例，包括犯罪、诽谤、骚扰、人肉搜索、“剥削……未成年人”、提供医疗建议、自动产生法律义务、提供法律证据，以及“歧视或伤害个人或团体基于关于……社会行为或……个人或人格特征……[或]受法律保护的特征或类别”。

用户拥有其生成的输出图像的权利，并且可以自由地在商业上使用它们。

1.3 不可控性

使用photoshop，blender等软件制作图片，模型的过程是使用各种工具，命令的过程，是可控的过程。
使用ChatGPT，Stable-Diffusion等深度学习AI为基础的软件生成内容，仅使用期望的关键字即可生成，没有中间过程，结果不可控。

因此有2个特点

无论如何都会出图。比如，使用极简关键字“white paper”，或者使用100个单词的详细描述，或者多个单词内容互相矛盾，或者有错字，都可以生成图片。而且使用大致相同的时间。
出图结果概率。可能是惊喜，惊吓，搞笑，反胃，无语...

1.4 一点想法

全新的许可，内容还比较模糊，本身也有争议的部分。软件可以自由使用，越来越多的人使用，产出越来越多的假照片，假新闻。即使是触法，由于人多，不完整的法会更加无能为力。

ChatGPT更能高效制造真假新闻，话题，AI不断的生成假照片。新一代的AI再基于大量的假信息假照片训练学习，制造更多的假信息，假图片，恶性循环。

应该被关在笼子里科技，在监管下使用，类似可用于药物的毒品。

若AI生成图片，尽能通过某些经过认证的网页生成。且需要注册为用户。生成的图片可以不受限制，但会在服务器上保留备份，或可避免被大量滥用。

年初，国内也发出研发自己的聊天AI，但想象不到会如何发展。因为很多词语是不可说的，记得有几次发布博客文，包含了开源vpn的名称，就不能发布了，一定要改了才行。 ChatGPT刚出来闹笑话，国内的怕是要闹尴尬了...

1.5 用途

商用恐涉及侵权，除了造假，貌似没有什么好的实际用途。

对于普通用户，充其量就是个热门玩具。

当盲盒游戏玩，有不可确定的输出（惊喜，惊吓，搞笑...）。

或者，使用类似如下的简单描述，每次输出都修改种子后再算图，得到一张你喜欢的图片，然后使用这个种子seed，修改年龄，从3岁到90岁，步进3，出30张图，耗时1小时（当前m1芯片的MacBook Air出1张图大约100妙）. 算出同一seed，同样的提示词，不同年龄的人。从可爱如小嫩芽，到美丽如花朵，再到衰落...

a female, ((25 years old)), High detail RAW color photo professional, highly detailed face: 1.4, detailed full body portrait, detailed skin, beauty, beautiful, perfect body, walking to camera, bokeh,

或许真正的用途是系统收集大量用户喜好，为未来AI理解人类视角，人类审美，更拟真的模仿人类作的准备。

1.6 教程链接

openai中文指南

openAI - 开源人工智能维基百科

包含ChatGPT，Stable Diffusion等各种AI技术的中文网站。

【Stable Diffusion】ControlNet 详解篇

【Stable Diffusion】ControlNet 详解篇 - 知乎

Stable Diffusion 新手入门手册

Stable Diffusion 新手入门手册 - 知乎

https://github.com/AUTOMATIC1111/stable-diffusion-webui

https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Installation-on-Apple-Silicon

How to install and run Stable Diffusion on Apple Silicon M1/M2 Macs - Stable Diffusion Art

2. Setup

2.1 Draw Things

Draw Things: AI-assisted Image Generation

基于流行的 Stable Diffusion 模型，Draw Things 可帮助您在几分钟而不是几天内创建您心中的图像。它是免费的，在您的设备上 100% 离线运行所有内容以保护您的隐私。

Draw Things 可以在M1，M2的苹果笔记本上运行。

目前最新版已经支持中文了，但中文提示词还不行，或许是我不会用。对于中文提示词也没找到可参考的网站。

Models路径:

/Users/tom/Library/Containers/com.liuliu.draw-things/Data/Documents/Models

2.2 diffusionbee

不推荐，功能过于简单，很多流行的模型不被支持。

DiffusionBee - Stable Diffusion App for AI Art

https://github.com/divamgupta/diffusionbee-stable-diffusion-ui

% brew search diffusion

% brew install diffusionbee

% brew uninstall diffusionbee

% brew info diffusionbee

… ==> Analytics install: 2 (30 days), 136 (90 days), 1,523 (365 days)

Models路径:

访达界面，打开用户目录，使用快捷键(command + shift + period)显示隐藏文件，就能看到隐藏的模型文件夹了。

/Users/tom/.diffusionbee/downloads

/Users/tom/.diffusionbee/custom_models

2.3 AUTOMATIC1111

https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Installation-on-Apple-Silicon

Models路径

/Users/tom/stable-diffusion-webui/models

/Users/tom/stable-diffusion-webui/models/Stable-diffusion

3. Models

3.1 模型名词

Models: 模型资料库
LoRA: 微调, 特定风格，某些情有独钟的pose
Control: 姿态控制等

3.2 模型下载

https://civitai.com/

Models - Hugging Face

3.3 中文详解链接

Stable Diffusion爱好者常说的LoRa是什么？

Stable Diffusion爱好者常说的LoRa是什么？ - 知乎

LoRA: Low-Rank Adaptation of Large Language Models 直译为大语言模型的低阶适应. 这是微软的研究人员为了解决大语言模型微调而开发的一项技术。

【Stable Diffusion】ControlNet 详解篇

【Stable Diffusion】ControlNet 详解篇 - 知乎

女模特总是不配合？用它！游戏原画没灵感？也用它！建筑绘画各行各业设计都用它！它就是 ControlNet ！只需简单调整参数就能产出无限创作灵感，提高我们的创作效率！这款 SD 插件已成为了AI 绘画领域最新的热点。而它的出现代表着 AI 生成开始进入真正可控的时期，而 AIGC 的可控性是它进入实际生产最关键的一环。在此之前，大家用了很多方法想让 AI 生成的结果尽可能符合要求，但都不尽如人意， ControlNet 比之前 img2img 要更加精准和有效，可以直接提取画面的构图，人物的姿势和画面的深度信息等等。有了它的帮助，就不用频繁用提示词来碰运气抽卡式创作了。

万字长文解读Stable Diffusion的核心插件—ControlNet

万字长文解读Stable Diffusion的核心插件—ControlNet_小殊小殊的博客-CSDN博客