一、安装Stable Diffusion
什么是Stable Diffusion就不多说了,网上大把的教程,下面开始进人安装环节
①下载git:这是个可以从GitHub高下载文件的软件。
https://git-scm.com/download/
下载安装好往后,在你想要安装的位置,右键点击,选择“Git Bash Here”。
然后输入以下指令,下载webui:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
等待几分钟即可下载成功。
②安装Anaconda并创建Python虚拟环境。
Anaconda可自行去网上搜索下载安装,安装好了后,打开主界面,点击“cmd.exe”。
输入以下代码,安装Python:
conda create -n novelai python==3.10.6
输入以下代码,来激活刚才天生的novelai环境:
conda activate novelai
③安装Pytorch(这一步比较繁芜,而且英伟达显卡为了跑AI模型,还须要下载CUDA,详细各位可以自行搜索):
进入官网:https://pytorch.org/get-started/locally/,根据自己的显卡,网站会自动匹配须要下载的Pytorch版本,可以在刚才的窗口输入提示代码进行安装。
④第三方库依赖库安装:
先在刚才的窗口输入以下代码,进入之前下载webui根目录:
cd C:\Users\Glen\stable-diffusion-webui
然后输入以下代码,安伪装者注明的第三方依赖库:
python -m pip install -r requirements.txt
⑤下载模型文件:推举大家去C站(https://civitai.com/)下载模型文件,这里有各种大神上传的开源模型。
将下载好的模型文件解压缩放到 models 目录下,在 models/Stable-diffusion 里:
⑥运行 Web UI:输入以下代码,就可以运行了。
conda activate novelaicd C:\Users\Glen\stable-diffusion-webuipython launch.py
第一次运行过程中,会下载一些依赖库和权重文件,耐心等待5~10分钟。当涌现以下的地址时,证明已经安装成功了,接下来将地址复制一下,放到浏览器中就可以开始玩了。
大略先容一下界面,下图中1这个位置是选择模型文件的,2这个位置是输入绘画描述词的,3这个位置是输入绘画描述反向词的(即你不肯望画面的效果),4这个位置点击后就会开始天生了。
试试效果:
输入hello world
二、安装SadTalker
这款AI一键让照片说话的模型叫SadTalker,是由西安交通大学的研究职员提出的,它可以让照片里的人物跟随音频的输入动起来,且头部运动、面部表情比较真实,下图是官方展示的效果图,还在等什么呢,即刻拥有它!①建议先支配SD(stable-diffusion-webui),可以参考以下文章:
AI杀疯了 | 从0开始学AI绘画
由于SD已经支持了SadTalker的插件了,后续从SD天生的图片,都可以直接一键天生说话、唱歌视频。
(当然了,你也可以不支配SD,直策应用SadTalker)
②安装SadTalker插件:
打开并运行SD webui,然后选择“扩展”,在“从网址安装”里,输入以下地址:
https://github.com/OpenTalker/SadTalker
点击安装,须要等待3~5分钟。
安装完成后,重启一下SD webui,即可在功能栏里看到“SadTalker”插件栏了。
安装FFmpeg
FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源打算机程序,是SadTalker运行的必要支持程序。可以从以下网址下载得到:
https://www.gyan.dev/ffmpeg/builds/ffmpeg-git-full.7z
解压后,须要将FFmpeg的bin文件夹路径添加到系统环境变量里:
手动添加环境变量:掌握面板→系统→高等系统设置→环境变量→Path→编辑→添加
下载模型
运行SadTalker,还须要下载一些模型,可以从以下链接得到:
https://github.com/OpenTalker/SadTalker/releases
须要下载前面的10个文件:
找到之前在SD里添加的SadTalker插件(在SD文件夹\extensions里),然后新建一个文件夹“checkpoints”:
将上面下载的10个模型文件复制进去,个中BFM_Fitting和hub两个压缩文件还须要解压到checkpoints文件根目录中。
至此,你已经拥有了一键让图片说话的能力了。
试试效果
在SD webui的功能栏里,选择“SadTalker”,然后将图片(支持从SD中加载)和音频传入,音频建议在10秒以内,不然显卡压力有点大。点击“天生”按钮,即可一键使照片说话。
干系设置项解释:
corp:图片被裁剪为方形(运算速率快,但如果传入的图片不是方形,终极视频会变形)resize:重新调度尺寸,可以使脖子和头部衔接自然,但代价是口型可能不太准full:完全部验(基本便是选它了)同时记得勾选“面部增强”,使整体面部效果更加自然些。
终极得到了文章开头的会说话、唱歌的小姐姐了,她还会很自然地眨眼睛呢,造诣感满满有木有!
感兴趣的小伙伴快去试试吧~