FaceFusion语音+视频口型同步功能,本地安装升级详细步骤。

AI探索与发现
26 Feb 202412:00

Summary

TLDR本视频介绍了AI探索与发现节目中facefusion新功能的详细操作和效果。新功能包括语音驱动口型同步和改进的人脸识别模型YOLOface,提升了在光线不足情况下的识别准确性。视频还演示了如何从旧版本升级到2.3.0版本,并提供了创建一键运行脚本的技巧。此外,还分享了使用新功能时的参数设置建议和不同场景下的模型选择推荐,帮助用户更高效地使用facefusion进行面部交换和增强。

Takeaways

  • 🎉 新版facefusion增加了语音驱动口型同步功能,可以通过提供语音和正脸视频实现低成本视频数字人的制作。
  • 🌟 引入了新的人脸识别模型,提高了在光线不佳情况下的识别准确性,尤其在识别低头和侧脸画面时更为精准。
  • 📋 升级前需确认已安装2.2.1或更早版本,且是通过git工具手动安装的。
  • 💻 升级过程包括git pull更新程序文件、激活虚拟环境、更新依赖包等步骤。
  • 🚀 在中国大陆使用时,建议开启代理以优化更新和下载速度。
  • 🔄 确认CUDA版本后,通过install.py更新相关依赖包和CUDA版本。
  • 📂 手动下载并添加新模型至facefusion安装目录下的models文件夹中。
  • 🎯 使用语音驱动口型功能时,建议选择YOLO模型,并配合人脸增强以改善效果。
  • 🤖 换脸功能中,YOLO模型在速度和显存使用上有所提升,但需根据视频内容选择合适的模型和遮罩组合。
  • 🔍 新版增加了人脸年龄预测和性别预测功能,但封闭遮罩下YOLO模型性能有所下降。
  • 🚫 遇到复杂面部镜头超出2D人脸识别和交换模型处理范围时,可能需要多次尝试以达到最佳效果。

Q & A

  • facefusion的新功能有哪些?

    -facefusion的新功能包括语音驱动口型同步和新的人脸识别模型YOLOface。

  • 如何实现语音和口型的同步?

    -用户提供一段语音和正脸拍摄的视频,经过facefusion融合后,可以实现语音和口型的同步。

  • 升级facefusion的前提条件是什么?

    -升级facefusion的前提条件是已经成功安装过2.2.1或者更早的版本,并且是使用git工具克隆的方式手动安装的。

  • 中国大陆用户在更新facefusion时需要注意什么?

    -中国大陆用户在更新facefusion时,建议先打开代理再更新,以解决可能遇到的网络问题。

  • 如何确认已安装的CUDA版本?

    -可以通过输入'pip list'命令查看原来安装时用的CUDA版本,特别是torch这一行后面的字符标识。

  • 更新依赖包时遇到问题怎么办?

    -更新依赖包时如果遇到问题,应该检查网络连接,并确保科学上网工具正常工作。

  • 如何使用新增的YOLOface人脸识别模型?

    -在操作界面选择新增的YOLOface模型作为人脸识别模型,它会自动应用到换脸或其他相关功能中。

  • 为什么使用英文语音的效果会比中文好?

    -使用英文语音的效果明显好于中文,可能是因为英文的音素和口型变化与facefusion模型训练时使用的数据集更匹配。

  • 如何处理视频中的多个人脸?

    -如果视频画面中出现两个或两个以上的人脸,可以使用'one模式'来指定替换其中一个人脸。

  • 如何提高换脸速度?

    -增加线程数量可以提高换脸速度,但应根据显存大小适当调整,避免超出显存容量。

  • facefusion如何处理低头侧脸的画面?

    -新版本的facefusion在人脸识别上做了很多优化,增加了特征点的人脸识别,提高了在光线不好或低头侧脸情况下的识别准确性。

  • 如何创建一键运行脚本?

    -在facefusion安装目录下新建一个文本文件,命名并输入运行指令,保存后将后缀TXT改为BAT,双击即可直接运行facefusion。

Outlines

00:00

🚀 升级指南与新功能介绍

本段介绍了如何从旧版本升级到facefusion 2.3.0版本的详细步骤,包括使用git工具克隆更新、激活虚拟环境、更新依赖包等。同时,展示了新版本增加的语音驱动口型功能和人脸识别模型YOLOface,以及如何在光线不佳的情况下提高人脸识别的准确性。此外,还提供了中国大陆用户科学上网的建议,以及手动下载模型的方法,以便在下载速度慢时能快速更新。

05:01

🎭 语音驱动口型与YOLO模型的使用细节

这一段详细阐述了使用语音驱动口型功能的操作流程,包括调整线程数量以优化视频处理速度、选择YOLO模型以提高识别速度和准确性,并讨论了英文与中文语音在驱动口型上的差异。同时,介绍了新YOLO模型在换脸操作中的细节,如何根据视频中人脸的不同情况选择合适的模型和遮罩组合,以及新版本在人脸识别上的优化和新增的年龄预测、性别预测功能。

10:01

🎵 音乐分享与视频效果展示

最后一段通过分享音乐和展示视频效果,来测试新版本模型在处理低头侧脸画面的能力。通过观察视频中的替换效果,可以发现新版模型在处理复杂面部镜头时的性能,尤其是在头部转向接近90度时的局限性。这段内容不仅提供了对新版facefusion功能的实际体验,也展示了其在极限情况下的处理能力。

Mindmap

Keywords

💡facefusion

facefusion是一个面部交换和增强的软件工具,它能够通过技术手段将视频中的人物面部与提供的视频或图片进行替换和融合。在视频中,facefusion的新功能被详细介绍,包括语音驱动口型同步和改进的人脸识别模型。

💡语音驱动口型

语音驱动口型是指通过提供一段语音和对应的视频,经过软件处理后,视频中的人物口型能够与提供的语音同步,即使原视频中的人物并未说出这些话。这项技术在视频制作和娱乐领域有着广泛的应用。

💡人脸识别模型

人脸识别模型是一种计算机视觉技术,通过算法识别和处理图像或视频中的人脸信息。在facefusion中,新加入的YOLOface模型提高了在光线不佳或面部角度变化大的情况下的识别准确性。

💡git工具

git是一个开源的分布式版本控制系统,用于跟踪和协调计算机文件的变化。在视频中,git工具被用于手动安装和更新facefusion软件。

💡CUDA版本

CUDA是NVIDIA推出的一个并行计算平台和API模型,它允许软件开发人员使用GPU(图形处理单元)进行通用处理。在facefusion中,CUDA版本与Pytorch版本相关联,用于确认安装的Pytorch是否与显卡兼容。

💡显卡加速

显卡加速是指利用显卡的计算能力来提高程序运行速度。在facefusion中,如果用户的电脑配备了英伟达显卡,可以开启显卡加速功能,以加快视频处理速度。

💡模型下载

模型下载是指从互联网上获取预训练好的模型文件,这些文件通常用于机器学习和深度学习应用中。在facefusion中,新版本的模型需要用户手动下载并放置到指定目录下才能使用。

💡一键运行脚本

一键运行脚本是一种简化操作的脚本文件,用户只需双击该脚本即可自动执行一系列命令。在facefusion中,用户可以通过创建一键运行脚本来方便地启动程序。

💡换脸功能

换脸功能是指将一个人的脸替换成另一个人的脸的技术。在facefusion中,这是软件的核心功能之一,用户可以通过这个功能将视频中的人物面部替换成其他视频或图片中的面部。

💡封闭遮罩

封闭遮罩是一种图像处理技术,用于指定图像中需要处理的特定区域。在facefusion中,封闭遮罩可以用来指定只替换视频中特定人物的面部,而不是所有检测到的人脸。

💡特征点

特征点是指在图像识别和处理中用于定位和识别特定特征的点。在facefusion中,新版本的人脸识别模型增加了特征点数量,以提高识别的精确度。

Highlights

facefusion新增功能,可以通过提供一段语音和正脸视频实现语音和口型的同步

facefusion的更新还包括新的人脸识别模型,提高了在光线不足情况下的识别准确性

升级facefusion的前提是已经安装过2.2.1或更早版本,并且是通过git手动安装的

中国大陆用户在更新程序文件时建议先打开代理

更新依赖包后,程序升级即算完成

运行程序时,可以跳过下载参数以验证升级是否成功

英伟达显卡用户需要确认CUDA版本并进行相应的升级操作

新版本增加的模型会在第一次使用时自动下载

中国大陆用户在使用科学上网下载模型时可能会遇到速度慢的问题,可以手动下载模型

提供了创建一键运行脚本的方法,方便用户快速启动facefusion

使用语音驱动口型功能时,建议选择YOLO模型以提高识别速度和准确性

语音驱动口型功能中,英文语音的效果通常优于中文

YOLO模型在处理无遮挡人脸时表现优秀,推荐与box遮罩一起使用

新版本中,YOLO模型在人脸识别上做了优化,增加了特征点和预测功能

对于复杂面部镜头,需要多次尝试以达到最佳效果

新版facefusion在处理极端角度的头部转向时仍有局限性

视频分享结束时,作者用音乐和视频内容作为互动,邀请观众寻找视频中的破绽

facefusion被誉为下一代的面部交换和增强工具,是市面上最佳的面部交换软件

Transcripts

00:00

Hello!大家好!

00:00

欢迎来到AI探索与发现

00:02

facefusion又有新功能了

00:04

现在不仅可以换脸

00:05

还能让视频里的人开口说话

00:07

只要你提供一段语音

00:09

和一个正脸拍摄的视频 经过融合之后

00:12

就能实现语音和口型的同步

00:14

低成本视频数字人又多了一个可选方案

00:17

这次更新另一个重大提升是

00:19

加入了新的人脸识别模型

00:21

大大提高了在光线不好的情况下

00:23

人脸识别的准确性

00:25

特别是识别低头 侧脸的画面时更加精准

00:28

今天视频就来详细介绍

00:30

如何从老版本升级

00:32

并演示新增功能的使用和效果

00:34

从老版本升级的前提是

00:36

已经成功安装过2.2.1或者更早的版本

00:39

并且是使用git工具克隆的方式手动安装的

00:42

如果你没有安装过任何版本

00:44

也可以参考这期视频

00:46

直接安装最新的版本

00:48

首先到安装的facefusion目录下

00:50

比如我的安装目录是D:\AI\facefusion

00:54

路径栏输入CMD打开命令窗口

00:58

输入第一条指令 git pull

01:01

这里提醒一下 中国大陆的朋友

01:03

如果能科学上网 建议先打开代理再更新

01:07

成功更新程序文件以后

01:08

输入第2条指令 激活创建的虚拟环境

01:12

然后输入第3条指令

01:14

更新安装的依赖包

01:17

更新依赖包的过程如果没有出错

01:19

那程序升级就顺利完成了

01:21

最后我们来运行程序

01:23

验证升级是否成功

01:25

输入运行指令

01:26

并加上这个跳过下载的参数

01:29

网页里输入本地运行地址

01:32

操作主界面能成功打开

01:34

这里版本也显示为2.3.0

01:37

这个选项就是新增的语音驱动口型的功能

01:41

拉到底部

01:42

也可以看到新增的人脸识别模型YOLOface

01:46

整个操作界面看上去

01:47

好像已经升级成功了

01:49

但仔细观察一下

01:51

这里的选项是不对的

01:52

没有显卡加速

01:55

因此如果你的是英伟达显卡

01:57

还要再进行升级的最后一步操作

02:00

切回到命令窗口

02:02

按Ctrl+C终止运行

02:04

先输入 pip list

02:06

查看一下原来安装时用的CUDA版本

02:09

只需要确认torch这一行

02:11

看加号后面的字符标识

02:14

这里显示是cu118

02:16

代表我原来版本安装的是cuda11.8的Pytorch

02:20

确认好以后

02:21

再输入这条指令 python install.py

02:24

这里会出现第一个安装选项

02:26

要我们选择CUDA版本

02:28

前面已经确认过cuda是11.8

02:31

所以选最后一个

02:33

然后出现第二个选项

02:35

也同样选择

02:36

跟之前安装时一样的cuda版本

02:39

选好以后回车

02:40

安装程序就会自动更新相关的依赖包

02:43

同样这里的更新

02:44

在中国大陆的朋友也需要科学上网

02:48

整个更新过程不需要干预

02:50

更不要用鼠标点击命令窗口

02:52

只需要耐心等待全部更新完成

02:56

整个过程如果没有出现错误

02:58

就代表更新成功了

03:00

输入运行指令

03:02

刷新一下网页

03:04

现在这里就能看到cuda选项了

03:07

新版本增加的模型

03:08

会在第一次使用时自动下载

03:10

比如现在选择语音驱动口型的功能

03:13

程序如果在本地找不到相关模型

03:15

就会先下载

03:17

在命令窗口可以看到下载进度

03:20

不过在中国大陆的朋友

03:21

这里即使开了科学上网

03:22

下载的速度也非常慢

03:24

解决办法是手动下载模型

03:27

打开官方项目的模型列表页面

03:30

红框标识的就是2.3版本新增的模型

03:33

总共有5个

03:34

下载好以后 我们把它剪切粘贴到

03:37

facefusion安装目录下的models目录里

03:40

到这里新版本升级和模型的更新就全部完成了

03:44

重新运行程序就能使用新版本了

03:47

如果嫌每次输入运行指令太麻烦

03:50

这里跟大家介绍 一个创建一键运行脚本的方法

03:53

首先到facefusion安装目录下

03:56

新建一个文本文件

03:58

然后把它重新命名

03:59

比如叫一键启动

04:02

双击打开它

04:03

复制这段指令粘贴过来

04:06

保存关闭

04:08

最后把这个文件的后缀TXT改成BAT

04:13

如果在你系统上看不到TXT后缀

04:16

可以点击这里的[查看]

04:18

勾选上[文件扩展名]就能看到了

04:21

现在双击一键启动

04:23

就能直接运行facefusion了

04:27

下面来介绍新增的两项功能

04:29

首先是用语音驱动视频里的人物口型

04:33

先勾选这个选项

04:35

然后去掉默认的换脸选项

04:37

因为口型同步和换脸功能是不能同时使用的

04:42

把准备好的语音文件拖放到这里

04:45

我就用这段8秒的语音来测试

04:57

然后再把视频拖进来

05:00

勾选上cuda加速

05:03

调整线程数量

05:05

这个参数很重要

05:06

直接影响到视频的处理速度

05:09

不过程序在这里有一点bug

05:11

有时直接输入值会无效

05:13

建议用后面的上下按钮来调整大小

05:16

一般最大可以调整到显存的两倍

05:18

比如8G显存最大可以调到16

05:21

下面的参数基本不用改了

05:23

默认值就是最佳设置

05:26

然后是右边参数

05:27

可以看到这里默认的人脸识别模型是YOLO

05:31

这个模型在deepfacelive这一期视频有过介绍

05:34

全称叫You Only Look Once(你只需看一次)

05:36

谷歌出品

05:37

无论是识别速度还是准确性都非常优秀

05:40

使用语音驱动口型功能时建议就选它

05:44

其他所有参数也不用改默认就好

05:47

不过在预览这里可以明显看到

05:49

使用音频驱动口型以后

05:51

嘴巴部分变得非常模糊

05:53

所以建议再加上脸部增强

05:56

我们来替换一下看看效果

06:10

口型基本对上了

06:11

不过牙齿的效果不是太好

06:14

这里的语音如果换成歌曲也是可以的

06:17

融合以后是这样的效果

06:30

这个功能我测试下来

06:31

发现使用英文语音的效果明显好于中文

06:39

如果视频拍摄的是中景

06:40

替换以后的唇部动作

06:42

要比脸部特写的视频更加自然

06:51

最后来介绍下使用新的YOLO模型

06:54

换脸时的一些操作细节

06:56

左侧参数的设置跟之前版本一样

06:58

没什么变化

07:00

添加人脸增强

07:01

设置cuda加速

07:03

去掉默认的CPU选项

07:06

增加线程数量提高换脸速度

07:09

右侧这个参数

07:10

人脸选择模式这里有细微变化

07:14

如果视频画面中

07:15

同时出现两个或两个以上的人脸时

07:18

只替换其中一个人面部

07:20

建议使用[one模式]来指定

07:22

默认的YOLO模型

07:24

在画面中出现多张人脸时

07:26

这里如果使用默认的第一个reference模式

07:29

指定替换人脸有时会不起作用

07:32

我们来替换一下看看效果

07:35

新模型在替换速度上

07:36

稍快于之前版本的retinaface

07:39

另外 替换时显存的使用率也有所提高

07:43

当设置了12个线程时

07:44

8G显存接近拉满

07:47

替换完成

08:22

在不使用封闭遮罩的情况下

08:24

YOLO模型的整体效果

08:26

要好于老版本的retinaface

08:29

主要是新版本在人脸识别上做了很多优化

08:33

我们可以打开调试选项

08:35

就能看到这些变化

08:37

包括增加了5个特征点的人脸识别

08:39

原来是68个特征点

08:42

虽然特征点越多

08:43

在识别正面人脸时更加精确

08:46

但识别低头侧脸

08:47

或者光线不好时的人脸

08:49

就容易误判

08:51

另外这次还增加了人脸的年龄预测和性别预测功能

08:56

不过新的YOLO在配合封闭遮罩时

08:59

感觉整体性能有所下降

09:01

所以可以根据要替换的视频内容

09:04

来灵活选择不同的人脸识别模型

09:06

以下是几种场景下的模型和遮罩组合的推荐

09:10

如果使用语音驱动视频功能

09:12

人脸识别模型就使用YOLO加人脸增强

09:16

换脸的情况下

09:17

如果视频中人脸没有遮挡

09:19

推荐使用YOLO加box遮罩

09:22

如果视频中人脸有大量遮挡

09:25

推荐使用老版本retinaface加封闭遮罩

09:28

如果视频中人脸只有少量遮挡

09:30

但存在大量低头侧脸的画面

09:33

推荐使用YOLO加box遮罩

09:36

以上推荐则是基于当前版本的测试

09:38

可能以后新版本会有所变化

09:40

实际操作时对于复杂的面部镜头

09:43

还是要多次尝试才能达到最佳的效果

09:45

当有些面部镜头超出了基于2D人脸识别

09:49

和交换模型的处理范围时

09:51

比如这个视频

09:52

在头部转向接近90度时

09:54

模型就无法处理了

09:56

无论如何调整参数

09:58

重绘以后的面部都会存在严重变形

10:01

甚至出现多个眼睛

10:04

最后来请大家听一段音乐

10:06

这个视频里有大量低头侧脸的画面

10:09

但角度还没有超过模型的处理范围

10:11

使用新版模型替换之后

10:13

不知道你能否找到其中的破绽

10:16

好 今天的分享就到这里

10:17

感谢观看 咱们下期见

06:00

你的辫子长长

06:02

你的眼睛亮亮

06:04

我的心儿慌慌

06:06

我的大脑缺氧

06:35

fusion is a face swapper and enhancer of the next generation

06:46

face fusion is the best face swapper out there