FaceFusion语音+视频口型同步功能,本地安装升级详细步骤。

AI探索与发现
26 Feb 202412:00

Summary

TLDRAI探索と発見の番組へようこそ。facefusionは新たな機能を追加しました。これで、顔の入れ替えだけでなく、ビデオ内の人物が話すことも可能です。必要なのは音声と正面から撮影されたビデオです。合成後、音声と口の形が同期します。これにより、ビデオデジタル人間には新たな選択肢が加わりました。また、新しい顔認識モデルが導入され、暗い場所での顔認識の正確性が向上しました。特に、うつむき姿や横顔のシーンでの認識がより正確です。このビデオでは、アップグレード方法と新機能の使用方法と効果を紹介します。アップグレードには、2.2.1以前のバージョンをgitで手動インストールしている必要があります。アップグレードプロセスには、git pull、仮想環境のアクティベート、依存パッケージの更新などがあります。アップグレードが成功すると、新機能である音声駆動の口の形機能やYOLOfaceという新しい顔認識モデルが利用可能になります。また、アップグレード後には、CUDAバージョンの確認とtorchの更新も必要です。さらに、新しいモデルをダウンロードし、facefusionのmodelsディレクトリに配置することで、アップグレードとモデルの更新が完了します。新機能の使用方法として、音声で口の形を動かす方法や、YOLOモデルを使った顔の入れ替え時の詳細な操作方法を紹介します。最後に、新しいYOLOモデルの顔認識の詳細や、年齢予測、性別予測機能についても触れています。最後に、音楽を聞きながら、新しいモデルで入れ替えられたビデオを楽しんでください。

Takeaways

  • 🚀 新功能:facefusion 现在不仅能换脸,还能让视频中的人开口说话,只需提供语音和正脸视频即可实现同步。
  • 🌟 技术提升:新增人脸识别模型 YOLOface,提高了在光线不佳或面部角度不佳时的识别准确性。
  • 📂 升级步骤:已安装旧版本的用户,通过 git pull 更新程序文件,激活虚拟环境,更新依赖包来升级。
  • 💡 科学上网:中国大陆用户在更新时建议使用代理,以提高更新速度。
  • 📦 CUDA版本确认:确认当前安装的 Pytorch CUDA 版本,以便在升级时选择正确的 CUDA 版本。
  • 🔄 更新依赖:通过 python install.py 更新依赖包,确保所有组件与新版本兼容。
  • 🚀 GPU加速:英伟达显卡用户需要更新 CUDA 相关依赖以启用 GPU 加速。
  • 📚 手动下载:在中国大陆,由于下载速度慢,可以手动下载模型并放置到安装目录下。
  • 🔧 一键运行:创建 BAT 文件以实现 facefusion 的一键启动,简化操作流程。
  • 🎤 语音驱动:使用语音驱动口型功能时,需要注意音频与口型的同步,以及可能的面部细节模糊问题。
  • 🖼️ 人脸替换:新版本 YOLO 模型在换脸速度和显存使用上有所提升,但需要根据视频内容选择合适的遮罩和模型。
  • 🎶 音乐测试:视频中展示了使用 facefusion 进行音乐视频人脸替换的效果,展示了新模型的性能。

Q & A

  • facefusionの新機能で、どのようなことが可能になるようになったでしょうか?

    -facefusionの新機能では、顔を交換するだけでなく、ビデオ内の人物が口を開いて話すことも可能になりました。ユーザーが提供する音声と正面から撮影されたビデオを融合させることで、音声と口の形の同期を実現できます。

  • 新しい顔認識モデルがどのような向上をもたらしましたか?

    -新しい顔認識モデルは、暗い状況下での顔認識の正確性を大幅に向上させました。特に、頭を下げたり、顔を横に向けた画面での認識がより正確になりました。

  • facefusionのアップグレードには、どのような前提条件が必要ですか?

    -アップグレードの前提条件は、既に2.2.1またはそれ以前のバージョンをインストールしており、gitツールを使用して手動でクローンしたインストールを行っていることです。

  • アップグレードのプロセスで、git pull コマンドの後に何をすべきでしょうか?

    -git pull コマンドの後に、仮想環境をアクティブにし、依存パッケージを更新する必要があります。これにより、プログラムのアップグレードが顺利完成されます。

  • アップグレードが成功したかどうかを確認するために、どのようなコマンドを入力すべきですか?

    -アップグレードが成功したかどうかを確認するためには、実行コマンドを入力し、ダウンロードをスキップするパラメータを追加して、ローカルの実行アドレスをブラウザに入力します。

  • 英伟达のグラフィックカードを使用している場合、アップグレードの最後のステップで何をすべきですか?

    -英伟达のグラフィックカードを使用している場合、アップグレードの最後のステップで、CUDAバージョンを確認し、python install.py コマンドを使用して、関連依存パッケージを自動的に更新する必要があります。

  • 新しいバージョンのfacefusionで、モデルが自動的にダウンロードされる状況とはどのようなものですか?

    -新しいバージョンのfacefusionでは、最初に使用するときに、必要とするモデルが自動的にダウンロードされます。これは、ローカルでモデルが見つからない場合に行われます。

  • facefusionをワンクリックで実行するためのスクリプトを作成するにはどうすればよいですか?

    -facefusionをワンクリックで実行するスクリプトを作成するには、facefusionのインストールディレクトリに新しいテキストファイルを作成し、それを「一键启动」と名前を変更して、指定のコマンドをコピーして貼り付け、保存します。その後、ファイルの拡張子TXTをBATに変更します。

  • 音声で口型を動かす機能を使用する際、どのような注意点がありますか?

    -音声で口型を動かす機能を使用する際には、口型同期と顔の交換機能は同時に使用できないことに注意する必要があります。また、音声ファイルとビデオを準備し、CUDAアクセラレーションを有効にし、スレッド数を調整して処理速度を向上させます。

  • YOLO顔認識モデルの特性とは何ですか?

    -YOLO顔認識モデルは、You Only Look Once(一度見れば十分)という意味で、認識速度と正確性の両方が非常に優れています。また、顔の年齢予測と性别予測機能も含まれています。

  • 顔の交換機能を使用する際、YOLOモデルと遮罩の組み合わせについて、どのような推奨がありますか?

    -顔の交換機能を使用する際、ビデオ内の顔に遮蔽がない場合はYOLOモデルとbox遮罩の組み合わせが推奨されます。遮蔽が多い場合は、以前のバージョンのretinafaceと封じ込めた遮罩が適しています。少量の遮蔽があるが、頭を下げたり横顔が多い場合は、YOLOモデルとbox遮罩の組み合わせが適切です。

  • 2D顔認識と交換モデルの処理範囲を超えるような複雑な顔のショットの場合、どうなるでしょうか?

    -2D顔認識と交換モデルの処理範囲を超えるような複雑な顔のショットでは、モデルは処理できず、パラメータを調整しても、再描画された顔に严重な変形が生じることがあります。

Outlines

00:00

🚀 新機能紹介とアップグレード手順

本段落では、AI探索与发现のチャンネルでfacefusionの新しい機能が紹介されています。新機能として、顔を認識し、音声を提供することで口型と音声を同期させることができるというものです。また、新しい顔認識モデルの導入により、暗い環境下での認識精度が向上しました。さらに、アップグレード手順も説明されており、gitツールを使用して手動でインストールしている前提で、既存の2.2.1バージョンからアップグレードする方法が詳述されています。また、アップグレード後に必要なCUDAバージョンの確認方法や、新しいモデルのダウンロード方法も解説されています。

05:01

🎬 音声駆動口型とYOLOモデルの詳細

この段落では、facefusionの新しい機能である音声駆動口型について詳しく説明されています。音声ファイルとビデオを用意し、特定のオプションをオンにすることで、口型と音声を同期させることができます。また、新しく導入されたYOLO顔認識モデルについても触れられており、その高速かつ高精度な認識能力が強調されています。さらに、使用する際のパラメータの調整方法や、効果的な使用シチュエーションについても解説されています。

10:01

🎵 音楽と共に最後のテスト

最後の段落では、先ほど説明したようにアップグレードされたfacefusionを使用して、音楽と共にビデオの顔を入れ替えた結果を視聴者に示す場面が描かれています。また、そのテストの結果を通じて、新機能の効果を示し、視聴者が新機能のパフォーマンスを理解できるようにしています。最後に、チャンネルの次に会う約束と共に、ビデオは終了しています。

Mindmap

提供语音和正脸视频,实现语音和口型同步
功能描述
低成本视频数字人制作
适用场景
语音驱动口型同步
提高在光线不佳情况下的识别准确性
提升点
特别精准识别低头和侧脸画面
识别能力
人脸识别模型YOLOface
facefusion新功能介绍
已安装2.2.1或更早版本
前提条件
git pull更新程序文件
激活虚拟环境
更新依赖包
运行程序验证升级
升级步骤
确认CUDA版本
使用install.py更新依赖
显卡加速设置
升级过程指导
勾选选项并提供语音文件
调整线程数量以影响处理速度
语音驱动口型功能
设置人脸增强和CUDA加速
选择模式替换特定人脸
YOLO模型换脸操作
新功能使用演示
英文语音效果优于中文
中景视频唇部动作更自然
语音驱动口型效果
替换速度快于旧版本
显存使用率提高
YOLO模型换脸细节
无遮挡推荐YOLO加box遮罩
有遮挡推荐retinaface加封闭遮罩
模型和遮罩组合推荐
性能和效果分析
超出2D人脸识别处理范围
头部转向接近90度时模型无法处理
复杂面部镜头
特殊情况处理
创建文本文件并重命名
修改后缀为BAT实现一键启动
一键运行脚本创建
视频含有大量低头侧脸画面
音乐欣赏
附加信息
AI探索与发现节目介绍
Alert

Keywords

💡AI探索与发现

AI探索与发现は、人工知能(AI)の分野における新しい発見や技術の探求を意味します。このビデオでは、AIを通じて顔の入れ替えや動画の声と口の形の同期を実現する技術について紹介しています。

💡facefusion

facefusionは、顔を入れ替えたり、動画内の人物に声を与えることができるAI技術です。ビデオでは、この技術のアップデートと新機能の紹介がされています。

💡语音驱动口型

これは、提供された音声を元に動画内の人物の口の形を動かす機能です。ビデオでは、この機能を使って、音声と口の形を同期させる方法が説明されています。

💡人脸识别模型

これは、顔を認識し、特定の機能を実行するために使用されるAIモデルです。ビデオでは、新しい顔認識モデルYOLOfaceが導入され、暗い状況下での認識精度が向上したと述べています。

💡CUDA

CUDAは、NVIDIA製のGPUを用いた高度なコンピューティングプラットフォームです。ビデオでは、CUDAバージョンの確認と更新について触れており、ビデオの処理速度を向上させるために使用されています。

💡Pytorch

Pytorchは、機械学習とAIアプリケーション開発のためのオープンソースソフトウェアライブラリです。ビデオでは、CUDAバージョンとPytorchの関係について説明しており、ビデオのアップデートプロセスに必要不可欠です。

💡git

gitは、ソフトウェア開発で広く使われるバージョン管理システムです。ビデオでは、facefusionのアップデートプロセスでgitツールを使用してプログラムファイルを更新しています。

💡YOLO

YOLOは、You Only Look Onceの略で、高速で高精度なオブジェクト認識モデルです。ビデオでは、新しい顔認識モデルとしてYOLOfaceが導入されており、その特徴と効果が説明されています。

💡人脸增强

これは、顔の質を向上させるためのプロセスで、ビデオの顔入れ替え機能で使用されます。ビデオでは、顔の入れ替え後に人脸增强を追加することで、より自然な結果を得られると述べています。

💡遮罩

遮罩は、画像処理で特定の領域をマスクする手法です。ビデオでは、遮罩を使用して動画内の顔を特定し、入れ替える部分を指定しています。

💡线程数量

これは、コンピュータが並列処理できるスレッドの数です。ビデオでは、スレッド数を調整することで、ビデオの処理速度を制御し、より効率的な処理を実現しています。

Highlights

facefusion的新功能允许视频角色根据提供的语音进行口型同步

更新包括新的人脸识别模型YOLOface,提高在光线不佳条件下的识别精度

视频详细介绍了如何从旧版本升级到新版本2.3.0

升级前提包括已安装2.2.1或更早版本,并且使用git工具手动安装

中国大陆用户建议在科学上网的条件下进行程序更新

更新依赖包是升级过程的一部分,无需用户干预

新版本增加了语音驱动口型功能,但与换脸功能不能同时使用

使用英伟达显卡的用户需要确认CUDA版本并可能需要额外步骤来启用加速

新版本增加的模型在首次使用时会自动下载,但可以手动下载以提高速度

介绍了创建一键运行脚本的方法,简化启动facefusion的过程

语音驱动口型功能在英文语音上的效果优于中文

YOLO模型在deepfacelive视频中被介绍,具有优秀的识别速度和准确性

新YOLO模型在多张人脸同时出现时提供了更优的选择模式

新版本在人脸识别上进行了优化,包括增加特征点和预测年龄性别功能

提供了不同场景下模型和遮罩组合的推荐,以适应不同的视频内容

对于复杂的面部镜头,需要多次尝试以达到最佳效果

当面部镜头超出2D人脸识别和交换模型的处理范围时,可能会出现严重变形

视频最后展示了使用新版模型替换后的效果,并邀请观众寻找破绽

face fusion被描述为下一代的面部交换和增强工具

Transcripts

00:00

Hello!大家好!

00:00

欢迎来到AI探索与发现

00:02

facefusion又有新功能了

00:04

现在不仅可以换脸

00:05

还能让视频里的人开口说话

00:07

只要你提供一段语音

00:09

和一个正脸拍摄的视频 经过融合之后

00:12

就能实现语音和口型的同步

00:14

低成本视频数字人又多了一个可选方案

00:17

这次更新另一个重大提升是

00:19

加入了新的人脸识别模型

00:21

大大提高了在光线不好的情况下

00:23

人脸识别的准确性

00:25

特别是识别低头 侧脸的画面时更加精准

00:28

今天视频就来详细介绍

00:30

如何从老版本升级

00:32

并演示新增功能的使用和效果

00:34

从老版本升级的前提是

00:36

已经成功安装过2.2.1或者更早的版本

00:39

并且是使用git工具克隆的方式手动安装的

00:42

如果你没有安装过任何版本

00:44

也可以参考这期视频

00:46

直接安装最新的版本

00:48

首先到安装的facefusion目录下

00:50

比如我的安装目录是D:\AI\facefusion

00:54

路径栏输入CMD打开命令窗口

00:58

输入第一条指令 git pull

01:01

这里提醒一下 中国大陆的朋友

01:03

如果能科学上网 建议先打开代理再更新

01:07

成功更新程序文件以后

01:08

输入第2条指令 激活创建的虚拟环境

01:12

然后输入第3条指令

01:14

更新安装的依赖包

01:17

更新依赖包的过程如果没有出错

01:19

那程序升级就顺利完成了

01:21

最后我们来运行程序

01:23

验证升级是否成功

01:25

输入运行指令

01:26

并加上这个跳过下载的参数

01:29

网页里输入本地运行地址

01:32

操作主界面能成功打开

01:34

这里版本也显示为2.3.0

01:37

这个选项就是新增的语音驱动口型的功能

01:41

拉到底部

01:42

也可以看到新增的人脸识别模型YOLOface

01:46

整个操作界面看上去

01:47

好像已经升级成功了

01:49

但仔细观察一下

01:51

这里的选项是不对的

01:52

没有显卡加速

01:55

因此如果你的是英伟达显卡

01:57

还要再进行升级的最后一步操作

02:00

切回到命令窗口

02:02

按Ctrl+C终止运行

02:04

先输入 pip list

02:06

查看一下原来安装时用的CUDA版本

02:09

只需要确认torch这一行

02:11

看加号后面的字符标识

02:14

这里显示是cu118

02:16

代表我原来版本安装的是cuda11.8的Pytorch

02:20

确认好以后

02:21

再输入这条指令 python install.py

02:24

这里会出现第一个安装选项

02:26

要我们选择CUDA版本

02:28

前面已经确认过cuda是11.8

02:31

所以选最后一个

02:33

然后出现第二个选项

02:35

也同样选择

02:36

跟之前安装时一样的cuda版本

02:39

选好以后回车

02:40

安装程序就会自动更新相关的依赖包

02:43

同样这里的更新

02:44

在中国大陆的朋友也需要科学上网

02:48

整个更新过程不需要干预

02:50

更不要用鼠标点击命令窗口

02:52

只需要耐心等待全部更新完成

02:56

整个过程如果没有出现错误

02:58

就代表更新成功了

03:00

输入运行指令

03:02

刷新一下网页

03:04

现在这里就能看到cuda选项了

03:07

新版本增加的模型

03:08

会在第一次使用时自动下载

03:10

比如现在选择语音驱动口型的功能

03:13

程序如果在本地找不到相关模型

03:15

就会先下载

03:17

在命令窗口可以看到下载进度

03:20

不过在中国大陆的朋友

03:21

这里即使开了科学上网

03:22

下载的速度也非常慢

03:24

解决办法是手动下载模型

03:27

打开官方项目的模型列表页面

03:30

红框标识的就是2.3版本新增的模型

03:33

总共有5个

03:34

下载好以后 我们把它剪切粘贴到

03:37

facefusion安装目录下的models目录里

03:40

到这里新版本升级和模型的更新就全部完成了

03:44

重新运行程序就能使用新版本了

03:47

如果嫌每次输入运行指令太麻烦

03:50

这里跟大家介绍 一个创建一键运行脚本的方法

03:53

首先到facefusion安装目录下

03:56

新建一个文本文件

03:58

然后把它重新命名

03:59

比如叫一键启动

04:02

双击打开它

04:03

复制这段指令粘贴过来

04:06

保存关闭

04:08

最后把这个文件的后缀TXT改成BAT

04:13

如果在你系统上看不到TXT后缀

04:16

可以点击这里的[查看]

04:18

勾选上[文件扩展名]就能看到了

04:21

现在双击一键启动

04:23

就能直接运行facefusion了

04:27

下面来介绍新增的两项功能

04:29

首先是用语音驱动视频里的人物口型

04:33

先勾选这个选项

04:35

然后去掉默认的换脸选项

04:37

因为口型同步和换脸功能是不能同时使用的

04:42

把准备好的语音文件拖放到这里

04:45

我就用这段8秒的语音来测试

04:57

然后再把视频拖进来

05:00

勾选上cuda加速

05:03

调整线程数量

05:05

这个参数很重要

05:06

直接影响到视频的处理速度

05:09

不过程序在这里有一点bug

05:11

有时直接输入值会无效

05:13

建议用后面的上下按钮来调整大小

05:16

一般最大可以调整到显存的两倍

05:18

比如8G显存最大可以调到16

05:21

下面的参数基本不用改了

05:23

默认值就是最佳设置

05:26

然后是右边参数

05:27

可以看到这里默认的人脸识别模型是YOLO

05:31

这个模型在deepfacelive这一期视频有过介绍

05:34

全称叫You Only Look Once(你只需看一次)

05:36

谷歌出品

05:37

无论是识别速度还是准确性都非常优秀

05:40

使用语音驱动口型功能时建议就选它

05:44

其他所有参数也不用改默认就好

05:47

不过在预览这里可以明显看到

05:49

使用音频驱动口型以后

05:51

嘴巴部分变得非常模糊

05:53

所以建议再加上脸部增强

05:56

我们来替换一下看看效果

06:10

口型基本对上了

06:11

不过牙齿的效果不是太好

06:14

这里的语音如果换成歌曲也是可以的

06:17

融合以后是这样的效果

06:30

这个功能我测试下来

06:31

发现使用英文语音的效果明显好于中文

06:39

如果视频拍摄的是中景

06:40

替换以后的唇部动作

06:42

要比脸部特写的视频更加自然

06:51

最后来介绍下使用新的YOLO模型

06:54

换脸时的一些操作细节

06:56

左侧参数的设置跟之前版本一样

06:58

没什么变化

07:00

添加人脸增强

07:01

设置cuda加速

07:03

去掉默认的CPU选项

07:06

增加线程数量提高换脸速度

07:09

右侧这个参数

07:10

人脸选择模式这里有细微变化

07:14

如果视频画面中

07:15

同时出现两个或两个以上的人脸时

07:18

只替换其中一个人面部

07:20

建议使用[one模式]来指定

07:22

默认的YOLO模型

07:24

在画面中出现多张人脸时

07:26

这里如果使用默认的第一个reference模式

07:29

指定替换人脸有时会不起作用

07:32

我们来替换一下看看效果

07:35

新模型在替换速度上

07:36

稍快于之前版本的retinaface

07:39

另外 替换时显存的使用率也有所提高

07:43

当设置了12个线程时

07:44

8G显存接近拉满

07:47

替换完成

08:22

在不使用封闭遮罩的情况下

08:24

YOLO模型的整体效果

08:26

要好于老版本的retinaface

08:29

主要是新版本在人脸识别上做了很多优化

08:33

我们可以打开调试选项

08:35

就能看到这些变化

08:37

包括增加了5个特征点的人脸识别

08:39

原来是68个特征点

08:42

虽然特征点越多

08:43

在识别正面人脸时更加精确

08:46

但识别低头侧脸

08:47

或者光线不好时的人脸

08:49

就容易误判

08:51

另外这次还增加了人脸的年龄预测和性别预测功能

08:56

不过新的YOLO在配合封闭遮罩时

08:59

感觉整体性能有所下降

09:01

所以可以根据要替换的视频内容

09:04

来灵活选择不同的人脸识别模型

09:06

以下是几种场景下的模型和遮罩组合的推荐

09:10

如果使用语音驱动视频功能

09:12

人脸识别模型就使用YOLO加人脸增强

09:16

换脸的情况下

09:17

如果视频中人脸没有遮挡

09:19

推荐使用YOLO加box遮罩

09:22

如果视频中人脸有大量遮挡

09:25

推荐使用老版本retinaface加封闭遮罩

09:28

如果视频中人脸只有少量遮挡

09:30

但存在大量低头侧脸的画面

09:33

推荐使用YOLO加box遮罩

09:36

以上推荐则是基于当前版本的测试

09:38

可能以后新版本会有所变化

09:40

实际操作时对于复杂的面部镜头

09:43

还是要多次尝试才能达到最佳的效果

09:45

当有些面部镜头超出了基于2D人脸识别

09:49

和交换模型的处理范围时

09:51

比如这个视频

09:52

在头部转向接近90度时

09:54

模型就无法处理了

09:56

无论如何调整参数

09:58

重绘以后的面部都会存在严重变形

10:01

甚至出现多个眼睛

10:04

最后来请大家听一段音乐

10:06

这个视频里有大量低头侧脸的画面

10:09

但角度还没有超过模型的处理范围

10:11

使用新版模型替换之后

10:13

不知道你能否找到其中的破绽

10:16

好 今天的分享就到这里

10:17

感谢观看 咱们下期见

06:00

你的辫子长长

06:02

你的眼睛亮亮

06:04

我的心儿慌慌

06:06

我的大脑缺氧

06:35

fusion is a face swapper and enhancer of the next generation

06:46

face fusion is the best face swapper out there