FaceFusion语音+视频口型同步功能,本地安装升级详细步骤。
Summary
TLDRAI探索と発見の番組へようこそ。facefusionは新たな機能を追加しました。これで、顔の入れ替えだけでなく、ビデオ内の人物が話すことも可能です。必要なのは音声と正面から撮影されたビデオです。合成後、音声と口の形が同期します。これにより、ビデオデジタル人間には新たな選択肢が加わりました。また、新しい顔認識モデルが導入され、暗い場所での顔認識の正確性が向上しました。特に、うつむき姿や横顔のシーンでの認識がより正確です。このビデオでは、アップグレード方法と新機能の使用方法と効果を紹介します。アップグレードには、2.2.1以前のバージョンをgitで手動インストールしている必要があります。アップグレードプロセスには、git pull、仮想環境のアクティベート、依存パッケージの更新などがあります。アップグレードが成功すると、新機能である音声駆動の口の形機能やYOLOfaceという新しい顔認識モデルが利用可能になります。また、アップグレード後には、CUDAバージョンの確認とtorchの更新も必要です。さらに、新しいモデルをダウンロードし、facefusionのmodelsディレクトリに配置することで、アップグレードとモデルの更新が完了します。新機能の使用方法として、音声で口の形を動かす方法や、YOLOモデルを使った顔の入れ替え時の詳細な操作方法を紹介します。最後に、新しいYOLOモデルの顔認識の詳細や、年齢予測、性別予測機能についても触れています。最後に、音楽を聞きながら、新しいモデルで入れ替えられたビデオを楽しんでください。
Takeaways
- 🚀 新功能:facefusion 现在不仅能换脸,还能让视频中的人开口说话,只需提供语音和正脸视频即可实现同步。
- 🌟 技术提升:新增人脸识别模型 YOLOface,提高了在光线不佳或面部角度不佳时的识别准确性。
- 📂 升级步骤:已安装旧版本的用户,通过 git pull 更新程序文件,激活虚拟环境,更新依赖包来升级。
- 💡 科学上网:中国大陆用户在更新时建议使用代理,以提高更新速度。
- 📦 CUDA版本确认:确认当前安装的 Pytorch CUDA 版本,以便在升级时选择正确的 CUDA 版本。
- 🔄 更新依赖:通过 python install.py 更新依赖包,确保所有组件与新版本兼容。
- 🚀 GPU加速:英伟达显卡用户需要更新 CUDA 相关依赖以启用 GPU 加速。
- 📚 手动下载:在中国大陆,由于下载速度慢,可以手动下载模型并放置到安装目录下。
- 🔧 一键运行:创建 BAT 文件以实现 facefusion 的一键启动,简化操作流程。
- 🎤 语音驱动:使用语音驱动口型功能时,需要注意音频与口型的同步,以及可能的面部细节模糊问题。
- 🖼️ 人脸替换:新版本 YOLO 模型在换脸速度和显存使用上有所提升,但需要根据视频内容选择合适的遮罩和模型。
- 🎶 音乐测试:视频中展示了使用 facefusion 进行音乐视频人脸替换的效果,展示了新模型的性能。
Q & A
facefusionの新機能で、どのようなことが可能になるようになったでしょうか?
-facefusionの新機能では、顔を交換するだけでなく、ビデオ内の人物が口を開いて話すことも可能になりました。ユーザーが提供する音声と正面から撮影されたビデオを融合させることで、音声と口の形の同期を実現できます。
新しい顔認識モデルがどのような向上をもたらしましたか?
-新しい顔認識モデルは、暗い状況下での顔認識の正確性を大幅に向上させました。特に、頭を下げたり、顔を横に向けた画面での認識がより正確になりました。
facefusionのアップグレードには、どのような前提条件が必要ですか?
-アップグレードの前提条件は、既に2.2.1またはそれ以前のバージョンをインストールしており、gitツールを使用して手動でクローンしたインストールを行っていることです。
アップグレードのプロセスで、git pull コマンドの後に何をすべきでしょうか?
-git pull コマンドの後に、仮想環境をアクティブにし、依存パッケージを更新する必要があります。これにより、プログラムのアップグレードが顺利完成されます。
アップグレードが成功したかどうかを確認するために、どのようなコマンドを入力すべきですか?
-アップグレードが成功したかどうかを確認するためには、実行コマンドを入力し、ダウンロードをスキップするパラメータを追加して、ローカルの実行アドレスをブラウザに入力します。
英伟达のグラフィックカードを使用している場合、アップグレードの最後のステップで何をすべきですか?
-英伟达のグラフィックカードを使用している場合、アップグレードの最後のステップで、CUDAバージョンを確認し、python install.py コマンドを使用して、関連依存パッケージを自動的に更新する必要があります。
新しいバージョンのfacefusionで、モデルが自動的にダウンロードされる状況とはどのようなものですか?
-新しいバージョンのfacefusionでは、最初に使用するときに、必要とするモデルが自動的にダウンロードされます。これは、ローカルでモデルが見つからない場合に行われます。
facefusionをワンクリックで実行するためのスクリプトを作成するにはどうすればよいですか?
-facefusionをワンクリックで実行するスクリプトを作成するには、facefusionのインストールディレクトリに新しいテキストファイルを作成し、それを「一键启动」と名前を変更して、指定のコマンドをコピーして貼り付け、保存します。その後、ファイルの拡張子TXTをBATに変更します。
音声で口型を動かす機能を使用する際、どのような注意点がありますか?
-音声で口型を動かす機能を使用する際には、口型同期と顔の交換機能は同時に使用できないことに注意する必要があります。また、音声ファイルとビデオを準備し、CUDAアクセラレーションを有効にし、スレッド数を調整して処理速度を向上させます。
YOLO顔認識モデルの特性とは何ですか?
-YOLO顔認識モデルは、You Only Look Once(一度見れば十分)という意味で、認識速度と正確性の両方が非常に優れています。また、顔の年齢予測と性别予測機能も含まれています。
顔の交換機能を使用する際、YOLOモデルと遮罩の組み合わせについて、どのような推奨がありますか?
-顔の交換機能を使用する際、ビデオ内の顔に遮蔽がない場合はYOLOモデルとbox遮罩の組み合わせが推奨されます。遮蔽が多い場合は、以前のバージョンのretinafaceと封じ込めた遮罩が適しています。少量の遮蔽があるが、頭を下げたり横顔が多い場合は、YOLOモデルとbox遮罩の組み合わせが適切です。
2D顔認識と交換モデルの処理範囲を超えるような複雑な顔のショットの場合、どうなるでしょうか?
-2D顔認識と交換モデルの処理範囲を超えるような複雑な顔のショットでは、モデルは処理できず、パラメータを調整しても、再描画された顔に严重な変形が生じることがあります。
Outlines
🚀 新機能紹介とアップグレード手順
本段落では、AI探索与发现のチャンネルでfacefusionの新しい機能が紹介されています。新機能として、顔を認識し、音声を提供することで口型と音声を同期させることができるというものです。また、新しい顔認識モデルの導入により、暗い環境下での認識精度が向上しました。さらに、アップグレード手順も説明されており、gitツールを使用して手動でインストールしている前提で、既存の2.2.1バージョンからアップグレードする方法が詳述されています。また、アップグレード後に必要なCUDAバージョンの確認方法や、新しいモデルのダウンロード方法も解説されています。
🎬 音声駆動口型とYOLOモデルの詳細
この段落では、facefusionの新しい機能である音声駆動口型について詳しく説明されています。音声ファイルとビデオを用意し、特定のオプションをオンにすることで、口型と音声を同期させることができます。また、新しく導入されたYOLO顔認識モデルについても触れられており、その高速かつ高精度な認識能力が強調されています。さらに、使用する際のパラメータの調整方法や、効果的な使用シチュエーションについても解説されています。
🎵 音楽と共に最後のテスト
最後の段落では、先ほど説明したようにアップグレードされたfacefusionを使用して、音楽と共にビデオの顔を入れ替えた結果を視聴者に示す場面が描かれています。また、そのテストの結果を通じて、新機能の効果を示し、視聴者が新機能のパフォーマンスを理解できるようにしています。最後に、チャンネルの次に会う約束と共に、ビデオは終了しています。
Mindmap
Keywords
💡AI探索与发现
💡facefusion
💡语音驱动口型
💡人脸识别模型
💡CUDA
💡Pytorch
💡git
💡YOLO
💡人脸增强
💡遮罩
💡线程数量
Highlights
facefusion的新功能允许视频角色根据提供的语音进行口型同步
更新包括新的人脸识别模型YOLOface,提高在光线不佳条件下的识别精度
视频详细介绍了如何从旧版本升级到新版本2.3.0
升级前提包括已安装2.2.1或更早版本,并且使用git工具手动安装
中国大陆用户建议在科学上网的条件下进行程序更新
更新依赖包是升级过程的一部分,无需用户干预
新版本增加了语音驱动口型功能,但与换脸功能不能同时使用
使用英伟达显卡的用户需要确认CUDA版本并可能需要额外步骤来启用加速
新版本增加的模型在首次使用时会自动下载,但可以手动下载以提高速度
介绍了创建一键运行脚本的方法,简化启动facefusion的过程
语音驱动口型功能在英文语音上的效果优于中文
YOLO模型在deepfacelive视频中被介绍,具有优秀的识别速度和准确性
新YOLO模型在多张人脸同时出现时提供了更优的选择模式
新版本在人脸识别上进行了优化,包括增加特征点和预测年龄性别功能
提供了不同场景下模型和遮罩组合的推荐,以适应不同的视频内容
对于复杂的面部镜头,需要多次尝试以达到最佳效果
当面部镜头超出2D人脸识别和交换模型的处理范围时,可能会出现严重变形
视频最后展示了使用新版模型替换后的效果,并邀请观众寻找破绽
face fusion被描述为下一代的面部交换和增强工具
Transcripts
Hello!大家好!
欢迎来到AI探索与发现
facefusion又有新功能了
现在不仅可以换脸
还能让视频里的人开口说话
只要你提供一段语音
和一个正脸拍摄的视频 经过融合之后
就能实现语音和口型的同步
低成本视频数字人又多了一个可选方案
这次更新另一个重大提升是
加入了新的人脸识别模型
大大提高了在光线不好的情况下
人脸识别的准确性
特别是识别低头 侧脸的画面时更加精准
今天视频就来详细介绍
如何从老版本升级
并演示新增功能的使用和效果
从老版本升级的前提是
已经成功安装过2.2.1或者更早的版本
并且是使用git工具克隆的方式手动安装的
如果你没有安装过任何版本
也可以参考这期视频
直接安装最新的版本
首先到安装的facefusion目录下
比如我的安装目录是D:\AI\facefusion
路径栏输入CMD打开命令窗口
输入第一条指令 git pull
这里提醒一下 中国大陆的朋友
如果能科学上网 建议先打开代理再更新
成功更新程序文件以后
输入第2条指令 激活创建的虚拟环境
然后输入第3条指令
更新安装的依赖包
更新依赖包的过程如果没有出错
那程序升级就顺利完成了
最后我们来运行程序
验证升级是否成功
输入运行指令
并加上这个跳过下载的参数
网页里输入本地运行地址
操作主界面能成功打开
这里版本也显示为2.3.0
这个选项就是新增的语音驱动口型的功能
拉到底部
也可以看到新增的人脸识别模型YOLOface
整个操作界面看上去
好像已经升级成功了
但仔细观察一下
这里的选项是不对的
没有显卡加速
因此如果你的是英伟达显卡
还要再进行升级的最后一步操作
切回到命令窗口
按Ctrl+C终止运行
先输入 pip list
查看一下原来安装时用的CUDA版本
只需要确认torch这一行
看加号后面的字符标识
这里显示是cu118
代表我原来版本安装的是cuda11.8的Pytorch
确认好以后
再输入这条指令 python install.py
这里会出现第一个安装选项
要我们选择CUDA版本
前面已经确认过cuda是11.8
所以选最后一个
然后出现第二个选项
也同样选择
跟之前安装时一样的cuda版本
选好以后回车
安装程序就会自动更新相关的依赖包
同样这里的更新
在中国大陆的朋友也需要科学上网
整个更新过程不需要干预
更不要用鼠标点击命令窗口
只需要耐心等待全部更新完成
整个过程如果没有出现错误
就代表更新成功了
输入运行指令
刷新一下网页
现在这里就能看到cuda选项了
新版本增加的模型
会在第一次使用时自动下载
比如现在选择语音驱动口型的功能
程序如果在本地找不到相关模型
就会先下载
在命令窗口可以看到下载进度
不过在中国大陆的朋友
这里即使开了科学上网
下载的速度也非常慢
解决办法是手动下载模型
打开官方项目的模型列表页面
红框标识的就是2.3版本新增的模型
总共有5个
下载好以后 我们把它剪切粘贴到
facefusion安装目录下的models目录里
到这里新版本升级和模型的更新就全部完成了
重新运行程序就能使用新版本了
如果嫌每次输入运行指令太麻烦
这里跟大家介绍 一个创建一键运行脚本的方法
首先到facefusion安装目录下
新建一个文本文件
然后把它重新命名
比如叫一键启动
双击打开它
复制这段指令粘贴过来
保存关闭
最后把这个文件的后缀TXT改成BAT
如果在你系统上看不到TXT后缀
可以点击这里的[查看]
勾选上[文件扩展名]就能看到了
现在双击一键启动
就能直接运行facefusion了
下面来介绍新增的两项功能
首先是用语音驱动视频里的人物口型
先勾选这个选项
然后去掉默认的换脸选项
因为口型同步和换脸功能是不能同时使用的
把准备好的语音文件拖放到这里
我就用这段8秒的语音来测试
然后再把视频拖进来
勾选上cuda加速
调整线程数量
这个参数很重要
直接影响到视频的处理速度
不过程序在这里有一点bug
有时直接输入值会无效
建议用后面的上下按钮来调整大小
一般最大可以调整到显存的两倍
比如8G显存最大可以调到16
下面的参数基本不用改了
默认值就是最佳设置
然后是右边参数
可以看到这里默认的人脸识别模型是YOLO
这个模型在deepfacelive这一期视频有过介绍
全称叫You Only Look Once(你只需看一次)
谷歌出品
无论是识别速度还是准确性都非常优秀
使用语音驱动口型功能时建议就选它
其他所有参数也不用改默认就好
不过在预览这里可以明显看到
使用音频驱动口型以后
嘴巴部分变得非常模糊
所以建议再加上脸部增强
我们来替换一下看看效果
口型基本对上了
不过牙齿的效果不是太好
这里的语音如果换成歌曲也是可以的
融合以后是这样的效果
这个功能我测试下来
发现使用英文语音的效果明显好于中文
如果视频拍摄的是中景
替换以后的唇部动作
要比脸部特写的视频更加自然
最后来介绍下使用新的YOLO模型
换脸时的一些操作细节
左侧参数的设置跟之前版本一样
没什么变化
添加人脸增强
设置cuda加速
去掉默认的CPU选项
增加线程数量提高换脸速度
右侧这个参数
人脸选择模式这里有细微变化
如果视频画面中
同时出现两个或两个以上的人脸时
只替换其中一个人面部
建议使用[one模式]来指定
默认的YOLO模型
在画面中出现多张人脸时
这里如果使用默认的第一个reference模式
指定替换人脸有时会不起作用
我们来替换一下看看效果
新模型在替换速度上
稍快于之前版本的retinaface
另外 替换时显存的使用率也有所提高
当设置了12个线程时
8G显存接近拉满
替换完成
在不使用封闭遮罩的情况下
YOLO模型的整体效果
要好于老版本的retinaface
主要是新版本在人脸识别上做了很多优化
我们可以打开调试选项
就能看到这些变化
包括增加了5个特征点的人脸识别
原来是68个特征点
虽然特征点越多
在识别正面人脸时更加精确
但识别低头侧脸
或者光线不好时的人脸
就容易误判
另外这次还增加了人脸的年龄预测和性别预测功能
不过新的YOLO在配合封闭遮罩时
感觉整体性能有所下降
所以可以根据要替换的视频内容
来灵活选择不同的人脸识别模型
以下是几种场景下的模型和遮罩组合的推荐
如果使用语音驱动视频功能
人脸识别模型就使用YOLO加人脸增强
换脸的情况下
如果视频中人脸没有遮挡
推荐使用YOLO加box遮罩
如果视频中人脸有大量遮挡
推荐使用老版本retinaface加封闭遮罩
如果视频中人脸只有少量遮挡
但存在大量低头侧脸的画面
推荐使用YOLO加box遮罩
以上推荐则是基于当前版本的测试
可能以后新版本会有所变化
实际操作时对于复杂的面部镜头
还是要多次尝试才能达到最佳的效果
当有些面部镜头超出了基于2D人脸识别
和交换模型的处理范围时
比如这个视频
在头部转向接近90度时
模型就无法处理了
无论如何调整参数
重绘以后的面部都会存在严重变形
甚至出现多个眼睛
最后来请大家听一段音乐
这个视频里有大量低头侧脸的画面
但角度还没有超过模型的处理范围
使用新版模型替换之后
不知道你能否找到其中的破绽
好 今天的分享就到这里
感谢观看 咱们下期见
你的辫子长长
你的眼睛亮亮
我的心儿慌慌
我的大脑缺氧
fusion is a face swapper and enhancer of the next generation
face fusion is the best face swapper out there
5.0 / 5 (0 votes)
Install macOS Sonoma BETA or Ventura 13.5 on UNSUPPORTED MACs with OpenCore Legacy Patcher 0.6.8!
スノーデン氏:監視社会巡りネット質疑
米国の同盟国をやめた瞬間に、CIAのマルウェアが日本中のインフラを崩壊させる!?スノーデン証言の真偽は⁉︎ーー映画『スノーデン』のオリバー・ストーン監督に岩上安身が直撃質問! 2017.1.18
Claude 3 Haiku vs Sonnet vs Opus for Writing
I Bought Used USB Drives from Facebook..
The Evolution of Godzilla EXPLAINED