AI神助攻,轻松驾驭ChatGPT的五大神器,,一跃成为GPT达人 | 回到Axton

人工智能 | ChatGPT & AIGC
16 Apr 202316:31

Summary

TLDR本期视频Axton分享了几个实用的AI工具和技巧。首先介绍了如何从OpenAI官网导出ChatGPT对话记录的方法。接着,推荐了一个Mac平台下方便使用ChatGPT的小工具,以及如何通过API key使用。此外,还介绍了Mac Whisper,一个高效的语音转文字工具,包括其不同版本的特点和使用方法。最后,提到了开源项目Buzz,一个跨平台的语音识别软件,以及使用OpenAI的Whisper API进行识别的体验。

Takeaways

  • 📤 OpenAI提供了导出ChatGPT对话记录的功能,用户可以在Settings中找到导出数据的链接。
  • 📧 导出的数据会发送到用户的注册邮箱,并包含一个下载文件的链接。
  • 📂 下载的文件包括chat.html和conversation.json等格式,方便用户查看和处理对话记录。
  • 🔗 Mac用户可以使用一个名为MacGPT的小工具,通过快捷键快速访问ChatGPT对话栏。
  • 💻 MacGPT支持语音输入和输出,允许用户在写作过程中直接与ChatGPT交互。
  • 🔑 使用MacGPT前需要输入API key,用户可以在OpenAI官网创建新的API key并配置。
  • 💬 MacGPT的Inline功能允许用户在输入文字时直接提问并获取答案,但需要Accessibility权限。
  • 🎤 开发者还提供了另一款名为Mac Whisper的工具,用于语音到文字的转换。
  • 🗣️ Whisper的Small模型适合一般语音识别需求,而Large模型提供更高的识别精准度。
  • 📊 对比开源项目Buzz和Mac Whisper,Buzz免费但依赖本地计算资源,而Whisper Pro版提供更多功能和模型。
  • 🌐 根据用户需求和资源情况,可以选择使用本地模型或OpenAI的API服务,后者虽然快速但需要付费。

Q & A

  • 如何导出ChatGPT的对话记录?

    -首先登录ChatGPT网站,进入Settings设置页面,找到导出数据的链接点击后,会有三个提示,确认后数据将发送到注册邮箱,包含下载链接。

  • 导出的ChatGPT对话记录包含哪些文件格式?

    -导出的文件包括chat.html(可读的HTML格式对话记录文档),conversation.json(对话记录的JSON格式文件),feedback文件(可能包含Playground信息)以及用户信息文件。

  • Mac下使用ChatGPT的快捷键工具有哪些功能?

    -该工具可以通过快捷键一键呼出对话栏,通过菜单栏打开ChatGPT对话窗口,拷贝对话记录,以及在书写过程中直接输入指令让ChatGPT返回结果写在光标所在位置,还支持语音对话。

  • MacGPT工具的下载链接在哪里?

    -下载链接在Gumroad上,可以在视频描述栏中找到。

  • 如何设置MacGPT工具的API key?

    -进入OpenAI网站,创建新的API key,然后在MacGPT工具的设置界面输入API key,选择API模型(如3.5或4),并根据需要设置快捷键和Inline功能。

  • Mac Whisper是做什么的?

    -Mac Whisper是一个语音到文字的转换工具,可以用来识别视频字幕,提高字幕制作效率。

  • Mac Whisper有哪些版本?

    -Mac Whisper有免费版和Pro版,免费版提供基础功能,Pro版提供更多导出格式和更高级的语言模型。

  • 如何获取并使用Mac Whisper的Pro版模型?

    -在Mac Whisper的Manager Models中下载Pro版模型,或者购买使用。

  • Github上的Buzz项目与Mac Whisper有何不同?

    -Buzz是开源项目,可在多平台(Mac, Windows, Linux)上使用,而Mac Whisper是商业软件,提供更多专业功能。

  • 使用OpenAI的Whisper API进行语音识别的收费情况如何?

    -Whisper API按分钟收费,一分钟大约0.006美元。

  • 在决定使用哪种语音识别模型时,应该考虑哪些因素?

    -应根据实际需求和预算考虑,包括识别速度、准确率、是否需要下载模型到本地以及是否愿意支付API使用费用。

  • Buzz项目支持哪些格式的导出?

    -Buzz支持导出为TXT, SRT或者VTT格式的字幕。

Outlines

00:00

📂 ChatGPT对话记录导出功能介绍

本段介绍了如何使用OpenAI官方推出的功能来导出ChatGPT的对话记录。首先,用户需要登录ChatGPT网站并进入设置,找到导出数据的链接。导出过程会提示用户关于账号信息和对话记录的包含情况,并说明数据将通过注册邮箱发送。用户需要等待一段时间以便数据准备完成,之后会收到带有下载链接的邮件。下载的文件包括一个可读的HTML格式的对话记录文档和一个JSON格式的对话记录文件,以及用户反馈信息和其他相关文件。此外,还介绍了一个Mac下方便使用ChatGPT的小工具,它允许用户通过快捷键快速呼出对话栏,直接输入指令,并支持语音对话。该工具的下载链接位于描述栏中,用户可以免费下载。

05:02

💬 MacGPT的Inline功能与Mac Whisper语音识别工具

这一部分详细介绍了MacGPT的Inline功能,允许用户在输入文字过程中直接提问GPT并获取答案,同时介绍了如何设置快捷键和API模型。接着,介绍了另一款由MacGPT开发者开发的语音识别工具Mac Whisper,它基于OpenAI的Whisper API,可以将语音转换为文字。讨论了不同版本的Mac Whisper,包括免费版和Pro版,以及它们的功能和价格。此外,还提到了使用Whisper进行视频字幕制作的效率提升,并通过实际测试比较了不同模型的效果。最后,介绍了一个名为Buzz的开源项目,它提供了跨平台的语音识别功能。

10:03

🔊 语音识别模型的选择与性能对比

本段内容主要讨论了不同语音识别模型的选择和性能对比。首先,介绍了Mac Whisper中不同大小的模型,包括Small、Medium和Large,以及它们的识别速度和精确度。然后,比较了免费版和Pro版的主要区别,特别是在模型选择和导出格式方面。接着,探讨了在Github上找到的开源项目Buzz,它提供了类似的功能,并且可以免费使用。最后,通过实际测试比较了不同模型在识别英文时的效果,并讨论了使用本地模型与使用OpenAI API的区别,包括速度和成本。

15:04

🎤 语音识别工具的使用场景与总结

这部分总结了语音识别工具的使用场景和效果。讨论了Mac Whisper和Buzz等工具在不同情况下的表现,包括在字幕制作中的应用。强调了Large模型在处理较长音频时的高识别准确率,即使在发音不准确的情况下。同时,比较了使用本地模型和OpenAI API的成本效益,指出API的使用虽然快速但需要付费。最后,介绍了识别结果的导出格式,以及开源软件Buzz的功能和适用性。视频以Axton的结束语和对观众的感谢结束。

Mindmap

登录ChatGPT网站
进入Settings设置
点击导出数据链接
等待邮件通知
chat.html
conversation.json
feedback文件
下载压缩文件
操作步骤
功能开发人员友好
转换格式脚本编写
适用性与改进
OpenAI的ChatGPT对话记录导出功能
快捷键呼出对话栏
打开对话窗口
拷贝对话记录
直接输入指令
菜单栏直接操作
语音对话支持
Gumroad平台
输入0获取
输入大于零值捐赠
免费下载
解压缩与运行
下载与安装
OpenAI网站创建
选择3.5或4
设置API模型
API key配置
全局呼出
Accessibility权限
Inline输入
功能使用示例
Mac下ChatGPT使用工具
MacGPT开发者
17欧元Pro版
免费版与Pro版
开发者与版本
打开文件与录音识别
语言选择
Small模型
Pro版专享
Medium与Large模型
模型选择
Small模型测试
Large模型测试
识别效果测试
编辑功能
Pro版导出功能
编辑与导出
功能与操作
Mac App Store下载
Whisper模型比较
OpenAI Whisper API
模型选择与识别
中文识别准确率
英文识别准确率
识别效果
本地模型免费但耗时
API识别快速但收费
成本与效率
对比开源项目Buzz
Mac Whisper语音转文字工具
AI工具与技巧分享
Alert

Keywords

💡OpenAI

OpenAI是一个人工智能研究实验室,致力于确保人工智能(AI)的发展能够以对人类有益的方式进行。在视频中,OpenAI是导出ChatGPT对话记录功能和Whisper语音识别API的提供者,这体现了其在AI领域的领导地位和技术实力。

💡ChatGPT

ChatGPT是OpenAI开发的一种基于GPT(生成预训练变换器)架构的聊天机器人。它能够理解和生成自然语言文本,与用户进行互动式对话。在视频中,ChatGPT的对话记录导出功能被详细介绍,展示了用户如何管理和保存与ChatGPT的交流内容。

💡导出数据

导出数据是指将存储在某个系统或平台中的信息复制并转移到另一个系统或介质上的过程。在视频中,用户可以通过OpenAI提供的链接导出其ChatGPT的对话记录,包括文本和用户信息,以便在本地进行保存和管理。

💡MacGPT

MacGPT是一款为Mac操作系统设计的辅助工具,它允许用户通过快捷键快速访问ChatGPT,实现在任何应用程序中直接输入问题并获取答案的功能。这个工具提高了与ChatGPT交互的便捷性,特别适合需要快速获取信息或灵感的用户。

💡API key

API key(应用程序编程接口密钥)是一种用于身份验证的代码,它允许开发者在开发应用程序时与特定服务进行安全通信。在视频中,API key用于激活和配置MacGPT工具,以便用户可以通过该工具与OpenAI的ChatGPT和Whisper服务进行交互。

💡Whisper

Whisper是OpenAI开发的一种语音识别技术,能够将语音转换成文字。它在视频中被提及,作为一个高效的工具,尤其适用于视频字幕制作和其他需要将语音资料转换为文本的场景。

💡语音识别

语音识别是指通过计算机程序将人类的语音转换成可读的文本数据的过程。视频中讨论了OpenAI的Whisper API和其他相关工具,展示了它们在语音识别方面的应用和效果。

💡字幕

字幕是指在视频或电影播放时,显示在屏幕上的书面文字,通常用于提供翻译或解释对话内容。在视频中,字幕制作是Whisper和相关工具的一个重要应用场景,说明了AI技术在媒体制作领域的实用性。

💡模型

在人工智能领域,模型通常指的是用于处理特定任务的算法结构,它可以基于输入数据进行学习和预测。视频中提到的Whisper的Small、Medium、Large模型,代表了不同大小和性能的语音识别算法,用户可以根据需要选择合适的模型。

💡开源项目

开源项目指的是其源代码公开可用,允许任何人查看、使用和修改的软件项目。在视频中,提到了名为Buzz的开源项目,它提供了一个免费的语音识别工具,用户可以在不同的操作系统上使用它,而不受限于商业软件的许可和费用。

Highlights

OpenAI推出了导出ChatGPT对话记录的功能

导出数据的链接位于ChatGPT网站的Settings中

导出的数据会发送到注册邮箱,并附带下载链接

导出的文件包括账号信息和对话记录

导出文件中有chat.html和conversation.json等格式

Mac下方便使用ChatGPT的小工具可以通过快捷键呼出对话栏

小工具支持菜单栏直接打开对话窗口和拷贝对话记录

小工具还支持语音与ChatGPT对话

MacGPT小工具的下载链接位于Gumroad上

使用MacGPT需要输入API key并选择API模型

Mac Whisper是MacGPT开发者开发的语音到文字转换工具

Whisper的API和ChatGPT的API同时发布,但后者更受关注

Whisper识别效率提高至少三倍

Whisper有免费版和Pro版,Pro版提供更多功能和模型

Github上的Buzz项目是开源的语音识别软件

Buzz支持Mac、Windows和Linux平台

Buzz的Large模型识别准确率高,但需要下载到本地

OpenAI的Whisper API识别速度快,但需要付费

识别结果可以导出为TXT、SRT或VTT格式

Buzzle作为开源软件,功能虽少但足以满足大部分字幕需求

Transcripts

00:00

Hey,你好,欢迎回到Axton

00:02

今天是又一次的秘籍分享时间

00:05

给大家分享几个好用的AI工具和技巧

00:08

好,咱们直接开始

00:10

第一个,OpenAI的官方终于推出了

00:13

导出ChatGPT对话记录的功能

00:16

咱们登录ChatGPT的网站

00:19

然后进到Settings

00:21

在设置里面就有一个导出数据的链接

00:25

点击

00:26

它就有三个提示

00:28

第一个就是说你的账号的信息还有对话记录将会包括在导出的文件当中

00:34

这个数据会发到你的注册邮箱里面

00:37

并且带一个下载文件的链接

00:40

处理这些数据可能需要一些时间

00:43

等准备好了

00:45

您就会通知你

00:46

00:47

我们确定导出

00:49

它肯定会根据你的对话的多少时间不一样

00:56

我的应该就很快就好了

00:57

或者就三条测试的记录

01:00

打开我的邮箱就会收到一封OpenAI发来的邮件

01:04

这里面有个按钮就是你的下载链接

01:06

点击就可以下载到你的本地

01:10

下载到本地之后

01:11

它是一个压缩文件

01:12

双击解压缩

01:14

这里面的chat.html

01:18

这就是一个可读的你的对话记录的文档

01:21

打开之后它就会在浏览器里头打开

01:23

这里面就是html格式的

01:27

你的对话记录

01:28

我这里面只有三个做演示用的

01:30

这边还有几个文件

01:32

这个 conversation.json格式的文件

01:36

这是你对话记录的json格式

01:38

如果你想对你的文本做进一步的处理的话

01:41

那用这个格式就比较方便了

01:43

它是经过编码的json格式

01:45

你的中文都经过了编码

01:47

所以你直接打开看

01:49

可能看起来不好看

01:50

然后这是feedback

01:51

就是你的反馈信息

01:53

这个文件我不太清楚它到底是什么

01:56

我感觉这面像是 Playground 的信息

01:59

因为我刚开始用也没有仔细的去对比它

02:02

但是这头内容肯定不是我 chatGPT 里面的对话内容

02:05

好 这是我的用户信息

02:07

他的下载记录一共就这么几个文件

02:10

那看起来很像就是一个开发人员从头到尾做出来的功能

02:13

用起来不是很方便

02:15

不过文件给的信息已经足够了

02:17

动手能力比较强的小伙伴

02:19

就可以很容易的写一些脚本

02:21

把它转换成你所需要的格式

02:25

这是一个在mac下面非常方便的使用ChatGPTt的小工具

02:29

它可以通过快捷键一键呼出对话栏

02:33

这就跟呼出你的搜索栏和呼出你的启动栏一样

02:37

可以直接在这里面输出输入你的指令

02:41

还可以通过菜单栏直接打开跟ChatGPTt的对话窗口

02:50

也可以拷贝你的对话记录

02:52

还可以在你的书写过程当中直接输入chartgpt的指令

02:56

然后呢

02:56

chartgpt的返回结果就会写在你的光标的所在的位置上

03:00

最后还支持语音跟chartgpt进行对话

03:05

03:06

那它的下载位置就在Gumroad上

03:09

下载链接我会放在描述栏当中

03:11

大家到时候点击去下载就可以了

03:13

它是免费的软件

03:16

你只要在这个

03:17

你只要下载的时候在输入框里头输入0

03:20

就不用花钱

03:21

可以直接免费下载

03:23

当然你也可以输入一个大于零的值

03:26

表达一下你的感谢

03:27

好下载之后呢

03:28

他就是一个压缩文件

03:30

解压缩之后就是一个可执行文件了

03:38

你直接把它拖到你的Mac的应用程序目录里面就可以了

03:42

然后双击运行就行

03:44

双击运行

03:46

他就会出现在你的菜单上

03:48

那首先呢

03:49

我们要用到他全部的功能的话

03:50

我们就需要把自己的 API key 输进去

03:53

我们进入到 OpenAI

03:56

然后刚好就是 API key

03:59

创建一个新的 API key

04:01

比如我们就叫 MacDN

04:05

好,拷贝

04:09

右上角设置图标

04:13

点击之后就是它的设置界面

04:14

首先我们就把我们需要的 API key 给它输进去

04:18

然后它的 API 模型我们可以选 3.5 或者 4

04:22

菜单栏上我们可以通过鼠标点击去把对话窗口来呼出

04:27

也可以我们自己指定一个快捷键

04:30

比如我们先试上一个快捷键

04:32

Global 就是可以呼出它的对话栏

04:37

就像 Spotlight 这样的对话栏的快捷键

04:40

我们可以在这设置一个

04:42

同样这边也可以选 API 的模型

04:44

Inline 就是它可以在你的输入文字的过程当中

04:48

直接去问 GPT 问题

04:51

然后把返回的结果直接写在你的

04:54

直接写在你的光标所在的位置上

04:57

但是你要使用这项功能

04:58

你就需要赋予它一个 Accessibility 的权限

05:01

这个权限在你的系统设置里面给它就可以了

05:05

下面还是选择 Inline 的模型

05:08

我选择 GPT 4

05:09

然后 Trigger Word

05:10

就是你通过一个什么样的词来触发它的功能

05:14

默认就是一个 + GPT

05:17

OK,提问完之后让GPT回答

05:20

你是用回车键的还是用Shift+回车键

05:23

这是默认给的它的prompt

05:26

基本上就是这些设置

05:29

OK,我们可以看一下

05:30

比如首先我们全局呼出

05:32

什么是AGI

05:35

你问他一下什么是AGI

05:37

这样就很方便

05:39

你在工作的时候

05:40

任何时候你需要问问题的

05:41

马上就可以呼出他

05:42

然后copy还能拷贝到你的剪贴板里面

05:45

还一种方式就是直接呼出他的菜单

05:49

刚才我们给的是这个OK

05:51

呼出他的对话窗口

05:53

一个就是web界面

05:55

就相当于我们用浏览器打开ChatGPT一样

05:58

OK 这返回快了很多

06:05

因为这个我设置的是3.5

06:08

那Native就是要用到你的API了

06:11

(计算机声)

06:21

(计算机声)

06:23

(计算机声)

06:25

同样你可以拷贝文字

06:28

也可以把它全部的对话记录全部拷贝下来

06:32

然后粘贴到你需要的地方去

06:34

06:35

接下来我们就看看它的直接输写的功能

06:38

我们假设我们打开一个即时本

06:40

假设你正在写工作总结

06:45

那就可以直接输入我们刚才定义的加号GPT的trigger来触发GPT

06:53

输入加号GPT之后

06:55

我们直接就输入我们需要的问题

06:56

07:05

然后我们定义的是shift+回车

07:07

MacGPT就直接帮我开始写了

07:10

好 非常方便

07:12

这确实是一个非常方便的小工具

07:14

但是这个功能

07:15

就是它直接书写的功能

07:17

它并不是在所有的App里面都有效的

07:19

在有些App里面就做不到

07:21

比如说像Notion里面就不行

07:23

好 下一个工具是MacGPT的开发者开发的另外一款工具

07:30

这哥们开发了很多挺好用的Mac下的小工具

07:34

这个叫做Mac Whisper

07:37

当时OpenAI的Whisper的API和ChatGPT的API是同时发布的

07:43

但是因为ChatGPT的API光芒太强盖过了Whisper的API

07:48

其实Whisper是一个非常好用的语音到文字的转换工具

07:54

我最近一段时间用Whisper来识别我的视频字幕

07:58

做字幕效率比我以前用其他的工具提高了至少三倍以上

08:02

这边它有很多版本

08:04

你也可以先下载一个免费版

08:06

当然也可以花17欧元

08:08

这应该是欧元

08:10

去买它的Pro版本

08:12

好,我们先看一下它的免费版

08:14

同样它下载回来是一个压缩文件

08:16

解压缩

08:18

就是这个样子

08:20

你可以把它放到你的Mac的应用程序目录里面

08:23

也可以任意一个目录都可以

08:25

双击就可以运行起来

08:27

好,这就是它的界面

08:29

打开文件也可以直接录音识别

08:32

这是新功能

08:33

还可以记录App的Audio

08:35

这边我们可以选语言

08:37

我们选中文或者让他自动检测语言都可以

08:41

右边就是选择模型了

08:43

你用哪一个语言模型

08:45

他默认的提供了一个 Small 模型

08:48

如果你想添加更多的模型就到他的 Manager Models 里面去

08:52

这里面你就可以下载一些其他的模型

08:55

比如 Tiny 模型,最小的模型

08:59

它模型越小,识别的速度就越快

09:02

但是精确度就越差

09:04

这里面的 Medium 模型

09:06

就是它的中等模型和大模型

09:08

都是需要花钱购买它的 Pro 版才可以下载用的

09:12

经过我的测试

09:13

Small 模型作为一般的语音识别来说

09:16

已经可以用了 够用了

09:17

识别的精准度也还不错

09:20

但是作为我做视频上字幕肯定不行

09:22

即便是它的 Medium 模型

09:25

它识别出来的效果

09:26

也就跟我之前用其他工具

09:29

效果是在同一个级别

09:31

但是它的 Large 模型的效果

09:33

那就是完全不在同一个档次了

09:36

所以最后我实际上是买了他的Pro版

09:37

就用这个Large模型来做

09:39

我们可以看一下

09:40

找一个一小段音频来试一下它的识别效果

09:44

比如这就是我在讲Microsoft的Jarvis里面

09:47

讲到Microsoft的思维链

09:48

他们是怎么样从一个点子

09:51

想到最后要做一个Hugging GPT出来

09:54

这么一个思维过程

09:56

这小段视频

09:57

我们先让他识别一下

10:00

看看效果怎么样

10:02

这是它的small模型

10:04

这就是微软在创造jarvis过程中的思维电

10:08

所以这就是它识别过程中的问题了

10:10

思维电我说的是这样是思维链

10:13

当然如果我的发音非常标准的话

10:15

我估计它的识别效果肯定会好很多

10:17

jarvis这个也是识别错误

10:21

但是整体来说呢

10:22

没有别的大错误了

10:24

这一页上面只有这一个错误

10:26

所以作为一般的应用啊

10:27

语音到文本应该是够用的

10:30

然后它可以针对你的每一个识别的结果

10:33

进行编辑 拷贝 删除等等

10:36

也可以导出为字幕格式或者文本格式

10:41

HTML PDF这些导出就是它的Pro版的功能了

10:45

所以它的免费版和它的Pro版

10:48

区别就在于一个是导出格式更多一些

10:52

那另外一个就是模型

10:54

那其实最主要的差别还是在于模型的差别了

10:58

因为毕竟导出多出来的这几个格式

11:01

并没有太大的花钱去购买的欲望

11:04

但是模型就完全不一样了

11:07

当然

11:07

如果你不愿意花钱去买他的APP的话

11:11

在Github上也有开源的

11:12

我们来看一下

11:13

Github上有个叫Buzz的一个开源项目

11:19

你可以去Mac的App Store里面下载

11:21

但是在Mac Store里面

11:22

他是要花钱的

11:24

9块9毛9

11:24

然后呢

11:26

我们可以直接在这里面去下载安装

11:28

我们点击他的最新版

11:30

Mac就是DMG

11:33

他也有Windows版本

11:34

所以他的适用性范围应该更广一些

11:38

Linux Windows全平台都可以用

11:40

DMG的下载完

11:42

直接打开就可以安装了

11:43

直接拖到你的应用程序的目录里面就行

11:47

这里面首先点击加号

11:50

去添加你的音频文件

11:53

当然也可以直接录音

11:55

我们还是用我们刚才那个音频文件

11:57

那个小短视频来试一下

11:59

首先这边也是选模型

12:11

Whisper的CPP Hugging Face

12:13

以及OpenAI的Whisper的API

12:16

我们先看一下Whisper

12:18

那这边同样Tiny, Base, Small, Medium, Large

12:22

这边可以直接用Large模型

12:24

是不是我又买亏了

12:25

让我们看一下

12:26

它可以翻译或者语音识别

12:29

也可以让它自动检测语言

12:31

看一下效果

12:32

首先它就需要去把模型下载回来

12:39

等出结果之后我们再回来

12:41

12:42

终于下载完了

12:43

先给大家讲一下模型的选择

12:45

当你点加号

12:47

选定了你的音频文件之后

12:50

就面临着要选择你的识别模型

12:54

那Whisper模型呢

12:56

下面有几个Base, Small, Medium, Large

12:59

如果你以前没有下载过

13:00

那么你选择模型点击RUN之后

13:02

他首先要做的事情就是下载这个模型

13:05

下载模型可能跟网络有关

13:07

我下载了好几次才把这个Large模型下载回来

13:10

那还有一个我试过的模型呢

13:12

就是OpenAI的Whisper API

13:15

如果选择这个模型呢

13:16

你需要把你的API Key

13:18

OpenAI的API Key放到里面去就可以了

13:21

直接运行就OK

13:23

那结果怎么样呢

13:24

第一个是我用small模型识别的

13:28

第二个是我用large模型识别的

13:31

识别的结果从中文上面来看

13:39

基本上没有差别

13:40

因为中文都是100%识别正确的

13:42

没有任何的错误

13:44

唯一不一样的就是英文的识别

13:46

jarvis

13:48

跟这边的jarvis不一样

13:52

然后最后呢

13:54

Hugging face

13:57

这个Hugging是识别对的

14:00

但是我觉得这个问题

14:02

可能主要还是我的英文发音的问题

14:04

从这个比较短的音频文件上来对比

14:06

这个Small模型和Large模型

14:08

基本上没有太大的区别

14:10

当然我还是建议使用Large模型

14:12

或者至少是Medium模型

14:14

因为我之前拿比较长的音频做过测试

14:17

Large模型还是要好很多

14:18

即便你有时候发音不太准

14:20

它的识别准确率还是比较高

14:22

但是无论如何,它也比我以前用到的那些工具强很多了

14:26

第三个就是用OpenAI的Whisper API直接识别的

14:31

它跟Large模型两个识别效果是一样

14:34

所以OpenAI的API应该直接使用的就是Large模型

14:37

然后后面我拿了两个更长的音频

14:41

10分钟的音频

14:42

对比了一下Large模型和OpenAI的API

14:45

结果确实是一样的

14:48

这两个识别出来结果几乎一样

14:50

这些模型的区别在哪呢

14:52

如果你使用vispro的模型

14:54

不管你是用小的还是要大的

14:56

这些模型都是要下载到你本地来执行的

14:59

来识别的

15:00

首先它是免费的

15:02

其次呢

15:03

它要用到你的本地的计算资源

15:05

它的速度就跟你的电脑配置有关系

15:08

如果你是用vispro的api

15:10

OpenAI的API来做识别呢

15:12

速度非常快

15:14

因为它是在OpenAI里面识别嘛

15:17

但是呢

15:18

它会花钱

15:19

Whisper API也是收费的

15:21

它就跟你用ChatGPT API一样

15:23

ChatGPT API是按Token来收费

15:26

Whisper就是按分钟来收费

15:28

当然它很便宜

15:29

一分钟好像是0.006美元

15:32

十分钟也就是六分钱

15:35

但不管怎么说它是收费的

15:38

所以到底用哪个模型呢

15:39

你就根据你的实际情况来做一个权衡吧

15:42

我在我的iMac电脑上是intel的i5 CPU

15:46

Intel CPU 明显要慢于 M1 CPU

15:50

使用大模型识别 10 分钟音频

15:53

大概花了我十多分钟,二十分钟左右的样子

15:56

但是如果是到 OpenAI API 来识别的话

16:00

几乎不到一分钟的时间结果就出来了

16:03

好,识别完的结果

16:04

这些字幕可以导出为 TXT, SRT 或者 VTT 的格式

16:10

那么 Buzzle 作为一个开源的软件

16:12

虽然功能比 Mac Whisperer 要少一些

16:15

但是它已经能够满足你大部分做字幕的需求了

16:19

好,今天的分享就到这里

16:21

我是Axton

16:22

如果你喜欢我的内容

16:23

请点赞评论订阅我的频道

16:25

并且打开小铃铛

16:26

这样你就不会错过今后有用有趣的内容了

16:29

咱们下期再见