AI神助攻,轻松驾驭ChatGPT的五大神器,,一跃成为GPT达人 | 回到Axton
Summary
TLDR本期视频Axton分享了几个实用的AI工具和技巧。首先介绍了如何从OpenAI官网导出ChatGPT对话记录的方法。接着,推荐了一个Mac平台下方便使用ChatGPT的小工具,以及如何通过API key使用。此外,还介绍了Mac Whisper,一个高效的语音转文字工具,包括其不同版本的特点和使用方法。最后,提到了开源项目Buzz,一个跨平台的语音识别软件,以及使用OpenAI的Whisper API进行识别的体验。
Takeaways
- 📤 OpenAI提供了导出ChatGPT对话记录的功能,用户可以在Settings中找到导出数据的链接。
- 📧 导出的数据会发送到用户的注册邮箱,并包含一个下载文件的链接。
- 📂 下载的文件包括chat.html和conversation.json等格式,方便用户查看和处理对话记录。
- 🔗 Mac用户可以使用一个名为MacGPT的小工具,通过快捷键快速访问ChatGPT对话栏。
- 💻 MacGPT支持语音输入和输出,允许用户在写作过程中直接与ChatGPT交互。
- 🔑 使用MacGPT前需要输入API key,用户可以在OpenAI官网创建新的API key并配置。
- 💬 MacGPT的Inline功能允许用户在输入文字时直接提问并获取答案,但需要Accessibility权限。
- 🎤 开发者还提供了另一款名为Mac Whisper的工具,用于语音到文字的转换。
- 🗣️ Whisper的Small模型适合一般语音识别需求,而Large模型提供更高的识别精准度。
- 📊 对比开源项目Buzz和Mac Whisper,Buzz免费但依赖本地计算资源,而Whisper Pro版提供更多功能和模型。
- 🌐 根据用户需求和资源情况,可以选择使用本地模型或OpenAI的API服务,后者虽然快速但需要付费。
Q & A
如何导出ChatGPT的对话记录?
-首先登录ChatGPT网站,进入Settings设置页面,找到导出数据的链接点击后,会有三个提示,确认后数据将发送到注册邮箱,包含下载链接。
导出的ChatGPT对话记录包含哪些文件格式?
-导出的文件包括chat.html(可读的HTML格式对话记录文档),conversation.json(对话记录的JSON格式文件),feedback文件(可能包含Playground信息)以及用户信息文件。
Mac下使用ChatGPT的快捷键工具有哪些功能?
-该工具可以通过快捷键一键呼出对话栏,通过菜单栏打开ChatGPT对话窗口,拷贝对话记录,以及在书写过程中直接输入指令让ChatGPT返回结果写在光标所在位置,还支持语音对话。
MacGPT工具的下载链接在哪里?
-下载链接在Gumroad上,可以在视频描述栏中找到。
如何设置MacGPT工具的API key?
-进入OpenAI网站,创建新的API key,然后在MacGPT工具的设置界面输入API key,选择API模型(如3.5或4),并根据需要设置快捷键和Inline功能。
Mac Whisper是做什么的?
-Mac Whisper是一个语音到文字的转换工具,可以用来识别视频字幕,提高字幕制作效率。
Mac Whisper有哪些版本?
-Mac Whisper有免费版和Pro版,免费版提供基础功能,Pro版提供更多导出格式和更高级的语言模型。
如何获取并使用Mac Whisper的Pro版模型?
-在Mac Whisper的Manager Models中下载Pro版模型,或者购买使用。
Github上的Buzz项目与Mac Whisper有何不同?
-Buzz是开源项目,可在多平台(Mac, Windows, Linux)上使用,而Mac Whisper是商业软件,提供更多专业功能。
使用OpenAI的Whisper API进行语音识别的收费情况如何?
-Whisper API按分钟收费,一分钟大约0.006美元。
在决定使用哪种语音识别模型时,应该考虑哪些因素?
-应根据实际需求和预算考虑,包括识别速度、准确率、是否需要下载模型到本地以及是否愿意支付API使用费用。
Buzz项目支持哪些格式的导出?
-Buzz支持导出为TXT, SRT或者VTT格式的字幕。
Outlines
📂 ChatGPT对话记录导出功能介绍
本段介绍了如何使用OpenAI官方推出的功能来导出ChatGPT的对话记录。首先,用户需要登录ChatGPT网站并进入设置,找到导出数据的链接。导出过程会提示用户关于账号信息和对话记录的包含情况,并说明数据将通过注册邮箱发送。用户需要等待一段时间以便数据准备完成,之后会收到带有下载链接的邮件。下载的文件包括一个可读的HTML格式的对话记录文档和一个JSON格式的对话记录文件,以及用户反馈信息和其他相关文件。此外,还介绍了一个Mac下方便使用ChatGPT的小工具,它允许用户通过快捷键快速呼出对话栏,直接输入指令,并支持语音对话。该工具的下载链接位于描述栏中,用户可以免费下载。
💬 MacGPT的Inline功能与Mac Whisper语音识别工具
这一部分详细介绍了MacGPT的Inline功能,允许用户在输入文字过程中直接提问GPT并获取答案,同时介绍了如何设置快捷键和API模型。接着,介绍了另一款由MacGPT开发者开发的语音识别工具Mac Whisper,它基于OpenAI的Whisper API,可以将语音转换为文字。讨论了不同版本的Mac Whisper,包括免费版和Pro版,以及它们的功能和价格。此外,还提到了使用Whisper进行视频字幕制作的效率提升,并通过实际测试比较了不同模型的效果。最后,介绍了一个名为Buzz的开源项目,它提供了跨平台的语音识别功能。
🔊 语音识别模型的选择与性能对比
本段内容主要讨论了不同语音识别模型的选择和性能对比。首先,介绍了Mac Whisper中不同大小的模型,包括Small、Medium和Large,以及它们的识别速度和精确度。然后,比较了免费版和Pro版的主要区别,特别是在模型选择和导出格式方面。接着,探讨了在Github上找到的开源项目Buzz,它提供了类似的功能,并且可以免费使用。最后,通过实际测试比较了不同模型在识别英文时的效果,并讨论了使用本地模型与使用OpenAI API的区别,包括速度和成本。
🎤 语音识别工具的使用场景与总结
这部分总结了语音识别工具的使用场景和效果。讨论了Mac Whisper和Buzz等工具在不同情况下的表现,包括在字幕制作中的应用。强调了Large模型在处理较长音频时的高识别准确率,即使在发音不准确的情况下。同时,比较了使用本地模型和OpenAI API的成本效益,指出API的使用虽然快速但需要付费。最后,介绍了识别结果的导出格式,以及开源软件Buzz的功能和适用性。视频以Axton的结束语和对观众的感谢结束。
Mindmap
Keywords
💡OpenAI
💡ChatGPT
💡导出数据
💡MacGPT
💡API key
💡Whisper
💡语音识别
💡字幕
💡模型
💡开源项目
Highlights
OpenAI推出了导出ChatGPT对话记录的功能
导出数据的链接位于ChatGPT网站的Settings中
导出的数据会发送到注册邮箱,并附带下载链接
导出的文件包括账号信息和对话记录
导出文件中有chat.html和conversation.json等格式
Mac下方便使用ChatGPT的小工具可以通过快捷键呼出对话栏
小工具支持菜单栏直接打开对话窗口和拷贝对话记录
小工具还支持语音与ChatGPT对话
MacGPT小工具的下载链接位于Gumroad上
使用MacGPT需要输入API key并选择API模型
Mac Whisper是MacGPT开发者开发的语音到文字转换工具
Whisper的API和ChatGPT的API同时发布,但后者更受关注
Whisper识别效率提高至少三倍
Whisper有免费版和Pro版,Pro版提供更多功能和模型
Github上的Buzz项目是开源的语音识别软件
Buzz支持Mac、Windows和Linux平台
Buzz的Large模型识别准确率高,但需要下载到本地
OpenAI的Whisper API识别速度快,但需要付费
识别结果可以导出为TXT、SRT或VTT格式
Buzzle作为开源软件,功能虽少但足以满足大部分字幕需求
Transcripts
Hey,你好,欢迎回到Axton
今天是又一次的秘籍分享时间
给大家分享几个好用的AI工具和技巧
好,咱们直接开始
第一个,OpenAI的官方终于推出了
导出ChatGPT对话记录的功能
咱们登录ChatGPT的网站
然后进到Settings
在设置里面就有一个导出数据的链接
点击
它就有三个提示
第一个就是说你的账号的信息还有对话记录将会包括在导出的文件当中
这个数据会发到你的注册邮箱里面
并且带一个下载文件的链接
处理这些数据可能需要一些时间
等准备好了
您就会通知你
好
我们确定导出
它肯定会根据你的对话的多少时间不一样
我的应该就很快就好了
或者就三条测试的记录
打开我的邮箱就会收到一封OpenAI发来的邮件
这里面有个按钮就是你的下载链接
点击就可以下载到你的本地
下载到本地之后
它是一个压缩文件
双击解压缩
这里面的chat.html
这就是一个可读的你的对话记录的文档
打开之后它就会在浏览器里头打开
这里面就是html格式的
你的对话记录
我这里面只有三个做演示用的
这边还有几个文件
这个 conversation.json格式的文件
这是你对话记录的json格式
如果你想对你的文本做进一步的处理的话
那用这个格式就比较方便了
它是经过编码的json格式
你的中文都经过了编码
所以你直接打开看
可能看起来不好看
然后这是feedback
就是你的反馈信息
这个文件我不太清楚它到底是什么
我感觉这面像是 Playground 的信息
因为我刚开始用也没有仔细的去对比它
但是这头内容肯定不是我 chatGPT 里面的对话内容
好 这是我的用户信息
他的下载记录一共就这么几个文件
那看起来很像就是一个开发人员从头到尾做出来的功能
用起来不是很方便
不过文件给的信息已经足够了
动手能力比较强的小伙伴
就可以很容易的写一些脚本
把它转换成你所需要的格式
这是一个在mac下面非常方便的使用ChatGPTt的小工具
它可以通过快捷键一键呼出对话栏
这就跟呼出你的搜索栏和呼出你的启动栏一样
可以直接在这里面输出输入你的指令
还可以通过菜单栏直接打开跟ChatGPTt的对话窗口
也可以拷贝你的对话记录
还可以在你的书写过程当中直接输入chartgpt的指令
然后呢
chartgpt的返回结果就会写在你的光标的所在的位置上
最后还支持语音跟chartgpt进行对话
好
那它的下载位置就在Gumroad上
下载链接我会放在描述栏当中
大家到时候点击去下载就可以了
它是免费的软件
你只要在这个
你只要下载的时候在输入框里头输入0
就不用花钱
可以直接免费下载
当然你也可以输入一个大于零的值
表达一下你的感谢
好下载之后呢
他就是一个压缩文件
解压缩之后就是一个可执行文件了
你直接把它拖到你的Mac的应用程序目录里面就可以了
然后双击运行就行
双击运行
他就会出现在你的菜单上
那首先呢
我们要用到他全部的功能的话
我们就需要把自己的 API key 输进去
我们进入到 OpenAI
然后刚好就是 API key
创建一个新的 API key
比如我们就叫 MacDN
好,拷贝
右上角设置图标
点击之后就是它的设置界面
首先我们就把我们需要的 API key 给它输进去
然后它的 API 模型我们可以选 3.5 或者 4
菜单栏上我们可以通过鼠标点击去把对话窗口来呼出
也可以我们自己指定一个快捷键
比如我们先试上一个快捷键
Global 就是可以呼出它的对话栏
就像 Spotlight 这样的对话栏的快捷键
我们可以在这设置一个
同样这边也可以选 API 的模型
Inline 就是它可以在你的输入文字的过程当中
直接去问 GPT 问题
然后把返回的结果直接写在你的
直接写在你的光标所在的位置上
但是你要使用这项功能
你就需要赋予它一个 Accessibility 的权限
这个权限在你的系统设置里面给它就可以了
下面还是选择 Inline 的模型
我选择 GPT 4
然后 Trigger Word
就是你通过一个什么样的词来触发它的功能
默认就是一个 + GPT
OK,提问完之后让GPT回答
你是用回车键的还是用Shift+回车键
这是默认给的它的prompt
基本上就是这些设置
OK,我们可以看一下
比如首先我们全局呼出
什么是AGI
你问他一下什么是AGI
这样就很方便
你在工作的时候
任何时候你需要问问题的
马上就可以呼出他
然后copy还能拷贝到你的剪贴板里面
还一种方式就是直接呼出他的菜单
刚才我们给的是这个OK
呼出他的对话窗口
一个就是web界面
就相当于我们用浏览器打开ChatGPT一样
OK 这返回快了很多
因为这个我设置的是3.5
那Native就是要用到你的API了
(计算机声)
(计算机声)
(计算机声)
同样你可以拷贝文字
也可以把它全部的对话记录全部拷贝下来
然后粘贴到你需要的地方去
好
接下来我们就看看它的直接输写的功能
我们假设我们打开一个即时本
假设你正在写工作总结
那就可以直接输入我们刚才定义的加号GPT的trigger来触发GPT
输入加号GPT之后
我们直接就输入我们需要的问题
好
然后我们定义的是shift+回车
MacGPT就直接帮我开始写了
好 非常方便
这确实是一个非常方便的小工具
但是这个功能
就是它直接书写的功能
它并不是在所有的App里面都有效的
在有些App里面就做不到
比如说像Notion里面就不行
好 下一个工具是MacGPT的开发者开发的另外一款工具
这哥们开发了很多挺好用的Mac下的小工具
这个叫做Mac Whisper
当时OpenAI的Whisper的API和ChatGPT的API是同时发布的
但是因为ChatGPT的API光芒太强盖过了Whisper的API
其实Whisper是一个非常好用的语音到文字的转换工具
我最近一段时间用Whisper来识别我的视频字幕
做字幕效率比我以前用其他的工具提高了至少三倍以上
这边它有很多版本
你也可以先下载一个免费版
当然也可以花17欧元
这应该是欧元
去买它的Pro版本
好,我们先看一下它的免费版
同样它下载回来是一个压缩文件
解压缩
就是这个样子
你可以把它放到你的Mac的应用程序目录里面
也可以任意一个目录都可以
双击就可以运行起来
好,这就是它的界面
打开文件也可以直接录音识别
这是新功能
还可以记录App的Audio
这边我们可以选语言
我们选中文或者让他自动检测语言都可以
右边就是选择模型了
你用哪一个语言模型
他默认的提供了一个 Small 模型
如果你想添加更多的模型就到他的 Manager Models 里面去
这里面你就可以下载一些其他的模型
比如 Tiny 模型,最小的模型
它模型越小,识别的速度就越快
但是精确度就越差
这里面的 Medium 模型
就是它的中等模型和大模型
都是需要花钱购买它的 Pro 版才可以下载用的
经过我的测试
Small 模型作为一般的语音识别来说
已经可以用了 够用了
识别的精准度也还不错
但是作为我做视频上字幕肯定不行
即便是它的 Medium 模型
它识别出来的效果
也就跟我之前用其他工具
效果是在同一个级别
但是它的 Large 模型的效果
那就是完全不在同一个档次了
所以最后我实际上是买了他的Pro版
就用这个Large模型来做
我们可以看一下
找一个一小段音频来试一下它的识别效果
比如这就是我在讲Microsoft的Jarvis里面
讲到Microsoft的思维链
他们是怎么样从一个点子
想到最后要做一个Hugging GPT出来
这么一个思维过程
这小段视频
我们先让他识别一下
看看效果怎么样
这是它的small模型
这就是微软在创造jarvis过程中的思维电
所以这就是它识别过程中的问题了
思维电我说的是这样是思维链
当然如果我的发音非常标准的话
我估计它的识别效果肯定会好很多
jarvis这个也是识别错误
但是整体来说呢
没有别的大错误了
这一页上面只有这一个错误
所以作为一般的应用啊
语音到文本应该是够用的
然后它可以针对你的每一个识别的结果
进行编辑 拷贝 删除等等
也可以导出为字幕格式或者文本格式
HTML PDF这些导出就是它的Pro版的功能了
所以它的免费版和它的Pro版
区别就在于一个是导出格式更多一些
那另外一个就是模型
那其实最主要的差别还是在于模型的差别了
因为毕竟导出多出来的这几个格式
并没有太大的花钱去购买的欲望
但是模型就完全不一样了
当然
如果你不愿意花钱去买他的APP的话
在Github上也有开源的
我们来看一下
Github上有个叫Buzz的一个开源项目
你可以去Mac的App Store里面下载
但是在Mac Store里面
他是要花钱的
9块9毛9
然后呢
我们可以直接在这里面去下载安装
我们点击他的最新版
Mac就是DMG
他也有Windows版本
所以他的适用性范围应该更广一些
Linux Windows全平台都可以用
DMG的下载完
直接打开就可以安装了
直接拖到你的应用程序的目录里面就行
这里面首先点击加号
去添加你的音频文件
当然也可以直接录音
我们还是用我们刚才那个音频文件
那个小短视频来试一下
首先这边也是选模型
Whisper的CPP Hugging Face
以及OpenAI的Whisper的API
我们先看一下Whisper
那这边同样Tiny, Base, Small, Medium, Large
这边可以直接用Large模型
是不是我又买亏了
让我们看一下
它可以翻译或者语音识别
也可以让它自动检测语言
看一下效果
首先它就需要去把模型下载回来
等出结果之后我们再回来
好
终于下载完了
先给大家讲一下模型的选择
当你点加号
选定了你的音频文件之后
就面临着要选择你的识别模型
那Whisper模型呢
下面有几个Base, Small, Medium, Large
如果你以前没有下载过
那么你选择模型点击RUN之后
他首先要做的事情就是下载这个模型
下载模型可能跟网络有关
我下载了好几次才把这个Large模型下载回来
那还有一个我试过的模型呢
就是OpenAI的Whisper API
如果选择这个模型呢
你需要把你的API Key
OpenAI的API Key放到里面去就可以了
直接运行就OK
那结果怎么样呢
第一个是我用small模型识别的
第二个是我用large模型识别的
识别的结果从中文上面来看
基本上没有差别
因为中文都是100%识别正确的
没有任何的错误
唯一不一样的就是英文的识别
jarvis
跟这边的jarvis不一样
然后最后呢
Hugging face
这个Hugging是识别对的
但是我觉得这个问题
可能主要还是我的英文发音的问题
从这个比较短的音频文件上来对比
这个Small模型和Large模型
基本上没有太大的区别
当然我还是建议使用Large模型
或者至少是Medium模型
因为我之前拿比较长的音频做过测试
Large模型还是要好很多
即便你有时候发音不太准
它的识别准确率还是比较高
但是无论如何,它也比我以前用到的那些工具强很多了
第三个就是用OpenAI的Whisper API直接识别的
它跟Large模型两个识别效果是一样
所以OpenAI的API应该直接使用的就是Large模型
然后后面我拿了两个更长的音频
10分钟的音频
对比了一下Large模型和OpenAI的API
结果确实是一样的
这两个识别出来结果几乎一样
这些模型的区别在哪呢
如果你使用vispro的模型
不管你是用小的还是要大的
这些模型都是要下载到你本地来执行的
来识别的
首先它是免费的
其次呢
它要用到你的本地的计算资源
它的速度就跟你的电脑配置有关系
如果你是用vispro的api
OpenAI的API来做识别呢
速度非常快
因为它是在OpenAI里面识别嘛
但是呢
它会花钱
Whisper API也是收费的
它就跟你用ChatGPT API一样
ChatGPT API是按Token来收费
Whisper就是按分钟来收费
当然它很便宜
一分钟好像是0.006美元
十分钟也就是六分钱
但不管怎么说它是收费的
所以到底用哪个模型呢
你就根据你的实际情况来做一个权衡吧
我在我的iMac电脑上是intel的i5 CPU
Intel CPU 明显要慢于 M1 CPU
使用大模型识别 10 分钟音频
大概花了我十多分钟,二十分钟左右的样子
但是如果是到 OpenAI API 来识别的话
几乎不到一分钟的时间结果就出来了
好,识别完的结果
这些字幕可以导出为 TXT, SRT 或者 VTT 的格式
那么 Buzzle 作为一个开源的软件
虽然功能比 Mac Whisperer 要少一些
但是它已经能够满足你大部分做字幕的需求了
好,今天的分享就到这里
我是Axton
如果你喜欢我的内容
请点赞评论订阅我的频道
并且打开小铃铛
这样你就不会错过今后有用有趣的内容了
咱们下期再见
5.0 / 5 (0 votes)
Using Obsidian for academic writing and creativity
Rethinking MY PKM: How I Organize Everything In Obsidian
6款工具帮你自动赚钱,轻松上手帮你打开全新的收入渠道,赚钱效率高出100倍,用好这几款AI人工智能工具,你会发现赚钱从来没如此简单过
FREE writing software | Longform and shortform
How to Optimize Performance in Unreal Engine 5
Doing History with Zotero and Obsidian: Archival Research