汇佳网为您带来《怎样把录音变成文字(把录音转换成文字的软件)》,本文围绕怎样把录音变成文字展开分析,讲述了关于怎样把录音变成文字相关的内容,希望您能在本文中获取到有用的信息!
大家好啊,最近chatgpt比较火啊,我也体验了一把,文章标题就是它给起的,有点标题党了哈,但是意思也大差不差。
之前发表过一篇”免费离线语音识别神器whisper安装教程”,因为whisper安装比较费时间,本篇介绍几款其它的免费语音转文字工具,方便大家选择。
我也对这几款工具做了测试,对它们的识别准确率做了对比。文章第五部分会给出识别准确率排名。基于测试结果对语音识别工具的选择在文章最后也给了几条建议。
语音转文字,可方便快捷的将会议、讲座、课堂录音整理成文字稿。
Buzz是一款可以离线运行的语音识别软件。它有两个功能,一个是录音转文字,一个是实时语音识别。它的底层还是使用的whisper的语音识别功能。不过它的优点是你只需要下载一个安装包,安装好之后就可以直接运行,不像配置whisper那样麻烦。
我们这里简单介绍下它的录音转文字功能。在进行第一次转录的时候会下载模型,下载完后即可离线运行。
点击”File”,再点击”Import Audio File…”,导入你需要转文字的录音文件。
之后会弹出一个设置框,
如上图所示:
左边框选的是让你选转写的质量,从上往下,质量逐渐增高,转写的准确率会上升,但是相应的耗费的时间也会变长。左边框框选的这五个选项,对应whisper的“tiny,base,small,medium,large”五种模式。
右边框是两种任务类型,我们一般选”Transcribe(转录)”模式,”Translate(翻译)”模式是将语音文件翻译成英语文本。图中的”Export As(导出为)”则是选择导出格式。
这两种方式都需要联网才能使用。为啥把这俩放在一起,因为都是抖音旗下的产品。下图中左边是飞书的公司,右边是剪映的公司。
虽然都是抖音旗下的,但是识别出来的结果还是有所不同的。识别准确率也不相同,文章第五部分给出了识别准确率排名。
飞书妙记:
注册登陆后,直接上传文件就可以了。
飞书妙记可以区别音频中不同的说话人,可以导出txt格式和srt格式。
剪映电脑版:
20240713,剪映目前已收费,无免费识别额度,有vip才能继续使用语音转字幕功能。
需要下载安装剪映电脑版。这个功能是为了方便大家剪视频配字幕存在的,联网运行,目前免费。
使用方法:新建项目>导入音频>将音频拉到下方轨道>点击“文本”>“智能字幕”,生成后直接点导出字幕文件即可。
网易出品,需要联网。目前每天有2小时免费识别额度。
登录网易见外工作台,新建语音转写项目,上传文件即可。
win10和win11系统自带语音识别,不过这个不支持音频转文字。只支持实时语音识别,需要联网运行。
win10或win11系统下,打开一个txt文件,鼠标点击文件空白处使光标处于待输入状态,按快捷键win+h调出语音输入工具,此时开始说话,工具就会实时识别你说的话,在txt文件中自动输入文字。
阿里云、腾讯云、百度云、讯飞听见等都有提供录音转写服务,除了讯飞听见也有网页端的服务(新用户赠送15min免费时长)外,都需要会编程调用接口,对不会编程的人不友好。当然你要是会编程的话可以尝试下这几家公司的服务,不同公司多少都会赠送一定的免费额度。
以录音转写服务为例,百度每个账号赠送10小时时长,腾讯每月赠送10h时长,阿里新客有3个月试用期,讯飞赠送15min免费额度。规则可能随时变化,具体请以相关服务商的官方网站为准。
我使用了3段音源,一段是我自己录制的一段Excel小技巧视频,大概30s,一段是某播客的聊天音频片段大概5min,一段是主席的2023年新年贺词大概13min。
将三段音频,分别使用whisper的tiny、base、small、medium、large-v1、large-v2、large这7种不同的模型以及飞书妙记、网易见外工作台、win11自带语音识别工具、剪映和必剪这5种免费语音识别工具来转写,比较它们之间的准确率。因为buzz语音识别的核心就是whisper,但是buzz的语音转录模式才有5个选项,而whisper有7个,猜测应该是少了large-v1和large-v2这两种模式,所以我就使用了whisper,而没用buzz。
使用了python中difflib库的SequenceMatcher类,可以实现一个用于计算文本相似度的函数。
计算值在0-1之间,如果比较的两段文本相似度越高,则计算值越大。
代码:
以下是2个运行示例:
因为有些工具转换出来的文本含有标点符号,有的含有空格和回车,避免中文标点、空格和回车影响文本相似度的对比结果,我使用python将它们全部去除。
去除中文标点代码:
去除回车和空格:
由于数字识别的时候有些会识别成中文,有些则会识别为阿拉伯数字,但是并不代表识别错误,所以对于语音转写后数字多的文本,我统一改成了中文的数字。
另外whisper转录时有可能会有繁体中文,我就使用在线工具将其转换为简体。
补充说明:因为buzz的底层是whisper,所以我用的whisper测试,没用buzz,whisper能实现buzz也能实现,所以大家没安装whisper的,觉得whisper表现不错想尝试下也可以用buzz替换哈)
这几个音源其实都有其特点。
30s的视频是一个Excel小教程,文本量少,总共也才100多字,没有生僻词汇,几个工具识别的都差不多,除了whisper的base和tiny两种较小模型识别效果不好,所有识别结果与文稿的相似度都能达到96%以上。
5min的音源是一个聊天播客的片段,内容都是一些日常生活用语,语气词比较多,“嗯啊呃”这些,像这种其实对于飞书妙记来说,我的这个比较方式就不太公平了,因为它的识别结果里去除了语气词这些,和正确文稿相比少了很多语气词,自然相似度比较低。
13min的音源是主席2023年的新年贺词,里面使用到的成语和古语引用比较多,比如说“艰难困苦,玉汝于成”、“栉风沐雨、披荆斩棘”、“犯其至难而图其至远”、“路虽远,行则将至;事虽难,做则必成”、“愚公移山”、“积跬步以致千里”等,对于这些的whisper识别起来效果不是很好,而其它工具比较不错。但是即使如此,我们也可以看到whisper识别后文本与源文本的相似性达到了95%以上,对于一个开源、离线运行的软件来说已经很不错了。
观察测试结果,我们发现。
通过文章第五部分三组音源的数据,可以给出一些建议:
小伙伴们,都看到这里了,点个赞鼓励下呗~
另外测试过程中用到的音源文件、音源的正确文字稿、识别后的文字稿、用到的python代码以及离线识别工具buzz的安装包我都打包了,需要的朋友可以公众号回复2301获取。
《怎样把录音变成文字(把录音转换成文字的软件)》来自网络,本文围绕怎样把录音变成文字的观点不代表本网站,仅作参考。