跟大家一样,度过了一个愉快的假期,但是,想着来日诰日就要上班,心里慌啊!
节后综合症,相信大家深有体会,以是,想想要不要先找个东西玩玩,顺便进入一下事情状态吧。
以是,溘然想到,能不能把节前开会时录制的视频文件,来对它进行转换,直接提取出来里面的笔墨,这样的话,可以让我那同事免得辛劳作记录了。
说干就干,于是,我在网上一个语音包,结果不知道什么缘故原由,转换出来的笔墨乱七八糟,仿佛天书一样平常,不知道转的是啥,根本看不明白,大家可以看当作果:
我相信没有人看得懂,但可笑的是,我居然把它从头至尾地看完了,我不知道是否也有人跟我一样,越是反常的东西越是吸引人的把稳力或者令人产生兴趣,你们不会也跟我一样,把上面的那些乱七八糟的笔墨给看完吧?[捂脸]
如此“惨剧”,自然心不甘呀!
毕竟,AI时期了,怎么可能连语音转换都弗成呢?弗成,我再找找,先是找了speech_recognition 这个库,弗成,再找,结果找到了vosk语音模型,看起来很牛叉哦!
于是,我赶紧调用这个模型把那视频文件一试,结果出来的笔墨仍旧面孔全非。
这就奇怪了!
难道视频文件有问题?想一想,可能也是,毕竟,那么多人坐在一块,大家你一言我一语,头脑风暴式互换,可想而知,录制的声音还能怎么样。
因此,为了验证是原始视频的声音录制问题,我特意自行录制一段小视频,我来读一段小新闻,将其保存为视频文件,再用这个AI模型来转换识别,到底看看这个新录制的视频语音转换出来的笔墨结果如何?
这里先声明,我的普通话很不标准,不要笑,就当成是塑料普通话吧,这样也好,不标准的语音可以更加验证这个AI语音模型到底牛不牛。
我打开百度,刚好看到一则小新闻,关于伊以之间的事。
对照着上面笔墨,我录制了下面这一段小视频(可以播放听一听)
视频加载中...
天生视频文件为:20241007.wmv
既然视频语音文件都有了,那就开干!
我将视频文件放到了代码中实行.
一跑,结果就出来了!
怎么样?还真被它转换出来了,99%的准确率吧[憨笑]?
而且天生的txt文件就放在了D盘(位置及文件名可以随意变动)
看来,这个VOSK的语音模型还是不错的!
连我这样蹩脚的普通话都能识别出来那么多,而且还是免费的,不错!
大家认为这个模型如何?大家手头上有没有更好的,比如可以识别各省方言的或粤语的模型包,欢迎评论区一起互换吧。
如对这段代码感兴趣的朋友,可以关注我并在评论区留言,我将私发给你,并可奉告详细实现过程,如果有更好的AI语音模型的也请奉告一下,感激!