基于FunASR开发的智能录音转写系统可区分说话人并且可以明确是谁讲的哪句话

张开发
2026/4/11 23:04:32 15 分钟阅读

分享文章

基于FunASR开发的智能录音转写系统可区分说话人并且可以明确是谁讲的哪句话
1. 开发背景国内有很多公司或者事业单位等对数据安全要求十分严格我们通话录音会议录音这类十分私密的音频如果我们想要转写为文字做进一步分析我们需要用ASR技术并且不能调用云端的API接口因为任何连接互联网的设备都是不够安全的。如今有很多开源的ASR和声纹识别模型我们利用这些开源的模型和开源的框架开发了这套系统。这系统不单支持Ubuntu, CentOS这些外国Linux系统也支持国内的系统比如华为的欧拉系统是支持的并且还支持普通的PC系统比如Windows也是支持的当然MacOS也一样支持。2. 系统功能系统支持“声纹注册”“声纹信息管理”“声纹识别”“用户管理”“历史转写记录管理”“语音转写”。系统采用前后端分离架构开发后端使用fastapi开发成API接口前端使用前端三剑客开发。数据持久化到MySQL数据库中。下面是系统核心功能页面截图。这个系统效果演示可以看我发布到B站的视频点击这里观看演示视频。3. 使用到的模型一共使用四个模型分别是语音识别模型 seaco-paraformer模型添加标点符号模型 punc端点预测模型 vad 以及声纹识别模型 cam4. 应用场景可以应用到会议录音转写并且识别说话人可以应用到通话语音质检甚至可以做到区分客户和客服。还有哪些应用场景呢欢迎大家留言讨论。5. 其它这个项目开源吗这个项目目前不打算开源可以在*宝中搜索“AI语音工坊”或者在某中搜索“美丽自信的西西”。或者到我的个人博客的首页中联系我。点击这里跳转到我的博客。

更多文章