批量音频一键转写Srt字幕|手机录音、视频、mp3、m4a、mov、acc、wav、flac等音频|支持50多种语言

批量音频一键转写Srt字幕|手机录音、视频、mp3、m4a、mov、acc、wav、flac等音频|支持50多种语言

手机上的录音
有朋友留言:手机里的一些会议记录和笔记音频,怎么样把它转成字幕。
那iPhone手机和iPad是支持将音频直接转写文本的,但是没有时间轴。

上图为iPhone用“语音备忘录”录的音频,它是直接转写文本的。

录音转字幕

再加上时间轴,就像上图显示的这样,我的江浙普通话识别得将将好。

录音视频字幕

然后放到视频编辑APP里,我们的录音→文本→字幕就这样完成了!


简介
「Wav2Srt」
能将多种格式的音频转字幕文本,借助whisper大模型,批量将音频文件转写成字幕文本(带时间轴),支持识别五十多种语言。


主要功能:

  1. 音频转字幕文本
  2. 支持一键转换
  3. 支持mp3,wav,acc,m4a,flac,mov,mp4,m4v等主流格式
  4. 导出Srt 字幕
  5. 支持批量操作
  6. 系统要求macOS 13.5及以上
  7. 离线运行

设置
打开APP之后,我们得先到「设置」里去download相应的模型

上图为支持的模型列表,选择的是large-v3(高精度)占用空间2.88GB。

这个是download进度



跳出上图内容,表示下载模型成功。

「排版策略」这些参数可以根据实际情况自行调整,比如限制“每行最大字符数”,一般英文字符数(含空格及标点符号)为36.
因为它是支持智能断句的(和“srt字幕工具箱”一样),也是按标点符号来作处理。

操作
导入音频文件

批量导入音频

这里的导入方式很单一了,就是从访达窗口直接拖入音频文件到APP,支持批量导入。
比如我们可以一次导入多种语言的音频(录音)和视频文件。
上图中的音频有中文、英文、日文和法文。

支持50多种语言

文件名后面的列表是可以选择的,但因支持的语言数太多了,所以这里也是简单的列示出来几种。
如果是其他语言的音频,导入进来也是可以识别的。

  1. 开始转换
转换进度

转换速度与我们的电脑配置有关系,我这里使用的是M1芯片的 iMac明显感觉比M5慢了许多。一个时长为14分钟的音频,在M5 MacBook pro上耗时5分钟11秒,而使用M1 MacBook Air 则花了8分钟左右。

转换完成
  1. 完成

完成之后点确定会弹出保存窗口,默认保存在原文件目录里。

完成

原目录位置可以看到转换后的字幕文件

法文字幕

「音频转法文字幕」

日文字幕

「音频转日文字幕」

编辑于 2026-06-16 · 著作权归作者所有