[AI Tools 精品 AI 工具导航] 做了一个音/视频转文本的工具

做了一个音/视频转文本的工具,叫 video to text

功能非常简单直接,把音频或者视频文件拖进去,就能转化成文本,支持 4 种导出格式:srt, vtt, txt, or csvsrtvtt 是字幕文件的格式。

导出的字段包括:这句话的开始时间、结束时间、发言人标签(不同的人会标注 speaker A 、speaker B )和这句话的文本。

支持 99 种语言,也支持多语言音/视频的识别。

比较适合用来做会议记录、课堂录音或者是采访录音的转写。

使用前需要登录,新用户有 30 分钟免费使用时长。

大概说一下这个工具的工作流吧。

如果你上传的是视频文件,会先在本地转化成音频,然后上传到后端存储(如果是音频文件就直接上传)

这个后端存储我用的是 Cloudflare r2, 设置了一个 72 小时后自动删除的规则。

上传完以后,会调用 Assembly 的 api 进行转写,转写后的数据保存在 Assembly 那边,Assembly 也是默认保存 72 小时。

是的,我没有把数据保存到数据库,所有的设计都是为了不给自己添麻烦。

前端收到的结果是一个 Assembly api 返回的 id ,后续导出也是通过 id 请求 Assembly 的 api 返回数据,在我的后端拼接处理一下,返回给用户。

用户本地也会保留最近 72 小时的上传记录。如果之前导出的文件丢了,还能继续导出。

使用的开发框架是 Sveltekit 。

😊