dl-a2t
https://github.com/CNSeniorious000/dl-a2t
dl-a2t 是一个把 YouTube(或其他来源)音频下载并用 Whisper 转录成本地文本的工具。对我这种需要批量处理音频的场景特别方便。
它提供简单的 CLI:单条 URL 的快速转录和批量模式(从文件里读 URL 列表),输出为清理后的文本或带时间戳的格式。
工程亮点
我把转录结果用 diskcache2 做了缓存,重复跑同一条 URL 时不会多次消耗模型资源;同时对 yt-dlp 版本做了锁定以避免 API 变动带来的 breakage。
相关:
- whisper-yt:带说话人分离和时间轴的实现。
- youtube-whisper:Web 前端演示版本。
重要链接¶
- 仓库:https://github.com/CNSeniorious000/dl-a2t
- README(raw):https://raw.githubusercontent.com/CNSeniorious000/dl-a2t/main/README.md
- PyPI:https://pypi.org/p/dl-a2t
如果你经常需要把长视频变成可索引的文字记录,dl-a2t 就比较合适。
深入洞见¶
仓库与 README(raw 可访问)证实了项目设计:以 yt-dlp 下载音频、用 Whisper 做转录,并借助 diskcache2 做缓存以避免重复消耗模型资源(见 README / pyproject)。项目支持单条 URL 的快速转录与批量模式,并在工程上注意锁定 yt-dlp 版本来降低 API 损毁带来的维护成本,适合批量转录/归档场景。
参考源码 / README(raw):https://raw.githubusercontent.com/CNSeniorious000/dl-a2t/main/README.md