用命令行 AI 工具「听」完一期播客

用 yt-dlp 下载视频或音频，用 whisper-cpp 做语音转文字，再交给你喜欢的 LLM 总结内容，或者自己慢慢读。

我下载视频或音频的指令：

yt-dlp -x --output-file mp3 "[网址]"

我用来完成语音转文字的指令（需要提前配置好模型路径）：

whisper-cli \
  -m ~/models/ggml-large-v3-q5_0.bin \
  -f ~/[文件] \
  -l en \
  -otxt -osrt

下面是正文～

播客的困境

「播客 / Podcast」通常是时长半小时到两小时不等的音频节目，可能是单人主持，也可能是多人聊天。内容一般会围绕某个主题展开讨论，或者只是大家坐在一起随意聊聊天。

我大概从 2021 年开始听播客，但这么多年下来，真正完整听完的节目其实屈指可数。

一方面是因为，我的生活里很少有整块的空余时间，能让我连续听完一期播客。即使有，全神贯注地理解和消化信息、抓住重点，本身也是一件很累的事情。

播客的矛盾之处在于：如果只是想打发时间，听一些不痛不痒的内容，那我更愿意去听音乐；但如果是抱着「想学点新知识」的心态去听，整个过程又很像一个盲人在听一场没有休息、时长超过一小时的讲座。

因此，几次精简订阅之后，我最终一直保留下来的播客只剩一个：「商业就是这样」。

这档节目背靠《第一财经》杂志，商业科普类内容做得很不错，录音质量也很好。每期通常只有半小时左右，短小精悍，没有太多废话。

虽然现在已经很少主动听播客了，但我偶尔还是会被某些标题吸引。

最近我在 B 站刷到了「Elijah 的路径」这个账号，其中关于普通人健身和腹部脂肪的两期内容，我都挺感兴趣的。

但在再次经历了「打开 → 听十分钟 → 关闭」的循环之后，我决定做点改变。

既然我真正感兴趣的是“内容”本身，而不是“听”这个过程；既然播客的问题在于信息摄入时间太长，那有没有办法，把这个流程压缩一下？

我想到了驱使我读博客、写博客的原因：废话太多，AI slop 太多。也许，我可以把播客变成文字来读。

Wiwi 曾经强烈推荐过 yt-dlp 这个下载工具。下载完成后，只需要再用本地模型完成语音转文字即可。做了一些搜索之后，我发现了 whisper-cpp。

整个配置过程其实不算复杂，跟着教程一步步来就好。如果你有一些编码经验，或者习惯 terminal UI 的交互方式，应该很快就能上手。

现在，我开着两个 terminal 窗口：一个正在跑 whisper 模型，另一个正在敲下这些文字。

目前来看，通过阅读文字的方式，我确实省下了不少时间。播客开头那些乱七八糟的寒暄和铺垫，可以直接跳过；内容比较水的部分，也能快速扫两眼带过。甚至，我还能看出哪些地方明显用了 AI——这一点可能是在“听”播客时察觉不到的。

我会继续尝试，有新的感想我会再发一篇文章分享～