用命令行 AI 工具「听」完一期播客
TLDR
用 yt-dlp 下载视频或音频,用 whisper-cpp 做语音转文字,再交给你喜欢的 LLM 总结内容,或者自己慢慢读。
我下载视频或音频的指令:
yt-dlp -x --output-file mp3 "[网址]"
我用来完成语音转文字的指令(需要提前配置好模型路径):
whisper-cli \
-m ~/models/ggml-large-v3-q5_0.bin \
-f ~/[文件] \
-l en \
-otxt -osrt
下面是正文~
播客的困境
「播客 / Podcast」通常是时长半小时到两小时不等的音频节目,可能是单人主持,也可能是多人聊天。内容一般会围绕某个主题展开讨论,或者只是大家坐在一起随意聊聊天。
我大概从 2021 年开始听播客,但这么多年下来,真正完整听完的节目其实屈指可数。
一方面是因为,我的生活里很少有整块的空余时间,能让我连续听完一期播客。即使有,全神贯注地理解和消化信息、抓住重点,本身也是一件很累的事情。
播客的矛盾之处在于:如果只是想打发时间,听一些不痛不痒的内容,那我更愿意去听音乐;但如果是抱着「想学点新知识」的心态去听,整个过程又很像一个盲人在听一场没有休息、时长超过一小时的讲座。
因此,几次精简订阅之后,我最终一直保留下来的播客只剩一个:「商业就是这样」。
这档节目背靠《第一财经》杂志,商业科普类内容做得很不错,录音质量也很好。每期通常只有半小时左右,短小精悍,没有太多废话。
对内容的需要
虽然现在已经很少主动听播客了,但我偶尔还是会被某些标题吸引。
最近我在 B 站刷到了「Elijah 的路径」这个账号,其中关于普通人健身和腹部脂肪的两期内容,我都挺感兴趣的。
但在再次经历了「打开 → 听十分钟 → 关闭」的循环之后,我决定做点改变。
既然我真正感兴趣的是“内容”本身,而不是“听”这个过程;既然播客的问题在于信息摄入时间太长,那有没有办法,把这个流程压缩一下?
我想到了驱使我读博客、写博客的原因:废话太多,AI slop 太多。也许,我可以把播客变成文字来读。
Wiwi 曾经强烈推荐过 yt-dlp 这个下载工具。下载完成后,只需要再用本地模型完成语音转文字即可。做了一些搜索之后,我发现了 whisper-cpp。
整个配置过程其实不算复杂,跟着教程一步步来就好。如果你有一些编码经验,或者习惯 terminal UI 的交互方式,应该很快就能上手。
现在,我开着两个 terminal 窗口:一个正在跑 whisper 模型,另一个正在敲下这些文字。
结果
目前来看,通过阅读文字的方式,我确实省下了不少时间。播客开头那些乱七八糟的寒暄和铺垫,可以直接跳过;内容比较水的部分,也能快速扫两眼带过。甚至,我还能看出哪些地方明显用了 AI——这一点可能是在“听”播客时察觉不到的。
我会继续尝试,有新的感想我会再发一篇文章分享~