我今天尝试写了个比较简单的SKILL,用途就是发一个视频链接自动下载音频,ASR转录后派子 Agent 分段润色成文章,输出 Markdown 文件。转录用的是 Qwen3-ASR-1.7B-gguf 效果和速度都蛮不错。
有这个需求是因为我觉得视听的效率比较低,不管是耗时还是“吸收率”都较低。所以有时候听完还是想有一份文本可以阅读一下。我也不强求是逐字稿,所以让 Agent 根据 ASR 结果自行分段然后选择我已经准备好的不同风格的提示词交给“子Agent”去并行润色。最后主 Agent 做些小修小补就可以输出了。
写好之后跑了下“俞敏洪张朝阳星空下对话”,音频差不多有6个小时,之前已经听过两回了,SKILL 输出的效果我还是蛮满意的。
————我问管理员:“你是不是有什么视频需要转成文字版的?我写了个SKILL。”管理员说:“那海了去了。”
我十分愿意把 SKILL 分享给她,不过这个 SKILL 的依赖还不少,直接发 SKILL 过去大概率会翻车。所以我参考了群友之前的方式,写一个 txt 来指导 Agent 完成环境的搭建和 SKILL 的导入测试。
ASR的模型和工具我之前做过一些微调,所以打包后放在内网的NAS里了。Cookie 的获取也是一个麻烦的事情,不过内网有 CookieCloud 的服务,所以直接同步后解密即可。
这个 txt 写的步骤也比较简单:第1步:确认 CloudBox 挂载第2步:解压 Qwen3-ASR-Transcribe 到 D 盘第3步:将 transcribe.exe 加入 PATH第4步:安装 yt-dlp 和 ffmpeg第5步:通过内网安装 SKILL
我去洗澡之前把 txt 发给管理员,让她试一下让 Hermes 照着文档准备一下环境。洗完澡出来就看到已经搞定。接下来的事情就是让管理员找个视频召唤 SKILL 实际跑一下。
过程比较顺利,Agent 最后交付了一个 Markdown 文件。这时我想起来,管理员想要的应该是 PDF 文档才对。于是我让管理员自己试一下,让 Hermes 继续干活,输出 PDF。
管理员点开 PDF 后觉得不是很满意,跟我说排版有些干巴巴的,我说:“有要求就和 AI 提,不用跟我说。” 聪明的管理员一教就会,最后的排版和样式她就很满意。
Hermes 还自动更新了我的 SKILL,会自动交付 PDF 文件了。