最简单粗暴的让 Claude Code 理解视频|Claude Code Video Vision
我们能看懂视频,是因为我们生活在现实世界中,而视频只是现实世界的一种数字化呈现方式。
AI 则不同,它只读的懂数字、向量,最后猜一个结果给你。@Appinn
如果想要让 AI 理解视频怎么办?
有开发者用最简单粗暴的方式创建了一个 Claude Code 插件,让它能够理解视频(包括声音)。
通过 ffmpeg 提取视频帧,然后使用另外的后端模型(Gemini API、本地 Whisper 或 OpenAI API)处理音频。
最终 Claude Code 接收到图像帧,和带有时间戳的音频转文本,理解了视频。
是不是很粗暴 😂

项目地址:https://github.com/jordanrendric/claude-video-vision
开发者给了一个简单的例子:
/watch-video tutorial.mp4 "本教程中使用的是什么语言?"
"看一下 ~/videos/bug-report.mov 的第一秒"
"为我分析这段视频:~/Downloads/demo.mp4"
Claude Code 会自动调整参数:
- “第一秒”→从 00:00:00 到 00:00:01 以原始帧速率进行提取
- “总结这 1 小时的讲座”→ 低帧频,完整持续时间
- “1:30 时屏幕上有什么文字?→ 高分辨率,窄时间窗口
支持 MCP、可使用第三方 API。
流程大概是这样的:

在 Claude Code 中使用 DeepSeek V4
是的,虽然不一定能用到 Claude 模型,但可以在 Claude Code 中使用 DeepSeek V4 呀,现在官方的价格,量大管饱嘛。
原文:https://www.appinn.com/claude-code-video-vision/
#最简单粗暴的让 #Claude #Code #理解视频Claude #Code #Video #Vision