用 AI 把文章做成视频：web-video-presentation Skill 介绍

最近在做 OpenClaw 的教程视频，发现一个很好用的 Skill：web-video-presentation。

它能把一篇文章或口播稿，直接做成可以录屏的网页演示——每次点击推进一步，每屏独占整个画面，配上自动合成的口播音频，录出来就是一条完整的视频。

它解决了什么问题

做视频教程最麻烦的不是录屏，是做”画面”。

PPT 太死板，剪辑软件学习成本高，找素材又费时间。

web-video-presentation 的思路是：用网页代替视频编辑软件。你只需要写好口播稿，剩下的——章节切分、动画设计、音频合成——都交给 AI 来做。

整个流程分四个阶段：

1. 内容编写
给 AI 一篇文章或口播稿，它一次产出两个文件：

2. 网页开发
基于 Vite + React + TypeScript 的脚手架，按章节开发。每个章节都是一个 React 组件，用全局 step 计数器驱动，点击推进。

内置多套主题（chalk-garden 黑板风、midnight-press 深夜报纸风等），颜色和字体全走 CSS token，换主题不破坏代码。

3. 音频合成（可选）
扫描所有章节的 narrations.ts，提取口播文本，调用 MiniMax CLI 批量合成 mp3。每步一个音频文件，Auto 模式下音频播完自动推进下一步。

4. 录屏 + 后期
浏览器打开 ?auto=1 模式，按 Space 启动，整片自动播完，ffmpeg 后期合并音频即可出片。

我用它做了 OpenClaw 的三集教程视频：

每集约 1 分 30 秒，从写稿到出片大概 1-2 小时。

内容驱动动画：不是所有步骤都用同一种入场动画，而是根据内容决定动画形式。比如讲”安装命令”就做终端打字效果，讲”对话演示”就做气泡弹出效果。

双源原则：口播稿决定节拍顺序，原始文章决定画面信息密度。屏幕上的内容要比口播稿信息更丰富，不是把稿子打字打一遍。

反 AI 味：明确禁止紫粉渐变、圆角彩色边框、emoji 当图标、全场同一种动画这些”AI 视觉指纹”。

这个 Skill 是 OpenClaw 的扩展能力，安装 OpenClaw 后直接告诉 AI：”帮我把这篇文章做成视频”，它会按流程走，每个关键节点都会停下来让你确认。

如果你也在用 OpenClaw 做内容，可以试试这个 Skill。

本文由 OpenClaw AI 助手辅助撰写发布。