截至2026年,开源AI视频生成领域迎来了爆发式的进化,许多开源模型的生成质量(连贯性、画质、物理规律遵循)已经足以媲美Sora等闭源商业产品。
如果你追求高质量的生成效果,以下是目前 GitHub 上最顶级、最受社区欢迎的开源 AI 视频生成项目(按特点分类推荐):
1. 电影级画质与工业级标杆(质量天花板)
🎬 Wan 2.x (阿里开源)
- GitHub仓库:
Wan-Video/Wan2.2(或Wan2.1) - Star数量: 15k+
- 推荐理由: 阿里开源的 Wan 系列目前在画质和动态表现上属于开源界的最前沿。最新的 Wan 2.2 采用了 MoE(混合专家)架构,拥有多达 14B(140亿)参数。
- 核心优势: 具备极强的“电影级美学”控制力(光影、构图、色彩),对复杂运动的物理还原度极高。支持文本生成视频(T2V)和图像生成视频(I2V),同时提供对显存要求更低的 5B 轻量版。
🐧 HunyuanVideo (腾讯混元)
- GitHub仓库:
Tencent-Hunyuan/HunyuanVideo - Star数量: 12k+
- 推荐理由: 腾讯开源的大规模视频生成模型,极具诚意。它原生支持 720p 和 1080p 的高画质生成,且生态适配极好(官方直接整合了 Diffusers 和 ComfyUI)。
- 最新进展: 最近开源了更轻量、推理更快的
HunyuanVideo-1.5(8.3B参数),同时还提供了专门的HunyuanVideo-I2V(图生视频) 和HunyuanVideo-Avatar(仅需一张图和一段音频即可生成情绪可控的数字人视频)。
2. 消费级显卡/个人开发者首选(易用性强)
🧠 CogVideoX (智谱AI / 清华 THUDM)
- GitHub仓库:
THUDM/CogVideo - Star数量: 12k+
- 推荐理由: 个人开发者和小团队进行二次开发、微调(Fine-tuning)的绝对首选。它采用了独特的 3D Causal VAE 技术,视频的帧连贯性非常好,没有明显的闪烁问题。
- 核心优势: 极度优化了显存占用!包含 2B、5B 甚至最新的 1.5 版本。通过量化和显存优化技术,它甚至能在单张 RTX 3060 或 RTX 4090 这样的普通消费级显卡上运行和微调。
3. 超高效率与功能性突破(4K 与 音频同步)
⚡ LTX-Video / LTX-2 (Lightricks)
- GitHub仓库:
Lightricks/LTX-Video - 推荐理由: 由知名应用 Facetune 及其背后的公司 Lightricks 开源,主打“高效率和专业级控制”。
- 核心优势: 最新发布的 LTX-2 版本 是开源界的重大突破——它是首批支持原生 4K 分辨率 @ 50fps 且**自带音视频同步生成(Audio+Video)**的开源模型之一。它极其高效,单次可生成长达 20 秒的视频,并在架构底层针对消费级 GPU 做了加速适配。采用商业友好的 Apache 2.0 协议。
4. 极致的动作还原度与架构创新
🍡 Mochi 1 (Genmo)
- GitHub仓库:
genmoai/mochi - 推荐理由: 这是视频生成初创公司 Genmo 的开源诚意之作,拥有 100亿(10B)参数,采用了全新的“非对称扩散 Transformer (AsymmDiT)”架构。
- 核心优势: 它的提示词遵循能力和流体动作的逼真度非常高。代码结构被设计得极其干净易读,非常适合研究人员去魔改(Hackable),同样采用 Apache 2.0 协议。
💡 极简食用建议:
如果你想立刻上手跑出好效果,不需要从零写 Python 脚本,强烈建议你结合 ComfyUI 使用。
- 以上推荐的模型(Wan、Hunyuan、CogVideoX、LTX-Video、Mochi)在 GitHub 上均有十分成熟的 ComfyUI 节点插件(如
ComfyUI-CogVideoXWrapper、ComfyUI-LTXVideo等)。 - 你只需下载对应的权重文件(
.safetensors/.pt) 拖入 ComfyUI 工作流,即可实现“文本生视频”、“图片+提示词生视频”等进阶操作。