推荐高质量的开源的AI视频生成项目

Andy 2026年04月23日 2次浏览

截至2026年，开源AI视频生成领域迎来了爆发式的进化，许多开源模型的生成质量（连贯性、画质、物理规律遵循）已经足以媲美Sora等闭源商业产品。

如果你追求高质量的生成效果，以下是目前 GitHub 上最顶级、最受社区欢迎的开源 AI 视频生成项目（按特点分类推荐）：

1. 电影级画质与工业级标杆（质量天花板）

🎬 Wan 2.x (阿里开源)

GitHub仓库: Wan-Video/Wan2.2 (或 Wan2.1)
Star数量: 15k+
推荐理由: 阿里开源的 Wan 系列目前在画质和动态表现上属于开源界的最前沿。最新的 Wan 2.2 采用了 MoE（混合专家）架构，拥有多达 14B（140亿）参数。
核心优势: 具备极强的“电影级美学”控制力（光影、构图、色彩），对复杂运动的物理还原度极高。支持文本生成视频（T2V）和图像生成视频（I2V），同时提供对显存要求更低的 5B 轻量版。

🐧 HunyuanVideo (腾讯混元)

GitHub仓库: Tencent-Hunyuan/HunyuanVideo
Star数量: 12k+
推荐理由: 腾讯开源的大规模视频生成模型，极具诚意。它原生支持 720p 和 1080p 的高画质生成，且生态适配极好（官方直接整合了 Diffusers 和 ComfyUI）。
最新进展: 最近开源了更轻量、推理更快的 HunyuanVideo-1.5（8.3B参数），同时还提供了专门的 HunyuanVideo-I2V（图生视频）和 HunyuanVideo-Avatar（仅需一张图和一段音频即可生成情绪可控的数字人视频）。

2. 消费级显卡/个人开发者首选（易用性强）

🧠 CogVideoX (智谱AI / 清华 THUDM)

GitHub仓库: THUDM/CogVideo
Star数量: 12k+
推荐理由: 个人开发者和小团队进行二次开发、微调（Fine-tuning）的绝对首选。它采用了独特的 3D Causal VAE 技术，视频的帧连贯性非常好，没有明显的闪烁问题。
核心优势: 极度优化了显存占用！包含 2B、5B 甚至最新的 1.5 版本。通过量化和显存优化技术，它甚至能在单张 RTX 3060 或 RTX 4090 这样的普通消费级显卡上运行和微调。

3. 超高效率与功能性突破（4K 与音频同步）

⚡ LTX-Video / LTX-2 (Lightricks)

GitHub仓库: Lightricks/LTX-Video
推荐理由: 由知名应用 Facetune 及其背后的公司 Lightricks 开源，主打“高效率和专业级控制”。
核心优势: 最新发布的 LTX-2 版本 是开源界的重大突破——它是首批支持原生 4K 分辨率 @ 50fps 且**自带音视频同步生成（Audio+Video）**的开源模型之一。它极其高效，单次可生成长达 20 秒的视频，并在架构底层针对消费级 GPU 做了加速适配。采用商业友好的 Apache 2.0 协议。

4. 极致的动作还原度与架构创新

🍡 Mochi 1 (Genmo)

GitHub仓库: genmoai/mochi
推荐理由: 这是视频生成初创公司 Genmo 的开源诚意之作，拥有 100亿（10B）参数，采用了全新的“非对称扩散 Transformer (AsymmDiT)”架构。
核心优势: 它的提示词遵循能力和流体动作的逼真度非常高。代码结构被设计得极其干净易读，非常适合研究人员去魔改（Hackable），同样采用 Apache 2.0 协议。

💡 极简食用建议：

如果你想立刻上手跑出好效果，不需要从零写 Python 脚本，强烈建议你结合 ComfyUI 使用。

以上推荐的模型（Wan、Hunyuan、CogVideoX、LTX-Video、Mochi）在 GitHub 上均有十分成熟的 ComfyUI 节点插件（如 ComfyUI-CogVideoXWrapper、ComfyUI-LTXVideo 等）。
你只需下载对应的权重文件(.safetensors / .pt) 拖入 ComfyUI 工作流，即可实现“文本生视频”、“图片+提示词生视频”等进阶操作。

上一篇：前面没有了下一篇： DeepTutor真的解决了长期记忆问题？