前言

2026年4月初,一款名为 HappyHorse 的视频生成模型悄然出现在 Artificial Analysis Video Arena 盲测榜单上,以"匿名黑马"之姿横扫全球竞品。4月10日,阿里巴巴通过微博正式官宣:HappyHorse 来自阿里 ATH(淘天集团创新事业部)。

这匹"快乐马"究竟有何过人之处?让我们一探究竟。

核心能力

HappyHorse-1.0 是一款支持原生多镜头叙事的 AI 视频生成模型,在以下四种模式下表现卓越:

功能说明
文生视频输入文本提示词,生成电影级运镜视频
图生视频基于参考图像生成动态视频,保持角色身份一致
视频生视频风格转换与内容重构
原生音频与画面同步生成音效,无需后期配音

输出规格:1080p 分辨率、无水印、可商用。

技术架构

HappyHorse 的核心技术架构是本次分析的重点:

  • 模型参数:150亿
  • 架构:40层单流 Transformer
  • 扩散模型:8步去噪
  • 多模态架构:Transfusion(扩散模型 + 自回归融合)
  • 核心创新无需 CFG 引导,大幅降低推理成本

这个"无需 CFG"的特性是关键突破。传统扩散模型依赖 Classifier-Free Guidance 来平衡生成质量与多样性,但 CFG 需要额外的推理步骤。HappyHorse 通过架构创新绕过了这一限制,在保证质量的同时显著降低了计算成本。

盲测表现

在 Artificial Analysis Video Arena 的盲测中,HappyHorse 取得了断层式领先:

赛道ELO 积分排名
文生视频1347全球第一
图生视频1391历史最高
音频生成-全球第二

作为对比,排名第二的 Seedance 2.0(字节跳动)文生视频 ELO 仅为 1320 分左右,差距肉眼可见。

竞品对比

对比项HappyHorseSeedance 2.0Kling 3.0
所属公司阿里 ATH字节跳动快手
盲测排名双榜第一双榜第二第四五名
音频生成全球第二全球第一表现一般
成本未知(据传很低)国内 499 元/月$13.44/分钟
API 状态即将开放可用可用

从成本角度来看,HappyHorse 的"无需 CFG"架构意味着更低的推理成本。如果定价合理,将对现有市场格局产生巨大冲击。

用户体验亮点

根据实测反馈,HappyHorse 在以下方面表现尤为出色:

  1. 人物一致性:换镜头时角色身份保持稳定,口型同步精准
  2. 肢体动作:复杂动作(跳舞、运动)生成自然
  3. 物理逻辑:物体运动符合物理规律,少有"穿模"现象
  4. 镜头语言:支持电影级运镜,景别切换流畅

开放节奏

根据官方信息:

  • 4月27日:通过阿里云百炼平台逐步开放 API 测试(首批企业客户)
  • 5月:正式进入商用阶段

目前可通过 Artificial Analysis 竞技场 限量体验,但 API 尚未对公众开放。

总结

HappyHorse 的出现标志着中国 AI 视频生成进入新阶段。阿里选择"先盲测、再官宣"的策略颇有扫地僧之风——实力说话,不搞营销噱头。

150亿参数、40层单流 Transformer、无需 CFG 引导的架构创新,让 HappyHorse 在质量和成本两个维度都具有竞争优势。随着 API 的正式开放,视频创作的工作流可能会被进一步重塑。

值得关注:5月商用后,HappyHorse 的定价策略将成为最大看点。


参考资料:Artificial Analysis、人人都是产品经理AIHub