前言
2026年4月初,一款名为 HappyHorse 的视频生成模型悄然出现在 Artificial Analysis Video Arena 盲测榜单上,以"匿名黑马"之姿横扫全球竞品。4月10日,阿里巴巴通过微博正式官宣:HappyHorse 来自阿里 ATH(淘天集团创新事业部)。
这匹"快乐马"究竟有何过人之处?让我们一探究竟。
核心能力
HappyHorse-1.0 是一款支持原生多镜头叙事的 AI 视频生成模型,在以下四种模式下表现卓越:
| 功能 | 说明 |
|---|---|
| 文生视频 | 输入文本提示词,生成电影级运镜视频 |
| 图生视频 | 基于参考图像生成动态视频,保持角色身份一致 |
| 视频生视频 | 风格转换与内容重构 |
| 原生音频 | 与画面同步生成音效,无需后期配音 |
输出规格:1080p 分辨率、无水印、可商用。
技术架构
HappyHorse 的核心技术架构是本次分析的重点:
- 模型参数:150亿
- 架构:40层单流 Transformer
- 扩散模型:8步去噪
- 多模态架构:Transfusion(扩散模型 + 自回归融合)
- 核心创新:无需 CFG 引导,大幅降低推理成本
这个"无需 CFG"的特性是关键突破。传统扩散模型依赖 Classifier-Free Guidance 来平衡生成质量与多样性,但 CFG 需要额外的推理步骤。HappyHorse 通过架构创新绕过了这一限制,在保证质量的同时显著降低了计算成本。
盲测表现
在 Artificial Analysis Video Arena 的盲测中,HappyHorse 取得了断层式领先:
| 赛道 | ELO 积分 | 排名 |
|---|---|---|
| 文生视频 | 1347 | 全球第一 |
| 图生视频 | 1391 | 历史最高 |
| 音频生成 | - | 全球第二 |
作为对比,排名第二的 Seedance 2.0(字节跳动)文生视频 ELO 仅为 1320 分左右,差距肉眼可见。
竞品对比
| 对比项 | HappyHorse | Seedance 2.0 | Kling 3.0 |
|---|---|---|---|
| 所属公司 | 阿里 ATH | 字节跳动 | 快手 |
| 盲测排名 | 双榜第一 | 双榜第二 | 第四五名 |
| 音频生成 | 全球第二 | 全球第一 | 表现一般 |
| 成本 | 未知(据传很低) | 国内 499 元/月 | $13.44/分钟 |
| API 状态 | 即将开放 | 可用 | 可用 |
从成本角度来看,HappyHorse 的"无需 CFG"架构意味着更低的推理成本。如果定价合理,将对现有市场格局产生巨大冲击。
用户体验亮点
根据实测反馈,HappyHorse 在以下方面表现尤为出色:
- 人物一致性:换镜头时角色身份保持稳定,口型同步精准
- 肢体动作:复杂动作(跳舞、运动)生成自然
- 物理逻辑:物体运动符合物理规律,少有"穿模"现象
- 镜头语言:支持电影级运镜,景别切换流畅
开放节奏
根据官方信息:
- 4月27日:通过阿里云百炼平台逐步开放 API 测试(首批企业客户)
- 5月:正式进入商用阶段
目前可通过 Artificial Analysis 竞技场 限量体验,但 API 尚未对公众开放。
总结
HappyHorse 的出现标志着中国 AI 视频生成进入新阶段。阿里选择"先盲测、再官宣"的策略颇有扫地僧之风——实力说话,不搞营销噱头。
150亿参数、40层单流 Transformer、无需 CFG 引导的架构创新,让 HappyHorse 在质量和成本两个维度都具有竞争优势。随着 API 的正式开放,视频创作的工作流可能会被进一步重塑。
值得关注:5月商用后,HappyHorse 的定价策略将成为最大看点。