[{"content":"前言 2026年4月初，一款名为 HappyHorse 的视频生成模型悄然出现在 Artificial Analysis Video Arena 盲测榜单上，以\u0026quot;匿名黑马\u0026quot;之姿横扫全球竞品。4月10日，阿里巴巴通过微博正式官宣：HappyHorse 来自阿里 ATH（淘天集团创新事业部）。\n这匹\u0026quot;快乐马\u0026quot;究竟有何过人之处？让我们一探究竟。\n核心能力 HappyHorse-1.0 是一款支持原生多镜头叙事的 AI 视频生成模型，在以下四种模式下表现卓越：\n功能 说明 文生视频 输入文本提示词，生成电影级运镜视频 图生视频 基于参考图像生成动态视频，保持角色身份一致 视频生视频 风格转换与内容重构 原生音频 与画面同步生成音效，无需后期配音 输出规格：1080p 分辨率、无水印、可商用。\n技术架构 HappyHorse 的核心技术架构是本次分析的重点：\n模型参数：150亿 架构：40层单流 Transformer 扩散模型：8步去噪 多模态架构：Transfusion（扩散模型 + 自回归融合） 核心创新：无需 CFG 引导，大幅降低推理成本 这个\u0026quot;无需 CFG\u0026quot;的特性是关键突破。传统扩散模型依赖 Classifier-Free Guidance 来平衡生成质量与多样性，但 CFG 需要额外的推理步骤。HappyHorse 通过架构创新绕过了这一限制，在保证质量的同时显著降低了计算成本。\n盲测表现 在 Artificial Analysis Video Arena 的盲测中，HappyHorse 取得了断层式领先：\n赛道 ELO 积分 排名 文生视频 1347 全球第一 图生视频 1391 历史最高 音频生成 - 全球第二 作为对比，排名第二的 Seedance 2.0（字节跳动）文生视频 ELO 仅为 1320 分左右，差距肉眼可见。\n竞品对比 对比项 HappyHorse Seedance 2.0 Kling 3.0 所属公司 阿里 ATH 字节跳动 快手 盲测排名 双榜第一 双榜第二 第四五名 音频生成 全球第二 全球第一 表现一般 成本 未知（据传很低） 国内 499 元/月 $13.44/分钟 API 状态 即将开放 可用 可用 从成本角度来看，HappyHorse 的\u0026quot;无需 CFG\u0026quot;架构意味着更低的推理成本。如果定价合理，将对现有市场格局产生巨大冲击。\n用户体验亮点 根据实测反馈，HappyHorse 在以下方面表现尤为出色：\n人物一致性：换镜头时角色身份保持稳定，口型同步精准 肢体动作：复杂动作（跳舞、运动）生成自然 物理逻辑：物体运动符合物理规律，少有\u0026quot;穿模\u0026quot;现象 镜头语言：支持电影级运镜，景别切换流畅 开放节奏 根据官方信息：\n4月27日：通过阿里云百炼平台逐步开放 API 测试（首批企业客户） 5月：正式进入商用阶段 目前可通过 Artificial Analysis 竞技场 限量体验，但 API 尚未对公众开放。\n总结 HappyHorse 的出现标志着中国 AI 视频生成进入新阶段。阿里选择\u0026quot;先盲测、再官宣\u0026quot;的策略颇有扫地僧之风——实力说话，不搞营销噱头。\n150亿参数、40层单流 Transformer、无需 CFG 引导的架构创新，让 HappyHorse 在质量和成本两个维度都具有竞争优势。随着 API 的正式开放，视频创作的工作流可能会被进一步重塑。\n值得关注：5月商用后，HappyHorse 的定价策略将成为最大看点。\n参考资料：Artificial Analysis、人人都是产品经理、AIHub\n","permalink":"https://blog.zsss.fun/posts/happyhorse-analysis/","summary":"\u003ch2 id=\"前言\"\u003e前言\u003c/h2\u003e\n\u003cp\u003e2026年4月初，一款名为 \u003cstrong\u003eHappyHorse\u003c/strong\u003e 的视频生成模型悄然出现在 Artificial Analysis Video Arena 盲测榜单上，以\u0026quot;匿名黑马\u0026quot;之姿横扫全球竞品。4月10日，阿里巴巴通过微博正式官宣：HappyHorse 来自阿里 ATH（淘天集团创新事业部）。\u003c/p\u003e\n\u003cp\u003e这匹\u0026quot;快乐马\u0026quot;究竟有何过人之处？让我们一探究竟。\u003c/p\u003e\n\u003ch2 id=\"核心能力\"\u003e核心能力\u003c/h2\u003e\n\u003cp\u003eHappyHorse-1.0 是一款支持\u003cstrong\u003e原生多镜头叙事\u003c/strong\u003e的 AI 视频生成模型，在以下四种模式下表现卓越：\u003c/p\u003e\n\u003ctable\u003e\n  \u003cthead\u003e\n      \u003ctr\u003e\n          \u003cth\u003e功能\u003c/th\u003e\n          \u003cth\u003e说明\u003c/th\u003e\n      \u003c/tr\u003e\n  \u003c/thead\u003e\n  \u003ctbody\u003e\n      \u003ctr\u003e\n          \u003ctd\u003e\u003cstrong\u003e文生视频\u003c/strong\u003e\u003c/td\u003e\n          \u003ctd\u003e输入文本提示词，生成电影级运镜视频\u003c/td\u003e\n      \u003c/tr\u003e\n      \u003ctr\u003e\n          \u003ctd\u003e\u003cstrong\u003e图生视频\u003c/strong\u003e\u003c/td\u003e\n          \u003ctd\u003e基于参考图像生成动态视频，保持角色身份一致\u003c/td\u003e\n      \u003c/tr\u003e\n      \u003ctr\u003e\n          \u003ctd\u003e\u003cstrong\u003e视频生视频\u003c/strong\u003e\u003c/td\u003e\n          \u003ctd\u003e风格转换与内容重构\u003c/td\u003e\n      \u003c/tr\u003e\n      \u003ctr\u003e\n          \u003ctd\u003e\u003cstrong\u003e原生音频\u003c/strong\u003e\u003c/td\u003e\n          \u003ctd\u003e与画面同步生成音效，无需后期配音\u003c/td\u003e\n      \u003c/tr\u003e\n  \u003c/tbody\u003e\n\u003c/table\u003e\n\u003cp\u003e\u003cstrong\u003e输出规格\u003c/strong\u003e：1080p 分辨率、无水印、可商用。\u003c/p\u003e\n\u003ch2 id=\"技术架构\"\u003e技术架构\u003c/h2\u003e\n\u003cp\u003eHappyHorse 的核心技术架构是本次分析的重点：\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e模型参数\u003c/strong\u003e：150亿\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e架构\u003c/strong\u003e：40层单流 Transformer\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e扩散模型\u003c/strong\u003e：8步去噪\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e多模态架构\u003c/strong\u003e：Transfusion（扩散模型 + 自回归融合）\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e核心创新\u003c/strong\u003e：\u003cstrong\u003e无需 CFG 引导\u003c/strong\u003e，大幅降低推理成本\u003c/li\u003e\n\u003c/ul\u003e\n\u003cp\u003e这个\u0026quot;无需 CFG\u0026quot;的特性是关键突破。传统扩散模型依赖 Classifier-Free Guidance 来平衡生成质量与多样性，但 CFG 需要额外的推理步骤。HappyHorse 通过架构创新绕过了这一限制，在保证质量的同时显著降低了计算成本。\u003c/p\u003e\n\u003ch2 id=\"盲测表现\"\u003e盲测表现\u003c/h2\u003e\n\u003cp\u003e在 Artificial Analysis Video Arena 的盲测中，HappyHorse 取得了断层式领先：\u003c/p\u003e\n\u003ctable\u003e\n  \u003cthead\u003e\n      \u003ctr\u003e\n          \u003cth\u003e赛道\u003c/th\u003e\n          \u003cth\u003eELO 积分\u003c/th\u003e\n          \u003cth\u003e排名\u003c/th\u003e\n      \u003c/tr\u003e\n  \u003c/thead\u003e\n  \u003ctbody\u003e\n      \u003ctr\u003e\n          \u003ctd\u003e文生视频\u003c/td\u003e\n          \u003ctd\u003e1347\u003c/td\u003e\n          \u003ctd\u003e全球第一\u003c/td\u003e\n      \u003c/tr\u003e\n      \u003ctr\u003e\n          \u003ctd\u003e图生视频\u003c/td\u003e\n          \u003ctd\u003e1391\u003c/td\u003e\n          \u003ctd\u003e历史最高\u003c/td\u003e\n      \u003c/tr\u003e\n      \u003ctr\u003e\n          \u003ctd\u003e音频生成\u003c/td\u003e\n          \u003ctd\u003e-\u003c/td\u003e\n          \u003ctd\u003e全球第二\u003c/td\u003e\n      \u003c/tr\u003e\n  \u003c/tbody\u003e\n\u003c/table\u003e\n\u003cp\u003e作为对比，排名第二的 Seedance 2.0（字节跳动）文生视频 ELO 仅为 1320 分左右，差距肉眼可见。\u003c/p\u003e","title":"阿里 HappyHorse 视频生成模型深度解析"},{"content":"为什么选 Hugo 极快的构建速度：毫秒级生成静态页面 纯静态：托管成本几乎为零，可以部署在 GitHub Pages / Cloudflare Pages / Vercel Markdown 驱动：专注写作，无需折腾 CMS PaperMod 主题：简洁、响应式、支持暗色模式 快速上手 1 2 3 4 5 6 7 8 9 10 11 # 安装 Hugo（macOS） brew install hugo # 新建站点 hugo new site my-blog # 安装主题 git submodule add https://github.com/adityatelange/hugo-PaperMod.git themes/PaperMod # 启动本地预览 hugo server -D 目录结构 1 2 3 4 5 6 7 zsss_blog/ ├── content/ │ ├── posts/ ← 博客文章 │ └── about/ ← 关于页面 ├── static/ ← 静态资源（图片、favicon 等） ├── themes/PaperMod/ ← 主题 └── hugo.toml ← 站点配置 下一步 配置自定义域名 接入 Giscus 评论系统 添加 Google Analytics 部署到 Cloudflare Pages 好的开始是成功的一半。🐾\n","permalink":"https://blog.zsss.fun/posts/hello-world/","summary":"用 Hugo 搭建个人博客的起点——记录这个站点是如何诞生的。","title":"Hello World：用 Hugo 搭建博客"},{"content":"Hi，我是 zsss 👋 一个关注 AI 技术的独立开发者与内容创作者。\n关注领域 🤖 AI Coding：AI 编程工具的使用与探索 🦾 具身智能：机器人与 AI 的交叉前沿 🛠️ 独立开发：用 AI 工具构建有用的东西 常用工具 开发：Hugo, DimCode, CodeBuddy 写作：Obsidian, Markdown AI：各种大模型 API 联系我 GitHub：@zsss 微信公众号：zsss 记录思考，分享发现，一起探索 AI 时代的可能性。\n","permalink":"https://blog.zsss.fun/about/","summary":"\u003ch2 id=\"hi我是-zsss-\"\u003eHi，我是 zsss 👋\u003c/h2\u003e\n\u003cp\u003e一个关注 \u003cstrong\u003eAI 技术\u003c/strong\u003e的独立开发者与内容创作者。\u003c/p\u003e\n\u003ch3 id=\"关注领域\"\u003e关注领域\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e🤖 \u003cstrong\u003eAI Coding\u003c/strong\u003e：AI 编程工具的使用与探索\u003c/li\u003e\n\u003cli\u003e🦾 \u003cstrong\u003e具身智能\u003c/strong\u003e：机器人与 AI 的交叉前沿\u003c/li\u003e\n\u003cli\u003e🛠️ \u003cstrong\u003e独立开发\u003c/strong\u003e：用 AI 工具构建有用的东西\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"常用工具\"\u003e常用工具\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e开发\u003c/strong\u003e：Hugo, DimCode, CodeBuddy\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e写作\u003c/strong\u003e：Obsidian, Markdown\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003eAI\u003c/strong\u003e：各种大模型 API\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"联系我\"\u003e联系我\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003eGitHub：\u003ca href=\"https://github.com/zsss\"\u003e@zsss\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e微信公众号：zsss\u003c/li\u003e\n\u003c/ul\u003e\n\u003chr\u003e\n\u003cblockquote\u003e\n\u003cp\u003e记录思考，分享发现，一起探索 AI 时代的可能性。\u003c/p\u003e\u003c/blockquote\u003e","title":"关于我"},{"content":"工具格局 2026 年，AI Coding 工具已经从「代码补全」进化为「Agent 编程」。主流工具分为三类：\n类型 代表产品 核心能力 IDE 插件 GitHub Copilot, Cursor 上下文补全、重构建议 Agent CLI DimCode, Aider 命令驱动、一次性任务 全栈 Agent Devin, SWE-agent 自主完成复杂工程任务 趋势观察 1. Agent 模式成为主流 开发者不再只是「接受建议」，而是让 AI 直接执行任务。一句话描述需求，AI 自主读取代码库、修改文件、运行测试。\n2. 本地优先 vs 云端优先 本地优先：隐私安全，适合企业场景 云端优先：算力更强，上下文窗口更大 3. 模型多样化 不同任务匹配不同模型：\n快速补全 → 小模型（低延迟） 复杂重构 → 大模型（高质量） 多文件任务 → 长上下文模型 个人选择 目前我的工作流：\nDimCode 处理本地项目的一次性任务 CodeBuddy 处理需要深度上下文的开发任务 两者互补，覆盖 80% 以上的日常编程需求 工具是手段，思考才是核心竞争力。\n","permalink":"https://blog.zsss.fun/posts/ai-coding-2026/","summary":"从 Copilot 到 Agent 模式，2026 年 AI 编程工具的格局与趋势。","title":"2026 年 AI Coding 工具全景"},{"content":"什么是具身智能 具身智能（Embodied AI）指的是：AI 系统不仅存在于数字世界，还通过物理身体（机器人、传感器等）与真实世界交互。\n核心要素：\n感知：视觉、触觉、本体感知 规划：理解场景、制定行动策略 执行：控制物理身体完成任务 与传统 AI 的区别 1 2 传统 AI：输入(文字/图片) → 处理 → 输出(文字/图片) 具身 AI：感知(传感器) → 理解 → 行动(电机/执行器) → 反馈 具身智能的关键挑战在于实时性和物理约束——现实世界不能「撤销」。\n当前进展 大模型 + 机器人 RT-2（Google）：视觉-语言-行动模型，理解自然语言指令并执行 π0（Physical Intelligence）：通用机器人策略模型 Figure 02：结合 GPT-4o 实现自然对话与任务执行 国内动态 宇树科技、智元机器人等加速商业化 大量资本涌入人形机器人赛道 个人判断 具身智能在 2026-2030 年将经历：\n工业场景率先落地（搬运、焊接、分拣） 服务场景逐步渗透（酒店、医疗） 家庭场景仍需 5-10 年 关注这个领域，主要是看好**「会思考的手」**改变生产力的巨大潜力。\n当 AI 能感知重力、触摸温度，它才真正理解了这个世界。\n","permalink":"https://blog.zsss.fun/posts/embodied-ai-intro/","summary":"具身智能（Embodied AI）正在从实验室走向现实，这篇文章梳理其核心概念与发展现状。","title":"具身智能入门：当 AI 有了身体"}]