当开源遇上国产算力:一个视频生成项目的成长故事

在AI视频生成这个赛道上,从来不缺野心勃勃的项目,但真正能够持续迭代、保持开源初心的却不多。北大-兔展联合发起的Open-Sora-Plan,就是这样一个正在被越来越多人关注的存在。从最初的支持16秒视频生成,到如今能够产出约21秒的高质量内容,这个项目用一个月时间完成了又一次蜕变。 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术

一段关于视频生成的技术探索

很多人可能不知道,视频生成和图片生成看似相近,实际上有着本质的不同。图片只需要考虑空间维度,而视频必须同时处理好时间维度上的动态变化——物体如何在连续的镜头中移动、场景如何随时间演进,这些都是视频生成模型必须攻克的难题。 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术

Open-Sora-Plan的团队在实践中发现了这个问题。他们翻看了大量训练视频后发现,网上爬取的视频虽然画面质量不错,但充斥着大量无意义的特写镜头。这些特写镜头变化幅度很小,甚至处于静止状态。用这样的数据训练出来的模型,生成的视频自然会显得“动态有限”。 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术

发现问题后,团队没有选择回避。他们承认与Sora仍有距离,并大方展示了失败案例。比如用v1.1.0生成的雪地里小狗视频中,小狗的头部出现了语义扭曲的问题。团队分析认为,这可能是因为模型还不太擅长判断画面中多个同类物体的边界。但他们也指出,这个问题其实在OpenAISora的早期基座模型中同样存在,并非Open-Sora-Plan独有的缺陷。 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术

ReVideo带来的编辑能力

除了基础的文生视频能力,v1.1.0版本还带来了令人惊喜的视频编辑功能。基于团队提出的ReVideo模型,用户可以对已有视频进行二次创作。小猫戴墨镜、天空飘气球——这些看似简单的编辑操作,背后需要模型在保持画面连续性和角色一致性方面达到相当的水平。 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术

值得称道的是,所有数据、代码和模型一如既往地保持开源。32×240个H100hours生成的图像和视频caption,全部开放给社区使用。这种开放姿态,在当前AI领域“技术封闭化”趋势愈发明显的背景下,显得尤为珍贵。 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术

国产算力的坚实后盾

对于国内AI开发者而言,算力问题一直是心头之痛。Open-Sora-Planv1.1.0在华为昇腾芯片上完成了第二阶段的完整训练和推理,这意味着国产AI芯片已经具备支撑大规模视频生成任务的能力。 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术

当然,路还很长。团队表示接下来的工作将围绕两个方向展开:一是数据缩放,重点关注数据来源和数据体量;二是模型设计,持续优化CausalVideoVAE和扩散模型。无论如何演进,开源的承诺不会改变。 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术 当开源遇上国产算力:一个视频生成项目的成长故事 IT技术

如果你对AI视频生成感兴趣,不妨去HuggingFace上亲自体验一下。虽然每个视频生成大约需要4到5分钟,但等待的过程本身就是对AI创造力的一次见证。技术从来不是在真空中诞生的,它需要社区的参与、反馈和共同推动。Open-Sora-Plan正走在这样一条路上。