推出智能链路提升模型训练效率,火山引擎发布AI视频模型训练新方案
2024/10/18 | 作者 陶娅洁 | 编辑 张轶骁 | 收藏本文
自今年年初Open AI发布第一款文生视频模型Sora后,接下来的时间里,国产视频生成大模型也迎来飞快增长。
今年4月,我国首个长时长、高一致性、高动态性视频大模型Vidu正式发布。7月,智谱AI正式发布视频生成大模型“清影”,同月商汤科技也发布了首个“可控”人物视频生成大模型Vimi。
无独有偶,快手可灵AI、抖音即梦AI也纷纷上线,不断升级。
一方面,视频大模型生成的逼真场景和角色,给用户带来了沉浸式体验。另一方面,这也让推理算力消耗激增,再者,视频内容的复杂性和多样性,也使得模型训练和优化变得更加困难。
工欲善其事,必先利其器。
10月15日,在火山引擎的视频云技术大会上,火山引擎发布了其最新的大模型训练视频预处理方案,致力解决视频大模型训练成本、质量和性能等方面的技术挑战。
据介绍,对训练视频进行预处理,是保障大模型训练效果的重要前提,所带来的好处也有很多,如统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息。经过预处理后,模型能高效地学习视频中的特征和知识,从而提高训练效果和效率。
此次,借助英特尔(Intel)的CPU等资源,火山引擎发布了大模型训练视频预处理方案。依托于自研的多媒体处理框架BMF,能有效应对模型训练的算力成本挑战。此外,该方案还在算法和工程方面进行了调优,可以对海量视频数据进行高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。
目前,该技术方案已经应用于豆包视频生成模型。
据Bytedance Research负责人李航介绍,豆包视频生成模型PixelDance在训练过程中,采用了火山引擎的大模型训练视频预处理方案,充分利用大量潮汐资源,为模型训练提供了有力支撑。
火山引擎总裁谭待在活动致辞中表示,在AIGC、多模态等技术的共同推动下,用户体验在多个维度上经历着深刻转变。
“基于抖音业务实践和与行业客户共创,火山引擎视频云正积极探索AI大模型与视频技术的深度融合,在技术底座、处理链路和业务增长层面为企业寻找解法。”谭待说。
展望未来,在AI视频时代,人和AI的交互将变得的更加动态,也会变得更加频繁。一个智能的处理链路是保障交互体验的前提,也是行业发展的关键。从这一点看,火山引擎给整个大模型行业都开了一个好头。
相关报道