让视频创作更具想象力

　　高力刚，视觉算法工程师，“95后”，江西九江人。2021年，从中南大学计算机技术专业硕士毕业后加入万兴科技算法团队，专注于视觉生成式算法的研究与应用落地，多次获得公司AI创新中心月度之星、年度项目之星等奖项。

　　4月28日，万兴“天幕”音视频大模型在长沙开启公测。近日，记者来到位于湘江新区尖山路旁的万兴创意科技大厦，采访了深度参与其中的高力刚。

　　“公测整体反馈不错，无论是视频的生成还是视频的配乐，用户体验下来都觉得能够解决视频创作中的一些痛点，还有好几家公司现场立即找到我们表达了合作意向。”高力刚介绍，万兴“天幕”是国内首个音视频多媒体大模型，已通过中央网信办备案。

　　高力刚告诉记者，万兴“天幕”拥有文生视频、视频生视频、图生视频、视频配乐、文生图等多项能力，以文生视频为例，输入一组关键词，即可一键生成充满想象力的60秒视频，有故事情节、角色形象、画面连贯性等。

　　“可以用一键生成的方式将一个简短的故事转化为视频，基本上能够按照设定的故事情节完成视频制作。”高力刚说，一些惊艳的片段，用户可以直接拿去做创意视频使用，比如拍摄广告或短片。

　　万兴“天幕”自身的创意来源于哪？来源于上百人算法团队的“高强度”训练。作为核心研发人员，高力刚负责语言大模型的垂直类应用（用机器来替代人），以及视频生成模型的训练和迭代。

　　“视频大模型的训练数据量特别大，对研发人员的技术要求相对较高。”高力刚说，“天幕”训练的视频时长在100万小时左右。

　　记者现场也体验了“天幕”的本领，输入“非洲动物大迁徙”，几分钟即生成一段时长60秒的视频，在舒缓的音乐中，可以看到一群动物经过草原、河流、森林、雪原等不同的迁徙场景。输入“动漫风格孙悟空带着金箍棒大闹天宫”等关键词，在60秒视频中可以看到孙悟空从幼年到成年斩妖除魔的过程。

　　“就像讲述一个故事，视频会呈现一个完整的过程。”高力刚说，天幕在文生视频领域有不少领先的地方，后续团队也将通过更多的训练数据集改善、迭代模型结构，未来逐步向企业和开发者开放，加速音视频领域的智能化创作进程。

　　我和爱人目前已在长沙定居，这里不仅房价低，而且拥有丰富的医疗资源、教育资源，娱乐性和宜居性都不错。我是做AI的，希望能在这座城市深耕，未来成为高级算法研发工程师。

数码网