高力刚,视觉算法工程师,“95后”,江西九江人。2021年,从中南大学计算机技术专业硕士毕业后加入万兴科技算法团队,专注于视觉生成式算法的研究与应用落地,多次获得公司AI创新中心月度之星、年度项目之星等奖项。

  4月28日,万兴“天幕”音视频大模型在长沙开启公测。近日,记者来到位于湘江新区尖山路旁的万兴创意科技大厦,采访了深度参与其中的高力刚。

  “公测整体反馈不错,无论是视频的生成还是视频的配乐,用户体验下来都觉得能够解决视频创作中的一些痛点,还有好几家公司现场立即找到我们表达了合作意向。”高力刚介绍,万兴“天幕”是国内首个音视频多媒体大模型,已通过中央网信办备案。

  高力刚告诉记者,万兴“天幕”拥有文生视频、视频生视频、图生视频、视频配乐、文生图等多项能力,以文生视频为例,输入一组关键词,即可一键生成充满想象力的60秒视频,有故事情节、角色形象、画面连贯性等。

  “可以用一键生成的方式将一个简短的故事转化为视频,基本上能够按照设定的故事情节完成视频制作。”高力刚说,一些惊艳的片段,用户可以直接拿去做创意视频使用,比如拍摄广告或短片。

  万兴“天幕”自身的创意来源于哪?来源于上百人算法团队的“高强度”训练。作为核心研发人员,高力刚负责语言大模型的垂直类应用(用机器来替代人),以及视频生成模型的训练和迭代。

  “视频大模型的训练数据量特别大,对研发人员的技术要求相对较高。”高力刚说,“天幕”训练的视频时长在100万小时左右。

  记者现场也体验了“天幕”的本领,输入“非洲动物大迁徙”,几分钟即生成一段时长60秒的视频,在舒缓的音乐中,可以看到一群动物经过草原、河流、森林、雪原等不同的迁徙场景。输入“动漫风格 孙悟空 带着金箍棒大闹天宫”等关键词,在60秒视频中可以看到孙悟空从幼年到成年斩妖除魔的过程。

  “就像讲述一个故事,视频会呈现一个完整的过程。”高力刚说,天幕在文生视频领域有不少领先的地方,后续团队也将通过更多的训练数据集改善、迭代模型结构,未来逐步向企业和开发者开放,加速音视频领域的智能化创作进程。

  我和爱人目前已在长沙定居,这里不仅房价低,而且拥有丰富的医疗资源、教育资源,娱乐性和宜居性都不错。我是做AI的,希望能在这座城市深耕,未来成为高级算法研发工程师。