近日,人工智能国际顶级学术会议 AAAI 2024 落下帷幕,会上揭晓数字人技术竞赛结果,由中国科学技术大学信息学院自动化系於俊老师带队的中国科学技术大学与云知声共同组建的USTC-IAT-United团队荣获自监督人脸几何重建赛道第3名、半监督3D颅骨重建赛道第2名的优异成绩。
AAAI,即国际先进人工智能协会(Association for the Advancement of Artificial Intelligence),是全球人工智能领域内的领先国际学术组织。该协会的核心使命在于促进对思想和智能行为及其在机器中实现的科学机制的深入理解。其每年举办的国际会议是人工智能领域里历史最悠久、涵盖内容最广泛的的国际顶级学术会议之一,今年已是第38届。
此次数字人技术竞赛包含自监督人脸几何重建、半监督3D颅骨重建、音频驱动说话头生成的多模态学习、音频驱动的协同语音手势视频生成4个赛道,汇集全球数百支高校和科研机构的专业团队参与竞技。
在自监督人脸几何重建挑战赛中,面对数据缺乏、几何信息复杂、光照和姿势变化、纹理信息缺失、过拟合和泛化能力不足等多重困难,USTC-IAT-United团队采用coarse-to-fine的框架,首先利用现有的3DMM-based方法deep3d,预测人脸的低频几何部分,生成对应的position map及texture map,为后续的细节预测奠定基础;接着,团队运用两个串联的pix2pix网络,分别预测deformation map和displacement map,进一步细化人脸的几何特征。通过结合预测的精细化几何、光照、优化后的漫反射贴图,进行可微分渲染,得到重建的人脸图像。为了确保重建质量,团队通过计算中频和高频渲染人脸与原图之间的损失,引导人脸几何形态的细微变化,从而捕捉到更多的几何细节。在整个过程中,USTC-IAT-United团队将人脸几何分解为三个层次,分别在人脸整体、顶点级别和像素细节上进行建模,实现了人脸重建的高精度和高精细度。最终,团队从17个不同的视角出发,为重建的3D人脸生成了纹理和法线渲染图像,充分展示了其在人脸几何重建领域的技术突破和创新成果。
在半监督3D颅骨重建挑战赛中,面对标注数据的稀缺和不精确、领域偏差、模型复杂性以及评估难题,USTC-IAT-United运用伪标签技术,充分发挥无标注数据的潜力,通过半监督学习方法增强模型训练。为了提升模型性能,团队设计了一种多模型交叉伪标签策略,结合CNN和Transformer的特征提取优势,实现了模型间的相互监督,有效增强了特征提取能力。同时,团队利用 ConvNeXt 模块的可扩展性,针对稀疏注释医疗的挑战进行定制,设计用于 3D 医学图像分割的完全 ConvNeXt 架构,并将其建立与 nnUNet (v2)训练框架之上。此外,通过从2D和3D两个维度进行模型融合,进一步增强了3D颅骨重建水平。
作为中国AGI技术产业化的先行者,云知声于2016年建立了Atlas人工智能基础设施,并据此开发了具有通用能力的专有大模型山海(UniGPT),成为公司技术平台云知大脑(UniBrain)的新核心,与多模态感知与生成、知识图谱、物联平台等各类智能组件相结合,为云知声智慧生活、智慧医疗、智慧交通等业务提供高效的产品化支撑,致力推动千行百业的智慧化升级。
作为云知大脑(UniBrain)的重要组成部分,云知声数字人技术只需一次3分钟真人素材录入,即可生成一个声音、动作自然,口型精准,多语种精通的数字人分身,可适用于教育、电商、新闻、自媒体等多种场景。此次夺得1亚1季的优异成绩,充分印证了云知声在数字人领域的技术创新实力,也将激励云知声进一步夯实AGI技术底座,为构建互联直觉的世界持续贡献力量。
人工智能技术的快速发展和广泛应用,正不断打破各个行业的发展瓶颈,重塑不同产业的生产和运营模式。展望未来,云知声将继续坚定走在技术研发的前沿,持续推进通用人工智能(AGI)领域的研究与突破,为各行各业带来新的增长范式与无限可能。