虚拟数字人网

商汤科技AI数字人技术原理及制作流程

cnshuziren.com 行业快讯 2022-11-24 16:10:48

  商汤作为一家技术领先的人工智能平台型企业,如何在生态中发挥好技术的领先优势、利用好平台的优质资源, 通过高效的资源组织和创新模式,帮助降低 AI 数字人的应用门槛,推动数字人走入千行百业、创造更大的商业空间,是商汤在生态“拼图”中的价值定位和使命愿景。

  AI 技术“双维度”研发投入,夯实 AI 数字人生产力底座

  正如上文所述,人工智能技术作为生态基础层的核心要素,既关系到数字人的拟人化程度,包括形象和动作的逼真性,以及深度学习和多模态交互能力的发展,也是数字人制作效率提升的关键引擎。

  商汤围绕上述两大维度,也即“拟人化”和“自动化”,对数字人相关的人工智能技术和算法进行投入和研发。基于 AI 大装置的超大算力支撑,商汤进行 AI 全栈技术能力的研发布局,从而建立并夯实 AI 数字人的生产力底座。

  在计算机视觉方面,视觉相关的算法模型已累计超过 30000 个,覆盖视觉信号的分析理解,以及实现数字内

  容的生成,并研发建成了世界上最大的计算机视觉基模型,参数高达 300 亿,可以支持数字人在图像、视频等视觉信号处理的复杂长尾应用。在语音语义理解方面,商汤也自研并具备了包括语音识别 (ASR)、语义理解(NLP/ 知识图谱)、语音合成(TTS)以及语音动画合成(STA)等多项技术能力。

  AIGC“全栈式”布局,打造“一站式”生产流水线

  商汤 AIGC“一站式”数字人生产流水线

  商汤 AIGC“一站式”数字人生产流水线

  商汤通过人工智能技术的集成和应用,并与数字人生产流程进行融合优化,针对传统 CG 建模和动画制作环节, 以及数字人的多模态交互和深度学习能力构建,分别推出了智能化生成、智能化驱动和智能化交互三大引擎, 并通过三大引擎间的流程打通和标准化处理,打造“一站式”AI 数字人生产流水线。

  智能化生成引擎 | 增强人物形象的生动性

  智慧化生成引擎将人工智能技术与 CG 建模环节融合,能够支持 3D 超写实、3D 拟真、3D 卡通,2D 真人等多种数字人风格的快速生成。

  商汤不同风格的 AI 数字人

  商汤不同风格的 AI 数字人

  在人物形象生成方面,引擎不仅可以基于少量照片的面部扫描,算法自动生成高精度的 3D 面部模型,达到毛孔级的真实效果,或基于一张照片快速生成 3D 卡通的风格化形象;还可以调用相应的算法模块,进行人物形象的自动美化、脸部 / 头发细节处理等,帮助开发者在 CG 建模环节降低所需投入的成本和时间。

  照片快速生成高精模型和 AI 模型美化效果

  照片快速生成高精模型和 AI 模型美化效果

  智能化驱动引擎 | 提升人物动作的协调性

  智慧化驱动引擎将人工智能技术与动画设计和制作环节相融合,包括 AI 驱动准备和动作 AI 驱动两大能力。

  前者通过算法代替人工加速蒙皮和 BS 制作,后者通过真人大数据的深度神经网络训练,基于 STA 算法惟妙惟肖的模拟重现真人说话的口型、表情和肢体动作,让 AI 数字人整体动作表现自然协调,不仅在动作协调上提升了 AI 数字人的拟人化程度,也可替代传统 CG 动画制作环节,大幅减轻动画师的工作强度和人工成本。

  目前,基于 AI 大数据训练的超高精度口型驱动,对准率超过 98%,而在肢体动作上,可以支持上百项含语义的动作驱动,减轻数字人动作对模板的依赖。

  语义驱动动作,减少数字人动作对模板的依赖

  语义驱动动作,减少数字人动作对模板的依赖

  智能化交互引擎 | 提高人物理解的智慧性

  智能化交互引擎包括交流对象识别分析、语音语义理解和知识库三大核心组件,与智能化驱动引擎联动,高效构建 AI 数字人的多模态交互和深度学习能力。

  在交流对象识别分析上,主要依赖视觉和语音识别等算法组合,帮助 AI 数字人在实际应用场景下能够与用户快速、高效建立对话关系。

  主要包括:

  1) 主动式交互。当视觉算法识别到人脸注视时,可自动开启语音交互,无需通过传统语音唤醒,即可进行主动式问候及触发后续服务;

  2) 杂音过滤。结合视觉 AI 识别用户口型,判断当前用户是否说话,从而过滤掉背景噪音干扰;

  3) 主体人识别。当有多个用户在数字人面前说话时,数字人可通过视觉与声音的多模态信号,提取主要说话人的音频并进行语音识别,保证对话目标的准确性。

  语音语义理解和知识库共同组成数字人的“AI 大脑”。基于语音识别(ASR)、语音合成(TTS)、自然语言理解(NLP)等技术组合,结合商汤所积累的海量特定知识领域的知识问答库,以及语料自动获取和 NLP 模型训练能力,可以根据不同行业业务需求,快速定制 AI 数字人的智能语音对话和问答系统,并可通过接入后台运营管理平台,支持知识库的在线更新和维护,从而实现 AI 数字人的深度学习和迭代升级。

  制作运营“一体化”,面向行业“全链路”赋能

  运营管理平台主要服务

  运营管理平台主要服务

  商汤通过运营管理平台打通技术到应用的“最后一公里”,为AI 数字人行业应用提供终端管理、数据管理和分析、数据训练、资源管理等主要服务,上接 AIGC 生产平台形成制作运营“一体化”模式,面向行业进行“全链路” 赋能。

  1) 终端管理。针对所有上线的终端设备和系统,进行实时运行状态监测及软件 OTA 更新等;

  2) 数据管理和分析。针对数字人所有交互数据进行统计分析,并依据内容属性进行自动分类,譬如业务问答、闲聊回答、寒暄互动、兜底回答等;

  3) 数据训练和知识库更新。针对业务问题未回答进行兜底的情况,结合正确答案进行泛化训练,将更新的业务问答同步到知识库中;

  4) 资源管理。包括多媒体资源、数字人素材和资产管理,以及广告资源管理和营销转化分析等其他服务。

  全终端、全行业方案覆盖,让数字人走入千行百业

  商汤以赋能百业为目标,面向泛娱乐、商业零售、金融服务、文博文旅、政务服务等全行业提供企业级 AI 数字人解决方案,并通过跨屏、跨系统支持,不仅可以兼容 app、小程序及 H5 等不同展现形式,还覆盖了超过

  200 款手机、平板电脑、AR/VR 眼镜、智慧大屏及线下一体机等多种终端设备上线 AI 数字人应用。

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~