有道数字人算法是网易有道信息技术(北京)有限公司推出的深度合成服务算法,该算法基于深度学习,整合了语音识别技术(包括ASR、TTS等)和计算机视觉技术(包括人脸检测、人脸生成、视频合成等)。它可以根据用户提供的音频文件(真人或TTS语音)或文本,结合任意一段人脸视频,替换原视频中的嘴型,生成逼真的嘴型同步的说话人视频。
功能特点
- 多功能支持:有道数字人支持多种功能,包括但不限于照片说话和唱歌、视频翻译、形象克隆、歌声合成以及大屏交互等。
- 音唇精准同步:有道数字人具备音唇精准同步、表情逼真的特点,能够通过三十分钟左右的采样数据定制化训练,实现高精度的口型匹配和自然的表现。
- 高效定制:用户可以通过小采样数字人平台轻松创建自己的虚拟形象,该平台结合了智能化和个性化的特性。上传1分钟视频即可在30分钟内训练好形象分身,形象定制成本低,口型匹配度佳。
- 多语种驱动:有道数字人算法具有多语种驱动的能力,支持多种说话人生成的相关场景应用。
- 实时交互:有道交互数字人支持实时语音交互,首帧延迟低,支持实时语音打断,具备灵活的大脑,可以接入文档问答构建企业专有知识库。
应用场景
- 媒体领域:有道数字人算法被广泛应用于媒体领域的内容创作,帮助用户定制数字人虚拟形象、复刻专属声音,持续快速生成视频内容。
- 教育领域:有道数字人在教育领域也有广泛应用,如口语教学、知识科普等。有道推出了搭载其教育大模型“子曰”的AI数字人应用,具备实时互动、语法纠错、评分和话题切换等功能,能够实现正常的交流。此外,有道还推出了全球首个虚拟人口语教练Hi Echo,进一步拓展了其在教育领域的应用。
- 企业客服:有道数字人可以作为企业的数字客服,提供24小时不间断的客户服务,提高客户满意度。
- 文旅传媒:有道数字人适用于文旅传媒领域,可以作为虚拟导游或虚拟主持人,提供个性化的旅游体验或节目主持。
技术优势
- 全自研技术:有道数字人采用全自研的语音识别、语音合成、多模态感知、文档QA等AI技术,确保技术的先进性和稳定性。
- 离线部署:有道数字人全部离线部署在交互一体机上,保障文档私密安全,交互流畅延迟低。同时,模型小,可离线部署,大大降低服务器、宽带流量、渲染算力带来的大屏交互成本。
- 深度学习:有道数字人应用神经网络模型,自研推理策略与贴脸逻辑,减少抖动等失真现象,效果真实稳定。
有道数字人凭借其先进的技术背景、丰富的功能特点、广泛的应用场景以及显著的技术优势,在多个领域内提供了高效、自然的交互体验。