资讯

例如,当文本语义暗示激昂、愉悦或柔和的语调时,脸部表情与头部运动能够动态地配合,从而避免了“声音在笑,脸却无表情”的尴尬场景。OmniTalker模型的参数量约为8亿,并运用FlowMatching训练技巧提升性能,推理速度可达25FPS。与当前依赖大型扩散模型但推理速度普遍较慢的新技术相比,OmniTalker在速度与质量之间取得了显著平衡。