Google发布的一款人工智能,可以利用不同的音乐生成不同的3D舞蹈视频
舞蹈是几乎在所有文化中都能找到的通用语言,也是当今许多人用来在当代媒体平台上表达自己的一种方式。通过组合与音乐节拍一致的运动模式来提升跳舞的能力是人类行为的一个基本方面。然而,舞蹈是一种需要练习的艺术形式。事实上,通常需要专业的训练来为舞者配备丰富的舞蹈动作,以创造富有表现力的编舞。虽然这个过程对人们来说很困难,但对于机器学习(ML)模型来说更具挑战性,因为该任务需要能够生成具有高运动学复杂性的连续运动,同时捕捉运动与运动之间的非线性关系
在ICCV上发表的“AIChoreographer:Music-Conditioned3DDanceGenerationwithAIST++”中,Google提出了一种全注意力跨模态Transformer(FACT)模型可以模仿和理解舞蹈动作,甚至可以增强一个人的编舞能力。与模型一起,Google发布了一个大规模的多模态3D舞蹈动作数据集AIST++,其中包含个序列中5.2小时的3D舞蹈动作,涵盖10种舞蹈类型,每种类型都包括具有已知相机姿势的多视图视频。通过对AIST++的广泛用户研究,Google发现FACT模型在定性和定量上都优于最近的最先进方法。
Google提出了一种新颖的全注意力跨模态转换器(FACT)网络,该网络可以生成以音乐为条件的逼真3D舞蹈动作(右)和新的3D舞蹈数据集AIST++(左)。
Google从现有的AIST舞蹈视频数据库生成建议的3D运动数据集——一组带有音乐伴奏的舞蹈视频,但没有任何3D信息。AIST包含10种舞蹈流派:OldSchool(Break、Pop、Lock和Waack)和NewSchool(MiddleHip-Hop、LA-styleHip-Hop、House、Krump、StreetJazz和BalletJazz)。虽然它包含舞者的多视图视频,但这些摄像机没有经过校准。
Google根据广泛使用的SMPL3D模型使用的参数恢复了相机校准参数和3D人体运动。生成的数据库AIST++这是一个大规模的3D人类舞蹈动作数据集,其中包含与音乐搭配的各种3D动作。每个框架都包含大量注释:
9个相机内参和外参视图;
17个COCO格式的2D和3D人体关节位置;
24个SMPL姿势参数以及全局缩放和平移。
动作均匀分布在所有10种舞蹈类型中,涵盖每分钟节拍(BPM)的各种音乐节奏。每种舞蹈类型都包含85%的基本动作和15%的高级动作(更长的编舞由舞者自由设计)。
AIST++数据集还包含多视图同步图像数据,使其可用于其他研究方向,例如2D/3D姿态估计。据Google所知,AIST++是最大的3D人类舞蹈数据集,包含个序列、30个主题和10个舞蹈流派,并具有基本和高级编舞。
AIST++数据集中的3D舞蹈序列示例。左:来自AIST舞蹈视频数据库的舞蹈视频的三个视图。右:在3D网格(顶部)和骨架(底部)中可视化的重建3D运动。
因为AIST是一个教学数据库,所以它记录了多个舞者按照相同的编舞为不同的音乐以不同的BPM,这是舞蹈中的常见做法。由于模型需要学习音频和运动之间的一对多映射,因此这在跨模态序列到序列生成中提出了独特的挑战。Google在AIST++上仔细构建了不重叠的训练和测试子集,以确保在子集之间既不共享编排也不共享音乐。
FullAttentionCross-ModalTransformer(FACT)模型
使用此数据,Google训练FACT模型以从音乐生成3D舞蹈。该模型首先使用单独的运动和音频转换器对种子运动和音频输入进行编码。然后将嵌入连接起来并发送到跨模态转换器,该转换器学习两种模态之间的对应关系并生成N个未来的运动序列。然后使用这些序列以自我监督的方式训练模型。所有三个变压器都是端到端共同学习的。在测试时,Google将此模型应用于自回归框架,其中预测的运动作为下一代步骤的输入。因此,FACT模型能够逐帧生成长距离舞蹈动作。
FACT网络接收音乐作品(Y)和2秒的种子运动序列(X),然后生成与输入音乐相关的长期未来运动。
FACT涉及三个关键设计选择,这些选择对于从音乐中产生逼真的3D舞蹈动作至关重要。
所有转换器都使用全注意掩码,它比典型的因果模型更具表现力,因为内部令牌可以访问所有输入。
Google训练模型来预测当前输入之外的N个未来,而不仅仅是下一个动作。这鼓励网络更多地