这篇论文介绍了一种名为Hierarchical State Space Models (HiSS)的新技术，用于连续序列预测问题，特别是在处理来自传感器的原始数据序列时。HiSS通过在不同时间尺度上堆叠结构化的状态空间模型（SSMs），创建了一个时间层次结构。这种方法在六个真实世界传感器数据集上的实验表明，HiSS在均方误差（MSE）上至少比现有的序列模型（如因果Transformers、LSTMs、S4和Mamba）提高了23%的性能。

论文的主要贡献包括：
1. 发布了CSP-Bench，这是一个用于多个传感器数据集的连续序列预测的最大公共基准测试。
2. 展示了SSMs在CSP-Bench上优于LSTMs和Transformers。
3. 提出了HiSS，这是一种层次化的序列建模架构，它在CSP-Bench的任务中进一步改进了SSMs的性能。
4. 展示了HiSS在小数据集上的样本效率，并与现有的传感器预处理技术（如低通滤波）兼容。

论文还讨论了HiSS在处理高维预测问题和小数据集的嘈杂传感器数据时的挑战，并提出了未来的研究方向，包括优化HiSS模型的块大小超参数，以及扩展CSP-Bench以支持更多传感器类型。

此外，论文还详细介绍了HiSS的背景、相关工作、数据准备和采样、模型架构、训练细节以及实验结果。实验结果表明，HiSS在多个任务上的性能优于传统的序列模型，并且在小数据集上表现出更好的数据效率。然而，HiSS在处理高维输入和输出空间时存在局限性，特别是在TotalCapture数据集上，LSTM模型的性能优于HiSS。

最后，论文感谢了支持研究的资助机构和个人，并列出了参考文献。
 层次化状态空间模型
用于连续序列到序列建模
Raunaq Bhirangi1 2Chenyu Wang3Venkatesh Pattabiraman3Carmel Majidi1Abhinav Gupta1
Tess Hellebrekers2Lerrel Pinto3

摘要
从原始感官数据序列中进行推理是一个普遍存在的问题，涉及从医疗设备到机器人等多个领域。这些问题通常涉及使用长序列的原始传感器数据（例如磁力计、压电传感器）来预测一系列理想的物理量（例如力、惯性测量）。虽然经典方法在局部线性预测问题上非常强大，但在使用现实世界中的传感器时往往表现不佳。这些传感器通常是非线性的，受到外部变量（例如振动）的影响，并表现出数据依赖性的漂移。对于许多问题，由于获取真实标签需要昂贵的设备，因此小规模标注数据集使预测任务变得更加困难。在这项工作中，我们提出了层次化状态空间模型（HiSS），这是一种新的、概念上简单的连续序列预测技术。HiSS通过将结构化的状态空间模型堆叠在一起，创建了一个时间层次结构。在六个真实世界传感器数据集上，从基于触觉的状态预测到基于加速度计的惯性测量，HiSS在均方误差（MSE）上至少比因果Transformers、LSTMs、S4和Mamba等最先进的序列模型提高了23%。我们的实验进一步表明，HiSS在小数据集上展示了高效的扩展性，并与现有的数据过滤技术兼容。代码、数据集和视频可以在https://hiss-csp.github.io找到。

1. 引言
传感器无处不在。从空调到智能手机，自动化系统分析感官数据序列以控制各种参数。这类问题——从流式感官数据中进行连续序列到序列的预测——对实时决策和控制（Schütze等人，2004；Stetco等人，2019）至关重要。然而，与语言（Devlin等人，2018）和计算机视觉（Deng等人，2009）等领域的离散序列问题相比，它受到的关注有限。

现有的感官数据预测方法主要依赖于基于模型的解决方案（Welch等人，1995；Daum，2005）。然而，这些方法需要领域专业知识和对复杂系统动态的准确建模，这在现实世界的应用中通常是难以处理的。此外，感官数据包含噪声和传感器特有的漂移，必须加以考虑才能实现高预测性能（Liu等人，2020b）。在这项工作中，我们研究了能够直接从原始感官流中学习的深度序列到序列模型，以解决这些挑战。然而，为了在连续序列预测（CSP）上取得进展，我们首先需要一个代表性的基准来衡量性能。大多数先前关于CSP的工作集中在单一类别的传感器上（Herath等人，2020；Liu等人，2020b），这使得开发通用算法变得困难。

为了解决这个问题，我们创建了CSP-Bench，一个由六个真实世界标注数据集组成的基准。这个集合包括我们自己创建的三个数据集和从先前工作中策划的三个数据集——总共40小时的真实世界数据。

1arXiv:2402.10211v1 [cs.LG] 15 Feb 2024
 HiSS：分层状态空间模型
鉴于CSP-Bench的数据，一个明显的建模选择是使用最先进的序列模型，如LSTMs或Transformers。然而，感官数据是高频率的，导致数据序列很长且高度相关。对于这类数据，Transformers很快就会耗尽内存，因为它们在序列长度上的复杂度呈二次方增长（Vaswani等人，2017年），而LSTMs需要更大的隐藏状态（Kuchaiev & Ginsburg，2017年）。深度状态空间模型（SSMs）（Gu等人，2021a；Gu & Dao，2023年）是一类有前途的新序列模型。这些模型已被证明能够有效处理长上下文长度，同时在时间和内存复杂度上与序列长度呈线性增长，并在音频（Goel等人，2022年）和语言建模上取得了强劲的结果。在CSP-Bench上，我们发现SSMs在MSE指标上平均比LSTMs和Transformers提高了10%（见第6节）。但我们能做得更好吗？

对连续传感器数据的一个关键洞察是，它具有显著的时间结构和冗余。虽然SSMs在建模这类数据方面非常强大，但它们在本质上仍然是时间扁平的，即序列中的每个样本都与所有其他样本进行推理。因此，受到分层建模（You等人，2019年；Thu & Han，2021年）工作的启发，我们提出了分层状态空间模型（HiSS）。HiSS在两个具有不同时间分辨率的SSMs之上堆叠。较低层的SSM将较大的全序列数据分割成较小的序列并输出局部特征，而较高层的SSM则在较小的局部特征序列上操作以输出全局序列预测。这在CSP-Bench上带来了进一步的性能提升，中位数MSE性能在任务中超过了最佳平面SSMs 23%。

我们总结本文的贡献如下：
1. 我们发布了CSP-Bench，这是最大的公开可访问的连续序列到序列预测的基准，适用于多个传感器数据集。（第4节）
2. 我们展示了SSMs在CSP-Bench上优于LSTMs和Transformers等先前的最佳模型。（第6.1节）
3. 我们提出了HiSS，这是一种分层序列建模架构，它在CSP-Bench的任务中进一步改进了SSMs。（第5节）
4. 我们展示了HiSS在较小数据集上提高了样本效率，并且与标准的传感器预处理技术（如低通滤波）兼容。（第6.4节，6.5节）

2. 相关工作
2.1. 感官数据的序列到序列预测
大多数现实世界的控制系统，如风力涡轮机状态监测（Stetco等人，2019年）、MRI识别（Kon等人，2016年）和惯性里程计（Amini等人，2011年；Liu等人，2020a年），通常处理嘈杂的感官数据以推断环境状态。传统上，这些问题被解决为估计和控制问题，使用如卡尔曼滤波（Mathieu等人，2012年；Simon，2006年）等滤波技术，这些技术仍需要复杂的传感器模型。
深度学习在没有解析模型的领域显示出了潜力，但许多解决方案仍然是传感器特定的（Yan等人，2018年；Herath等人，2020年）。
深度状态空间模型（SSMs）（Gu等人，2021a；Poli等人，2023年；Smith等人，2022年；Gu & Dao，2023年）是一类新兴的模型，它们在建模长距离依赖性方面优于传统的序列模型——对于高频感官数据来说，这是一个重要考虑因素。
然而，据作者所知，这些模型还没有在音频之外的连续感知数据上进行评估（Goel等人，2022年）。在这项工作中，我们在ReSkin、XELA、加速度计和陀螺仪等传感器的六个感官序列到序列预测任务上对深度SSMs进行了基准测试。

2.2. 分层建模
将时间层次结构纳入序列建模架构已被证明可以提高推荐系统（You等人，2019年）、人类活动识别（Thu & Han，2021年）和强化学习（Sutton等人，1999年；Gardiol，2000年；Kulkarni等人，2016年）等多个任务的性能。HiSS受到这一工作的启发，将其扩展到连续序列到序列任务的SSMs。

2.3. 连续序列预测的数据
开发通用模型用于连续序列预测的一个主要挑战是缺乏具体的评估基准。Odometry/SLAM数据集（Geiger等人，2013年；Maddern等人，2017年）是CSP数据集的可行候选者（Chang等人，2019年；Sun等人，202
 HiSS：分层状态空间模型
触摸传感器。触摸传感器捕捉机器人与其周围环境接触的动态。深度学习和快速原型制作推动了从光学（Lambeta等人，2020年；Yuan等人，2017年）到电容式（Sonar等人，2018年）和磁性传感（Tomo等人，2018年；Bhirangi等人，2021年）等多种触觉模式的快速发展。大多数关于连续触觉数据处理的工作都集中在策略学习上（Guzey等人，2023a；b；Calandra等人，2018年），其中小数据集和混淆因素使得评估CSP架构的有效性变得困难。在这项工作中，我们设置了监督学习问题，以研究两种磁性触摸传感器的序列到序列模型：ReSkin（Bhirangi等人，2021年）和XELA（Tomo等人，2018年）。

3. 背景
3.1. 序列到序列预测
考虑由图2描述的数据生成过程。可观测过程——传感器S和输出Y，代表两个测量设备，它们捕捉未观测到的潜在过程X的演变。通常，S是一个嘈杂、低成本的设备，如加速度计，而Y是一个精确、昂贵的标记系统，如运动捕捉。目标是学习一个模型，允许我们使用来自S的数据序列来估计Y。
x1s1y1x2xkskyks2y2…
图2. 双传感器系统的隐马尔可夫模型。X是数据生成过程。传感器S和输出Y是两个可观测过程。
CSP问题涉及估计第t个输出观测值yt，给定输入观测值的历史s1:t。对于本文列出的实验，我们通过高斯分布来近似这个概率，即p(yt|s1, ... s t) = N(µθ(s1:t), σ^2I)，其中σ是一个常数，并通过深度序列模型来参数化µθ。我们的目标是找到这个分布的最大似然估计器——arg minθP t∥yt−µθ(s1:t)∥^2。因此，我们的模型被训练为在输出序列长度上最小化MSE损失。

3.2. 深度状态空间模型
深度状态空间模型（SSMs）基于简单的状态空间模型进行序列到序列建模。在其一般形式中，线性状态空间模型可以写成：
x'(t) = A(t)x(t) + B(t)
y(t) = C(t)x(t) + D(t)
通过一个隐含的N-D潜在状态序列x(t)∈R^n，将1-D输入序列u(t)∈R映射到1-D输出序列y(t)∈R。具体来说，深度SSMs试图在神经序列建模架构中使用这种简单模型的堆叠，其中每层的参数A、B、C和D可以通过梯度下降学习。
SSMs已经在理论上和实证上被证明能够处理长距离依赖（Gu等人，2021b），并且随着序列长度的线性扩展，但直到结构化状态空间序列模型（S4）（Gu等人，2021a）的出现，它们在计算上才变得可行。S4及其相关架构（Fu等人，2022；Smith等人，2022；Poli等人，2023）基于一种新的参数化方法，依赖于SSM参数的时间不变性来实现高效计算。最近，Mamba（Gu & Dao，2023）通过放松SSM参数的时间不变性约束，同时保持计算效率，改进了基于S4的架构。这使得Mamba在从音频和基因组学到语言建模的一系列基准测试中取得了高性能，同时保持了序列长度的线性扩展。在本文中，我们在感官CSP任务上基准测试了像S4和Mamba这样的SSMs的性能，并展示了它们一致优于LSTMs和Transformers。

4. CSP-Bench：连续序列预测基准
我们通过收集三个触摸数据集，每个数据集包含1000条轨迹，并结合文献中的三个IMU数据集来创建CSP-Bench，以解决序列到序列预测中密集、连续标签数据集的稀缺问题。对于每个数据集，我们设计任务以从单传感器数据预测标记序列，以避免混淆因素。我们还包括来自不同来源的数据，如摄像头和机器人运动，以促进未来在多传感器集成和多模态学习中的研究。这些数据集的详细特征总结在表1中，旨在支持多样化的感官数据分析。

4.1. 触摸数据集
我们的触摸数据集是在两种磁性触摸传感器设计上收集的：ReSkin（Bhirangi等人，2021年）和Xela（Tomo等人，2018年）。ReSkin设置包括一个6-DOF Kinova JAC
 HiSS：分层状态空间模型
ReSkin 本质滑移
XELA 操纵杆控制
Total Capture
RoNIN 向量
ReSkin
CircuitSkinReSkin 标记写作
图3. CSP-Bench 由六个数据集组成。其中三个数据集——ReSkin 标记写作、ReSkin 本质滑移和 XELA 操纵杆控制是在两种不同的机器人设置上收集的触觉数据集，如上图所示。另外三个数据集——RoNIN（Herath 等人，2020）、VECtor（Gao 等人，2022）和 TotalCapture（Trumble 等人，2017）是策划好的开源数据集。

ReSkin 集成到夹持器表面的详细信息在附录 A 中。Xela 设置包括一个 7-DOF Franka Emika 机器人，配备了 Wonik Robotics 的 16-DOF Allegro 手。如上图所示，每只手指上都装有三个 4x4 uSkin 触觉传感器和一个来自 XELA Robotics 的弯曲 uSkin 触觉传感器。传感器集成由 XELA Robotics 提供，专门为 Allegro Hand 设计。尽管 ReSkin 和 Xela 的基本感觉模式相同，但它们在空间和时间分辨率、物理布局和磁源方面有所不同。

4.1.1. ReSkin：标记写作数据集
我们收集了 1000 条 Kinova 机器人在纸上随机线性笔画的轨迹。最初，标记器任意放置在夹持器尖端之间，当标记器接触到纸时开始数据收集。然后，机器人在 10cm x 10cm 工作空间内均匀采样的 8-12 个随机点之间线性移动，每次移动后暂停 1-4 秒的随机采样延迟。样本轨迹的图像可以在附录 C 中找到。

这个顺序预测问题的目的是使用夹持器的触觉信号来预测末端执行器在桌面平面上的速度。速度标签很容易从机器人运动学中获得，并作为标记器在纸上笔画速度的代理。这个问题的挑战在于，传感器会捕捉到标记器与夹持器之间的相对运动以及标记器与纸的相对运动。模型必须学会区分这两种运动以进行准确预测。

4.1.2. ReSkin：本质滑移数据集
我们再次使用 Kinova 设置收集了 1000 条本质滑移轨迹——夹持器抓住并沿着固定在桌子上的不同盒子滑动。在每个剧集开始时，我们在盒子上随机位置和方向关闭夹持器并开始记录数据。我们在机器人工作空间内沿盒子长度采样 8-12 个随机位置和方向，然后命令机器人在滑动中沿盒子移动。我们使用 10 个不同大小的盒子来收集这个数据集，以提高接触动力学方面的数据多样性。示例图像和尺寸在附录 C.1.2 中提供。

这个顺序预测问题的目的是使用夹持器尖端的触觉信号序列来预测末端执行器（同样从机器人运动学中获得）在机器人运动平面上的平移和旋转速度。此外，任务的磨损性质会导致皮肤随时间磨损。为了考虑这种磨损，我们在每个盒子上每 25 条轨迹后更换夹持器尖端和皮肤，从而提高数据多样性。

4.1.3. XELA：操纵杆控制数据集
对于我们的最后一个数据集，我们记录了 Allegro 手与操纵杆互动的 1000 条轨迹，如图 3 所示。手/机器人设置是通过基于 HoloDex（Arunachalam 等人，2023）的 VR 系统进行远程操作的。操纵杆互动与机器人数据、触觉感应数据和相机反馈同步记录。具体来说，这包括完整的机器人运动学（7 DOF 臂 50 Hz + 16 DOF 手 300 Hz）、XELA 触觉输出（552 维 100 Hz）和 2 台 Realsense D435 相机（1080p 30 Hz）。每条轨迹包括与操纵杆互动的 25-40 秒。
 HiSS：分层状态空间模型
表1. CSP-Bench中所有模态的总结。用于训练的模态已加粗。除了用于训练模型的数据外，我们还发布了同步视频和机器人运动学数据，以促进CSP问题进一步研究。
数据集 模态 模型输入 模型输出 大小
（维度） （维度） （分钟）
标记写作 ReSkin（100 Hz），2摄像头（30 Hz），
机器人（45 Hz） ReSkin（30） 末端执行器
速度（2） 420
内在滑动 ReSkin（100 Hz），3摄像头（30 Hz），
机器人（45 Hz） ReSkin（30） 末端执行器
速度（3） 640
摇杆控制 Xela（100 Hz），2摄像头（30 Hz），机器人
（50 Hz），手（300 Hz），摇杆（20 Hz） Xela（552） 摇杆状态（3） 580
VECTor
（高等人，2022）IMU（200 Hz），2摄像头（30 Hz），RGBD
（30 Hz），激光雷达（10 Hz），MoCap（120 Hz）IMU（7） 用户速度（3） 22
TotalCapture
（Trumble等人，2017）IMU（60 Hz），8摄像头（60 Hz），
MoCap（60 Hz）IMU（39） 关节速度（60） 45
RoNIN
（Herath等人，2020）IMU（200 Hz），3D追踪手机（200
Hz）IMU（7） 用户速度（2） 600

顺序预测问题的目标是使用Xela传感器化机器人手的触觉信号来预测与所有其他模态同步记录的摇杆状态。除了观察空间的显著更高维度外，这个数据集的额外挑战来自于人类演示而非脚本策略导致的轨迹噪声。

4.2. 精选公共数据集
除了本文发布的触觉数据集外，我们还在其他数据集上测试了我们的发现，特别是那些使用IMU传感器数据的数据集（如图3所示）——RoNIN数据集（Herath等人，2020），该数据集包含100名人类受试者在自然人类运动下的智能手机IMU数据和地面真实3D轨迹，VECTor数据集（高等人，2022）——一个在三个不同平台上收集的SLAM数据集，以及TotalCapture数据集——一个3D人体姿态估计数据集。

5. 分层状态空间模型（HiSS）
在这项工作中，我们专注于传感器的连续序列到序列预测问题，即涉及将一系列感官数据映射到一系列输出的问题。在接下来的章节中，我们将描述我们的预处理流程和HiSS——我们在不同时间尺度上进行序列到序列推理的方法。

5.1. 数据准备和采样
现实世界中的每个传感器都以不同的频率运行，因此来自不同传感器的数据以不同的标称频率收集。通常，我们的传感器序列来自一个比昂贵的高精度设备更便宜、噪声更大的高频传感器，后者给出输出序列。为了模拟这种情况并标准化我们的实验，所有传感器序列都被重新采样到50Hz的频率，除非另有说明，所有考虑的数据集的输出序列都被重新采样到5Hz。这些频率的具体选择由可用数据中传感器的采样频率决定。

CSP-Bench中考虑的所有传感器都容易漂移；因此，与之前的研究（Bhirangi等人，2021；Guzey等人，2023b；Herath等人，2020）一致，我们在每个传感器轨迹的开始估计一个静止信号，并将与这个静止信号的偏差传递给模型。由于传感器漂移可能是因果数据依赖的，整个感官轨迹被传递给模型作为输入。传感器和输出序列根据其对应数据集的数据统计信息进行归一化，详细信息列在附录B中。此外，我们发现将传感器序列中的每个元素附加一步差分有助于提高性能，这与许多先前的工作（Chen等人，2016；Holden等人，2016）一致。

5.2. 模型架构
在这里我们描述分层状态空间模型（HiSS）——一个简单的分层架构，使用SSMs来解释
 HiSS（层次化状态空间模型）是一种深度学习模型，它通过在两个时间分辨率上对序列数据进行推理，如图4所示。传感器序列首先被划分为大小相等的k个块。每个块通过一个共享的状态空间模型（SSM），我们称之为低级SSM。低级SSM对应于每个块的第k个元素的输出随后被连接起来，形成一个稀疏的块特征序列。最后，这个序列通过一个高级序列模型来生成输出序列。

为什么HiSS应该有效？顺序感官数据受到不同自然频率的现象影响。例如，安装在四旋翼飞行器上的惯性测量单元（IMU）会受到MEMS设备特有的高频振动噪声和低频漂移的影响（Koksal等人，2018年）。通过HiSS，我们的目标是创建一个具有明确结构的神经架构，以便在不同的时间尺度上操作。这将允许低级模型学习有效的、局部的时间表示，同时使高级模型能够专注于较短序列上的全局预测。

5.3 训练细节
我们专注于序列到序列的预测任务。我们所有的模型都是端到端训练，以最小化MSE损失，如3.1节所述。对于所有的触觉数据集和VECtor，我们使用80-20的训练-验证分割。对于RoNIN数据集，我们使用每个轨迹的前四分钟进行分析，并使用来自未见过的受试者的轨迹作为验证集。对于TotalCapture，我们使用Trumble等人（2017年）提出的训练-验证分割。我们模型和基线的超参数范围在附录B中列出。我们保持相同任务的模型参数计数范围相似。

6. 实验和结果
在本节中，我们旨在评估HiSS模型在CSP任务上的性能，并理解它们的优势和局限性。具体来说，我们的目标是回答以下问题：
• SSMs（Mamba和S4）与LSTMs和Transformers在CSP-Bench上的表现如何？
• HiSS能否提供超过时间平坦模型的好处？
• HiSS是否与现有的预处理技术（如滤波）兼容？
• HiSS在低数据量情况下的表现如何？
基线：我们使用两类基线：平坦和层次化。平坦模型包括LSTMs、因果Transformers以及SSM模型S4和Mamba。层次化基线是HiSS模型的变体，其中高级SSM是任何序列模型，和/或低级模型被LSTM替换。

6.1 平坦序列模型在CSP-Bench上的性能
一开始，我们发现SSMs——Mamba和S4，在CSP-Bench任务上一致地比表现最好的Transformer和LSTM模型的中位数MSE分别高出10%和14%。唯一的异常是TotalCapture数据集，其中LSTM的表现超过了所有其他模型。我们在6.6节中稍后分析这一点。
 "HiSS: 分层状态空间模型
表2. CSP-Bench上平坦模型和HiSS模型的MSE预测损失比较。报告的数字是针对表现最好的模型，平均了5个种子的结果。MW: 标记写作，IS: 内在滑动，R: RoNIN，V: 向量，JC: 操纵杆控制，TC: TotalCapture
模型类型 模型架构 MW IS JC R V TC
（厘米/秒） （米/秒） （米/秒） （米/秒）
FlatTransformer 2.3750 0.4600 1.0200 - 0.0432 -
LSTM 1.1685 0.3099 1.0740 0.0444 0.0353 0.1767
S4 1.3190 0.2617 0.9804 0.0382 0.0341 0.3483
Mamba 0.8830 0.1757 1.0640 0.0401 0.0319 0.3645
高级 低级
HierarchicalTransformerLSTM 0.9958 0.2527 0.9350 0.0421 0.0377 0.3197
S4 0.6205 0.1574 0.8980 0.0363 0.0374 0.3583
Mamba 1.0268 0.2022 0.9060 0.0472 0.0372 0.4560
LSTMLSTM 0.8662 0.2837 1.0760 0.0436 0.0288 0.2522
S4 0.6370 0.1526 0.9080 0.0481 0.0322 0.3505
Mamba 0.7915 0.1925 1.0610 0.0442 0.0286 0.3638
S4LSTM 0.8590 0.1805 0.9520 0.0319 0.0293 0.2452
S4 0.6255 0.1551 0.9060 0.0265 0.0303 0.3438
Mamba 0.8257 0.1823 0.9200 0.0322 0.0294 0.4078
MambaLSTM 0.7592 0.1746 0.9640 0.0346 0.0267 0.2428
S4 0.5663 0.1316 0.9010 0.0302 0.0298 0.2527
Mamba 0.7248 0.1678 0.9050 0.0325 0.0251 0.3762
HiSS相对于最佳平坦模型的改进 +35.87% +25.10% +8.10% +30.74% -37.36%
6.2. 使用HiSS提高CSP性能
HiSS模型的表现优于最佳表现的平坦模型，无论是SSM还是其他模型，跨任务的中位数MSE进一步提高了约23%。在分层模型中，HiSS模型继续表现与其他模型一样好或更好，中位数MSE相对提高了约9.8%。
此外，我们在使用特定高级架构的模型中做出了两个关键观察：（1）这些模型始终优于相应的平坦模型，表明时间层次结构在从连续感官数据中提取信息方面是有效的；（2）最佳模型使用S4作为低级模型，表明S4特别擅长捕捉数据中的低级时间结构。
这些观察引发了一个自然的问题：HiSS内部发生了什么？在接下来的两节中，我们试图更好地理解HiSS的工作原理。
6.3. HiSS是否只是做得更好的下采样？
我们试图回答的第一个问题是，是否简单地将传感器序列下采样到与输出相同的频率，就能像HiSS一样做得好。正如我们在表3中看到的，虽然一些带有下采样传感器序列的平坦模型确实在性能上超过了表2中的平坦模型，但它们仍然远远落后于HiSS模型。这加强了我们的假设，即HiSS模型从传感器序列中提取的信息比简单的下采样要多。
使用分层模型的一个优势是内存效率。它们可以显著减少像变换器这样随着序列长度呈二次方增长的模型的计算负载。使用S4或Mamba这样的SSM作为低级模型可以显著减少计算负载（从O(n^2)降低到O(n^2/k^2)，其中
 您好，这段内容是关于一种名为HiSS（Hierarchical State Space Models，分层状态空间模型）的研究，以及它在连续序列预测任务中的表现。以下是该段落的中文翻译：

HiSS：分层状态空间模型
表3. 与（a）降采样输入、（b）输入序列的低通滤波，以及（c）较少训练样本的性能比较
MW IS JC R V TC
降采样输入
变换器 2.41 0.33 .957 .116 .039 0.34
LSTM 1.92 0.27 .975 .094 .034 0.20
S4 2.22 0.29 .974 .081 .036 0.31
Mamba 1.96 0.26 .980 .077 .033 0.25
HiSS 0.57 0.13 .901 .027 .025 0.26
低通滤波
变换器 1.79 0.31 1.01 - .034 0.38
LSTM 1.15 0.26 1.08 .038 .024 0.12
S4 1.19 0.22 0.94 .031 .022 0.25
Mamba 0.78 0.14 0.95 .030 .018 0.17
HiSS 0.55 0.11 0.87 .036 .020 0.13
较小的训练数据集
分数 0.3 0.3 0.3 0.3 0.5 0.5
变换器 4.30 0.85 1.237 - .046 0.54
LSTM 1.83 0.54 1.313 .053 .039 0.39
S4 2.31 0.45 1.197 .043 .038 0.43
Mamba 1.74 0.37 1.195 .039 .036 0.48
HiSS 1.26 0.29 1.106 .034 .029 0.37

与（1）相比，我们可以看到，表2中表现最好的HiSS模型继续在经过滤波的数据上优于最佳平面模型，这意味着低通滤波可能过滤掉了一些有用的信息，这些信息本可以被足够强大的模型利用来提高任务性能。这指出了手工预处理技术的一个大坑——它们经常过滤掉可以被模型利用的信息。因此，HiSS模型几乎不需要对输入序列进行预处理的能力，增强了它们作为CSP数据通用模型的资格。

6.5. HiSS在较小数据集上的表现如何？
到目前为止，连续序列预测缺乏全面的基准测试，这表明收集大量、标记的感觉数据集的困难。因此，在低数据量下的性能可能对不同序列建模架构的更广泛应用至关重要。为了基准测试这种性能，我们比较了平面和HiSS模型在训练数据子集上的表现。虽然TotalCapture和VECtor数据集比其他数据集小得多（见表1），但我们在分析中包括了它们，并使用了比其他数据集更大的训练数据比例。结果呈现在表3中。为了简洁，我们在这里只展示了表现最好的HiSS模型。完整的表格可以在附录D中找到。

我们发现，在训练数据集的较小部分上，HiSS在CSP-Bench的每个任务上都优于平面基线。这表明了HiSS模型的一个重要特性——数据效率。低级模型在数据的所有块上以相同的方式运作，使它们能够从小型数据集中学习比平面模型更有效的表示。

6.6. 在TotalCapture上的失败
平面状态机模型（SSMs）和HiSS模型在TotalCapture数据集上表现最明显的失败案例是，平面LSTM显著优于所有其他模型。我们假设输入和输出空间的高维度阻止了SSMs学习足够表达性的表示，以过滤掉高频数据。这一点也体现在该数据集上LSTM低级模型在分层架构中的更高表现上，这与平面LSTM在平面SSMs上的相应更高效果相关。HiSS模型在数据上学习过滤行为的困难进一步证据可以在6.4节找到，在那里HiSS模型在输入序列通过低通滤波器时的性能几乎与LSTM相匹配。这表明HiSS模型在这里难以从数据中学习过滤行为，而在其他数据集上，性能在有无低通滤波器的情况下保持相对一致。

7. 结论和局限性
我们提出了CSP-Bench，这是第一个公开可用的连续序列预测基准，并且展示了SSMs在CSP任务
 HiSS: 分层状态空间模型
8. 致谢
纽约大学的作者得到了本田公司的资助，以及ONR（海军研究办公室）的奖项编号N00014-21-1-2404和N00014-21-1-2758。LP（可能指作者之一）得到了帕卡德奖学金的支持。我们还要感谢Aadhithya Iyer、Gaoyue Zhou、Irmak Guzey、Ulyana Piterbarg和Vani Sundaram在整个项目过程中提供的宝贵帮助和反馈。

参考文献
Amini, N., Sarrafzadeh, M., Vahdatpour, A., and Xu, W.
基于加速度计的穿戴式传感器定位用于健康和医疗监测应用。普适计算与移动计算，7(6):746–760，2011。
Arunachalam, S. P., G ̈uzey, I., Chintala, S., and Pinto, L.
Holo-dex: 使用沉浸式混合现实教授灵巧操作。在2023年IEEE国际机器人与自动化会议（ICRA）上，pp. 5962–5969。IEEE，2023。
Bhirangi, R., Hellebrekers, T., Majidi, C., and Gupta, A.
Reskin: 多功能、可更换、持久的触觉皮肤。arXiv预印本 arXiv:2111.00071，2021。
Bhirangi, R., DeFranco, A., Adkins, J., Majidi, C., Gupta, A., Hellebrekers, T., and Kumar, V. All the feels: 带有大面积触觉感知的灵巧手。IEEE机器人与自动化快报，2023。
Calandra, R., Owens, A., Jayaraman, D., Lin, J., Yuan, W., Malik, J., Adelson, E. H., and Levine, S. More than a feeling: 使用视觉和触觉学习抓取和重新抓取。IEEE机器人与自动化快报，3(4):3300–3307，2018。
Chang, M.-F., Lambert, J., Sangkloy, P., Singh, J., Bak, S., Hartnett, A., Wang, D., Carr, P., Lucey, S., Ramanan, D., et al. Argoverse: 使用丰富地图进行3D跟踪和预测。在IEEE/CVF计算机视觉与模式识别会议论文集，pp. 8748–8757，2019。
Chavarriaga, R., Sagha, H., Calatroni, A., Digumarti, S. T., Tr¨oster, G., Mill´an, J. d. R., and Roggen, D. The opportunity challenge: 用于基于穿戴式传感器的活动识别的基准数据库。模式识别信函，34(15):2033–2042，2013。
Chen, C., Zhao, P., Lu, C. X., Wang, W., Markham, A., and Trigoni, N. Oxiod: 用于深度惯性里程计的数据集。arXiv预印本 arXiv:1809.07491，2018。
Chen, K., Zhang, D., Yao, L., Guo, B., Yu, Z., and Liu, Y. 基于传感器的人类活动识别的深度学习：概述、挑战和机遇。ACM计算调查（CSUR），54(4):1–40，2021.Chen, T.-E., Yang, S.-I., Ho, L.-T., Tsai, K.-H., Chen, Y.-H., Chang, Y.-F., Lai, Y.-H., Wang, S.-S., Tsao, Y., and Wu, C.-C. 使用深度神经网络进行S1和S2心音识别。IEEE生物医学工程交易，64(2):372–380，2016。
Daum, F. 非线性滤波器：超越卡尔曼滤波器。IEEE航空航天与电子系统杂志，20(8):57–69，2005。
Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. Imagenet: 大规模分层图像数据库。在2009年IEEE计算机视觉与模式识别会议上，pp. 248–255。I
 您好！以下是您提供的参考文献列表的中文翻译：

HiSS: 分层状态空间模型
Gu, A., Goel, K., 和 Re, C. 使用结构化状态空间高效建模长序列。在国际学习表示会议，2021a。
Gu, A., Johnson, I., Goel, K., Saab, K., Dao, T., Rudra, A., 和 R´e, C. 结合循环、卷积和连续时间模型与线性状态空间层。在神经信息处理系统进展，34: 572–585, 2021b。
Guzey, I., Dai, Y., Evans, B., Chintala, S., 和 Pinto, L. 通过视觉激励学习触觉灵巧。arXiv预印本 arXiv:2309.12300, 2023a。
Guzey, I., Evans, B., Chintala, S., 和 Pinto, L. 通过触觉玩乐自我监督预训练触觉表示。arXiv预印本 arXiv:2303.12076, 2023b。
Herath, S., Yan, H., 和 Furukawa, Y. Ronin: 在野外实现鲁棒的神经惯性导航：基准、评估和新方法。在2020 IEEE国际机器人与自动化会议（ICRA），pp. 3146–3152. IEEE, 2020。
Holden, D., Saito, J., 和 Komura, T. 用于角色运动合成和编辑的深度学习框架。ACM图形学交易（TOG），35(4):1–11, 2016。
Koksal, N., Jalalmaab, M., 和 Fidan, B. 基于IMU传感器数据融合的四旋翼无人机自适应二次姿态跟踪控制。传感器，19(1):46, 2018。
Kong, B., Zhan, Y., Shin, M., Denny, T., 和 Zhang, S. 通过深度时间回归网络识别舒张末期和收缩末期帧。在医学图像计算和计算机辅助干预-MICCAI 2016：第19届国际会议，希腊雅典，2016年10月17-21日，会议记录，第三部分，pp. 264–272. Springer, 2016。
Kuchaiev, O. 和 Ginsburg, B. LSTM网络的分解技巧。arXiv预印本 arXiv:1703.10722, 2017。
Kulkarni, T. D., Narasimhan, K., Saeedi, A., 和 Tenenbaum, J. 分层深度强化学习：整合时间抽象和内在动机。在神经信息处理系统进展，29, 2016。
Lambeta, M., Chou, P.-W., Tian, S., Yang, B., Maloon, B., Most, V. R., Stroud, D., Santos, R., Byagowi, A., Kammerer, G., 等。Digit：一种新型低成本紧凑高分辨率触觉传感器的设计，应用于手中操作。IEEE机器人与自动化快报，5(3):3838–3845, 2020.
Liu, W., Caruso, D., Ilg, E., Dong, J., Mourikis, A., Daniilidis, K., Kumar, V., Engel, J., Valada, A., 和 Asfour, T. Tlio: 紧密学习惯性里程计。IEEE机器人与自动化快报，PP:1–1, 07 2020a. doi: 10.1109/LRA.2020.3007421.
Liu, W., Caruso, D., Ilg, E., Dong, J., Mourikis, A. I., Daniilidis, K., Kumar, V., 和 Engel, J. Tlio: 紧密学习惯性里程计。IEEE机器人与自动化快报，5(4):5653–5660, 2020b.
Maddern, W., Pascoe, G., Linegar, C., 和 Newman, P. 1年，1000公里：牛津机器人汽车数据集。国际机器人研究杂志，36(1):3–15, 2017.
Mathieu, J. L., Koch, S., 和 Callaway, D. S. 用于管理实时能量不平衡的电力负荷状态估计和控制。IEEE电力系统交易，28(1):430–440, 
 您好！以下是您提供的参考文献列表的中文翻译：

HiSS: 分层状态空间模型
Stetco, A., Dinmohammadi, F., Zhao, X., Robu, V., Flynn, D., Barnes, M., Keane, J., and Nenadic, G. 风力涡轮机状态监测的机器学习方法：综述。可再生能源，133:620–635, 2019.

Sun, P., Kretzschmar, H., Dotiwalla, X., Chouard, A., Patnaik, V., Tsui, P., Guo, J., Zhou, Y., Chai, Y., Caine, B., et al. 自动驾驶感知的可扩展性：Waymo开放数据集。在IEEE/CVF计算机视觉与模式识别会议论文集，pp. 2446–2454, 2020.

Sutton, R. S., Precup, D., and Singh, S. 在MDPs和半MDPs之间：强化学习中的时间抽象框架。人工智能，112(1-2): 181–211, 1999.

Thu, N. T. H. and Han, D. S. Hihar: 基于可穿戴传感器的人类活动识别的分层混合深度学习架构。IEEE Access，9:145271–145281, 2021.

Tomo, T. P., Regoli, M., Schmitz, A., Natale, L., Kristanto, H., Somlor, S., Jamone, L., Metta, G., and Sugano, S. 为uskin设计的新型硅胶结构——一种柔软、分布式、数字3轴皮肤传感器及其在仿人机器人icub上的集成。IEEE机器人与自动化快报，3(3): 2584–2591, 2018.

Trumble, M., Gilbert, A., Malleson, C., Hilton, A., and Collomosse, J. Total capture: 结合视频和惯性传感器的3D人体姿态估计。在第28届英国机器视觉会议论文集，pp. 1–13, 2017.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. 注意力就是一切。神经信息处理系统进展，30, 2017.

Wagner, P., Strodthoff, N., Bousseljot, R.-D., Kreiseler, D., Lunze, F. I., Samek, W., and Schaeffter, T. Ptb-xl，一个大型公开可用的心电图数据集。科学数据，7(1):154, 2020.

Warden, P. 语音命令：有限词汇语音识别数据集。arXiv预印本 arXiv:1804.03209, 2018.

Welch, G., Bishop, G., et al. 卡尔曼滤波器简介。1995.

Yan, H., Shan, Q., and Furukawa, Y. Ridi: 鲁棒的IMU双积分。在欧洲计算机视觉会议(ECCV)论文集，pp. 621–636, 2018.

You, J., Wang, Y., Pal, A., Eksombatchai, P., Rosenburg, C., and Leskovec, J. 动态推荐系统的分层时间卷积网络。在万维网会议，pp. 2236–2246, 2019.

Yuan, W., Dong, S., and Adelson, E. H. Gelsight: 高分辨率机器人触觉传感器用于估计几何形状和力。传感器，17(12):2762, 2017.

请注意，这些翻译是基于您提供的参考文献列表的直接翻译，可能需要根据具体领域的专业术语进行调整。
 HiSS：分层状态空间模型
A. ReSkin制造细节
ReSkin通过测量其X、Y和Z坐标系统中的磁通量变化来检测变化，这基于嵌入在弹性体基质中的磁性微粒与附近磁力计之间的相对距离变化。使用磁性微粒使得在形状和尺寸上具有自由度，以塑造皮肤。在我们这里的应用案例中，我们使用了厚度为2mm的皮肤。本节进一步详细介绍了我们用于ReSkin的传感器化夹爪尖端的完整制造过程：在Kinova JACO臂设置上的OnRobot Gripper（见图5）。

A.1. 电路
ReSkin传感器的数据通过USB流传输到计算机。两个传感器连接到一个I2C多路复用器，然后连接到一个Adafruit QT Py微控制器，如Bhirangi等人（2021）所述。见图5。

图5. 电路

A.2. OnRobot夹爪尖端
皮肤通过硅胶粘合剂固定在3D打印的夹爪尖端，如图6所示。尖端的尺寸为32mm×30mm×2mm。相同的尖端还容纳了柔性PCB板，用于测量所有3轴的磁通量变化。

图6. 带有ReSkin的夹爪尖端

B. 模型架构和训练
B.1. 平坦架构
在这项工作中展示的每个平坦序列模型中，输入序列首先通过线性层嵌入到隐藏状态序列中。然后，这个隐藏状态被传递到相应的序列模型。序列模型的输出（LSTM、S4和Mamba的隐藏状态）随后被映射到期望的输出空间。

B.2. 分层架构
分层模型是通过简单地将两个平坦模型堆叠在一起获得的。输入序列首先按照5.2节所述分成等大小的块。每个块通过低级序列模型，然后对应于每个块最后一个时间步的输出被连接起来形成块特征序列。这个序列通过高级序列模型以获得输出序列。
 HiSS：分层状态空间模型
B.3. 超参数
所有模型都在恒定的学习率1e-3下训练了600个周期。发现学习率调度器并没有显著提高性能。表4包含了用于训练论文中提出的扁平模型的超参数范围。我们并没有对每个任务遍历所有这些超参数。根据任务的输入和输出维度，以及表现最好的模型，我们为每个任务选择了这些参数的一个子集。每个实验的确切超参数可以在Github仓库中找到。对于任何给定的任务，我们确保遍历所有模型类别的模型具有相同数量级的学习参数。

LSTM Transformer S4 Mamba
输入大小
16, 32, 64, 128, 256模型维度
32, 64, 128, 256, 512模型维度
32, 64, 128, 256, 512
LSTM隐藏层大小
256, 512, 1024头数
2, 4
层数
2层数
4, 6层数
4, 6层数
4, 6

Dropout
0.0, 0.1Dropout
0.0, 0.1Dropout
0.0, 0.1

表4. 平坦架构的超参数

对于分层模型，我们使用表4中列出的参数的一个较小子集来遍历高级模型。用于低级模型的参数范围在表5中列出。每个实验的确切超参数可以在Github仓库中找到。

LSTM S4 Mamba
输入大小
16, 32, 64模型维度
16, 32, 64, 128, 256模型维度
16, 32, 64, 128, 256
LSTM隐藏层大小
16, 32, 64, 128, 256
层数
1层数
4, 6层数
3, 4

表5. 分层架构中使用的低级模型的超参数
 HiSS：分层状态空间模型
C. 实验设置和数据收集细节
图7. 标记写作帧（顶部）：夹爪尖端握住标记笔，然后在序列开始前将其与纸张接触。
机械臂操纵标记笔在纸张上执行八个笔画。内在滑动帧（中间）：夹爪尖端握住盒子开始序列，并以不同的方向在机器人工作空间内滑动。操纵杆控制帧（底部）：序列开始后，手握住操纵杆，通过各种位置控制其运动。
C.1. ReSkin：Kinova JACO臂上的Onrobot Gripper
C.1.1. 标记写作
在这个实验中，我们首先以300 N的力在任意位置抓住标记笔，然后将其与纸张接触。
然后开始记录数据，并命令机器人顺序移动到10×10cm²工作空间内的8-12个随机采样位置，在纸上进行直线笔画。图7展示了这个数据集的一个样本序列。
我们注意到，在笔画过程中，被抓取的标记笔有时会发生方向漂移，这增加了信号的复杂性。我们记录了总共1000条轨迹，每条轨迹持续15-30秒，包括2种不同颜色的标记笔。
这里的预测任务是根据触觉信号预测笔画速度（δx/δt,δy/δt），从而重建整体轨迹。

C.1.2. 内在滑动
在4.1.2节中，我们概述了通过总共1000条轨迹收集数据的方法。这涉及到使用10个不同的盒子和4组皮肤，每对组合进行25条轨迹的采样。我们首先在任务工作空间内随机采样一个位置和方向。然后，我们以50-75 N范围内随机采样的力关闭夹爪，然后开始记录数据。夹爪抓住盒子后，我们顺序均匀采样8-12个位置，从而在机器人工作空间内滑动。图7展示了这个数据集的一个样本序列。工作空间是盒子的上部区域，其尺寸为Box Length x Tip Size(3cm)，如图9所示。我们将手腕旋转限制在[- π/4,π/4]范围内，使得夹爪尖端（尖端中心）的整体局部采样范围为Y:[0, box length]，Z:[0, tip size]，θ:[-π/4,π/4]。
 "HiSS: 分层状态空间模型
图8. 数据集中的盒子
图9. 盒子上的末端执行器工作空间与局部坐标系
15"
 HiSS（层次化状态空间模型）：Bhirangi等人（2021年）研究了ReSkin传感器模型在训练分布之外的皮肤上的泛化能力，但这些实验仅限于单帧、静态数据。在这里，我们为序列到序列预测问题收集了一个类似的数据集。为了避免混淆效应，本文提供的评估基于该数据集的随机划分。然而，我们收集并发布了额外的100个轨迹，这些轨迹在一个未见过的盒子和一组未见过的皮肤上进行测试，以测试训练模型的泛化能力。实验中使用的所有盒子的尺寸详见下文。见表6和图8。

在这次实验中，除了预测末端执行器的线性速度外，我们还预测了手腕/末端执行器旋转的角速度（δx/δt, δy/δt, δθ/δt）。

盒子编号 尺寸（长 x 高 x 宽 cm）
1 20 x 12 x 4
2 16.5 x 8.5 x 3
3 14 x 9 x 5
4 17 x 13 x 4.5
5 15 x 10 x 4.5
6 16.5 x 13 x 6
7 17 x 10 x 5.5
8 18 x 19.5 x 5.5
9 17 x 11 x 3.5
10 12 x 8 x 6.5
11（未见过的）23 x 16 x 5

表6. 数据集中盒子的尺寸

C.2. Xela：Franka Emika Panda臂上的Allegro手
C.2.1. 摇杆控制
对于最终的触觉数据集，我们远程操作一个装有Xela传感器的Allegro手，通过Franka臂与图10所示的Extreme3D Pro摇杆进行交互，该摇杆流式传输的数据包括6个旋转轴（X, Y, Rz, Throttle, Hat0X, Hat0Y）和12个按钮（扳机，2个拇指按钮，2个顶部按钮，1个小指按钮和6个基座按钮）。与之前的数据集不同，这个数据集由于人类交互控制的无结构性而增加了复杂性。图7展示了这个数据集的一个样本序列。由于臂的工作空间和手指尺寸的限制，我们专注于预测任务的3个轴 - X, Y和Z-twist。根据Xela传感器的读数，我们预测摇杆的感兴趣状态。

图10. Extreme3D Pro摇杆 & 坐标系统
 HiSS：层次化状态空间模型
D. 消融实验
D.1. 数据预处理
在本节中，我们提供了第6.4节实验的更详细表格。表7包含了分别应用3阶巴特沃斯滤波器到输入序列的结果，截止频率分别为0.75Hz、2.5Hz和7.5Hz。对于每种设置，我们选择了对应于最佳性能的截止频率的模型集合，并报告了3个种子的平均性能。
表7. 在CSP-Bench上，通过低通滤波器传递输入序列时，平坦模型和HiSS模型的MSE预测损失比较。报告的数字是最佳性能模型的平均值，平均了5个种子。MW：标记写作，IS：内在滑动，JC：摇杆控制，TC：全捕捉
模型类型 模型架构 MW BS JC RoNIN VECTor TC
(cm/s) (m/s) (m/s) (m/s)
FlatTransformer 1.7940 0.3096 1.0080 - 0.0346 0.3845
LSTM 1.1498 0.2596 1.0770 0.0382 0.0242 0.1234
S4 1.1885 0.2209 0.9449 0.0305 0.0228 0.2467
Mamba 0.7823 0.1367 0.9459 0.0297 0.0188 0.1661
高级 低级
HierarchicalTransformerLSTM 1.0052 0.1883 0.9074 0.0532 0.0284 0.2314
S4 0.6703 0.1249 0.8652 0.0434 0.0260 0.2908
Mamba 0.8912 0.1251 0.8731 0.0435 0.0243 0.3118
LSTMLSTM 0.8063 0.2434 1.0500 0.0430 0.0272 0.1754
S4 0.6462 0.1477 0.9885 0.0419 0.0288 0.1968
Mamba 0.7515 0.1657 1.0080 0.0420 0.0234 0.1755
S4LSTM 0.8525 0.1390 0.9269 0.0306 0.0272 0.1905
S4 0.6667 0.1221 0.9296 0.0377 0.0222 0.2284
Mamba 0.7825 0.1180 0.8898 0.0396 0.0207 0.2527
MambaLSTM 0.8143 0.1308 0.9660 0.0369 0.0255 0.1594
S4 0.5535 0.1074 0.8665 0.0362 0.0272 0.1301
Mamba 1.5657 0.1057 0.8765 0.0367 0.0212 0.1466

D.2. 更小的数据集
在本节中，我们提供了第6.5节实验的更详细表格。表8包含了训练数据集的子采样结果——MW、IS、JC和RoNIN的数据集为30%，VECtor和TotalCapture的数据集为50%。
我们发现，当在训练数据集的一部分上训练时，HiSS在CSP-Bench上的任务中始终优于平坦模型，这表明HiSS模型的样本效率。
 HiSS: 分层状态空间模型
表8. 在使用训练数据集的一部分时，平坦模型和HiSS模型在CSP-Bench上的MSE预测损失比较。
报告的数字是基于表现最佳的模型，平均了5个种子的结果。MW: 标记书写，IS: 内在滑动，JC: 操纵杆控制，TC: TotalCapture
模型类型 模型架构 MW IS JC RoNIN VECTor TC
(cm/s) (m/s) (m/s) (m/s)
(部分) 0.3 0.3 0.3 0.3 0.5 0.5
FlatTransformer 4.2975 0.8509 1.2370 - 0.0460 0.5430
LSTM 1.8322 0.5376 1.3130 0.0533 0.0390 0.3855
S4 2.3070 0.4450 1.1970 0.0431 0.0379 0.4338
Mamba 1.7443 0.3677 1.1950 0.0394 0.0358 0.4838
高级 低级
分层S4LSTM 1.5417 0.3428 1.2350 0.0387 0.0331 0.3982
S4 1.5460 0.2931 1.1260 0.0346 0.0337 0.3992
Mamba 2.3302 0.3760 1.1060 0.0412 0.0326 0.4913
MambaLSTM 1.5810 0.3478 1.2410 0.0362 0.0309 0.3530
S4 1.2600 0.2883 1.1370 0.0378 0.0333 0.3675
Mamba 1.7508 0.3688 1.1140 0.0383 0.0286 0.4320
E. TotalCapture预处理
这个数据集提供了来自12个IMU传感器的读数和从Vicon运动捕捉系统获得的21个关节的真实姿态。为了在一致的坐标系统中标准化数据，我们将所有IMU传感器读数从其本地IMU框架转换到Vicon框架。我们的任务是根据Vicon参考框架中的IMU加速度数据预测21个关节的速度。
为了将IMU加速度数据转换到Vicon框架，我们利用了名为<subject id><sequence name> calib imuref.txt和<sequence name> Xsens AuxFields.sensors的文件中提供的校准结果。每个IMU传感器在Vicon框架中的加速度计算如下：
avicon=Rvicon
inertialRinertial
imuaimu, (1)
其中Rinertial
imu是从<sequence name> Xsens AuxFields.sensors文件中提供的IMU本地方向四元数（w, x, y, z）转换而来的旋转矩阵。这个四元数代表了IMU在惯性参考框架中的方向。
此外，Rvicon
inertial是通过转换<subject id><sequence name> calib imuref.txt文件中可用的四元数信息（<imu name> x y z w）得到的，它包含了从惯性框架到Vicon全局框架的转换。