1.微乐陕西三代这款游戏可以开挂,确实是有挂的,通过添加客服微信【6355786】
2.在"设置DD功能DD微信手麻工具"里.点击"开启".
3.打开工具加微信【6355786】.在"设置DD新消息提醒"里.前两个选项"设置"和"连接软件"均勾选"开启"(好多人就是这一步忘记做了)
定州新闻网版权所有 本站点信息未经允许不得复制或镜像 www.dingzhoudaily.com copyright ? 2003 - 2020 Planning with tensor networks based on active inference https://iopscience.iop.org/article/10.1088/2632-2153/ad7571/pdf https://github.com/SWauthier/aif-mps 张量网络(TNs)近年来在应用方面不断增加。尽管它们最初是为模拟多体量子系统而开发的,但其应用范围已经扩展到机器学习领域。本研究通过将矩阵乘积态(MPS)的生成建模能力与主动推理提供的动作选择算法相结合,进一步拓展了张量网络的应用范围,专注于规划任务。矩阵乘积态能够应对维度灾难、表示概率分布,并动态发现隐藏变量,这使得其成为主动推理中生成模型的有趣选择,因为主动推理依赖于对环境中隐藏状态的“信念”。我们在T型迷宫和冻结湖环境中评估了我们的方法,并展示了基于张量网络的智能体在主动推理下如预期般以贝叶斯最优的方式行动。 关键词:主动推理、生成建模、规划、张量网络、矩阵乘积态 张量网络(TNs)最初是为了表示多体量子物理中的量子态而开发的 [10, 14, 50, 52, 71],最近逐渐进入计算机科学 [53] 和机器学习(ML)领域 [73]。因此,TNs 在机器学习中的应用范围正在稳步扩大。Wang 等人 [73] 对过去使用 TNs 进行机器学习的研究进行了全面总结。例如,Stoudenmire 和 Schwab [65] 以及 Cheng 等人 [9] 以监督学习的方式训练 TNs,用于对手写数字数据集(MNIST)进行分类 [40]。此外,不同类型的 TNs 已被用于 MNIST 数据集的生成建模,例如矩阵乘积态(MPS),也称为张量链(TT)[29, 66]、树张量网络(TTN)[8] 和投影纠缠对态(PEPS)[72]。 与当前工作更相关的是,Guo 等人 [27] 研究了矩阵乘积算子(MPOs)在概率建模中的应用,而 Stokes 和 Terilla [64] 则研究了 MPS 在相同目的中的应用。类似地,Glasser 等人 [25] 研究了如何将图模型映射到广义 TNs,并通过在图像和音频分类任务中使用纠缠板块态(EPS)和字符串键态(SBS)进行了演示。Mencia Uranga 和 Lamacraft [47] 使用连续 MPS 对原始音频进行生成建模。与此同时,Miller 等人 [49] 使用均匀 MPS 对文本数据进行生成建模。此外,Hur 等人 [35] 提出了一种通过张量草图使用 MPS 进行生成建模的方法,而 Peng 等人 [55] 将这种方法扩展到分层 TNs。 在强化学习(RL)中,Liu 和 Fang [44] 使用 MPS 进行变分 Q 学习。Gillman 等人 [22] 和 Howard [34] 展示了类似的 TNs 方法用于有限马尔可夫决策过程(FMDP)的策略优化,其中后者还展示了其在多智能体 RL 中的价值。类似地,Mahajan 等人 [46] 提供了多智能体 RL 中贝尔曼方程的张量化公式。Metz 和 Bukov [48] 使用 MPS 基于 RL 控制多体量子系统,类似于 Lu 和 Ran [45] 的工作。此外,Gillman 等人 [23] 提供了一种将 TNs 与演员-评论家技术相结合的方法。最后,尽管这项工作主要位于 AI 规划领域,但它通过基于主动推理的动作-观察序列的概率建模与早期工作区分开来,而不是学习某种 RL 策略。 在机器学习中使用张量网络(TNs)可能有几个有趣的原因。首先,TNs 是为了应对多体量子系统中的维度灾难而开发的,其中量子态由一个具有与粒子数量相同数量指标的张量表示。因此,自由度数量随着粒子数量呈指数增长。TNs 通过将指数级大的空间限制为满足“纠缠面积定律”的微小状态流形来解决这个问题。这可以理解为系统中纠缠的局部性,其中“典型”状态将具有体积定律的纠缠 [31],并且没有局部性的概念。特别是对于 MPS,已经证明它们描述了一维局部有隙 Hermitian 算子的极值特征向量 [2–4, 30, 60],并且它们还被证明能够有效地捕捉低能物理 [28, 68, 78]。此外,已经证明局部相关性(即指数衰减)在任何维度中都暗示了这样的面积定律 [5],因此在这种情况下允许高效的 TN 描述。这种状态也可能对机器学习有用,因为相关数据点通常包含在配置空间的较小子空间中,其中相关性的类型受到限制。例如,在计算机视觉中,由随机生成的像素组成的图像通常对分类或分割算法没有用处。相反,人们会期望附近的像素高度相关,而远处的像素相关性较弱。类似地,在规划中,只有物理上可能的序列是相关的,特别是遥远过去的事件通常对规划未来的影响远小于最近过去的事件。 其他优势在于 TNs 提供了数据集的分布式表示,并且仅涉及线性操作。因此,计算可以轻松并行进行。此外,关于 TNs 的表达能力 [26, 37] 和可解释性 [1, 57, 67] 的研究很多,与神经网络相比,TNs 的理解相对较好。事实上,TNs 经常被用来表征神经网络 [7, 11, 24, 37, 61]。我们还注意到,MPS 可以用于研究马尔可夫决策问题 [63]。 尽管有理论上的优势,TNs 在机器学习中的使用相对较新,许多算法仍然存在初期问题。正如 Liu 等人 [43] 所指出的,基于 TN 的模型在实践中通常无法达到基于神经网络模型的最先进性能。许多使用 TNs 进行机器学习的研究可以被视为概念验证工作,并使用简单的基准(如用于分类的 MNIST)进行验证。 然而,由于 TNs 已经被证明能够以文本形式建模序列 [49],它们也可能在由动作和观察组成的序列的 AI 规划领域中有用 [74]。正如本工作所示,将 TNs 与主动推理结合可以产生一种直接的规划算法。 主动推理是神经科学中行为和学习的一种理论,其中自主代理被假定为学习世界的生成模型,并通过最小化称为变分自由能的量来选择动作 [20]。代理对其所处环境的信念以动作和观察的概率形式编码在这个生成模型中。代理的下一个动作是预期在未来产生最低变分自由能的动作。Parr 等人 [54] 提供了关于主动推理及其公式的深入阐述。 张量网络(TNs)作为主动推理中的生成模型具有天然的优势,原因如下。首先,类似于之前提到的张量网络能够解决机器学习中的维度灾难问题,这一优势同样适用于主动推理。张量网络中的局部相关性类似于环境中允许的动作-观察序列,其中人们通常认为时间上相隔较远的动作和观察之间只存在较弱的相关性。在主动推理中,动作-观察序列仅占据整个动作-观察空间的一部分,且相关性的强度通常取决于时间上的间隔。其次,张量网络最初是为了表示量子态而开发的,量子态代表了对量子系统的认知,而量子测量本质上是概率性的。类似地,主动推理智能体对世界的内在模型包含了智能体对其环境的认知,这些认知以信念的形式存在,通常由概率分布表示。第三,张量网络中的参数数量可以在训练过程中根据信息需求动态确定。这种能力类似于动态发现潜在变量,对于计算资源有限的自主体来说尤其有价值。这可以与生物智能体在睡眠期间通过修剪连接来最小化统计复杂性的过程相类比[21, 33, 41]。最后,有研究表明,细胞的信息处理可能需要量子相干性[17, 59],最近的实验证据也表明,大脑功能介导的纠缠现象可能存在于大脑中[36]。这意味着生物系统中的控制模型(即负责规划的模型)必须支持量子计算的可能性[15]。张量网络天然具备处理这一需求的能力。此外,研究还表明,在某些系统中,主动推理中的控制模型总是可以表示为张量网络[15, 16]。 尽管张量网络(TNs)已被证明能够建模序列,但生成序列和规划最优路径是两个截然不同的任务。虽然张量网络可能能够生成与环境一致的路径,但没有任何一条路径能够保证是最佳的。主动推理(Active inference)可以确保路径在智能体的信念体系内是最优的[54]。 本文为机器学习领域中使用张量网络的研究做出了贡献。特别是,我们首次利用矩阵乘积态(MPS)建模序列的能力以及主动推理提供的动作选择算法,来实现基于张量网络的AI规划。从机器学习的角度来看,这构成了一种基于模型的学习和规划方法。反过来,从主动推理的角度来看,这相当于通过张量网络来建模智能体的生成模型。此外,我们引入了一种更新方案,该方案交替使用单点更新和双点更新,并允许动态调整键维数,同时避免键维数爆炸以及加速计算。 在第2节中,我们介绍了构成这项工作的基本概念,包括矩阵乘积态(第2.1节)、使用张量网络进行生成建模(第2.2节)以及主动推理(第2.3节)。在第3节中,我们介绍了我们的方法。我们在第4节中展示了实验结果,并在第5节中对可扩展性、数据和探索进行了讨论。最后在第6节中,我们总结了我们的发现,并提出了未来工作的可能方向。 本质上,张量网络(TN)是个体张量的收缩,通常以图的形式表示,即一个“网络”,其中节点代表张量,边代表对某个指标的求和。这种网络可以有许多架构。流行的网络类型包括矩阵乘积态(MPS)[10, 14, 38, 39]、树状张量网络(TTN)[52, 62],它们在图形表示中没有环路,因此可以像MPS一样相对容易地处理,以及投影纠缠对态(PEPS)[10, 52, 70],它们是为二维量子系统设计的张量网络,因此其图形表示也是明显的二维结构(见图1)。特别是,PEPS中的环路使它们在处理上更具挑战性。 可以说,最简单的张量网络形式是矩阵乘积态(MPS),也被称为张量列(TT)[56]。简单来说,MPS是将一个具有N个指标的张量分解为N个较小阶数的张量的结果。例如,一个具有四个指标的张量Tabcd可以被分解为四个张量: 指标 αi,被称为键指标,是网络内部的。键指标的维度,即键维数,必须足够大,以使方程(2)中的等式成立。为了使MPS能够精确表示具有 Nd-维指标的任意张量,网络中心的键必须具有 的维度 [18]。在实际应用中,键会被截断 [13],因此上述等式可能只近似成立。因此,键维数是超参数,可以根据状态中存在的纠缠程度来选择。需要注意的是,只有在该近似能够高效且准确的情况下,才应该使用MPS,即在可以预期存在面积律纠缠的情况下 [12]。 2.2 使用张量网络进行生成建模 生成模型是对一组随机变量 的联合概率分布 P(X) 的统计建模。这种模型可以通过从分布中采样来生成结果。此外,它还允许通过执行适当的求和来计算边缘概率和条件概率。 正如前面所述,量子态可以被视为表示一个系统的知识。换句话说,它们代表在对系统进行测量后观察到某一特定结果的概率。这种量子态可以通过定义在一组实变量 上的波函数 Ψ(x) 来数学描述。从这里出发,根据波恩规则,观察到 x 的概率由下式给出: 给定一个数据集,可以通过类似于密度矩阵重整化群(DMRG)[75, 77] 的方法对矩阵乘积态(MPS)进行训练,通过在MPS上来回“扫描”,根据给定的损失函数依次更新张量。由于我们的张量网络将作为生成模型,我们最小化负对数似然(NLL),即直接最大化模型证据 [29]。通过这种方式,网络将在训练过程中尝试学习数据集的底层概率分布。 更新张量元素的一种可能方法是执行单点更新,即一次更新一个张量。例如,从最左边的张量开始,计算损失函数的梯度并更新张量元素。然后,移动到相邻的张量并重复操作。到达最右边的张量后,以相反的方向进行相同的操作。继续来回扫描,直到收敛。 作为另一种选择,Stoudenmire和Schwab [65] 描述了一种双点更新方案,即同时更新两个张量。关键在于,这允许键维数在训练过程中根据数据集中信息所需的维度数量而变化。换句话说,MPS中的参数数量可以在训练过程中变化。简而言之,通过奇异值分解(SVD)合并和分解相邻张量,可以根据奇异值的数量增加或减少键维数。截止值 ε 决定了将保留的奇异值的数量(见 [65])。大于最大奇异值的 ε 倍的奇异值将被保留,其余的将被丢弃。因此,键维数通常从一个较低的数值初始化,这样张量网络一开始具有较少的参数,并根据所需的维度数量进行扩展。 正如Han等人 [29] 所描述的,可以使用上述公式获得不同的边缘概率和条件概率。 主动推理假设每个自主智能体都配备了一个内部世界模型,即一个生成模型 P,用于描述感官观察是如何产生的,该模型编码了关于这些感官观察 ot、隐藏变量 st 以及它正在遵循的策略 π 的信念 [54]。重要的是,策略返回的是一个作为时间函数的动作,a=π(t),这与标准表述不同,在标准表述中,策略是状态的函数,a=π(s)[20]。因此,也可以将策略写成一系列动作 at。 主动推理智能体通过更新其内部模型或选择动作来尝试最小化其惊讶度,也称为信息量或自信息 [54]。 其中 是后验分布 的一个近似,不要与强化学习中常用的具有类似符号的 Q 函数混淆。使用近似 Q 的动机在于,证据 以及因此得到的后验分布 通常是难以计算的,因为需要对生成模型在 s~ 和 π 上进行边缘化。需要注意的是,变分自由能(公式(9))是惊讶度(公式(6))的上界,当散度为零,即 时,变分自由能等于惊讶度。 主动推理智能体选择预期在未来能够最小化其自由能的动作。为此,智能体维护一个先验 ,该先验指定了它希望体验的条件,即其偏好的观察结果。这里,C 表示智能体的偏好。动作选择通过计算所有可能策略的预期变分自由能来进行。 主动推理智能体选择预期在未来能够最小化其自由能的动作。为此,智能体维护一个先验 ,该先验指定了它希望体验的条件,即其偏好的观察结果。这里,C 表示智能体的偏好。动作选择通过计算所有可能策略的预期变分自由能来进行 [54]。 3.2 更新矩阵乘积态(MPS) 在第2.2节中提到的两种更新方法都是可行的,可以互换使用,或者同时使用(通过在两者之间交替)。然而,本文中所有模型都是通过批量随机梯度下降(SGD)进行优化的。这是为了适应未来应用场景中数据集过大而无法一次性全部加载到内存中的情况。需要注意的是,这与DMRG(密度矩阵重整化群)有所不同,尽管实现上有很大的重叠。SGD更新可预测地会导致比DMRG更新(涉及特征值问题)更慢且更嘈杂的收敛,这必须被考虑进去。 事实上,在使用SGD进行双点更新时,允许键维数持续变化可能会对训练稳定性产生不利影响。在随机方向上进行步骤可能会导致键维数在每一步都发生变化。反过来,如果键维数不断改变大小,模型可能会在泛化上遇到困难。例如,想象一个刚刚初始化且尚未学习的模型。如果从训练开始就允许键维数变化,模型可以自由地为新数据添加新维度,而无需先进行泛化。在具有大量批次的训练设置中,这可能导致键维数迅速增加。虽然理论上,随着时间的推移,模型将学会泛化并自我修正,但在实践中,较大的键维数可能会导致计算问题。在这种情况下,尝试在需要时即时泛化并添加维度可能是一个好主意。虽然可以设置键维数的上限,但对于一般环境来说,很难预测所需的维度数量,即所需的键维数高度依赖于具体应用。因此,设置一个非限制性的上限也可能很困难。尽管在本文中使用的环境中没有出现这个问题,但在一般情况下应该考虑这一点。 解决这个问题的一个简单方法是执行单点更新,并且只偶尔执行双点更新(例如,当当前配置或多或少已经收敛时)。作为实际操作,我们建议将初始键维数设置为一个接近预期键维数最终值的数字,这样在最终阶段所需的键维数变化就会更少。在本文中,我们将初始键维数设置为观察维度,因为我们预计键会优先编码关于位置的信息,而不是动作。 作为一种额外的好处,使用单点更新可以减少训练时间 [76]。双点更新需要合并和分解相邻的张量。这实际上意味着在一个位置上将局部物理维度平方。尽管在量子多体环境中局部维度通常较小(对于量子比特和量子三态分别为2或3),但与单点方案相比,复杂度只会增加一个小的预因子。在本文的背景下,它可能会显著增大,从而导致在合并张量的奇异值分解(SVD)中可以明显感知到的计算复杂度的巨大差异。作为参考,对单个张量进行SVD的时间复杂度为 ,而对合并后的张量进行SVD的时间复杂度为,其中 d 是局部维度,D 是键维数。 3.3 基于矩阵乘积态(MPS)的主动推理 使用矩阵乘积态(MPS),可以使智能体直接最小化惊讶度(公式(6)),而不是通过变分贝叶斯方法。这是因为当使用MPS时,由于高效的收缩方案,边缘概率变得可计算。因此,智能体将选择能够最小化其预期惊讶度的动作。 在实际应用中,为每种可能的策略计算预期惊讶度在计算上是昂贵的。使用复杂的推理方案可以在一定程度上缓解这一问题。由于该方案在未来的动作和观察上构建了一棵树,因此其计算量比贪婪地计算每种可能序列的预期惊讶度要少得多。此外,当分支显示出高预期惊讶度的迹象,或者转移概率 较低时,可以在完全计算之前剪枝。 复杂的推理通过计算时间 t 每种可能动作的聚合预期惊讶度,而不是每种策略的预期惊讶度来实现。聚合是通过将后续动作的预期惊讶度相加,并根据每个动作的预期惊讶度进行加权来实现的,具体如下: 关于如何从训练好的矩阵乘积态(MPS)中获得相关概率的详细信息,可以在附录中找到。 在前几节中描述的方法在具有离散动作和观察的环境中进行了测试。对于主动推理来说,一个简单但重要的环境是T形迷宫,由Friston等人 [20] 提出。这种环境测试智能体是否能够解决歧义以确保获得奖励,而不是通过猜测而只有一部分时间获得奖励。它有助于展示通过主动推理进行动作选择的工作原理。 一个稍微复杂一些的环境是OpenAI Gym [6] 中的“冰冻湖”环境。这个环境具有更大的观察空间,并且理论上具有无限的时间范围。我们使用它来研究我们的方法如何扩展到更复杂的环境。 T形迷宫环境由一个T形迷宫组成,其中包含一个智能体,例如一只老鼠,以及一个奖励,例如一块奶酪(见图3)。迷宫由四个位置组成:中心、右分支、左分支和提示位置。智能体从中心位置开始,必须尝试通过在不同位置之间移动来获取放置在左分支或右分支中的奖励。如果智能体进入左分支或右分支中的任何一个,它将被陷阱困住,无法离开。不幸的是,对于智能体来说,世界的初始状态是不确定的。因此,智能体最初不知道它处于哪种世界:奖励在左分支的世界,还是奖励在右分支的世界。换句话说,它不知道自己的上下文。然而,通过前往提示位置,智能体可以发现奖励的位置并观察其上下文。这解决了环境中的歧义,使智能体能够选择包含奖励的分支。 pymdp [32] 包提供了一个T形迷宫的实现。在这个实现中,环境在每个时间步提供三种模态的观察:位置、奖励和上下文。位置指示智能体当前所在的位置,可以是四个可能值之一:中心、右、左和提示。奖励可以取三个可能的值:无奖励、获胜和失败。“获胜”和“失败”的观察分别表示智能体获得了奖励或未能获得奖励,而“无奖励”的观察表示智能体尚未获胜或失败。因此,“无奖励”只能在中心和提示位置观察到,而“获胜”和“失败”只能在左分支和右分支中观察到。此外,上下文指示世界的状态,可以取两个可能的值:左和右。每当智能体位于“中心”、“左”或“右”位置时,上下文观察将从“左”或“右”中均匀随机选择。只有当智能体处于提示位置时,上下文观察才会以1的概率给出正确的上下文。最后,智能体可以采取的可能动作包括:中心、右、左和提示,分别对应智能体想要去的位置。 上述实现经过了轻微修改,以更好地反映Friston等人 [20] 设计的环境。首先,环境的时间范围被设置为2,这意味着智能体只允许执行两个连续的动作。换句话说,步数被限制为两步。 为了适应T形迷宫环境,模型(公式(12))在时间上被限制如下: 其中网络的长度等于初始时间步加上环境的时间范围。在这里,独热编码被选为特征映射。这意味着观察特征映射 ot 具有 4×3×2=24 个维度,分别对应位置、奖励和上下文的每种可能组合,而动作特征映射 at 具有4个维度。需要注意的是,这个网络只有两个键,它们的维度在训练过程中会发生变化。 上述模型依赖于一些超参数。首先,可能会影响模型性能的重要因素包括截止值 ε 和数据集。 比较了键的奇异值的8个不同截止值 ε:0.2、0.1、0.05、0.04、0.03、0.02、0.01 和 0.005。 在本实验中使用的数据集由样本轨迹组成。比较了五种不同类型的数据集: 四个随机生成的数据集,大小分别为100、204、1000和10000,其中每个序列由随机动作和观察组成。这些数据集是为每个模型重新生成的。需要注意的是,数据中可能存在重复项。 一个经过设计的数据集,其中包含环境中所有可能的序列,且每个序列恰好出现一次。该数据集包含恰好204个序列。在图表中用“(204)”表示。 由于它们各自的大小,1000和10000大小的数据集将包含许多重复项。然而,它们也更有可能捕捉到生成过程的底层概率分布。 重要的是,每个模型总共进行了50000次扫描,每次扫描的批量大小为100,学习率为 。在实际应用中,对于大小为100、204、1000和10000的数据集,这分别相当于50000、25000、5000和500个训练周期(epochs)。 最后,我们评估了不同的初始化策略,更具体地说是用具有正实部的复数进行初始化,以及用标准复高斯噪声初始化为单位值。尽管这些策略在训练时对收敛行为有一定影响,但对最终结果没有影响。 为了评估每个模型的性能,我们使用第3.3节中介绍的动作选择方案,在100次运行中测量成功率。偏好的分布 P(ot∣C) 对于每个 t 保持不变,并且分解为对三种模态的偏好分布:位置、奖励和上下文。从技术上讲,超参数 C 可以自由选择或学习 [58]。由于权重的选择本身就是一个研究问题,我们简单地选择了一组适用于我们目的的权重。在这里,获胜和失败的权重被固定为 [20] 中的值: 之前的研究 [74] 展示了在使用仅双点更新的情况下,通过在经过设计的数据集上进行训练,并设置截止值为0.1时,复杂主动推理(公式(11))下的信念变化和动作选择。在本节中,我们深入研究了不同超参数(参见第4.1.2节)下的性能,展示了在第3.3节中提到的惊讶度最小化方案下的信念变化和动作选择,并研究了使用单点更新时的性能。 我们首先展示仅使用双点更新且不使用单点更新训练模型时的性能。图4(a)显示了20个模型获得的平均成功率。误差条表示通过自助法(bootstrapping)计算的模型间95%置信区间。该图表明,较小的截止值 ε 导致更高的成功率。确实,我们期望具有较小截止值的模型保留更多信息。此外,小的随机生成的数据集导致即使在较小的截止值下成功率也较低。这可能是因为小的随机生成的数据集没有包含足够的样本以完全捕捉环境的动态。因此,这些模型从未学会能够确定性地导致奖励的有用动态。需要注意的是,(小的)经过设计的数据集遵循较大数据集的一般趋势,并且在较小的截止值下确实达到了100%的成功率。这一趋势在后续实验中一直持续。 模型捕捉数据底层分布的能力可以通过似然度来评估。出现在数据集中的数据点应该具有高似然度,而不在数据集中的数据点应该具有低似然度。因此,模型对所有可能的数据点(在这种情况下,是序列)的平均似然度应该很高,或者等价地说,其负对数似然度应该很低。图4(b)显示了对所有可能序列评估的平均负对数似然度。对于这个数据集,理论最小值为 ?log(1/204)≈5.32,因为每个序列的可能性是相等的。一般来说,负对数似然度随着截止值的减小而降低。同样,对于小数据集,模型表现更差,因为小的随机生成的数据集不太可能包含所有可能的序列。此外,如果随机生成的数据集不够大,较小的截止值可能会变得有害。这可能是因为随着更多参数的可用(通过较小的截止值),模型开始过拟合。需要注意的是,基于经过设计的数据集训练的模型在较小的截止值下接近理论最小值。 同样,我们期望具有较小截止值的模型能够保留更多信息。在这种情况下,信息以参数的形式出现。从逻辑上讲,减小截止值会导致在奇异值分解(SVD)后保留更多的奇异值,这反过来又会导致模型中包含更多的参数。这种效应在图5(a)中展示了出来。 由于模型中的参数数量与键维数成正比,我们可以观察模型大小在训练过程中的变化。图5(b)展示了一个特定模型在训练过程中键维数的变化,该模型的截止值 ε=0.01,并且是基于经过设计的数据集进行训练的。键维数最初从初始值2大幅增加,因为模型在学习所有信息,随后键维数又有所下降,因为模型学会了更好地泛化。此外,键0比键1小,这表明观察 o2 包含的信息比观察 o1 更多。确实,观察 o1 始终是初始位置,而观察 o2 可以是任何位置。 当我们聚焦于一个表现良好的模型时,期望看到张量网络在看到提示之前和之后提供的概率分布发生一些变化。换句话说,期望看到主动推理智能体中的信念变化。更具体地说,虽然智能体在看到提示之前和之后都必须对自己的位置确信无疑,但在看到提示之前,它必须对将要获得的奖励不确定,而在看到提示之后则必须确定。图6展示了一个在经过设计的数据集上训练且 ε=0.01 的模型的这种信念变化。垂直轴表示下一个动作,因此每一行是一个关于下次观察的某种模态的概率分布。换句话说,每一行表明智能体对下次观察的信念,给定下一个动作。例如,在看到提示之前,智能体期望如果它执行“右”动作,它几乎肯定会进入右分支,它将获得奖励或失败,每个结果的概率大约为50%,并且它将以50%的概率观察到“右”或“左”的上下文。另一方面,在看到“右”提示之后,智能体期望如果它执行相同的动作,它几乎肯定会进入“右”分支,但它将几乎肯定会获得奖励,并且它将再次以50%的概率观察到“右”或“左”的上下文。 尽管在这个例子中上下文观察的结果可能看起来有些反直觉,但请记住,智能体只有在提示位置时才能观察到上下文。该图展示了智能体对下次观察的信念,并没有直接反映智能体对环境状态的信念。在看到提示之前,智能体相信它可以以50%的概率观察到任意上下文。当站在提示位置时,智能体知道如果它留在提示位置,它将观察到哪个上下文。当移动到另一个位置时,智能体知道它将再次以50%的概率观察到任意上下文,因为只有提示位置才能提供连贯的上下文观察。 预期惊讶度(公式(14))可以提供一些关于智能体根据公式(18)中的偏好如何行为以及它是如何获得奖励的见解。图7(a)展示了第一个动作的每个动作的预期惊讶度。由于前往提示位置的预期惊讶度最低,智能体将前往提示位置。在观察到“左”或“右”提示之后,第二个动作的每个动作的预期惊讶度现在分别如图7(b)和(c)所示。在这两种情况下,很明显智能体会选择分别前往右分支和左分支。确实,这是优化其奖励的最优动作序列,也是智能体的预期行为。 图8(a)展示了使用单点更新时获得的成功率。在这种情况下,每10个训练周期进行一次双点更新。这样,模型有9个周期用于收敛,1个周期用于调整键维数。初始键维数被设置为观察维度,即24。这些简单的改变与图4(a)相比,显著提高了较高截止值下的成功率。 图8(b)展示了使用单点更新时键维数的变化。在这种情况下,键维数在短时间内保持相对较大,直到模型学会泛化。需要注意的是,这次键维数被初始化为24,因为从仅使用双点更新的模型中已经知道键维数在开始时会迅速增长。从这个图中可以看出,与没有使用单点更新的情况相比(参见图5(b)),模型更早地学会了泛化。此外,最大的键维数也更小(在500个训练周期后为9维),而没有使用单点更新的情况下(在500个训练周期后为17维)。确实,这表明当键维数被允许不断变化时,模型在泛化方面会遇到更多困难。 默认的冰冻湖环境由一个4×4的网格组成,其中包含一个智能体(例如一个精灵)、一个奖励(例如一个礼物)以及一些冰洞(见图9(a))。智能体总是从左上角开始,并且必须到达右下角的奖励,而不能掉入冰洞。如果它掉入冰洞,它将被困住且无法离开。智能体可以一次向左、向下、向右或向上移动一步。然而,地面是滑的,因此智能体有可能沿着与预期方向垂直的方向移动。例如,如果智能体想要向下移动,它有 的概率向下移动, 的概率向左移动,以及 的概率向右移动。 对于冰冻湖环境,模型(公式(12))以类似于T形迷宫的方式进行了适应性调整。网络的最小长度被设置为初始时间步加上到达目标所需的最小步数(对于自定义环境为4,对于默认环境为6)。然而,我们还引入了一个超参数,用于控制超过该步数的额外步数,具体原因将在下一节中说明。同样,独热编码被选为特征映射。这意味着对于3×3网格,观察特征映射 ot 具有9个维度;对于4×4网格,观察特征映射 ot 具有16个维度,而动作特征映射 at 始终具有4个维度。 由于T形迷宫实验表明,较大的随机生成的数据集可以带来更好的性能,而为冰冻湖环境设计一个数据集是不可行的,因此我们在本实验中将数据集大小固定为100,096。选择这个数字是为了确保在4×4环境中随机生成的数据集包含足够多的样本,其中目标能够被成功到达。此外,这个数字是大于 105 的第一个256的倍数。每个模型都使用批量大小为256和学习率为 10?3 进行训练。 可能影响模型性能的重要因素包括截止值 ε 和矩阵乘积态(MPS)的长度。后者会影响性能,因为数据集中的序列是随机生成的。较长的序列有更大的机会到达奖励位置,这对于模型学习如何到达奖励至关重要。 比较了四个不同的截止值 ε:0.1、0.05、0.03 和 0.01。 同样,我们没有观察到初始化策略对结果的影响。 上述超参数只有少数例外情况。当训练变得过于不稳定时,学习率被降低到 。这种情况仅出现在非滑动的4×4环境中,具有特定初始化、截止值为0.1且MPS长度为9的模型上。此外,对于在滑动的4×4环境中训练的模型,数据集大小增加了大约10倍,达到1,000,192(另一个256的倍数),以便包含更多能够到达目标的样本。 为了评估每个模型的性能,我们使用第3.3节中介绍的动作选择方案来测量成功率。在这里,偏好的分布 对于每个 t 也保持不变,因此对于3×3环境(参见图9(b)) 其中 σ 是softmax函数,而 C 编码了智能体对环境中每个位置的偏好。同样,由于权重的选择本身就是一个研究问题,我们简单地选择了一组适用于我们目的的权重。在这里,与T形迷宫实验相比,权重进行了调整,因为冰冻湖环境中的位置空间比T形迷宫中的奖励空间更大,且冰冻湖的时间范围更长。权重表示智能体对掉入冰洞的恐惧(权重为?5)以及对获得奖励的渴望(权重为20)。在一次运行中,成功(智能体获得奖励)用1表示,而失败(智能体未能获得奖励)用0表示。 默认使用单点更新方法,并且每5个训练周期执行一次双点更新。仅使用双点更新会导致键维数迅速增加。这在滑动环境中尤其成问题,例如在4×4环境中,最大的键维数在单个训练周期内从2增加到超过120。训练需要非常长的训练时间且使用小批量,或者需要非常大的内存(在4×4环境中,键维数为64的256个双点梯度张量的批量需要超过68 GB)。因此,仅使用双点更新的结果将不会被报告。 4.2.3.1 非滑动的3×3环境 在非滑动的3×3环境中,所有模型的成功率均为100%,无论超参数如何。由于模型是使用单点更新进行训练的,并且环境非常简单,即使具有较大截止值的模型也能够达到100%的成功率。 4.2.3.2 非滑动的4×4环境 图10(a)展示了在非滑动的4×4环境中,不同超参数模型的成功率。误差条表示通过自助法(bootstrapping)计算的95%置信区间。同样,由于模型是使用单点更新进行训练的,并且环境相对简单,即使具有较大截止值的模型也能够达到100%的成功率,尽管当截止值为0.1时,一些模型未能成功。截止值为0.1的模型的成功率可能表明,较长的MPS长度会导致更高的成功率。然而,收集的数据太少,无法确认这一点。 图10(b)展示了一个截止值为0.03且MPS长度为9的模型的键维数变化。模型从所有键维数等于观察维度(即16)开始。在使用单点更新训练了4个周期后,模型执行了一个周期的双点更新,这导致一些键的键维数减少。有趣的是,键维数按键在MPS中的位置顺序增加。这是可以预期的,因为智能体总是从环境中的同一个左上角位置开始,并且随着时间的推移能够到达更多的位置。 图11展示了一个智能体在非滑动的4×4冰冻湖环境中行动的示例。智能体如往常一样从左上角开始。最上面一行显示了智能体采取行动时预期惊讶度随时间的变化。最下面一行显示了每个时间步的环境。最终,智能体通过在每一步假设具有最低预期惊讶度的动作来获得奖励。 在一个具有潜在无限时间范围的环境中评估具有有限时间范围的智能体的成功率可能会很棘手。在这种情况下,我们将惊讶度智能体获得的成功率与遵循图12(b)中显示的最优策略(截断到MPS的长度)的智能体获得的成功率进行了比较。后者在意义上是最优的,即它在少量步骤内到达目标的概率最高,同时掉入冰洞的概率最低。图13(a)展示了在滑动的3×3环境中,不同超参数模型获得的成功率。正如预期的那样,成功率随着MPS长度的增加而提高。较长的MPS允许智能体在环境中执行更多的步骤。另一方面,截止值似乎对成功率没有任何影响。需要注意的是,我们确实发现对于不同的截止值,键维数会有所不同,但这些差异对成功率没有任何影响。惊讶度智能体达到了最优智能体的成功率。 图13(b)展示了一个截止值为0.03且MPS长度为8的模型的键维数变化。与之前的情况类似,模型从所有键维数等于观察维度(即9)开始。同样,在使用单点更新训练了4个周期后,模型执行了一个周期的双点更新,这导致一些键的键维数减少。在这里,键维数也按键在MPS中的位置顺序增加。 图14提供了一个具有 ε=0.01 和MPS长度为12的模型所遵循的策略的示例。该策略是通过统计每个位置上动作的执行频率构建的。需要注意的是,尽管这与最优策略(图12(b))非常接近,但仍有一些细微的差异。这些差异可以归因于模型的有限时间范围以及偏好分布中奖励的权重,以及转移概率的轻微不平衡(因为概率永远不会完全等于1/3): 当接近模型有限时间范围的末尾,并且如果在剩余的步数内无法再到达目标时,模型将继续执行具有最低预期惊讶度的动作。然而,这些动作并不一定会使其更接近目标。相反,它将专注于满足其其他偏好,即避免掉入冰洞。这意味着,根据其当前位置,智能体会尝试避免冰洞,或者在没有掉入冰洞的危险时,简单地执行它认为具有最低预期惊讶度的动作。后者完全取决于转移概率,尽管差异可能很小(再次强调,概率永远不会完全等于1/3),因此可能会显得相当随意。这种效应可以在右上角和左下角看到。在这些位置,智能体有时会分别执行“下”和“左”动作,原因就在于此。 由于在这种情况下奖励的正权重远远超过了掉入冰洞的负权重,因此可能会发生智能体对获得奖励的“渴望”淹没了它对掉入冰洞的“恐惧”。这可能发生在接近模型有限时间范围的末尾,并且如果目标仍然可以到达时。此外,为了发生这种情况,转移概率的不平衡必须更大一些,使得智能体认为一个动作比其他动作更有可能将其带到目标。这种情况发生在底部中间位置。在这里,智能体在某些情况下可能会执行“右”动作,而不是最优的“下”动作。作为参考,当从底部中间位置执行“右”动作到达目标的转移概率为41%时,这种情况已经可能发生。一般来说,这种差异通常不是问题,除非像这种边缘情况。实际上,在正常情况下,转移概率必须更加不平衡,方法才会失效。 确实,降低奖励的权重并不会减少第一种情况的发生,但会减少第二种情况的发生。像Sajid等人 [58] 那样学习偏好分布可能对此有帮助。此外,切换到具有无限时间范围的模型将消除这两种情况。 环境尺寸的增加意味着由公式(14)定义的决策树深度的增加。虽然3×3环境只需要深度为4,但4×4环境需要深度为6。由于在计算过程中可以对树进行剪枝以降低复杂性,因此对于确定性情况来说,更大的深度并不是问题。然而,尽管进行了剪枝,对于非确定性情况,树的大小增长速度要快得多,因为可能的路径数量随着智能体可能滑向的位置数量呈指数增长,这使得对这些模型的评估变得更加耗时。因此,我们只展示了一个使用 ε=0.03 和MPS长度为12训练的模型的结果。 图15展示了该模型的键维数的变化。模型从所有键维数等于观察维度(即16)开始。在使用单点更新训练了4个周期后,模型执行了一个周期的双点更新,这导致前两个键的键维数减少。在随后的双点更新周期中,键1和键2略有增加。大多数键保持在16个维度。如果训练时间更长(更多周期),可能会进一步增加一些键的维度。然而,智能体期望的行为已经在这一点上出现了。 图16展示了模型所遵循的策略。同样,该策略是通过统计每个位置上动作的执行频率构建的。同样,它与最优策略(图12(a))非常接近,只是有一些细微的差异。这些差异可以归因于上一段中描述的滑动3×3环境中的相同情况。当剩余步数少于6时,智能体在左上角执行“上”动作。这对应于目标无法再到达的第一种情况。在这种情况下,智能体会执行“上”动作以避免掉入冰洞并忽略目标。同样,当剩余步数使其不再可能掉入冰洞时,智能体偶尔会在顶行的第三个格子中执行“左”和“下”动作。最后,底行第三个格子中的“上”和“右”动作可以通过第二种情况来解释。 目前,尽管矩阵乘积态(MPS)模型相对较轻(T形迷宫为千字节级别,冰冻湖为兆字节级别),但这种方法的主要担忧之一是计算复杂性。对于较大的动作和观察空间以及较长的序列,训练和动作选择都会变慢。训练过程中最大的瓶颈是每个键处的奇异值分解(SVD)。这突显了选择合适截止值的重要性。截止值必须足够小,以最小化模型中的参数数量,从而加快计算速度,同时能够解决手头的任务。没有其他参数可以直接影响SVD的速度。动作选择过程中最大的瓶颈是树的深度。树越深,动作选择的计算成本就越高。 尽管如此,这些担忧可能仅仅是初期问题。事实上,我们已经通过执行单点更新并在偶尔进行双点更新,展示了训练过程中的第一次改进。单点更新不需要进行SVD,并且带来了显著的速度提升,同时减少了内存需求。我们注意到,单点更新的好处在量子多体物理学中也是已知的 [76]。在构建和聚合预期惊讶度树的算法中,还可能存在其他可能的加速方法。由于主动推理的应用,损失函数的选择可能会产生影响。例如,直接优化条件概率而不是联合概率,可能会使系统更快地收敛到一个适用于主动推理的模型,因为主动推理算法主要需要条件概率。因此,这些以及其他改进可能会在未来减少所需的资源,并是未来工作的方向。 正如冰冻湖环境所展示的,当前方法的一个重要限制是MPS的长度。在当前形式下,具有无限时间范围的环境,特别是随机性起重要作用的环境,并不一定总能在给定的时间限制内解决。一个可能的解决方案是使用MPS的变体,例如均匀MPS [69],即由无限重复的MPS张量单元组成的无限MPS,如Miller等人 [49] 所展示的。这种方法的优势在于,它在意义上更高效,因为只需要指定组成单元的张量,而不是每个时间步一个MPS张量,这进一步减少了过拟合的可能性。这也是未来工作的一个方向。 此外,与传统机器学习相比,本研究中的方法在根据信息理论需求扩展模型大小方面采取了相当不同的方法。例如,在深度学习中,典型的模式是设计一个足够大的模型以包含所有必要的信息,然后对其进行剪枝,即缩小模型规模,直到在性能和模型大小之间达到一个平衡点,即模型简化。在本研究中,模型通常从较小的规模开始,并根据必须保留的信息量进行扩展,即MPS从较小的键维数开始,并根据预设的截止值进行扩展。可以说,后者更高效地利用了资源。 在当前的机器学习文献中,数据的重要性常常被低估。许多研究集中在特定基准上创建更好的模型,而有时却忘记了模型总是反映数据的,这在现代挑战中得到了证明,例如人工智能中的公平性问题。尽管本实验中的大部分数据是随机生成的,但T形迷宫实验确实强调了数据的重要性。值得注意的是,大小为204的经过设计的数据集比大小为204的随机生成的数据集表现更好。通过简单地以巧妙的方式构建数据集,模型能够像更大的数据集一样表现良好(至少对于较小的截止值是这样)。 在强化学习(RL)中,以“探索”的形式,构建数据集的巧妙方法非常常见。简而言之,探索用于生成比智能体已经看到的序列更有信息量的序列。例如,在强化学习中,稀疏奖励问题是通常难以通过随机移动解决的问题,原因在于正奖励信号可能非常难以找到。在这种情况下,探索算法可以引导智能体通过随机智能体会低估的序列。探索本质上创建了一个更丰富的数据集,智能体可以从中学到东西。 主动推理通过自由能内在地执行探索。自由能通过信息增益项(公式(11))来处理探索,这一项是通过变分贝叶斯方法产生的。这意味着一个真正的主动推理智能体将在实时导航环境中权衡探索和利用。尽管直接最小化惊讶度(如本工作所执行的)去除了信息增益项,但需要进一步研究以了解基于我们模型的智能体在这种需要探索的情况下会如何表现。需要注意的是,主动推理的机器学习实现,例如深度主动推理(即用神经网络替换某些概率分布的做法),通常也存在同样的问题,并不使用这一项来生成训练序列,而是在环境具有随机性时在推理时间使用它来收集信息。典型的过程与本工作中描述的过程相似:首先收集训练数据(通常通过演示),然后学习一个生成模型,最后使用该模型进行推理。然而,更相关于最初的讨论,通过某种探索性智能体而不是随机智能体来生成训练数据,以丰富数据集,可能是有益的。确实,可以更进一步,设计一种结合探索的在线算法。 我们已经证明了通过结合张量网络(TNs)和主动推理,可以在离散环境中规划路径。在本工作中,我们使用矩阵乘积态(MPS)作为主动推理智能体中的生成模型。这使得我们能够直接最小化惊讶度,而不是变分自由能。在T形迷宫和冰冻湖环境中的实验验证了基于MPS的智能体能够选择动作以实现其偏好的观察结果,即获得奖励。影响成功率的超参数包括T形迷宫环境中的截止值和数据集大小,以及冰冻湖环境中的截止值和MPS长度。当使用单点更新时,截止值的影响显著降低。结果表明,基于MPS的智能体能够表现得与最优智能体一样好。 本工作允许进行几项未来扩展。首先是对当前算法的扩展,使其适用于无限时间范围,这将允许在更广泛的应用中使用基于张量网络的主动推理。更具体地说,这将涉及使用均匀矩阵乘积态(uniform MPS),即由无限重复的MPS张量单元组成的无限MPS。同样,由于当前算法是为离散环境实现的,因此将其应用于连续环境是一个有趣的前景。这需要将连续变量映射到MPS的物理空间,这可能通过巧妙设计的特征映射来实现。其次是对模型和动作选择的几种可能的算法改进,例如损失函数的选择,以及可能将当前基于树搜索的预期惊讶度公式替换为量子力学表述。第三是改进数据集并研究如何重新实现“探索”。 原文链接:https://iopscience.iop.org/article/10.1088/2632-2153/ad7571/pdf 特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。 Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
4.打开某一个微信组.点击右上角.往下拉."消息免打扰"选项.勾选"关闭"(也就是要把"群消息的提示保持在开启"的状态.这样才能触系统发底层接口。)
【央视新闻客户端】