自主机器人船改善了海上环境采样

时间：2021-08-18 08:52:22 来源：

即使在未开发的水域中，由MIT开发的机器人系统也可以有效地嗅出难以找到的有价值的点，以从中收集样品。当在部署于巴巴多斯海岸的自动驾驶船上进行实施时（如图所示），该系统迅速发现了暴露最严重的珊瑚头（这意味着它位于最浅的位置），这对于研究日光如何影响珊瑚生物很有用。

麻省理工学院和伍兹霍尔海洋学研究所（WHOI）的研究人员发明了一种自主的机器人系统，可以有效地探测出在广阔的未开发水域中最有趣的科学采样点，但是却很难找到。

环境科学家通常对在环境中最有趣的位置或“最大值”处收集样本感兴趣。一个例子可能是泄漏化学品的来源，该化学品的浓度最高，并且大多数未受外部因素破坏。但是最大值可以是研究人员想要测量的任何可量化值，例如水深或暴露于空气中的珊瑚礁部分。

部署寻求最大性能的机器人的工作受到效率和准确性问题的困扰。通常，机器人会像割草机一样来回移动以覆盖一个区域，这很耗时，并且会收集许多无趣的样本。一些机器人会感知并遵循高浓度的踪迹找到其泄漏源。但是它们可能会被误导。例如，化学物质可能被捕获并堆积在远离源头的缝隙中。机器人可能会将那些高浓度点识别为源头，但距离还很近。

在国际智能机器人与系统国际会议（IROS）上发表的一篇论文中，研究人员描述了“ PLUMES”，该系统使自主移动机器人能够更快，更高效地最大程度地归零。PLUMES利用概率技术来预测哪些路径可能导致最大值，同时导航障碍物，移动电流和其他变量。在收集样本时，它会权衡所学的内容，以确定是继续沿着有希望的道路还是寻找未知的事物-这可能会保留更多有价值的样本。

重要的是，PLUMES不会被困在那些棘手的高浓度点上而到达目的地。“这很重要，因为很容易以为您找到了金，但实际上您已经找到了傻瓜的金，”合著者维多利亚·普雷斯顿（Victoria Preston）博士说。计算机科学与人工智能实验室（CSAIL）和MIT-WHOI联合计划的学生。

研究人员建造了由PLUMES驱动的机器人船，该船成功地发现了巴巴多斯Bellairs边缘礁中最裸露的珊瑚头（这意味着它位于最浅的位置），对于研究日光照射如何影响珊瑚生物非常有用。在自然水下环境中进行的100次模拟试验中，虚拟PLUMES机器人在分配的时间范围内还连续收集了比传统覆盖方法多7到8倍的最大值样本。

“ PLUMES进行了最少的探索，以找到最大的探索量，然后迅速集中精力在那里收集有价值的样本，”第一作者，CSAIL和MIT-WHOI联合计划的博士生Genevieve Flaspohler说。

在纸上加入Preston和Flaspohler的是：安娜·P·M。 WHOI应用海洋物理与工程系的科学家Michel和Yogesh Girdhar。尼古拉斯·罗伊（Nicholas Roy），CSAIL和航空航天系的教授。

导航漏洞利用-探索权衡

PLUMES的一项关键见解是使用从概率到推理的技术来解决众所周知的复杂权衡问题，即权衡利用有关环境的知识和探索可能更有价值的未知区域之间的关系。

Flaspohler说：“最大程度地寻求最大的挑战是，让机器人平衡从已知高度集中的地点获取的信息和探索对其不太了解的地方之间的平衡。”“如果机器人进行了过多的探索，那么它最多将不会收集到足够的有价值的样本。如果探索得不够充分，可能会完全错过最大值。”

置于新环境中的PLUMES机器人使用一种称为高斯过程的概率统计模型对环境变量（例如化学浓度）进行预测，并估计感应不确定性。然后，PLUMES生成机器人可以采取的可能路径的分布，并使用估计值和不确定性通过允许机器人进行探索和利用的程度对每个路径进行排名。

首先，PLUMES将选择随机探索环境的路径。但是，每个样本都会提供有关周围环境目标值的新信息，例如化学物质浓度最高或深度最浅的斑点。高斯过程模型利用该数据来缩小机器人可以从其给定位置遵循的路径，以从具有更高价值的位置进行采样。PLUMES使用一种新颖的目标函数（通常在机器学习中使用以最大化奖励）来确定机器人是应该利用过去的知识还是探索新的领域。

“光明化”的道路

决定在哪里收集下一个样本取决于系统是否有能力从其当前位置“半透明”所有未来可能采取的行动。为此，它利用了改进的蒙特卡洛树搜索（MCTS）版本，该版本是一种路径规划技术，广泛用于为掌握复杂游戏（例如Go和Chess）的人工智能系统提供动力。

MCTS使用决策树（连接的节点和线的图）来模拟达成最终获胜动作所需的路径或移动顺序。但是在游戏中，可能路径的空间是有限的。在未知的环境中，随着实时变化的动态变化，空间实际上是无限的，从而使规划变得极为困难。研究人员设计了“连续观测MCTS”，它利用高斯过程和新颖的目标函数来搜索可能的真实路径的繁琐空间。

此MCTS决策树的根始于“信念”节点，这是机器人可以采取的下一个直接步骤。该节点包含了到那时为止机器人动作和观察的全部历史记录。然后，系统将树从根部扩展到新的行和节点，并查看导致开发区和未开发区的未来操作的几个步骤。

然后，该系统根据从先前的观察中学到的一些模式，模拟如果从每个新生成的节点中抽取一个样本会发生什么情况。取决于最终模拟节点的值，整个路径会获得奖励分数，值越高，意味着采取的措施就越有希望。来自所有路径的奖励分数将回滚到根节点。机器人选择得分最高的路径，迈出一步，并收集真实的样本。然后，它使用实际数据更新其高斯过程模型并重复“卤化”过程。

Flaspohler说：“只要系统继续幻化为在世界看不见的地区可能会有更高的价值，它就必须继续探索。”“当它最终收敛于一个点时，它估计是最大值，因为它无法沿路径产生更高的幻觉，然后便停止探索。”

现在，研究人员正在与WHOI的科学家合作，使用PLUMES驱动的机器人在火山现场定位化学羽流，并研究北极融化的沿海河口中的甲烷释放。科学家对释放到大气中的化学气体的来源很感兴趣，但是这些测试场所可以跨越数百平方英里。

普雷斯顿说：“他们可以[使用PLUMES]花更少的时间来探索那个广阔的区域，而真正专注于收集具有科学价值的样本。”

参考：Genevieve Flaspohler，Victoria Preston，Anna P.M.Michel，Yogesh Girdhar和Nicholas Roy撰写的“部分可观察的连续环境中的信息指导机器人最大搜寻和样本”，IEEE机器人与自动化快报。DOI：
10.1109 / LRA.2019.2929997

郑重声明：文章仅代表原作者观点，不代表本站立场；如有侵权、违规，可直接反馈本站，我们将会作修改或删除处理。