寻找系外行星，人工数据挖掘太不给力

2019-04-04 08:58来源: 科技日报

在不间断探索广袤太空的过程中，美国国家航空航天局(NASA)越来越意识到：获得的数据实在太多了!

这是人类技术越来越强的体现。发射出去的大小探测器，一个个野心勃勃，剑指前辈望远镜们不敢想象的每一处深空，同时，返回的数据夜以继日地累积着。

可这些数据都是要分析的啊……科学家们扶着额头想。

这不是雇几个实习生就能帮助解决的问题，幸好，有人工智能(AI)在。

数据如山倒，分析如抽丝

分析海量数据，究竟要面对多大压力？

以开普勒太空望远镜为例，其在2009年发射升空，是世界首个用于探测太阳系外类地行星的飞行器。仅在起初3年半的任务期内，开普勒望远镜就对超过15万个恒星系统展开不断监控，从而产生了庞大的数据集。这些数据首先要经由计算机处理，但当计算机识别出一定的信号时，又必须依靠人工分析，判断其是否为行星轨道所产生，这项巨大的筛查工作单靠NASA的科学家甚至科学小组，都没有非常有效的方法完成。

曾经，NASA尝试了将所有数据公之于众的做法。该机构成立了名为“系外行星探索者”的新项目，让成千上万的公民科学家在注册后访问开普勒任务所记录的信息，并有效地进行数据挖掘。

这个办法相当不错。很快加州理工学院就宣布一组公民科学家找到了新的“太阳系”，一个多行星系统，是NASA科学家此前没有发现的。

公民科学家其实很适合参与到数据收集与分析活动中来，这就是所谓“聚沙成塔”。不过，面对源源不断袭来的海量数据，人力终究不是长远之计。

AI：我来试试？

一方面是数据如山倒;另一方面，像开普勒望远镜这样的设备，获得的数据背景其实非常繁杂，人类科学家往往无法准确定位到数据集里的所有行星。

于是，在开普勒K2阶段任务的一项最新研究中，德克萨斯大学奥斯汀分校科学家与谷歌公司合作开发了一种人工智能算法，这种算法可以追寻到被普通方法遗漏的行星。

目前，研究团队使用该方法在开普勒望远镜的庞大数据集中，找到了两颗新的系外行星。这两颗行星都位于水瓶星座，宿主恒星距离地球分别有1300光年和1230光年。

这已经不是人工智能第一次出手帮助人们“找星星”。2017年底，谷歌的机器学习技术就成为了发现系外行星的功臣，其过程涉及让计算机学会从开普勒收集的3.5万个可能的行星信号中搜寻“凌星”的迹象。

随着技术更迭，科学家很欣慰地发现，新算法已可以帮助人类找到更多传统方法找不到的行星，当然，更将有助于其他行星探测任务的数据分析，从而最终追踪到与我们地球最像的行星。

TESS：我资金不多，但数据也不少

1995年，日内瓦大学天文学家宣布发现了太阳系外的第一颗行星。从那以后，人们一直在致力寻找更多系外行星，因为那有“另一个世界”的希望。

现在，地基射电望远镜、轨道太空望远镜和其他强大的高科技工具，正以惊人的速度发现着新的星球。截至2018年3月8日的数据，经天文学家分析确认后的太阳系外行星共有3743颗，其中2649颗由开普勒望远镜发现。

这不过是已获得数据集里的九牛一毛。

开普勒望远镜之后，NASA的“凌日系外行星勘测卫星”(TESS，“苔丝”)已于2018年4月18日升空。按NASA的描述，这个探测器是中等任务级别，预算远不及开普勒任务，甚至一度被嘲是个“半吊子”继任者。

但TESS有自己步调。即便任务级别略逊，TESS也将带来全天候、全天空的“狩猎”——扫描至少20万颗恒星，观测太空区域比开普勒大350倍。从它的数据中，科学家将调查行星的密度、大气以及分析是否有液态水，一旦有出现“地球2.0”的希望，资金也将相应升级。

无论是开普勒还是TESS，数据已经到了科学家不可能全部进行人工分析的阶段。而谷歌的AI工程师早已看到这一幕——

他们曾说：当人工“大海捞针”难以招架，正是机器学习技术上阵的时候。

免责声明：凡本站注明 “来源：XXX（非商务新闻网）”的新闻稿件和图片作品，系本站转载自其它媒体，转载目的在于信息传递，并不代表本站赞同其观点和对其真实性负责。