大型望远镜观测到的数据是各国共享的吗？会因处理方式的差异产生不同的结论吗？

宇宙 · 2017-11-22 22:06:38

目前对于大型望远镜观测到的数据是共享的吗？那因为的处理方式的差异会产生什么结果？ ----- 本题来自知乎圆桌»宇宙那么大，更多讨论欢迎关注。这个问题略复杂，各个望远镜有各个望远镜的制度，即有完全共享的也有完全不共享的。所以需要强行分类的话只能按程度划分以下。因为我比较熟悉光学，所以只谈光学望远镜。

一、即时的完全共享：很抱歉，目前还没有能做到这一目标的望远镜。不过下一代已经开工建设的大型综合巡天望远镜（LSST）能基本做到。这个神镜被设计用来对全天不停的进行图像拍摄。没记错的话几个月就能把可观测的天空拍摄一遍。一晚上产生30TB数据，经过专门的网络传到山下的数据中心进行处理。然后世界各地分布着多个数据中心进行同步。

二、通过分批的数据发布（DR）实现的完全共享：很多大型巡天项目都是这个思路。最著名的是斯隆数字巡天（SDSS）。在科学家们商讨出下一季的科学目标并设计好观测的天区后，望远镜由专门的人进行观测并根据天气制定观测计划。然后定期进行数据发布。从2000年左右开始，已经进行了12次数据发布。国内的郭守敬望远镜（LAMOST）也是采用类似的思路进行数据发布。

三、刻意延时地进行数据公开。这是多数大型通用型望远镜的思路。由于现在大型望远镜经常需要社会上各种公益基金会地赞助，基金会经常希望数据能够得到充分的利用。因此，在这些望远镜上取得的观测数据会经过一段保护期以后进行公开发布。例如著名的Keck望远镜、CFHT望远镜和欧洲南方天文台的很多望远镜都是这样。世界各地的天文学家可以通过他们的数据库网站查询。

四、不进行数据公开。这些望远镜通常比较小。属于一个大学或者几所大学自己建设、拥有并维护的望远镜。

这些数据公开方式也并不是泾渭分明。比如CFHT搞过CFHT Legacy Survey，这个巡天就是分批数据发布式的。现在日本昴星团望远镜在做Dark Energy Survey，也是分批数据发布。

另外要提到的是，大型通用型望远镜一般都可以由满足一定条件的世界各地的天文学家申请观测时间。但根据望远镜管理方的政策，满足不同客观条件（例如归属于哪个国家哪个研究所，这些研究所入股多少）申请到的概率是不同的。

对于第二个问题：是的。数据虽然是死的，但是如何解释数据是人说了算的。最简单的，有的人说

就能确定一个天体是不是变源，有的人说得

。最近比较有名的时间是BICEP2。就是一帮人用一个南极的望远镜观测微波背景辐射，说发现了宇宙大爆炸早起引力波的信号，然后Planck一帮人用了不同的处理方法，当然加上其他的数据，最后发现这些信号主要其实是来自银河系内部星际介质的污染。不过对于很多已经非常常规的数据处理过程，比如做平场、做测光之类的，大家基本方法都是一样的，可信度就比较高。编辑于 2015-06-26大型望远镜分为3类，一类是通望远镜，一类是专用望远镜，一类是巡天望远镜。两种情况有所区别。

第一类

对于通用望远镜来说，使用者是全世界的所有天文学家。通常在观测季之前征集使用申请，科学委员会对申请进行评估，选出好的研究题目，分配观测时间。拿到观测时间的天文学家，就可以按照分配的时间动身去观测了。

观测之后，会通过磁盘或网络方式拿到原始数据。这个数据仅仅是申请者本人可以拿到。他进行研究分析之后发表论文可以用这个数据。但是这种限制是有有效期的，时间一到，就必须对外开放这部分数据。不同的望远镜可能有效期略有不同，有1年的，有1年半的，有2年的，不一定。

第二类

专用望远镜是团队内部使用的望远镜，通常不会对外开放，只是自己人观测、自己人分析、自己人发布成果。当然，成果发布了，就需要把数据也给出来，交给科学界检验你的成果。

第三类

对于巡天望远镜来说，使用者是望远镜自己的运行团队。观测计划是自己定的，观测方式是自己定的，数据也是自己拿到自己处理的。之后，团队会根据自己的条件，选择对外释放数据的方式。比如LAMOST巡天望远镜是在上一个观测季结束观测之后立即向工作组合作者释放数据，1年之内向国内合作者释放，1.5年之内向全世界释放。编辑于 2015-06-23一般的望远镜都有自己的数据网站，供大家自由搜索、下载。例如：
NRAO（VLA，VLBA，GBT）：NRAO Science Data Archive
ALMA：Archive — Welcome to the Science Portal at NRAO
SMA：Obtaining & Processing SMA Data
Spitzer：Overview
德令哈13.7米望远镜：欢迎来到毫米波射电天文数据库
以上的数据大多是过了保护期的个人项目的数据。

另外有些巡天项目也有自己的数据分享网站：
HOPS: H2O southern Galactic Plane Survey
CORNISH: VLA survey of the Galactic Plane
The BICEP and Keck Array CMB Experiments
等等。

经 @张智昱师兄提醒，补充：其他的有公开数据库的望远镜有Herschel, WMAP, WISE, IRAS, Planck, VLT, HST, Chandra, XMM, SOHO, 等等，而且SOHO（一个空间望远镜，观测太阳的）的数据还是实时更新的: http://sohowww.nascom.nasa.gov/data/。还有伽马射线爆，实时监测数据：http://grb.sonoma.edu/。

有时候尽管数据还在保护期内，持有人特别慷慨，也可以公开分享给大家，放在自己的网站上，或者Dataverse.org上有一些天文观测数据，这个网站还在建设中，bug略多...

需要注意的是，如果你用这些分享的数据发文章，要在文中致谢数据的持有人，一般在上面的网站中都能找到标准的致谢格式。

数据的共享是大势所趋，对自己来说，一方面可以激励数据持有人在保护期过期之前赶紧出成果（专治拖延症...），另一方面也是一个让大家帮忙检查自己的结果的好机会。对整个学术圈来说，数据也是多多益善，而小家子气地保护数据只会酿成恶果。例如，经常看到BICEP2被黑，因为他们搞的大新闻被Planck的结果质疑了。而据BICEP2组内的人说（=听说的，对真实性不负责），他们是有苦难言，当初也是要Planck组分享一点河内尘埃极化的数据，好扣除前景，而对方不愿给数据，只给了一张ppt里的截图，他们赶着发文章，就用这张图拟合了一下...

关于第二个问题，我感觉对数据的操作分为两个部分，第一步是数据处理，也就是把望远镜接收的信号做成可见的图像、能谱之类的，第二步是数据分析，是对图像、能谱等做出自己的解读，找出它们所揭示的物理意义。就第一步来说，我对射电观测比较了解，所以只说射电，对于比较强的信号，实际上现在的观测数据冗余度都很大，不同的数据处理方法出来的结果不会相差太大。比如射电干涉仪的数据，一般都有几个乃至几十个天线，对应几十乃至几百条基线，就算不同的人因为主观认知的差异，去掉了一两个天线的“坏”数据（叫做‘flag’），甚至用不同的程序做数据处理，对最后的结果不会有太大影响。很多时候，一份数据按照网上的“傻瓜教程”和按照自己深度优化的方式处理出来的结果，肉眼都看不出啥区别。当然，处理过程中有错误就是另一回事了，我记得有一年愚人节，有人在预印本文库上发了一篇文章，讲他用特殊的处理技巧在图像中做出了很多神奇的图形，纯属恶意卖萌，也向大家展示了错误的数据处理能做出多么荒谬的结果。（经 @张智昱师兄提醒，补充）而且，对于比较弱的信号，例如高红移星系，数据处理也是见仁见智，值得自己用深度优化的方法反复尝试。就第二步来说，更是见仁见智了，只要逻辑通顺，自圆其说，什么结论都可以，经常有拿同一份数据分析出不同的结果的事，有人观测到2*sigma信号就要发Nature Science了，有人觉得2*sigma不靠谱，然后在astro-ph上就“Comments on XXX”、“Reply to the comments on XXX”、“Comments on the reply to the comments on XXX”的吵架，我等无聊的苦力就乐得围观了。编辑于 2015-06-26望远镜得到的数据，在处理的时候，不同的方法、修正等等，都可能得到不同的结果。
且不说不同人的处理之间的差异，就说我自己处理数据的差异，我们的光学观测（相对简单的观测），需要对CCD数据进行本底、平场、暗流等等修正，那么这些修正参数哪里来的，也是通过对仪器进行测试得到的，测试本身也有误差。例如平场，用灯光平场，还是晨昏光平场，还是夜天光超级平场，合成平场的时候，哪些数据要哪些不要，这些都会影响最终得到的平场参数。我们一般的标准是多种方式得到的平场相差小于一定程度就认为是正常的，可是这个一定程度是多少，不同人有不同的标准。
再比如说流量定标，有几颗标准星参与了校正，用哪几颗的数据？这些都因人而异。多一颗少一颗，都会影响结果。
所以我们自己的处理数据，我自己发布的，都有好几个版本，不过呢，如果版本之间的差异小于系统误差，那么基本上就认为已经可以了。。。。

至于说数据共享这样的，前面几位大牛都解释得很清楚了，就不多说了。基本上来说，整个天文学界都是在共享数据的，这和其它专业不太一样。别的专业可能涉及到国家安全，涉及到经济、政治等等，而天文学则不会。真要是涉及到安全、经济、政治，那天文学界涉及到的是全球内的，和国家无关～发布于 2016-06-06前一个问题的答案是，一般不。或者，说得更确切些，数据本身不会发布，但全世界的天文学者原则上都可以使用这台望远镜获得他们想要的数据。

望远镜的观测时间，是一项非常非常重要的资源。

如果研究者能够处在一个拥有望远镜的研究机构中，则通常会因为主场的便利，而拥有更多的望远镜独占使用时间——毕竟，望远镜的运营和维护也是烧钱的活计，要是主场人员还不能从中得到一些福利，那也太不公平了；到最后，也许就没有太多机构愿意拥有自己的望远镜了。

这种主场优势会有多大呢？天文界的人，大概都知道 University of Hawaii（夏威夷大学）的江湖地位。这个度假胜地的大学，看上去似乎没有什么深厚的底蕴或显赫的家世，却又何以成为全球天文学的中心之一呢？无他，夏威夷的毛纳基火山顶上有一大堆天文台，其中好些都是由夏威夷大学运行的；主场优势在此，许多优秀的学者便会被吸引前来。

至于其他一些拥有自己的望远镜的学校——比如 UT Austin（德州大学奥斯汀分校），UMich AnnArbor（密歇根大学安娜堡分校）——也通常因此而有着很不错的天文研究实力。UMich 更是把“我们有望远镜，而且不止一台，其中一台专门给系里学生用”当成天文系招生的卖点之一——不过，时至今日，听说那台镜子的状况并不是特别好，真是可惜。

顺带一说，Arecibo 的超级射电望远镜的运营，虽然名义上也有 University of Puerto Rico（波多黎各大学）一份儿，但因为这个望远镜的修建动议是康奈尔弄的，也因为两校在研究实力上的差距，其实运行工作基本都是康奈尔大学的事儿。所以，波多黎各本地的大学其实并没有从中捞到什么好处……

如果不占有主场之利，那么研究者就要申请望远镜的使用时间了。这类申请是要观测者依照自己的科学目标与摄像，自行撰写并提交计划书的，由运营方组织专家，对申请书进行筛选；被选中者，将被安排相应的观测时间（虽然今日的观测工作本身，常常是由运营方代劳，或者是通过远程连接进行在线观测，学者亲自前往天文台的情形已经非常少见了）；观测者获取数据之后，自行处理，得出相应的结论后，将其发表。这是一项有时有着不小竞争的工作；被一些“热门”望远镜的运营方选中的观测计划书，会被视为研究者的一种荣誉，而且会对该研究者未来的观测申请带来便利。

为了赶在每个观测周期的观测申请截止期限之前提交申请，天文学界的人们似乎总在周期性地忙碌着。那些已经拿到终生教职的教授，一般是不熬夜也更不赶通宵的，但在这个截止期限附近例外。

当然共享数据的镜子，也不是没有；而且，在这些镜子的数据基础上，往往能有人做出很重要的成果。最著名的之一，就是 SDSS（斯隆数字化巡天）了。这并不是一台太大的望远镜，口径 2.5 m，专门从事巡天工作（看尽量多的天体，虽然每个天体的曝光质量会略欠缺一些，但总体的数量非常多）。他们定期在网站上发布数据，比如说这个：

http://www.sdss.org/dr12/

全世界的所有人都可以从 SDSS 的门户上，进行查询、分类、编排和下载数据的操作。可以说，全世界有四分之一天文从业者直接靠它吃饭，剩下的四分之三也多多少少地是间接靠它活着的。

第二个问题的答案是，是的。

来填坑说说李惕碚老师与 WMAP（威尔金森微波背景辐射各向异性探测器）的恩怨吧。

关于微波背景辐射，请参见这两个回答的相应部分：
如何找出一个宇宙的 DNA？ - 王力乐的回答
目前宇宙中热门的研究对象有哪些？ - 王力乐的回答

这里再放一次微波背景辐射的全天图：
人们发现，在多极展开之后，四极矩的数量明显偏大（指向了一个不太正常的数值，现有理论虽能解释但很不自然）；最要命的，这个四极矩的方向，竟然与太阳系平面的方向是重合的：
整个宇宙中，竟然有某个方向，与太阳系的轴向重合，这明显有违“宇宙中没有特殊的点，也没有特殊的方向”的常识。人们提出了各种猜测和假设来试图解释这个；最离奇的是，有人认为，宇宙早期有着非常特殊的拓扑结构，通过某些奇特的机制，导致了宇宙中许多天体的轴向最终对齐到一个方向上去……

李惕碚老师觉得这事儿不对。他在中科院高能所有一个博士生，叫刘皓，冒着博士没法毕业的风险，与老板一起，试图通过检验数据处理机制的方式来发现问题。不幸的是，WMAP 组虽然对外公布了他们的原始数据（WMAP 是两点相关式仪器，原始数据的处理非常麻烦），却拒绝提供数据处理方法和软件。于是，他们只好自己摸索。许久之后，他们发现，如果在数据处理中的某一个非常容易犯错误的步骤上犯了错误，则在那一步中，关于四极矩的有用的信号会被丢掉，剩下的则全是来自地球和太阳的噪声，而这噪声似乎正是造成那个巨大且与太阳系平面重合的四极矩的根源。

他们试图把文章（http://arxiv.org/pdf/1003.1073v2.pdf）发在 MNRAS（英国皇家天文学会月报，天文界三大期刊之一）上，却立即被审稿人斥为“民科”，处以极刑；换了 ApJ（美国的天体物理学报，天文界三大期刊之首），审稿人非常热情，也赞同他们的观点，决定接受稿件，可到最后却突然再次被枪毙。欧洲的 A&A 更是直接挡回，毫无商量。但是，学生必须发文章以便博士毕业，李老师就用自己作为院士的特权，将其不经审稿地发表在国内的某个期刊上。

他们与 MIT 的 Max Tegmark（WMAP 数据处理项目组的首席）取得联系，但对方回过一次邮件后便再也不搭理；美国天文学会的年会拒绝他们报名，其他的专门的学术会议也拒绝了他们，直至几乎所有的在美的相关研究人员都拒绝搭理他们。等这事儿风头过去，他们试图去美国参加学术会议，但是不知为何，美国使馆连续拒绝了他们的签证申请。（这事儿还对我造成了一点影响：当时，陶嘉琳老师帮我给 Max Tegmark 套磁儿，可对方一听说这边是清华的之后，便立即“拉黑”了……）

有一个欧洲的研究组通过邮件与他们商榷争执，但最后，欧洲的研究组承认他们说的很可能有道理。当时，欧洲空间局的 Planck（普朗克）卫星正在天上运行，数据处理工作还未全面展开。这是一个对微波背景辐射直接成像的卫星，比 WMAP 有着更高的空间与能量分辨率，数据处理也没有 WMAP 那么复杂；Planck 的观测结果，应当能做出相应的裁决。当 Planck 研究组的一个人在外作报告时，幻灯片中展现了一张还没有完成的微波背景辐射全天图；有好事者用相机拍下这张幻灯片，回去抠图分析，发现老李他们说的好像真是对的，并公之于众。这一事件的直接结果便是，欧空局下令，Planck 组的任何人员，在数据处理完成之前，不得擅自公开使用任何中间结果。

现在，Planck 的最终数据处理结果早已公布；结论是，虽然李老师的结论并不完全正确，但WMAP 得出的四极矩确实有问题和错误。

这一段由于数据处理方式不同造成的公案，到此也算画上一个句号了吧。编辑于 2015-06-27基本上是不共享的。一般研究者申请到观测时间，获取数据，分析完了数据，才会考虑公开数据。但很多时候是upon request，跟你不熟的话是不会跟你共享的。发布于 2015-06-21

账号		自动登录	找回密码
密码			立即注册