如何评价王孟源的文章《为什么国际物理界没有太重视悟空的这次发现》?

原文链接 王孟源:为什么国际物理界没有太重视悟空的这次发现我是观察者网发表王博士这篇文章的编辑,我也参与了这篇文章的修改。之所以提这个问题,也是想听取更多读者就事论事的看法,希望今后提高我们的编辑水平,尽量减少错误和主观臆断。一些回答贴出丘成桐对王博士的评价,如果把矛盾转移到人的身份上,并不是就事论事的态度。其实王博士本人对此有过回应,我也贴在这里,供大家参考:————丘教授提起我在哈佛的导师,…
关注者
482
被浏览
282,160
收录于 编辑推荐 ·

心血来潮,知乎首答。

先声明,只是研究方向相关,全是个人意见,不匿名了。

先来个本回答的abstract:王先生确实讲出了一点科学事实,但更多的是不严谨的表述和主观臆断。科普是好事,有反面意见也不见得差,但言语间确实有带节奏的嫌疑。

前面几段暗物质科普的先不细说。其实暗物质领域作为目前高能物理一个热点领域,每天都有大量文章出来,我是有点不明白专门说那两篇不算太特别的文章的目的在哪。Anyway,下面从涉及到悟空(DAMPE)的段落开始评论。

至于中国的悟空卫星,在11月30日发表于《Nature》的论文,号称在1.4TeV的能阶上可能发现了暗物质衰变产生的电子,虽然被中国官方广为宣传,不但充斥于中文媒体,英文的大众媒体也多有报道,但是如此惊人的结果,物理专业的博客却对它基本无视,既没有庆祝也没有反驳,《Nature》自己的网站也没有出新闻报道,这是为什么呢?

至于中外的报道是不是不重视,我看几个热门回答都已经贴出了不少例证了。王博士非常机警的在标题用了一个“太”字,可谓用心良苦,说DAMPE没收到重视,当然不对,但说“太重视”,这个标准你就可以随意定了。

OK,媒体是一回事,我们从学术圈内来看。Arxiv上一周左右的时间,DAMPE的相关文章达到了30+, 比起当年750GeV的热度,当然不及,但是热度也不低,能说不受重视吗?我要提醒一点,这30+的文章里面大概1/3有来自外国研究者的贡献。毕竟我们自己的卫星,中国的研究者不兴奋都不行,很多人早早听到消息,模型都搭好了就坐等数据,咱国人的分析文章跑在前面那是当然的。

没有对比就没有伤害,看一下什么叫“不受重视”。日本的CALET卫星,跟DAMPE算是竞争对手,发射早了那么几个月,发布数据也抢在DAMPE前,11月1号就在prl上发布。但是你现在查一下inspire上对他们的引用,仅有5次,而且你打开一看,画风是这样的:

什么啊!仅有的5篇还全部都是中国科学家分析DAMPE顺便带上的啊! 难怪他们干着急,到12月初在arxiv上把发表的文章又贴了一遍。所以你看看什么才叫不受重视!

另外多扯一句,DAMPE成果突出,但毕竟不是第一次测量,尖峰也没达到可以被物理学称之为发现的5σ,nature不考虑报道情有可原。另外,虽说本来就是不是轰动天地的发现,但我建议王先生把您关注的几个物理博客贴出来啊!国际上哪几个大V还没关注到我们帮忙宣传啊!

对于这些理论工作,大家有兴趣的话,这里推荐三篇:

arxiv: 1711.10989 arxiv: 1711.10996 arxiv: 1712.00005


前面提过,暗物质理论来自对重力现象的间接观测结果;它不可能参与强作用力和电磁力,否则必然早已被直接观测到。但是宇宙中还有第四种作用力,也是弱作用力;它太过微弱,所以暗物质是否参加弱作用力,目前的实验和观测很难完全排除其可能。其实客观来说,希望很小,这是因为量子效应会在较低的能阶也留下蛛丝马迹,人类的对撞机已经做到13TeV的能级,却完全没有看到任何这类的量子修正项,代表着在1TeV、10TeV、乃至100TeV的能级上,暗物质都不太可能有弱作用力的效应。如果理论非要硬拗不可,当然也做得到,只须要多加几十个、乃至几百个自由度,或者硬是假设精度极高的参数(例如弱作用反应项的系数被设定为0.00001),但是这些做法都是失败理论的特征,严重违反了Occam's Razor。
美国的实验学家为了取得政府巨资(虽然悟空的造价宣称只有1亿美元,即7亿人民币,但与悟空卫星类似的AMS-02可花了20多亿美元,亦即130多亿人民币)来花,就不能太清楚解释这一点,而必须假装暗物质参加弱作用力(叫做“WIMP”假设,Weakly Interacting Massive Particles)是个有根据的结论。刚好超弦的基本假设,也就是超对称,天然就会产生WIMP,于是里应外合,高能物理的理论和实验界都众口一词,把WIMP假设吹嘘成主流理论,在过去十年里催生了许多个昂贵(即百亿人民币级)的实验,专门要测量WIMP。这些WIMP实验又分成两类:第一类是在很深的地下,用大量同位素稳定(亦即没有会自发衰变的同位素)的介质,藉以观察其原子核与WIMP直接进行弱作用力反应,例如美国的LUX实验和中国版Panda X。第二类则是用卫星来测量WIMP在银河系空间中因弱作用力而自行衰变产生的正子和电子对,例如美国的AMS-02和中国版悟空卫星。

这里我也先做个科普。暗物质的探测如王先生讲到的,有三种手段:

  1. 对撞机探测,寻找所谓的“mono-jet”,也就是看碰撞产物里有没有能量变成暗物质跑掉了。
  2. 直接探测,也就是捕捉暗物质与普通粒子可能的微弱的碰撞信号。
  3. 间接探测,DMAPE就是这一种,暗物质若湮灭或衰变到标准模型粒子,那借助银河系这个大的暗物质晕,可以产生可观的超出背景之上的宇宙射线,通过多出来的这些射线分析暗物质。这类实验不仅可能得到暗物质的能谱,还能探测其空间分布,并给出暗物质是湮灭还是衰变的答案,所以悟空会受到研究者期待。

这些实验虽然大多是针对WIMP的能标设计的,但是在实验进行本身并不需要WIMP的假设,实验结果你也完全可以用别的图像描绘。比如上次知乎上风风火火的光子里找到7.5σ信号的研究WTF?!暗物质粒子被发现了??,分析的是ALP类粒子;直接探测的PandaX实验组现在也把观测慢慢往axion上靠,而这两个都是典型的非WIMP类暗物质。另外多讲一句,WIMP在理论界受到欢迎这么多年是有他的道理的。最主要原因来自WIMP miracle:一方面它天然能解释现在宇宙中暗物质的丰度,即暗物质为什么这么多,另一方面它又与许多超出标准模型的新物理模型预言一致,即暗物质粒子本质是什么。理论上的自然,美感和简洁度,WIMP都很优秀。强调一下,这些模型里,超对称仅仅是一种可能,不是WIMP的全部!

还有,这些实验在探测上互有优缺点,是互补关系,目前理论解释暗物质,所有的这些实验都是不能忽略的。相对而言,目前最强的限制来自空间探测,也就是悟空参与的这类实验,也是理论家最难避开的。王先生强调的对撞机实验,反而没那么麻烦,有时一个小小的mediator就可以躲过去了。至于目前种种理论自然性简洁性如何,那完全是理论家仁者见仁的事情。


所以悟空卫星实际上是一个专门测量宇宙线中的正子流和电子流的仪器。但是因为银河系到处都有磁场,电子和正子在被截获之前,已经转过许多弯了,所以不可能知道它们的发源方向。那么唯一能测量的,只是它们的能量。结果全世界几百个博士,花十年时间和百亿元,所得到的,也就是下面这张图:横轴是能量,纵轴是观测到的电子流密度。然而,宇宙中能产生电子和正子的机制太多了,根本不可能精确计算背景信号曲线,所以最后只能笼统地看看测量结果的曲线是否平滑。

“也就这张图”?!Naïve了吧。国际上探测的相关实验多了去了,我随便给大家汇总几个。注意,别晕:

国际上测量正负电子和的部分实验组的结果

这里还不包括似乎已经过时的PAMELA等实验的数据。这一类实验本来就因为其科学意义而受到广泛关注。科学界为什么还需要悟空,我们最后说。王先生提到的,背景信号就是一条平滑直线难以精确计算,确实是间接探测的理论分析面临的最大挑战。

看上图比较各个实验,这里先强调两点:1.悟空是目前高能段最精确的,看看误差bar就知道了,2.悟空是第一次在这个精度上首次确认了1TeV的拐折(也就是不平滑),并且疑似发现了别的实验难以准确观测的1.4TeV的超出。而这些现象,说明了太阳系周边很可能有额外源的注入,只不过是不是暗物质还有待观察而已。


DAMPE是悟空卫星计划的英文名字,AMS-02和Fermi都是美国较早发射的卫星。这次悟空卫星团队宣传的结果,就是在图中红线右端没有平滑过渡的一高一低两个点,分别对应着1.4TeV和1.2TeV的能量。但是有三个疑点:1)Fermi卫星(图中的蓝线)也涵盖了相关的能阶,却没有看到类似的现象;2)这个结果出现在电子流(纵轴)很低的尾端,刚好对应着较少的统计样本和较低的统计意义;3)这两个偏离平滑曲线的点,偏离的程度只有两个统计标准偏差左右,距离物理界传统上要求的五个标准偏差很远,连“有趣”都谈不上。
一般统计方法假设高斯分布(Gaussian Distribution),两个标准偏差对应着名义上(Nominally)4.5%的统计噪音机率(亦即有4.5%的机率这个结果是因统计样本不足而随机产生的噪音)。五个标准偏差则精确到0.00006%。为什么物理界会要求如此高的统计精确度呢?
这有很多原因,和我们眼前话题有关的有三个:1)实际的随机分布往往不遵循高斯分布,而有不能确定的胖尾巴(Fat Tail),使得统计噪音被低估。2)两个标准偏差对应到4.5%的噪音,是假设只有一个数据,像上图这条红线总共有38个数据点,那么随机出现两个标准偏差数据的机率就是(1-(1-4.5%)^38)=93%;换句话说,没有偏离的现象才算奇怪。这在物理界叫做“Look Elsewhere Effect”;也就是人类天性就会专注在“特别”的数据点上,而忘记有多少“普通”的数据点被尝试过了。所以要求五个标准偏差,即使有10000个“普通”的数据点被忘记,实际上统计噪音仍然只有(1-(1-0.00006%)^10000)=0.6%,还在可接受的精度内。3)这种简单的标准偏差估算,还有另一个隐性的假设,就是横轴的测量是绝对精确的,统计误差只存在于纵轴。可是电子流密度的测量,最大的误差其实是在能级上;换句话说,这张图的横轴误差实际上比纵轴误差还大,有少数几个1.2TeV的样本被测量成1.4TeV,就自然会有一个1.2TeV的低点和一个1.4TeV的高点。这是统计噪音又被低估的另一个原因。

终于到了王先生文章里最核心的论述。我先试试回答三个疑点:

  1. Fermi和AMS02设计的重点本来就是在100GeV出,高能段误差上升快,在1TeV意思多靠谱本来就不好说,并且你看一下指标知道,Fermi卫星在这个能段的粒子鉴别能力跟悟空比差了太多。所以我前文说的,这个能量上的观测条件,目前看来悟空确实是最强的。
  2. 尾端的统计事例很低,看看下图其实只有三四个点。但悟空组发布的结果,一个是拐折,一个是1.4TeV疑似,并没强调最后的几个点。目前也没多少分析文章把重点放在这,大家都还是很谨慎的。个人感觉悟空第一阶段的成果,把这个秀出来更像是一种对自己探测实力的展示,毕竟第一次空间实验看到5TeV的电子。
  3. 至于1.4TeV对应的那个峰,93个事例讲真也不算少了。悟空的谱如果不单独加个1.4Tev信号去拟合的话,效果确实已经很好,但理论分析这个点的local significance也能达到3.7σ,我不知道王先生两个的σ的结论是哪里来的,肉眼判断么?后面分析的look elsewhere effect,确实如此,物理学的发现要求5个σ,两个标准差的东西物理学家不会太在意也是这个理由。但是这个计算吧,三点几个σ,这里更保守点用0.1%计算,出现几率是(1-(1-0.1%)^38)=3.7%。这个可能性其实不大,只是不能称之为发现而已。谨慎看待是必须的!但我更想吐槽的是您发这个文章之前能按一下计算器么?!(1-(1-4.5%)^38)=83%好么!本来置信度就已经给你说差了很多,还硬加上十个百分点的否定概率,几个意思?!
DAMPE组给出的部分数据

然后对于王先生上面一段话,我还要说一点:

横轴的间距不叫测量误差!

不叫测量误差!

不叫误差!

那是人家处理数据的时候把这个能量段内的事例统计分析而已,也就是所谓的分bin。真正评价能量误差的是仪器的能量分辨率。悟空在一个TeV以上的能量分辨率已经达到了1%,世界最高!测量不准导致分bin不准当然可能,但像原文说的把1.2个TeV测成1.4TeV那概率就很低了。另外,这个分bin方式与Fermi一致,有评论提到这个超出需要更多的分bin信息支持。在理论所的报告会上也有人提了这样的问题,常老师给出的答案是,其他分bin方式下,尖峰一样存在甚至更明显,具体怎么样,我也想知道有没有实验组的人来回答一下。

然后再日常黑CALET。如果你看一下CALET发的图(CALET文章自己看吧懒得帖了),看看人家那个误差,都是同时间研发的,差距咋就那么大呢。而且莫名其妙挑了一半的事例抢先在悟空前发表,还不列出事例的数据,你说你为什么“不受重视”。。。


正是因为悟空卫星结果的实际统计误差太大,缺乏统计意义,所以国际物理界不把它当回事。但是悟空卫星团队不止事后是拿一个没有实际统计意义的结果来过关,而且是原本设计就有问题。我这么说,是因为暗物质如果真的衰变,会产生同样数量的正子和电子;但是在1TeV左右的能级上,宇宙线中电子流的背景比正子流高20倍,所以AMS-02发表结果的时候,专注在正子流而不是电子流上,正是缘于前者的信噪比是后者的20倍。悟空卫星团队反其道而行,为了追求稍高一点的能级,牺牲了分辨正子和电子的能力,原本对WIMP的解析力就弱于早上三年的AMS-02,难怪这次只能拿出统计噪音来当结果。(本段根据读者意见稍作修订,在此深表歉意和感谢。)

先不吐槽各种先入为主的臆断,这段改版前的科学错误简直是不堪入目。作者改完之后我还是要提醒几句。你要分辨正反粒子,你需要什么?知道花了20亿美元的AMS-02贵在哪么?

磁铁!

开发一个超大的稳定的永磁铁本来就贵(自豪一下,AMS上最核心的磁铁这个也是咱中科院的产品),所有的器材还得往它的稳定性上靠,完了之后把这大几吨重的家伙发射上天又是一大笔钱。AMS-02上的正负电子和本来就跟正电子负电子单独的流强是分开测量的,不是把后面两个加起来得到前者。结果怎么样,见下图,16年最新数据,单独的电子谱也就到了几百个GeV,而且误差很大,而且这一块别的实验组跟AMS比起来,更是战五渣。你说,现阶段TeV能级的正负电子总量还没测准,直接就花几百亿去分辨高能段的正负电子,你会给钱么?科学是一步步走的,目前悟空的设计,根本不会测量到正电子或者负电子的单独流强,但不代表没意义。

当然那段话有一点也要肯定一下,如果没有额外源注入的话,宇宙射线的所有反粒子只能是次级宇宙线,也就是说,正电子只能是初级宇宙线在星际介质中的副产品,确实比例很低,这也是为什么单独的正电子谱也很重要。但是它的挑战也是在背景分析上,理论文章很多,不详述。

AMS-02的正/反电子谱
实际上,WIMP和它所依据的超对称理论,从1986年的Ginsparg & Glashaw论文揭露真相开始,大多数的高能物理学家就知道不靠谱(例如2000年有行内的赌盘,结果赌LHC不会发现超对称的占70%),偏偏一些学者在美国超弦界影响下,依然坚持做超对称实验,两年前的Panda X和这次的DAMPE不但都如有识之士早已预见的做了虚功,而且是美国实验的重复投资,即使误打误撞中了彩票,也只会是追救护车之举。因为比起美国稍早的版本,它们只多出一点点功能,而美国实验在设计的时候,就已经寻求效费比的最大化,所以名义上的多出来的那一点功能,实际上的物理意义是有限的。
例如这次悟空卫星,牺牲了寿命来追求高一点点的能阶。但是高能级的统计误差本来就大,再牺牲了寿命之后,就不太可能有足够的统计样本来得到确实的新结果。换句话说,Panda X和悟空卫星都是在投资上并不明智:不但找到信号的机率很低(小于0.1%),就算有信号,美国实验也大概率会先找到。美国人找不到而中国找到的脚本,很可能不会发生。

首先还是强调一下,暗物质探测里超对称只是一种理论解释,不是各实验先验的理论基础,你的模型分析爱用不用。其次,你也不看看几个实验的技术指标,AMS跟Fermi看不到的信号,给悟空抓到了完全是合理的,不是谁先上天就一定赢。再有,悟空的探测本来就是针对高能阶,何谈“牺牲”,并且目前看来各项指标远远好于预期,八十一难似乎还没来,悟空同志快活个几年是没问题的。对了,悟空在天上走的是太阳同步轨道,比起空间站上的卫星,悟空一直是同一面对着太阳,温度更稳定,所以仪器稳定性和寿命完全可以有更高的期待。

最后还想说一下,王先生拿悟空跟AMS比正电子的探测,又拿AMS说省钱,在科学上能不能不那么双标?所谓效费比,是你什么样的科学目的花什么样的钱,值不值是匹配的。否则按王博士的标准,所有物理实验都没用,所有物理学家都跟着一起转行就行了。

相比之下,前面提到Katelin Schutz真正推展了人类对暗物质的了解,所用的却只是几台简单的个人计算器。

现在科学早就不是刀耕火种的年代了,这种论调也就是往民科坑里钻。但是我觉得做科普嘛,在分布文章前按一下计算器,确实还是足够的。


除了以上对王先生的文章的看法。听了常进老师的报告后,我再说点自己对悟空实验的理解。

首先是纵向地历史地来看,我们为什么需要悟空?

作为21世纪物理学上的两朵乌云,暗物质和暗能量,如果实验不推进,或许我们将一直被乌云笼罩。目前的实验现状,对撞机实验还没有发现信号,地下直接探测实验也没有令人信服的正面结果,空间实验虽然有各种疑似信号,但疑点重重。Fermi有最强的光子探测能力,也曾经看到130GeV和43GeV的gamma谱线超出,但并没有得到别的实验的交叉验证。AMS在带电粒子的分辨能力和探测能力上独树一帜,也早早得到了正电子谱上升的结果,但在更高能端的物理上能力还是有限。在这种环境下,物理学需要一个实验来对高能端进行探测,同时也做已有结果的交叉验证。悟空是有针对性的,基于前人的结果进行设计,应该说是应运而生,不仅仅是满足我们中国人追求先进的需要。更何况,对现代物理实验来讲,民族自豪感一直都是一个重要因素!

然后我们比较来看,悟空强在哪?

AMS跟Fermi,也就是悟空文章里点到的两位,作为先驱者,他们的设计的能段主要关注在100GeV能量上的宇宙射线,对TeV以上能级兼顾有限,误差较大。此外,AMS的接收率,Fermi的粒子辨别能力都比较有限。至于地面实验,VERITAS、HESS、MAGIC等,虽然号称可以到超高能量,但毕竟实验环境是在地面上,看上面展示的图,那宽宽的误差带,实在让人难以挖掘出什么物理。反观我们的悟空,这几个特点还是很明显的。1.能量范围超宽,从几个GeV到几十TeV,100多万倍的能量范围确实绝无仅有。2.高能端能量分辨率最强,1%左右的误差,让人相对比较放心。悟空也是人类首次在太空测到了5个TeV以上的电子事例。3.本底最纯,区分电子质子的能力最强,这也让他的能谱更准。此外,这次出来的仅仅是悟空的正负电子谱,而悟空的光子信息一样给人期待。现在悟空的问题就是统计数据量有限,等等呗。

然后我们比较一下作为竞争对手的日本的CALET。。。

算了还是不比了,我看了半天没发现什么值得讲的,或许他的引用率还是得靠悟空拉上来。。

最后一个问题是对这个结果的看法

一个字,谨慎

官方也说了,统计量还不够!科学上发现了三四个σ的信号最后被实验统计量抹平的例子大大的有。毕竟是一个新发现,谁都会想抢占理论高地。但是你去听科学家的报告,或者看一下人家的文章,措辞全都很谨慎。到时统计量上去,检验对了,中国的科学家也算中了次彩票。但悟空有没有可能错了?完全有可能!

这一次悟空的报道铺天盖地,宣传上做的确实还不错。主要媒体虽然动静不小,但是措辞还是严格的。“可能”,“疑似”等等这样的字眼还是醒目的。也就到了某些爱搞事的小媒体上成了“发现”暗物质,当然还有贵报这样起来唱反调的。

对王先生这种什么物理实验都要起来喷一下的,我想说有反对的声音不见得是坏事,但是首先你得用严谨的科学态度来讨论问题。“所以国际物理界不把它当回事”“吹嘘成主流理论”“难怪这次只能拿出统计噪音来当结果”“美国人找不到而中国找到的脚本,很可能不会发生。”等等先入为主的字眼,很难让人相信这是来心平气和讨论学术的。再加上故意凑出两个σ出现概率93%这样的结果,不得不让人怀疑是在带节奏。我就问一句,以现在的国力,以如此低的价格,搞出一个领先的探测器,推进人类对未知的了解,有什么问题?咱自己的卫星,自己的达到世界领先的项目,在科学范围内多加报道,又有什么问题?

最后,科普确实不好做,专业人员哪里不小心说错了,或者把有争议的地方当结论讲了,还得忍受同行的压力,反观脱离圈子的人,带着光环无压力一通瞎吹反而蛊惑力十足。建议王先生以后讨论科学问题,不能态度严谨起码也语气中正。媒体本身自然很难判断,但是对于简单的算术,备一个国产的计算器够了吧?