想象一下,支撑世界最大数据中心的数百万计算机芯片里存在着罕见的、几乎无法检测到的缺陷。发现这些缺陷的唯一方法是将芯片投入到十年前无法想象的巨大计算问题上。随着计算机芯片上的微小开关缩小到几个原子宽度,芯片的可靠性日益引起担忧。去年 Amazon、Facebook、Twitter 等都发生了令人瞩目的故障。故障的原因多种多样,如编程错误和网络拥塞。但人们也越来越担心,云计算网络变得越来越大也越来越复杂,可它们在最基本的层面上仍然依赖于计算机芯片,这些芯片现在不太可靠,在某些情况下甚至不好预测。过去一年,Facebook 和 Google 的研究人员都发表研究,描述了原因难以确定的计算机硬件故障。他们认为,问题不在软件,而在不同公司制造的计算机硬件的某处。
斯坦福大学专门测试计算机硬件的电气工程师 Subhasish Mitra 表示:“他们看到的静默错误基本都来自于底层硬件。”Mitra 博士表示,人们越来越相信不易被发现的静默错误与制造缺陷有关。研究人员担心他们之所以会发现罕见的缺陷,是因为他们正试图解决越来越大的计算问题,问题会以意想不到的方式给系统带来压力。十多年前,运行大型数据中心的公司开始报告系统性问题。2015 年,在工程期刊《电气与电子工程师学会会刊(IEEE Spectrum)》上,一个多伦多大学研究硬件可靠性的计算机科学家小组报告称,在 Google 数百万台计算机中,每年会有多达 4% 的计算机遇到无法检测到的错误,导致它们意外关闭。在一个拥有数十亿个晶体管的微处理器中——或者一个由数万亿个微型开关(每个微型开关都可以存储一个1或0)组成的计算机内存板中——即使是最小的错误也会破坏现在通常每秒执行数十亿次计算的系统。
版权归原作者 奇客Solidot 所有, 如有侵权,请联系我们删除。