刀片服务器无法完全解决数据中心的全部问题
空间不是数据中心的问题
跟数据中心业主的交谈让我学到了很多东西,但偶尔我也会冒出一些没意义的想法。我最喜欢的例子是服务器密度。我接触过许多刚刚购买了刀片服务器的数据中心业主。谈话的内容方向上始终是一致的,"我们买了刀片而现在看来不过是又多了一些25 千瓦的机架"。我问他们的数据中心是否有open floor,基本上他们都有。那么回过头来看,我在想,他们现在以高昂采购成本购买了更高功率密度的机架,以期望每平方英尺空间能提供更高的计算能力,但事实上,数据中心不缺空间,因为几乎所有精心设计的数据中心都不会受到建筑面积的约束,而是电源和制冷方面的约束。为什么会这样?
其实这是在数据中心建设之初设计师们唯一的选择。我们来算算这笔帐:电源和冷却成本大约占数据中心总成本的70%,而数据中心的壳即这座大楼仅占10%多点。设计师需要设计一个可持续15年之久的数据中心,作为一名设计人员,怎么能够预料到15年以后的数据中心功率密度(通常用瓦特/平方英尺表示)应该是多少呢?该密度决定因素很复杂,取决于服务器的技术、存储利用率,以及许多其他未知因素。我们唯一确切知道的就是是我们不知道未来需求是什么,无论选哪个都是错的。设计师可以选择提供过量的电力和冷却,或者选择提供更大物理空间。选浪费地面空间错了10%,而搁浅电力和冷却资源却错了70%。多年前,任何一位以数据中心空间为代价保证未来的电源和冷却运行的设计师毫无疑问一定会被炒鱿鱼。他们多数都会选择在合理使用范围内提供超过需要的建筑面积来避免被炒。这就是为什么大多数的数据中心都有巨大的可用空间。
不排除有罕见的例外,但是常见的情况还是:数据中心业主投入更多资金购买刀片服务器,产出的不过是获得了更多数据中心空间,而他们原本就有未使用的空间。他们的数据中心本来就存在电源和冷却资源不足的问题,现在,加上高密度的服务器以后,这个问题更严重了。那么效率又如何呢?在谈到新的机架惊人的效率时,我们通常会提到PUE(Power Usage Effectiveness)。PUE是电力使用效率,实际上它比听起来简单,即进入数据中心的总能量除以关键负载耗能(用于服务器本身的能量)。举个例子,PUE 值为1.7即意味着服务器每消耗1w,电力分配和冷却系统的耗能是0.7 W。少数数据中心,尤其是那些经过一段时间后很多机器堆积在一起的,而不是从最开始就设计为一个整体的数据中心当中,PUE甚至糟糕到高达3.0 ,但要实现这个数字也需要付出一番"努力",所以我们会以1.7为例作为基线。
在我与数据中心业主的交谈中谈到了刀片服务器的效率,他们称PUE改善了,从1.7降到1.4 。听起来很不错,如果事实果真如此,那么这样的效率所带来的收益将超过购买刀片多付出的成本,同时也能起到良好的社会作用。不过我们需要深入的研究一下。我首先祝贺他们取得了漂亮的PUE ,并询问他们在初次安装新的刀片机时数据中心是否遇到了冷却问题。他们通常都经历过这样的问题,并且最终从APC, Rittal或者其他供应商那里购买了水冷机架。另外一些业主购买了诸如IBM iDataPlex那样的装有水冷背板的刀片机架。无论他们购买了谁的刀片产品,有一点是相同的:他们购买了刀片服务器,并在同一时间,采用水冷机架。新一代服务器比前一代效率更高,并且有更高效的冷却设计,不论它是不是刀片服务器。把服务器放到刀片上并没有使它们更有效率。
上述PUE改善最主要的原因是:他们用机架水冷取代了传统数据中心效率低下的风冷设计。水冷机架设计并没有什么神奇之处。许多其他类似的办法会有相同的甚至更好的效率。重点在于,水冷机架用的并不是大部分数据中心目前采用的最常见的、非常低效的风冷系统。传统的数据中心通常采用地板出风的设计,常温空气通过水冷CRAC(计算机房空调设备)单元变成冷空气,再从过道上穿孔的地砖吹向服务器等发热设备,出风口都在地上。某些过道上有太多穿孔地砖,而某些过道的又太少。有时工作人员将穿孔地砖放到更热的过道希望能够将其"冷却下来"。这样做的出发点虽然是好的,但不幸的是冷却效率反而大大降低了。有些冷空气会通过服务器,但有一些却上升到机架的上方了;还有一些流到没有挡板的空机柜里面去了。不经过服务器的冷空气流动,导致冷却系统的效率降低。流经服务器的冷空气最后会上升到天花板然后返回CRAC 。冷空气跑了这么多不通过服务器的路,都是没有效率的。如果您将水冷背板直接按到机架上--我称之为机架CRAC ,通过整体散热设计,可以避免冷空气不通过服务器的所有空中路径,并节省长距离抽冷气的动力成本,从而提高冷却效率。
由此可见,PUE值的降低并不是因为刀片更有效,而是因为它的冷却系统设计更高效。因此,即使不购买刀片服务器,仅仅将冷却系统设计改良一下同样可以降低PUE值,提高能源效率。
数据中心必须在地皮昂贵的位置安家吗?
有时有充分的理由相信对于一小部分应用来说,在低地产成本的地方建数据中心可能会有通信延迟。但是,对于大多数数据中心来说,建在地皮昂贵的位置就是个错误。虽然交通更便利,更容易进出数据中心,但是,你没必要频繁到数据中心去啊。事实上,过于频繁的进出数据中心,几乎就是确认数据中心常有错误或中断。将数据中心放到偏远地区大大降低成本并提高其可靠性。只有很少需要把数据中心设在纽约、东京、伦敦等,不过大部分人都没这必要,很多人都在这上面浪费了太多钱。我认为数据中心的首要法则是:如果您的数据中心有窗户,那么几乎肯定你在服务器、网络设备等方面一定有资金浪费,应该保持它的廉价和丑陋。
有些数据中心制冷需求已经超出其冷却能力,但又不能充分利用其所有能源或地面空间,这是怎么一回事?是低劣的设计导致能源浪费,而且这根本不应该发生。我们知道,投入到大楼里的每瓦特都应该得到充分利用,并且我们要看到产出。如果冷却系统的设计不能保证能源都可以充分发挥其作用,这一定是一个较差的设计。
现在非常典型的冷却系统问题是,购买了一台30kW的机架进入数据中心,冷却系统已经合理排列工作,却仍然不能处理好热源问题。这不是数据中心设计的不好,但确实引发一个思考:为什么购买30kW机架是一个好主意?我们现在回到"为什么"购买刀片服务器的问题。一般来说,除非你可以获得极高的功率密度价值,否则别买它。高功率密度意味着昂贵的冷却成本。除非已经计算出,增加的功率密度能够带来可计算的价值,不然的话不要投资到此。
讨论到现在结论就是:刀片服务器的功率密度非常高,但其成本超过了日用低功率密度的服务器。为什么要购买刀片?因为它们可以节省空间。在有法律规定必须把数据中心建在土地昂贵的地方的情况下,高功率密度固然是好的。然而,只有极少数数据中心业主能够给出令人信服的理由,来说明他们为什么必须在那些地皮昂贵的位置建数据中心。许多数据中心的地点选择不当是过多的手工处理程序造成的,管理员需要对你为之付出了100多万美元的数据中心进行手动管理。应该把你的服务器放到人们不想去的地方。无需为此而担心,服务器才不会关心什么"生活方式、学校,以及相关的生活质量"这些问题呢。
我们已经谈到刀片服务器之所以能够提高能源效率,是因为将冷却水背板直接固定在机架上,但是这真的与刀片没有任何关系。任何一位数据中心设计师可以采用这种水冷却背板技术或其他各种机械设计,大大改善数据中心的冷却效率。对于那些选择Rackable Ice Cube之类模块化数据中心的,也是从水冷背板得到的高效率。
我们还谈到了高热量密度的刀片服务器,并认为增加热量密度会增加操作或冷却费用,通常两者都会提高。一般来说,不要购买增加密度的刀片,除非有切实获益能够抵消冷却费用的增加。总之,权衡投入和产出,并仔细检查。然后确定是不是有便宜的方案,也能获得相同的收益。
有很多情况是需要高密度机架的。其中一个就是您的应用要求您必须采用高速、低通信延迟的服务器--据我所知高性能计算就是这样的,但是在许多商业数据中心我还没发现有这种需求。另一种情况是空间成本非常昂贵时。在上面的讨论中,我们已经确认仅有极少数的数据中心因为广域通信延迟的问题需要建在空间成本高昂的繁华地带。仔细审查一番购买高密度刀片服务器的动机以后,绝大多数人都无法说清他们为什么购买。在这些使用模式下,刀片并不是性价比最好的解决方案。事实上,这就是为什么世界上最大的数据中心运营商谷歌不使用刀片服务器的原因。当你一个月部署数万台服务器时,最重要的是你所花出的每一美元都物有所值。而从今天的价格来看,刀片服务器还没能实现这种大规模高效率的意义。
我并不是说购买高密度服务器一点好处也没有。事实上,我已经看到了许多优势。我想说的是:很多并不需要刀片的人购买了刀片服务器。而他们陈述的购买理由往往经不住仔细推敲。安装刀片机架后,有很多数据中心都遇到了冷却问题;还有一些冷却效率虽然提高了,但更深入地挖掘原因时,你会看到他们冷却系统设计的变化,是这些变化提高了冷却系统的效率,但事实上你无需支付部署刀片的费用也可以购买这些优秀的冷却设计方案。总之,许多数据中心采购前并未真正按照"每美元都发挥效用"的标准执行应有的审查流程。
提高密度是好的,但前提是必须要衡量清楚投入大于产出,并确认的确没有更便宜的方案可以实现这个收益。
以上爱站技术频道小编带来的关于刀片服务器无法完全解决数据中心的全部问题的内容,对服务器硬件知识感兴趣的朋友请继续关注爱站技术频道小编。