不是所有的服务器都叫“智能服务器” - 行业新闻

  1. 门户首页
  2. 行业新闻

不是所有的服务器都叫“智能服务器”

随着云计算、大数据以及AI业务的蓬勃发展,对服务器和计算能力的需求大大增加,全球都在加速数据中心的建设,而且规模越来越大,从几万台服务器到几十万甚至上百万的规模。根据Gartner报告,2017年第4季度全球范围内服务器的收入同比增加25.7%,服务器相关的技术产业正处于高速的上升期。由于业务的快速发展,需要IT基础设施具备快速部署、快速上线及便捷管理的能力,海量服务器的管理场景将变得越来越复杂,传统运维领域面临着许多新的挑战。

服务器部署的挑战

在数据中心的扩容、迁移和整合场景中,一台新采购的服务器到正式使用需要经过装配、、调测、分配网络资源、下发配置等过程,现场人力涉及到硬件安装、软件部署和技术类运营维护人员等。这些操作大部分都需要运维人员现场手工操作,据华为公司IT部门统计,这类操作中,超过50%的故障是由人工操作引发。人工操作效率较低且容易出错,这将导致额外的人力、物力以及时间的开销。

能耗管理的挑战

根据Climate Change News的报告,2017年全球数据中心的电力消耗总量占据全球电力使用量的3%,而且预计在2025年这一比例将高达20%。另外据统计,能耗费用占数据中心OPEX(运营费用)比例高达35%,OPEX高速增长成为“全球难题”。用户对能耗管理的诉求主要体现在如何设计可靠的能耗管理策略,能够高效地节约能耗开销;以及如何有效地统计和预测能耗开销,这对数据中心的精准投资至关重要。

故障预警及诊断的挑战

传统运维模式中,运维人员主要是被动式地等待问题发生,再进行故障处理,传统运维模式下人均维护效率为50~100台。

随着数据中心规模越来越大,故障将发生地更加频繁,故障之间的关联将更加复杂,传统方式的维护效率会进一步降低。另外基于告警上报的传统维护方式是要达到严重的阈值才能上报问题,难以避免业务中断。在这样的背景下,用户级的99.95%或以上的服务质量承诺(SLA)很难保障。

面对这样的挑战,我们应该如何应对呢?

Gartner于2016年提出了智能运维的概念(Algorithmic IT Operations, AIOps),AIOps的部署率在2016年低于5%,但是2019年AIOps的全球部署率将达到25%,智能运维正快速发展。AIOps运维平台拥有如下11项能力:包括历史数据管理、流数据管理、日志数据提取、网络数据提取、算法数据提取、文本和NLP文档提取、自动化模型的发现和预测、异常检测、根因分析、按需交付和软件服务交付能力等,这些能力的定义为解决上述痛点问题提供了很多针对性的解决措施,是当前数据中心管理海量服务器主要的发展方向。

不是所有的服务器都叫“智能服务器”

▲智能运维概况[Gartner 2016]

智能运维是一个长期演进的过程,可以看到智能运维侧重的是从海量机器数据中进行检测、预测,从被动运维变成主动运维,这种优化主要软件层面的优化,但实际上要在部署、节能以及故障管理等领域实现质的提升,软硬件的协作必不可少。

不是所有的服务器都叫“智能服务器”

智能服务器是集成运维平台软件、BMC软件以及智能化芯片的软硬件整体解决方案。那这种软硬件整体的解决方案有什么优势呢?

相对于传统服务器和OEM模式的服务器,智能服务器具备智能化的管理功能,例如单机级别的故障预测和分析,智能能耗管理等。同时界面操作更加人性化和智能化,降低了运维人员的维护成本,提高运维体验。另外智能服务器支持维护人员在近端通过蓝牙、WiFi接入服务器运维系统,在服务器部署和故障定位排查提供了极大的便利性。

不是所有的服务器都叫“智能服务器”

以部署和维护场景为例,智能服务器提供一键式WiFi热点按钮,维护人员到达现场后,按下WiFi热点按钮,并使用移动App扫描服务器上的条码接入服务器运维网络,快速维护服务器的框位信息及下发配置操作,或者根据移动App提供的装配和故障排查指导进行装配和维修等。

相对于智能运维,智能服务器提供了支持智能化管理功能的硬件平台,这大大丰富了智能运维的场景。在很多场景,运维人员需要手工操作的瓶颈点并不是因为有效信息在隐藏在海量数据中,而是硬件本身不支持智能化的管理。智能服务器将软硬件打通,从根本上解决一些运维场景中仅依赖软件层面无法解决的问题。同时由于硬件芯片能力的提升,服务器本身能够分担一部分智能运维能力,对服务器的管理更加及时、高效;服务器采集到的硬件信息也将更加全面,能够为运维平台产生决策提供更加可靠的参考。

对于能耗管理,智能服务器将动态CPU调频、风扇调速以及电源休眠等功能进行整合。当夜间业务负载较低时,用户将能耗模型设置成节能模式,智能服务器动态地调节CPU频率,限制功率数值,同时让部分电源进入休眠模式,进一步节约能耗。当日间业务负载较高时,用户将能耗模式设置成高性能模式,智能服务器解除CPU调频限制和电源休眠配置,同时让风扇散热使用高性能的散热规格, 节能策略的智能联动,单柜服务器有望节能10%以上。智能化的能耗管理平台还提供了机柜级能耗的智能控制,根据历史功率推荐合适的功率封顶值数值,在典型业务场景下,单柜服务器的部署密度可以提升10%以上。

不是所有的服务器都叫“智能服务器”

智能服务器继承了智能运维现有的功能,同时为智能运维的演进提供了一个新的方向。可以预想到,通过智能服务器解决方案的实施,传统运维人员能够摆脱以往机械式、重复性和低价值的日常工作,手工操作最大限度得变为智能化的自动操作,现场运维人力的效率能够得到极大的提升。同时智能化的能耗和故障管理能力能够更好地保障对业务系统所承诺的服务质量(SLA),并且为用户更好节省运营成本。