人工智能的两个基本要素是训练和推理

2020-08-23 10:42:23 来源：用户：

许多人已经观察到，我们正处于下一次工业革命的曙光：人工智能(AI)革命。这场智能革命带来的好处将是很多的：在医学，改进的诊断和精确治疗，更好的天气预报以及自动驾驶汽车等方面。但是，这场革命的成本之一将是为它供电的数据中心增加电力消耗。数据中心的电力使用量预计将在未来10年内翻一番，并有望在2030年之前消耗全球11%的电力。除了采用AI外，这一趋势的其他驱动因素还包括向云的迁移以及CPU，GPU的电力使用量的增加。和其他服务器组件，它们变得越来越强大和智能。

人工智能的两个基本要素，即训练和推理，各自消耗的能量不同。训练涉及对非常大的数据集进行计算密集型矩阵运算，这些数据集通常以TB到PB为单位。这些数据集的示例范围从在线销售数据到捕获的视频提要，再到肿瘤的超高分辨率图像。从本质上讲，AI推理在计算上要轻得多，但是可以无限期地作为服务运行，当遇到大量请求时，它会消耗大量能量。考虑一下用于办公楼安全性的面部识别应用程序。它会连续运行，但会在人们上班和上班时在8:00 am和5:00 pm再次占用计算和存储资源。

但是，很难掌握AI中的功耗。能耗不是作业计划程序跟踪的标准指标的一部分，虽然可以设置，但它很复杂且依赖于供应商。这意味着，大多数用户在能源使用方面都是“盲目”。

为了制定AI能源需求，Miro Hodak博士领导了一个由Lenovo工程师和研究人员组成的团队，研究了经常使用的AI工作负载的能源成本。数据中心硬件深度学习中的功率效率研究，(需要注册)最近在2019 IEEE国际大数据会议上发表，并在会议记录中发表。这项工作着眼于在配备4个Nvidia V100 GPU的Lenovo ThinkSystem SR670服务器上使用ImageNet数据集(包含130万张图像)训练ResNet50神经网络的能源成本。服务器电源的AC数据表明，完全训练此AI模型需要6.3 kWh的能量，足以为一个普通家庭供电6个小时。在实践中，类似的训练会重复多次以调整生成的模型，从而导致能源成本实际上高出几倍。

该研究将总能量分解成其各个分量，如图1所示。正如预期的那样，GPU消耗了大部分能量。但是，考虑到GPU可以处理所有计算密集型部分，因此65%的能量份额低于预期。这表明仅使用GPU功率对AI能源成本的简单估算是不准确的，并且错过了系统其余部分的重大贡献。除GPU外，CPU和内存占能源使用量的近四分之一，而9%的能量用于交流到直流电源转换(这在SR670 PSU的80 PLUS白金认证范围内)。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！