邬贺铨提出算力十大思考,建言从实战中学习创新
最近几天,2022中国计算大会在济南开幕,为高质量发展奠定基础,在主题主论坛上,中国工程院院士吴发表了《 for Data Center数学用Rdquo思考》,提出关于计算力的十点思考何泉解释数学即研究数据的科学,Rdquo也就是计算力的技术
算还是存。
何伟表示,AI应用驱动的计算能力需求正在快速增长基于GPU/NPU/FPGA的AI智能计算中心适合训练数据导出模型
训练完数学模型后,使用深度神经网络不需要调度很多参数,降低了对计算能力的需求基于CPU的通用计算能力IDC适用于已知数学模型下的计算任务
何泉指出,是否可以认为AI智能计算中心的主要任务是计算,IDC的主要任务是保存。
三种算力的合理比例是怎样的。
目前,计算能力可分为基础计算能力,智能计算能力和超级计算能力。
从2021年全球计算能力分布来看,美国占31%,中国占27%,其次是日本,德国,英国等国美国基础计算能力占全球35%,智能计算能力占15%,超级计算能力占30%,中国三类分别占27%,26%,20%
何泉说,可以看出,美国是以基础计算能力为主,中国的智能计算能力远远超过美国中国的超算和AI智能中心由政府主导,基础计算能力由运营商和互联网公司主导,而美国由互联网公司主导
冷数据和热数据
IDC数据显示,人类历史上90%的数据是在过去几年产生的,50%是在短短两年内产生的据预测,到2025年,数据量每年增长30%,即两年增长70%
一般来说,最近生成的数据是热数据,一周或者几个月后就会变成温或冷的数据冷,暖,热数据分别占累计数据总量的80%,15%,5%左右
冷数据主要存储,计算需求异常东西方适合处理冷热数据,从东往西算其实就是从东往西算
计算分离和内存计算
内存分离架构在控制单元的指令下从内存中读取数据并提交给CPU进行计算,得到的结果需要送回内存而对于冷数据的I/O并不频繁,所以更适合冷数据处理,比如云平台建模,边缘计算训练,仿真等此外,开放式存储系统和磁带存储介质可用于存储和计算的分离,存储可同时服务于多台服务器池化存储支持多云条件,利用率高,降低成本,减少能耗
而热数据需要快速计算,却受限于内存与计算分离的I/O瓶颈,CPU容量受内存访问速度影响,难以充分发挥,因此需要内存计算内存技术用RAM代替硬盘,所有操作都在RAM中完成比如自动驾驶可以在车内同时完成存储和计算,但目前实现起来比较复杂,成本也很高
何泉表示,西部地区虽然主要处理冷数据,但也需要处理局部热数据冷数据和热数据是否需要不同的存储和计算结构
封闭系统存储和开放系统存储
一般来说,服务器由CPU和内存组成如果把存储放在一起,就叫封闭存储系统,但是容量有限所以在大多数情况下,存储是和服务器分开的,也就是开放系统存储,这样存储容量可以被多台服务器共享,通过池化可以支持云应用不同的存储架构适应不同的任务,可以根据任务实施软件定义的存储
PUE和IT能效
PUE是数据中心能耗与IT系统能耗的比值,反映制冷系统的水平,但不衡量IT系统的能效据统计,在IDC的IT系统能耗中,服务器约占50%,存储系统约占35%,网络通信设备约占15%
数据中心需要7*24小时工作,但并不总是按7*24小时计算,在非计算状态下也要消耗能量此时,存储系统的能耗成为主体根据麦肯锡报告,大部分电能用于维持服务器状态,只有6—12%用于计算
所以要降低能耗,一是用磁带代替磁盘进行冷数据存储预计十年后100PB的存储成本可以降低73%其次,热数据存储使用闪存代替磁盘,提高访问速度,吞吐量和能效,但目前成本仍然较高,此外,我们应该探索通过数据预处理提高能源效率的方法
数据可信度和灾难恢复保护
数据最重要的是安全目前,有两种主要的灾难恢复保护方案是三份方案,容量利用率低,但读写快,适合小文件,第二种是4+2纠删码方案,容量利用率高但读写慢,适合大文件场景这时候就需要思考,大小文件是否需要分区域存放,才能采用不同的可靠性技术方案
同时,容灾是数据中心的刚性需求华为/罗兰·贝格报告显示,美国数据保护占存储投资的33.3%,全球平均水平为27.4%,而中国仅为7.8%,异地备份比例更低,防灾能力堪忧
另外,值得研究的是数据备份还是电脑备份计算力和保存力需要等比例备份吗
关于计算与存储合作的思考
根据华为/罗兰·贝格的报告,中国的储蓄账户比是美国的两倍,这导致中国的计算能力利用率很低可以理解为,虽然计算能力是有的,但是存储跟不上可是,存储—计算比率不是固定的比如冷数据的计算频率低,存储—计算比要高于热数据所以,冷数据和热数据的合理比例应该是多少,值得思考
此外,带宽和每秒操作数是衡量存储性能的两个主要指标前者需要聚合更多存储单元的带宽,后者希望减少每个数据访问请求涉及的存储单元数量两者很难兼得从计算任务调度入手,可以提前向存储系统提供该任务的IO模式信息,从而制定有针对性的缓存策略和数据一致性策略,甚至将数据调度到合适的存储位置,以获得更好的数据存储效率
关于计算网络容量比率的思考
2021年,全球数据中心流量分布在数据中心占71.5%,从数据中心到用户占14.5%,从数据中心到数据中心占13.6%主辅数据中心之间的数据传输需要同步动态更新数据,实时性高,但每次更新的数据量并不大但是对主备链路的可靠性要求很高,通常需要端到端的双路由
此外,东西方数据中心之间的传输系统容量是双向不对称的从东到西,从热到冷的数据会有规律的转移,数据量大,但实时性要求不高,瞬时带宽不一定要很高西方的数据计算结果需要传回东方,这个量并不大,但对实时可靠性要求很高东西方数据中心之间的链接需要从数据中心到城市的双路由中国需要更多的研究和经验数据来确定数据中心和用户之间传输信道容量的最优设计
关于东西方数计算的思考。
东西计算使得计算设施的布局超出了数据中心hub的范围虽然假设东西方是互相配对的冷热数据,但是东西方应该有多大的比例呢
以广东数据中心的规划为例,70%的计算能力在省内,30%的计算能力在省外进行设计,与冷数据的80%相差甚远你理解的80%的冷数据指的是存储容量而不是计算能力吗另外,在市场经济条件下,东西方并不是固定的一对,那么各自独立的设计部门如何做到产能最大化
同时,在同一个数据中心枢纽或集群中,有许多比例需要优化数据中心hub里有很多数据中心,每个数据中心都有很多所有者如何实现枢纽内各数据中心所需能源和网络资源的集约化,建立业主间的资源共享机制,提高利用率每个数据中心都需要设计一个合理的计算能力,存储能力和网络容量的比例,以及相应的容灾比例,根据数据的冷热程度会有不同的优化数据中心从长远来看需要建设能效更高的大型数据中心,但不应该一步到位
此外,Gartner认为,2025年,超过75%的数据将在边缘侧处理,需要规划边缘和集群数据中心的计算能力比例。
最后,何何权说,关于数据中心的数学用Rdquo还有很多需要深入研究,要善于从实战中学习和创新。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。