IT资讯 Archiver

- 发表于 2024/4/24 10:55:50

浪潮信息彭震:激发创新活力,加速 AI 落地

浪潮信息董事长彭震在生态伙伴大会 IPF2024 上表示,发展人工智能 +, 要坚持“以应用为导向,以系统为核心”,着重激发创新活力、拓展创新路径、加速创新落地,推动 AI 成为千行百业的生产力。

人工智能给整个社会生产力带来了根本性的改变。人工智能改变了生产力三要素,使得劳动者不仅仅是人,而变成了“人 + 人工智能”,生产资料从传统意义上的有形要素改变成无形,也就是数据。劳动工具发生了巨大变化,过去的工具是人的肢体延伸,但是在人工智能时代,工具成为大脑的延伸,也会产生智慧。

根据权威机构的预测,AI 在 2023 年到 2030 年间累计对 GDP 产生的影响将是蒸汽机在 1830 年至 1910 年间对整个经济影响的 4.5 倍。今天我们感觉 AI 没有那么大的颠覆性,是因为 AI 还在快速的向人类学习,当 AI 的智慧超越了人类,我们就会发现 AI 将以迅雷不及掩耳之势改变世界,而且这种改变是不可逆的。

发展 AI, 以应用为导向,以系统为核心推进应用,发展 AI 产业,要把握住产业的客观规律。首先,应用是 AI 最重要的要素,应用将会给 AI 带来巨大的牵引力。其次,AI 有三个要素构成,算法、算力和数据,AI 的突破是三个要素系统发展的结果,未来的突破要从这三个方向一起发力,而不仅仅聚焦在某一方面。算法是驱动应用发展的直接动力。大模型算法的创新趋势主要是扩大规模和 MoE 混合专家系统的采用。千亿参数是大模型智能涌现的临界点,而且参数规模越大,涌现的能力越大,在多个垂直领域开始超越人类。混合专家系统是把不同的专家系统组合起来,统一调度形成更好的智能涌现。模型规模从千亿走向万亿,单一模型到混合专家系统,越来越复杂,需要的算力规模越来越大。

算力是 AI 算法创新的工具,算法的需求拉动了算力的创新。算力的发展不仅仅源于芯片,更源自系统创新。从 2017 年 Transformer 架构诞生至今,按照摩尔定律推算,芯片性能只提升 8 倍,但是通过系统创新,AI 计算的性能提升超过 1000 倍。系统创新涉及方方面面,例如算法精度、计算架构、系统互连等。算法层面,过去大模型精度最开始是 FP32, 到现在 FP8, 未来会走向 FP4, 算力效率不断翻番增长。计算架构层面,从简单的 CUDA 核心到 Transformer 引擎,张量计算变成多维矩阵计算,整个计算体系针对矩阵计算进行了优化,让整体性能提升了 1000 倍。系统互连层面,模型参数量越来越大,万卡成为 AI 系统设计的起点,超大规模算力平台的效率变得越来越重要,无论是系统内互连还是节点间的互连都直接关系平台效率。GPU 间的点对点通信带宽从 2017 年 32GB/s, 到今天的 1800GB/s, 提升了 56 倍,有效降低了节点内通信开销。对于节点间互连,超级 AI 以太网诞生,相比传统以太网,让训练效率提高了 1.6 倍。

数据扮演的角色越来越重要,有人说谁掌握数据,谁就掌握了 AI 智慧涌现的重要话语权。随着高质量数据的规模增长,模型的精度也会指数级的提高。目前训练数据量越来越大,人类所产生的已知数据对大模型来讲远远不够。通过 AI 技术合成数据成为一个主要的趋势。可以说,在 AI 时代要去掌握业务的话语权,就要掌握数据,掌握数据处理能力,掌握数据的创新能力。

总之,发展人工智能 +, 要以应用为导向,以系统为核心,实现算法、算力、数据三要素的协同发展。落实到具体实践中,就是围绕活力、路径、落地开展创新,以开源开放、多元多模激发创新活力,以系统创新、全局优化拓展创新路径,以协同共生、开放共赢的生态加速创新落地,从而实现 AI 创新与 AI 应用协同发展。

开源开放,多元多模,激发创新活力开源开放是创新活力的源泉,在互联网时代,开源开放打破了过去的技术垄断,使得更多人参与到开源社区,贡献代码,贡献想法,共谋发展。

在 AI 时代,开源开放会起到更大的、更积极的促进作用。芯片领域,90% 以上的高端芯片厂商都支持了 OAM 开放规范,不同的芯片可以在一台机器上运行,极大的降低了产业创新的难度,降低了技术创新试错成本和适配成本,促进了算力创新。大模型领域,LLaMA2 开源平台被众多大模型算法所引用,2/3 的大型语言模型都选择了开源。开源开放促进了整个产业的繁荣发展。

开源开放使得 AI 领域迸发出了大量的创新企业。算力多元化,CPU、GPU、TPU、NPU 等各种各样的芯片不断出现,大模型也层出不穷,形成了多元竞争、百模竞秀的良好局面。这不是重复造车,这是对产业极大的促进。从历史来看,很多技术、文明诞生的初期,都是百家争鸣、百花齐放。产业发展初期有很多家企业在创新,随着产业发展,企业会逐渐聚合收拢,与此同时,产业规模将会越来越大,逐步扩张,整个过程呈现一个双漏斗形状。通用人工智能发展初期,应该是百舸争流、大浪淘沙,在市场竞争中不断完善和发展,最终通过市场之手、用户之手来选择。

系统创新,全局优化,拓展创新路径从具体实践看,千亿参数是大模型智能涌现的门槛,万卡是 AI 系统设计的起点。这对目前系统的算法效率、计算资源、互连带宽和能效提出了不小的挑战。那么面对这些挑战,系统创新、全局优化具体应该如何展开实施呢?

首先,在算法效率层面,很多大模型平台的利用率都很低,大部分算力被浪费掉了。所以,一个大规模计算系统中,互连、算法等关系整体效率的工作越来越重要。我们曾经在一个芯片平台上做大模型训练,发现平台的互连带宽非常之低,为了克服这样的问题,我们在算法层面做了大量的并行优化,包括优化器参数并行、数据并行、流水并行等,降低了对带宽的依赖,让整个平台效率提升了 33%。

其次,通过硬件重构和软件定义解决资源不足的问题。去年我们发布了融合架构 3.0, 通过高速互连总线实现各类资源解耦,包括 CPU 和 GPU 的解耦,当 GPU 算力不足的时候,我们可以做到单节点 16 卡、32 卡,直至达到 CPU 与 GPU 的最佳配比。这是一个全新的架构,打破了以芯片为核心的单机系统设计思路,是以万卡集群做为设计出发点的、以系统为核心的全新架构。当然,有了如此复杂的系统,就要开发相应的感知调度软件,包括业务感知、资源自动调度和弹性扩展,这就是软件定义。

再次,互连会变得越来越重要。过去 AI 的计算模式叫 AI Factory, 是一个单一任务的集群,现在出现了一种新的混合模式 AI Cloud。面向 AI Factory 的专用网络无法支持 AI Cloud 模式下多用户、多任务、多租户需求,因而越来越多的客户将会采用超级 AI 以太网。超级 AI 以太网在整个网络底层采用了乱序重组的技术,通过智能网卡推动整个高速网络的效率提升,因而超级 AI 以太网有着很典型的特点,就是“交换机 + 智能网卡”的高效整合。

最后,万卡集群中节点内的 P2P 高速互连距离是非常有限的,最多能做到 1-2 个机柜之间的高速互连,所以,AI 计算必然走向高密度,机柜供电就要从 12-16 千瓦走到 120 千瓦,达到风冷极限,散热将逐渐走向液冷。AI 计算、液冷和整机柜的结合将成为未来趋势,浪潮信息将持续推动液冷组件标准化、规模化、产业化,最终实现“风液同价”。

协同共生,开放共赢,加速创新落地我们建立了元脑平台融合左手伙伴和右手伙伴,推动产业 AI 化。总结过去元脑生态的发展,我们找到了关键路径,这个既是元脑生态工作的经验总结,也是我们在自身智能化转型工作中的体会,那就是要研制 AI 的开发工具,对伙伴进行工具赋能。

我们建立了企业大模型开发平台,通过工具赋能千行百业。算法、数据等领域的左手合作伙伴可以将新的技术接入到平台里,为所有生态合作伙伴所用;ISV / SI 等右手合作伙伴可以在平台上选择各类快速开发工具;用户获得了一个强有力的智能化转型加速器。而且这个平台支持多元多模,创新实现了上层模型算法和下层基础设施的逻辑解耦,即便伙伴和客户要更换算力平台或者模型,都非常方便,试错成本极低。

结语 AI 可能是我们人生中面临的最大的产业机遇。这个机遇是颠覆性的,我们希望能够和合作伙伴一起通力协作,面对这样一个百年难遇的人生机遇,携手共同努力,迈向 AI 的新时代。

查看完整版本: 浪潮信息彭震:激发创新活力,加速 AI 落地