习近平总书记在2023年5月30日下午主持召开的二十届中央国家安全委员会第一次会议上强调:“要坚持底线思维和极限思维,准备经受风高浪急甚至惊涛骇浪的重大考验!”能不能突破数字关键核心技术,能不能实现网信科技高水平自立自强,是检验我们能不能坚守住国家底线,能不能顶得住极限压力,能不能经受住风高浪急甚至惊涛骇浪重大考验的试金石。北京交通大学信息管理理论与技术国际研究中心(ICIR)认为,网信技术自主创新突破是网信科技高水平自立自强的唯一出路,而架构再造、体系重构、技术突破是网信技术自主创新突破的三个不同层级。
一、计算架构及架构再造
1.冯.诺依曼计算架构
冯·诺伊曼计算架构是普林斯顿大学教授冯·诺伊曼参加美国陆军的一个绝密“PX”项目研制过程中提出的。1944年冯·诺伊曼教授作为顾问参加了全球第一个实用型电子管计算机ENIAC(电子数值积分器和计算机)的研究工作,并主导参与了ENIAC之后的下一台计算机EDVAC(电子离散变量自动计算机)的设计。1945年6月冯·诺依曼发表了《EDVAC 报告书的第一份草案》(《First Draft of a Report on the EDVAC》),详细阐述了EDVAC的完整逻辑构想,第一次系统描述了现代计算机蓝图,成为存储程序计算机的纲领性文件。
冯.诺依曼提出的计算架构将计算机的构成分为五部分,即运算器、控制器、存储器、输入设备和输出设备。近80年来,尽管数字技术已发生无数次迭代,数字产品形态也发生了很大变化,但信息产业链的终端形态仍然是这种架构。如大型机、小型机、微机、以及个人PC时代的计算机终端,其基本构成就是CPU(运算和控制)、存储芯片(DRAM、NAND)、键盘和鼠标等输入设备、屏幕和打印机等输出设备。移动互联网时代的智能手机,其基本构成也是由AP(移动CPU)、存储芯片(DRAM、NAND),触控屏幕、手势识别和面部识别等输入设备,屏幕和打印机等输出设备组成。云计算时代的云平台,基本构成也是由计算单元(包括CPU、GPU、FPGA等)、存储单元(DRAM、NAND)、输入设备(手机、PC、各种传感设备等)、输出设备(屏幕和打印机等)组成。正在进入大模型人工智能时代的今天,如智能汽车的基本构成仍然是由计算单元(GPU等)、存储单元(DRAM、NAND)、输入设备(数据采集设备、传感设备等)、输出设备(屏幕等)组成。
2.计算架构的三次再造
架构再造就是打破传统的由运算器、控制器、存储器、输入设备和输出设备组成的冯.诺依曼计算架构,重新构建一种全新的计算架构,并以此为基础打造一个全新的信息技术产业体系。架构再造有架构微再造和架构全再造两种形式,计算架构已经历过一次微再造,正在经历第二次微再造,并正在酝酿一次全再造。
(1)第一次架构微再造—“控算一体”
1943年—1957年的电子管计算机时代,计算机完全按照冯.诺依曼架构设计组成,包括运算器、控制器、存储器、输入设备和输出设备五部分,并且是一种“算控存分离”的架构。1958年晶体管发明以后,冯.诺依曼计算架构发生了第一次微再造,中央处理器CPU将运算和控制集成在一块芯片上,计算机演变成了CPU(运算器+控制器)、存储器、输入设备、输出设备四部分,实现了“控算一体”,但仍然是一种“存算分离”的架构。
(2)第二次架构微再造—“存算一体”
近年来,一种将数据存储单元和计算单元融合为一体的存算一体技术正在兴起。存算一体就是将计算单元叠加在存储单元上,使计算单元和存储单元合二为一,一方面让存储单元具备了计算能力,相当于在面积不变的情况下大幅度增加计算核心数,显著提升计算效率,另一方面减少数据搬运次数和距离,大幅度降低能耗。存算一体体系有三种技术实现路线:一是近存计算(Processing Near Memory),即计算操作由位于存储芯片外部的独立计算芯片完成;二是存内计算(Processing In Memory), 即计算操作由位于存储芯片内部的独立计算单元完成,存储单元和计算单元相互独立存在;三是内存执行计算(Processing With Memory):存储芯片内部的存储单元完成计算操作,存储单元和计算单元完全融合,没有一个独立的计算单元。因此,冯·诺依曼架构微再造以后的“存算一体”架构,具有算力更大、能效更高、成本更低等优势,并且计算机也随之演变成了“存算一体芯片、输入设备、输出设备等三部分。“存算一体”微再造后的冯.诺依曼架构将极大地推动基础芯片、基础软件的变革,CPU、GPU和存储芯片将实现融合,操作系统的功能也将发生变化,信息技术产业将面临重新洗牌。
(3)计算架构实现全再造
量子计算是一种遵循量子力学规律调控量子信息单元进行计算的新型计算模式。量子计算在原理上可通过特定算法获得比经典计算更强的算力。量子计算的物理实现将分三阶段实现:第一阶段是实现量子计算的优越性,量子计算对某些特定问题的求解速度已经远远超过了经典超级计算机;第二阶段是构建专用的量子模拟器,用来求解一些经典计算机难以胜任的特定复杂问题,比如高温超导机制等;第三阶段目标是希望在量子纠缠的帮助下,实现通用的可编程量子计算。目前,量子计算还处于第一阶段的前期,距离能用可编程量子计算还有很大距离。而一旦通用的、纠错的量子计算构建成功,冯.诺依曼传统计算架构就将谢幕,全球网信技术体系和产业体系将重新构建。
二、计算体系及体系重构
1.牧本周期与计算体系
全球半导体界有三大定律,第一定律摩尔定律和第二定律登纳德缩放定律已在半导体界大名鼎鼎,但是第三定律牧本周期定律却鲜为人知。牧本周期是索尼首席技术官牧本刚雄于1990年提出,即“芯片类型有规律地在定制化和通用化之间不断交替演化。变化一次的周期大约是10年。”牧本周期也被业界叫做“半导体行业之摆”。牧本周期揭示了全球半导体产业“专用化—通用化—再专业化—再通用化”周而复始、螺旋上升的演进规律,而半导体每一次从专用化到通用化的变迁,都会引发一个全新的计算体系形成。
计算体系也称计算路线,是指以标准化的微处理器和操作系统为核心和基准,其他软件、硬件、系统等基于微处理器和操作系统进行开发和适配,由此构建起的一种全新生产组织方式和产业生态体系。不同技术路线会催生不同技术产品,形成不同技术和产业生态体系,创新出不同层次的技术产品。从1943年第一台计算机问世至今,全球计算体系已经历了垂直一体化计算体系、Wintel计算体系和AA计算体系三个不同阶段,目前正在进入以NT计算体系为代表的第四个阶段。
2.计算体系的四次重构
(1)第一次体系重构—垂直一体化计算体系
从1943年全球第一台电子计算机诞生到1990年微软视窗操作系统Windows3.0诞生,全球电子信息产业一直遵循垂直一体化体系向前发展,其间历经了1943年—1957年的大型机阶段,1958年—1977年的小型机阶段和1978年—1990年的微机阶段。尽管期间发生了电路技术发生了从电子管到晶体管、再到大规模集成电路、直到超大规模集成电路的革命性变化,但是计算机的生产组织方式一直采用垂直一体化生产方式,即终端整机厂商是产业链的核心环节,从操作系统、数据库等基础软件,到中央处理器、存储器等基础芯片,一直到各种输入输出设备,都是由终端厂商自已研制生产或从上游供应商采购,最后由终端厂商集成生产完成。垂直一体化计算体系标准化程度低,通用化程度差。
(2)第二次体系重构—Wintel计算体系
1990年微软推出Windows3.0操作系统是微软公司第一个真正视窗版的操作系统,同时宣布只支持英特尔X86 CPU,并将随着英特尔X86 CPU的迭代而持续升级。自此,以WindowsOS和IntelCPU为核心的Wintel计算体系正式形成。Wintel计算体系的形成将原先WindowsOS和IntelCPU的生态合作伙伴和用户合二为一,形成庞大的Wintel计算体系生态墙,由此产生的“飞轮效应”又反过来吸引更多的下游开发者和用户加入Wintel计算体系。
Wintel计算体系彻底改变了终端厂商是产业链核心的垂直一体化生产组织方式,彻底改变了IBM、HP、康柏电脑、王安电脑等终端厂商从定制芯片、研发操作系统,到终端组装生产的垂直一体化生产模式,而是促使计算机终端生产更加水平化和专业化,其中,Windows OS和Intel CPU变成了计算产业链的核心环节,Windows OS和Intel CPU按照摩尔定律持续迭代升级,数据库等其他基础软件、存储等其他硬件、以及各种应用软件等都在Windows OS和Intel CPU基础上开发研制,并随着Windows OS和Intel CPU的升级而同步升级,各计算机终端厂商主要负责最后的集成生产制造环节。自此,计算产业链进一步细分化和专业化,产业链各环节标准化和通用化程度大幅提高,传统的IBM、康柏电脑、王安电脑等自成一体、群雄争霸、技术路线纷乱的局面被终结,联想、戴尔、惠普等新一代PC厂商携Wintel技术异军突起,实现了个人电脑进入千家万户的技术革命,自此,人类社会进入了个人PC和互联网阶段。
(3)第三次体系重构—AA计算体系
自2007年和2008年苹果公司和谷歌公司相继发布iOS移动操作系统和AndroidOS移动操作系统后,苹果公司和高通、联发科、三星、华为等厂商分别基于ARM公司的IP授权,推出了各种类型的移动CPU Soc芯片。由此形成了苹果专用的“Apple iOS+ARM CPU”和市场通用的“Android OS+ARM CPU”两条移动计算路线,统称为AA计算体系。苹果系凭借苹果公司先发的技术优势、强大的品牌优势、专用的产业链优势等,牢牢占据了移动手机的高端市场,形成了自成体系的庞大生态系统。安卓系则凭借其开放、免费、中立等特点,结成了广泛的同盟战线,也形成了基础稳固、覆盖广泛的庞大生态体系。
AA计算体系的形成一举终结了摩托罗拉、诺基亚、爱立信等传统手机厂商,按照各自的技术路线开发软件、定制硬件、最后集成手机终端的生产组织方式,iOS操作系统、AndroidOS操作系统、以及ARM移动处理器成为移动计算产业链的核心环节,苹果系和安卓系移动产业链的其他环节,包括数据库等其他基础软件、存储等其他硬件、以及各种APP应用软件等,都要基于iOS、AndroidOS、以及ARM CPU开发研制。,并随着Windows OS和Intel CPU的升级而同步升级,各计算机终端厂商主要负责最后的集成生产制造环节。自此,移动计算产业链进一步细分化和专业化,产业链各环节标准化和通用化程度大幅提高,摩托罗拉、诺基亚、爱立信等传统手机厂商自成一体、群雄争霸、技术路线纷乱的局面被终结,Apple、三星、小米、OPPO、Vivo等新一代智能手机厂商携AA技术路线快速崛起,实现了智能手机进入千家万户的技术革命,自此,人类社会进入了智能手机和移动互联网阶段。
(4)第四次重构——NT计算路线
2017年,Google Brian团队提出全球首个Transformer神经网络模型。Transformer模型的最大特点是采用自注意力机制(self-attention mechanism),在处理大量信息时能够只选择关键信息处理,以提升神经网络的效率,更适宜于大规模数据训练的需求。2020年5月英伟达发布面向AI、数据分析和 HPC应用场景的A100 GPU芯片。A100采用Ampere架构,基于7nm制造工艺,包含了超过540亿个晶体管,拥有6912个CUDA核心,引入Tensor Cores 双精度计算技术,HBM2e GPU 内存,算力达到19.5TFLOPS,是前代V100GPU的3.5倍,为通用大模型的训练奠定了算力基础。2022年11月30日,OpenAI公司发布了通过英伟达A100GPU训练、基于Transformer算法的ChatGPT通用人工智能大模型,开启了人类走向通用人工智能时代的序曲。
通用人工智能的工程化落地和商业化实现,在很大程度上取决于算力和算法两大基础。经过20多年的技术创新和市场竞争,英伟达的GPU在通用人工智能算力方面击败CPU、FPGA、ASIC等其他计算技术,谷歌提出的Transformer神经网络算法模型替代了CNN、RNN等卷积神经网络算法模型,并经过OpenAI在GPT大模型上一战成名。NvidiaGPU+Transformer的“NT计算路线”迅速成为通用人工智能的主流技术路线。今后,“NT计算路线”不仅将继续引爆大模型的工程化实践和商业化应用,而且将对已兴起多年的新型云计算路线和智能驾驶路线进行融合重整,形成覆盖全面的、应用广泛的NT计算路线。
三、核心技术及技术突破
1.摩尔定律与技术迭代
摩尔定律是英特尔创始人之一戈登·摩尔于1965年4月提出,其核心内容为:集成电路上可以容纳的晶体管数目在大约每经过18个月到24个月便会增加一倍。换言之,处理器的性能大约每两年翻一倍,同时价格下降为之前的一半。50 多年来,摩尔定律为半导体技术升级指明了发展方向和发展进程,全球半导体产业和整个网信产业都是基本按照摩尔定律指明的方向和英节奏向前发展。
1971年全球第一个Intel 4004处理器上可容纳2300个晶体管,到2023年5月英伟达最新推出的GH200 超级芯片拥有高达2000亿个晶体管。微处理器工艺制程已从开始的微米级进入到纳米级,并已实现3nm制程工艺量产。第一代PC机的内存最早只有的480k,而最新的2022年推出的iphone14Pro手机内存已达到6G。芯片集成度的提高也大大促进了大规模软件和应用系统的发展,增强和提升了软件和系统的功能和性能。如Basic的源代码在1975年只有4000行,20年后发展到大约50万行。1982年微软的第一版文字处理软件Word只有27000行代码,20年后增加到大约200万行。
2.核心技术的九次突破
(1)第一次突破—电子管技术
1904年,英国物理学家约翰.安布罗斯.弗莱明(John Ambrose Fleming)发明了世界上第一个电子真空二极管。1906年,美国工程师李.德.福雷斯特(Lee de Forest)在弗莱明真空二极管的基础上又多加入了一个栅极,发明了真空三极管,使得电子管在检波和整流功能之外,还具有了放大和震荡功能。真空三极管被认为是电子工业诞生的起点。1942 年,美国爱荷华州立学院的约翰・文森特・阿塔纳索夫(John Vincent Atanasoff)教授和他的学生克利福特・贝瑞(Clifford Berry)发明了世界上第一台电子管计算机—ABC(Atanasoff–Berry Computer)。
(2)第二次突破—晶体管技术
1947年,美国贝尔实验室的巴丁(J.Bardeen)、布拉顿(W. Brattain)、肖克莱(W.Shockley)三人发明了NPN锗(Ge)晶体管,并因此获得1956年诺贝尔物理学奖,1957年,IBM公司推出全球第一台、载有3000多个锗晶体管的计算机—IBM 608。
(3)第三次突破—集成电路技术
1958年,美国仙童公司的罗伯特.诺伊斯(Robert Noyce)与美国德州仪器公司的杰克.基尔比(Jack Kilby)间隔数月分别发明了集成电路。基尔比因此发明获得2000年的诺贝尔物理学奖。集成电路的出现,使计算机的体积向小型化发展,DEC、HP、IBM等公司分别于1964年后,相继推出各自的小型机。
(4)第四次突破—微处理器技术
1972年,Intel公司推出全球第一个4位微处理器4004芯片,片上集成了2250个晶体管。处理器芯片集成度的提高,使计算机的体积进一步缩小,IBM、HP、王安电脑、康柏电脑等计算机厂商相继推出了微型机。
(5)第五次突破—通用操作系统技术及微处理器技术迭代升级
1990年推出的WindowsOS3.0操作系统是微软公司第一个真正视窗版的操作系统,同时宣布只支持英特尔X86 CPU,并将随着英特尔X86 CPU的迭代而持续升级。自此Wintel技术路线开始形成,Windows操作系统才逐步成为被市场普遍接受的通用操作系统,相应地,随着英特尔的CPU的持续升级并与Windows操作系统的相互绑定,英特尔CPU的应用范围也不断扩大,通用性不断增强,最终Windows操作系统和英特尔CPU都成为个人PC的标准化通用核心产品。
(6)第六次突破—移动CPU技术及移动操作系统
1991年成立于英国剑桥的ARM公司,主要业务是研发设计基于精简指令集(RISC)的微处理器架构和IP,并通过向客户授权使用方式运营。现已推出ARM4至ARM9共6代产品,培育了一个庞大的ARM CPU和SoC芯片家族。目前,全球ARM架构芯片出货量已达2500亿颗,授权用户超过2000家,苹果、华为、高通、三星、联发科等全球龙头移动芯片都是基于ARM授权开发。2007年苹果发布全新iOS操作系统,带来了手指触控、可触摸宽屏、网页浏览、手机游戏、手机地图等革命性的全新体验,一年后的2008年,谷歌发布Android OS开源手机操作系统。“iOS+ARMCPU”和“AndroidOS+ARMCPU”形成的AA移动技术路线指引着移动手机终端不断升级迭代。
移动终端具有极致地追求轻、薄、短、小的特点,通常需要将CPU、GPU、缓存芯片等基本单元,以及尽可能多的外围接口电路,有时甚至将基带芯片,集成在一颗SoC芯片中。另外,移动终端芯片量大面广,功能复杂,要求尺寸尽可能小和薄,功耗尽可能小,这对芯片的设计、制造和封装提出了很高的要求。先进制造工艺、多核心CPU、低功耗设计、3D制造和堆叠封装等许多先进技术,都是在移动终端对芯片的极致要求下,实现了技术创新和产品迭代升级。
(7)第七次突破—云原生处理器及云操作系统
在亚马逊2003年首次推出云计算服务25年后的2018年,AWS发布了第一代Amazon Graviton云原生处理器,随后于2020年和2021年发布了第二代Graviton2云原生处理器和第三代Graviton 3处理器,实现了5nm工艺,拥有64个核心和550亿晶体管;阿里云于2019年发布了RISC-V处理器玄铁910和云端AI推理芯片含光800,2021年发布了ARMCPU—倚天710,采用ARMv9架构,实现5nm工艺,拥有128个核心和600亿晶体管,2022年6月,阿里云发布云基础设施处理器(CIPU )实现了CPU对网络、计算、存储等资源的卸载、加速和隔离。Ampere云原生处理器:Ampere Computing是英特尔前总裁Renee James于2018年创立的云原生处理器公司,继2020年发布首款Ampere Altra系列云原生处理器后,2023年5月又推出AmpereOne系列云原生处理器,单颗支持最高192个核心,采用台积电5nm工艺。
类似于PC和服务器操作系统分化为Windows闭源操作系统和Linux开源操作系统,移动操作系统分化为iOS闭源操作系统和Android操作系统,云操作系统目前也分化为闭源和开源两种类型。亚马逊(AWS)的AWSPremium操作系统和阿里云的飞天操作系统采用了闭源方式,而微软云(Azure)、谷歌(Google)、腾讯云、华为云、百度云、天翼云、移动云、联通云等全球云计算大厂,都是基于OpenStack开源社区开发了自己的云操作系统,并且开源的云操作系统正随着容器、k8s、Openshift等新技术的出现而不断升级演化。
(8)第八次突破—车规级芯片及车载操作系统
目前,全球智能汽车市场方兴未艾,行业竞争格局未定,类似于1990年前的微机市场和2007年前的手机市场,诸侯割据,群雄并起,行业未形成统一技术路径统一技术标准,即使是后进入者依然存在反超机会。
全球车规级芯片市场大体可以分为高端和中低端两个市场,高端市场主要以英伟达、高通和特斯拉为主,中低端市场以 Mobileye、高通、黑芝麻、地平线等为主。英伟达的车规级芯片包括PX、PX2、Xavier、Pegasus、Orin、Thor等系列,Thor集成770 亿颗晶体管,算力可达到2,000 TOPS,是Orin芯片的8倍,也是特斯拉FSD芯片的28倍。高通的车规级芯片包括骁龙620A、820A、SA8155P和SA8295P,SA8295P采用5nm工艺,算力达30TOPS。特斯拉自研的FSD芯片采用三星14nm工艺,算力为144TOPS。
全球还未形成对汽车各功能模块的统一管理和调度的通用型操作系统,不同功能模块依然还在使用不同的操作系统,市场上主流的智能座舱操作系统有有黑莓QNX、Linux、谷歌Android、华为HarmonyOS,阿里AliOS等,还有许多车企业已宣布自研车载操作系统。其中,QNX操作系统占全球车载操作系统市场52%以上的份额,自动驾驶域操作系统更是占据了全球90%以上份额,目前处于绝对垄断地位。
(9)第九次突破—通用大模型及AI芯片
2017年,Google Brian团队提出全球首个Transformer神经网络模型,首次提出采用自注意力机制(self-attention mechanism),以提升神经网络的效率,更适宜于大规模数据训练的需求,取代了传统循环神经网络(CNN/RNN)中的循环结构,为通用大模型奠定了算法基础。
2020年后,英伟达先后推出A100 GPU、H100 GPU、GH20 0超级芯片和DGX超级计算机。A100包含了540亿个晶体管,H100拥有800亿个晶体管,GH200 超级芯片拥有2000亿个晶体管,DGX超级计算机由36个NVLink开关将256个GH200超级芯片和144TB的共享内存连接成一个单元,计算性能提升达到ExaFlop(一百万万亿次),为通用大模型奠定了算力基础。
2022年11月30日,OpenAI发布了基于Transformer算法,并利用英伟达A100GPU训练形成的全球第一个人工智能通用大模型—ChatGPT,引爆了全球生成式人工智能的大发展。目前,全球AI大模型已走过模型创新阶段(Transformer),正处于大模型工程落地阶段(ChatGPT、BERT、文心一言、千义通问、盘古等),很快将走向大模型商用阶段。大模型商用的核心是以工程大模型(ChatGPT、BERT、文心一言、千义通问、盘古等)为底座,构建面向领域和区域的“区域专属大模型”、“行业专属大模型”、“企业专属大模型”,为每一个区域、每一个行业、每一个企业、甚至每一个人提供各种专属应用大模型。今后,围绕大模型构建、工程化实施、商业化应用等环节,将快速构建起AI芯片、算法框架、数据治理、知识分享、行业应用等全栈式AI大模型技术体系,Maas(模型即服务)将与Iaas、Paas、Saas一起成为新型AI云平台的重要组成部分之一,并通过API接入、量身裁减为小模型等方式,为政府、企业、个人提供个性化的定制服务。
原创内容,转载必须注明出处(“交大评论”公众号),侵权必究。
声明:本文来自交大评论,版权归作者所有。文章内容仅代表作者独立观点,不代表士冗科技立场,转载目的在于传递更多信息。如有侵权,请联系 service@expshell.com。