“新版摩尔定律将是:全球人工智能运算量每隔 18 个月就会翻一番。”

——Sam Altman,OpenAI CEO

过去数月,全球科技巨头大秀肌肉,各种AI生成产品接连登场, 帮人类画画、写作、剪辑、制表、做 PPT 等技能。其背后的强大算力和先进模型促使各个厂商们重新构想自己的产品和商业模型。本文子标题索引:

1、AI成为当前最火热的科技热点

2、少了AI算力芯片,人工智能就是人工智障

3、英伟达祭出史上算力最强的AI芯片

4、中国AI需求与算力冰火两重天

5、打不破的专利授权壁垒

6、不断迭代的GPU架构

7、不可一世的CUDA生态

8、缺人,缺人,还是缺人

9、中国几乎所有AI芯片高科技企业都进入美帝黑名单

10、要下深功夫,禁止耍功夫

11、AI赛道国内主要参与企业及产品进度表

# AI成为当前最火热的科技热点

当前正在掀起新一轮人工智能(AI)风暴。

2022年11月,由OpenAI开发的AI聊天机器人ChatGPT横地出世,可以进行推理、编写代码、文本创作,仅三个月就引领了全球AI热潮,是史上月活用户增长最快的消费者应用。

2023年3月15日,OpenAI研发多模态预训练大模型——GPT-4,作为ChatGPT的动力来源,使用微软Azure 训练模型,更聪明强大、更准确安全、在许多专业测试中超过人脑水平。

2023年3月16日,百度发布了大语言模型、生成式AI产品——文心一言,被称为中国版ChatGPT。从现场展示来看,它回答的准确性、逻辑性、流畅性都逐渐接近人类水平。

2023年3月20日,在GTC开发者大会上发布,英伟达推出了新的Hoppper CPU——配有双 GPU NVLink 的 H100 NVL隆重登场,H100 NVL是专门针对算力需求巨大的 ChatGPT 而设计的显卡,拥有夸张的 188GB HBM3 内存(每张卡 94GB),为是十倍级ChatGPT提供了“核弹级”的运算能力!

OpenAI掀起的新一轮AI运动,英伟达又源源不断为这场运动输送算力弹药,让互联网大厂和创业者感受到巨大压力。风浪越大鱼越贵,在巨大的机会风口面前都率先布局抢占未来市场。包括阿里、百度、腾讯等中国企业宣布将研发类ChatGPT产品,或将投入生成式AI的研发。在国内,AI算力、AI大模型和生成式AI被认为部署云业务的厂商才有资格下场。

但在这场科技革命中,我们还要继续成为看客吗?


# 少了AI算力芯片,人工智能就是人工智障

埃森哲公司报告指出,如今技术行业的AI渗透度明显高出其他行业,而未来企业的成长潜力取决于其能在多大程度上应用生成式AI。更关键的是,熟练运用新技术也将成为国家发展的关键。

据IDC预计,2025年超过60%的中国企业将通过人工智能、机器学习、自然语言处理和模式识别等技术实施智能预测与决策,提升员工工作效率和企业生产力。

如今,AI技术在数据中心、智能汽车、游戏等的应用落地方面取得了丰硕的成果,要实现AI大规模应用,背后必定要有大量AI芯片的算力支持。而英伟达的GPU是全球应用最为广泛的 AI 芯片。《财富》100强企业中有一半以上都安装了英伟达的AI芯片。

智能加速卡 图源:寒武纪

AI芯片,也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块。当前,AI芯片主要分为GPU 、FPGA及以TPU、VPU为代表的ASIC芯片,其中以GPU用量最大。据 IDC 数据,预计到2025年GPU仍将占据AI芯片80%市场份额。

事实上,GPU称为目前应用最广的AI芯片,是人工智能赛道GPT训练模型算力最快的AI芯片,其应用场景还包括:数据中心、移动终端、智能安防、自动驾驶、智能家居,还可以连接量子计算机,以极快的速度进行量子纠错!还可以将GPU打入2纳米芯片制造领域,让光刻性能提升40倍!

少了AI算力芯片,人工智能就是人工智障。有了GPU就有了GPT,引爆AI,于是英伟达开始了狂飙。


# 英伟达祭出史上算力最强的AI芯片

1999年,英伟达提出GPU概念,最初规模化应用于游戏显卡,如今它在创意制作和人工智能(AI)中的使用正变得越来越流行。

从近几年的迭代来看,GPU正向大规模扩展计算能力的高性能计算(GPGPU)、人工智能计算(AI GPU)、更加逼真的图形展现(Ray Tracing GPU,光线追踪GPU)三大方向发展。根据应用场景和处理任务的不同,GPU分为传统GPU和 GPGPU。前者用于图形图像处理,后者被广泛应用于人工智能模型训练、推理领域。

图源:英特尔

在GPU领域,目前英伟达是首屈一指的老大,桌面和移动端CPU处理器领域的英特尔、AMD等公司的GPU技术和产品都与英伟达有相当大的差距。

NVIDIA技术是AI的基础。当英伟达生产出第一个超级AI芯片时,黄仁勋就亲手交给了ChatGPT的开发商OpenAI。ChatGPT是融合了大数据、大算力、强算法的大模型。数据显示,ChatGPT的总算力已高达3640PF-days,即每秒计算一千万亿次,需要持续运行3640天。为保证算法的实时性与算法质量的有效性上,OpenAI至少导入了1万块英伟达的A100/H100系列高端人工智能芯片。

不错,就是让国人咬牙切齿的A100/H100,目前美国已经全面对中国禁售。

A100芯片是英伟达2020年推出的,可以提供更快速度和更高计算能力,专用于AI推理或训练场景。

H100芯片是2022年推出的性能更强的新一代产品,采用台积电为英伟达定制的4nm工艺,拥有800亿个晶体管,是有史以来世界上最先进的通用AI芯片。

图源:英伟达

A100/H100是目前性能最强的数据中心专用GPU,市面上几乎没有可规模替代的方案。包括特斯拉、Facebook在内的全球有超过3.5万个公司都利用A100/H100芯片组建了AI计算集群,更在数据中心GPU垄断了90%以上的市场份额,成为当之无愧的算力发动机!

而为了支持实际应用,满足服务器的需求,OpenAI已使用了约2.5万个英伟达的 GPU,随着需求的增加未来预计还会增加。得益于交货时间短的 AI 芯片和服务器处理器订单的强劲推动,在晶圆代工领域走在行业前列的台积电来自来自英伟达的A100和 H100 GPU的代工订单在增加, 5nm及 4nm制程工艺的产能利用率已在回升。

GPT模型是内存和计算密集型模型,此外推理是一种高容量、外拓型工作负载,需要标准的商用服务器。针对ChatGPT等大型语言模型的推理,英伟达推出H100的拥有夸张的 188GB HBM3 内存——H100 NVL,这也是目前英伟达发布的内存最大的显卡。

H100 NVL可以处理拥有1750参数的GPT3,同时还可以支持商用PCIE服务器轻松拓展。目前在云上唯一可以实际处理ChatGPT的GPU是HGX A100,与适用于GPT3处理的HGX A100相比,一台搭载四对H100双GPU NVLINK标准服务器速度要快10倍。

据了解,这个专用的GPU预计下半年才会正式推出。谁能买到H100 NVL,谁就能在这AI大战中获取更充足的弹药!

由于美帝出口管制,中国用户仍买不到这款升级版的H100。

NVIDIA在GTC大会推出四款推理平台。将NVIDIA全栈推理软件与最新的NVIDIA Ada、Hopper和Grace Hopper处理器相结合,包括新推出的NVIDI AL4 Tensor Core GPU和NVIDIA H100 NVL GPU。各平台针对AI视频、图像生成、大型语言模型部署、推荐系统推理等需求激增的工作负载进行优化。


# 中国AI需求与算力冰火两重天

中国企业无法用上最先进的GPU。目前国内云厂商拥有的GPU主要是英伟达为中国市场的特供方案——中低性能产品A10,还有 A800 系列。其中A800被视为是A100的“阉割版”。数据传输速度降低了30%,直接影响了AI集群的训练速度和效果。高端芯片从立项到上市,一般需要2-3年的时间,但英伟达仅用了2个月就把A800搞出来了。所以,阿里巴巴、腾讯、百度等一众大佬只能采用英伟达低配版GPU——美其名曰为中国特别定制的Ampere和Hopper芯片(A800和H800)。

据工信部科技司数据,目前中国AI核心产业规模达到5000亿元,企业数量接近4000家,覆盖芯片、开源框架、智能终端、智慧城市等领域。相对于OpenAI,尽管中国在 AI领域进行了很多研究成果和产业布局,但目前要达到像OpenAI的效果可能还需时日。即便百度发布的文心一言,相比ChatGPT也相当于兔子与乌龟的速度对比。其中最重要的制约是中国尚不能大规模提供AI算力支持。

图源:英伟达

在国内,云计算技术人士公认的一个说法是,1万枚英伟达A100芯片是做好AI大模型的算力门槛。美国市场研究机构TrendForce在3月1日的报告中测算称,处理1800亿个参数的GPT-3.5大模型,需要的GPU芯片数量高达2万枚。未来GPT大模型商业化所需的GPU 芯片数量甚至超过3万枚。

据媒体财经十一人统计,国内只有1家企业拥有拥有1万枚英伟达A100 GPU。也就是说,单是从算力这个衡量指标来看,国内能在短期内布局类似ChatGPT的选手捉襟见肘。高性能GPU芯片短缺,硬件采购成本、运营成本高昂都是我们发展AI的限制。

一边火热的AI市场,一边是凉凉的算力,这难免使我们的AI产品存在智商上的先天缺陷。

美国人进行创新,中国人需要应用,这似乎成了规则铁律。中国几乎是世界上最大的GPU市场,也是英伟达的重要客户。当然,我可以随时限制你用,哪怕你财大气粗。由于中美贸易摩擦、美国技术封锁和中国先进制程落后,导致中国在GPU领域还存在着很大的差距和困难。

GPU制造和开发是一项系统性工程,不仅涉及到先进的制造技术,如摩尔定律、光刻技术等,还涉及架构设计、算法和软件生态等多个方面,缺一不可。

相对FPGA和ASIC,不论是从功能上,还是硬件上,GPU设计难度都更高。国产GPU如临万丈深渊。


# 打不破的专利授权壁垒

前面市场数据也显示,GPU是高度垄断的行业,技术领域专利数量排名前20的公司占有全球70%的GPU专利。

苹果再怎么搞,永远绕不开Imagination的IP 专利授权;同为专利技术大户,NVIDIA与三星围绕GPU专利展开了多年大战;隔岸观火的中国企业拆了英伟达显卡那么多年,也没造出同款产品,还面临知识产权的侵权问题引发的法律纠纷。英伟达借着CUDA生态与伙伴形成商业合作或者互相授权,而国产GPU与英伟达的技术代差仍然存在着巨大的鸿沟。

从IP授权来看,国内主要的GPU创业公司,如芯动、摩尔线程、壁仞等采用的是Imagination IP或芯原授权的IP。Imagination是一家英国IP公司,其图形、计算、视觉和人工智能以及连接技术可以实现出众的功耗/性能/面积指标、强大的安全性、快速的上市时间和更低的总体拥有成本。

Vivante GPU IP产品线及其应用 图源:芯原

芯原是一家上海的自主半导体IP公司,拥有6类自主可控的处理器IP,分别为图形处理器IP、神经网络处理器IP、视频处理器IP、数字信号处理器IP、图像信号处理器IP和显示处

理器IP,以及1,400多个数模混合IP和射频IP。

国内多家 IP 核厂商已在积极布局 AI IP 核领域,但总体市场市场仍被寡头垄断。没有IP,意味着我们的没有人力成本优势,也将没有技术和品牌优势。我们必须尊重尊重知识产权,希望行业内重视IP。


# 不断迭代的GPU架构

英伟达之所以引领GPU创新,源于其架构底座不断迭代,从2008年的Tesla架构到2020年的Ampere架构,每一次都是对硬件的升级与改进。代际之间产品性能提升显著,性能和市场份额均领先AMD。

2010年英伟达发布的Fermi架构,是第一个完整的GPU架构,确立了英伟达GPU整体的发展方向。

2016年的Pascal架构,英伟达GPU开始用于数据中心和超算的深度学习中。2017年的Volta架构,完全以深度学习为核心,引入了张量核Tensor Core模块,用于执行融合乘法加法,面向人工智能应用。

在Volta基础上,2018年英伟达发布Turing架构,对Tensor Core进行了升级,增加了对INT8、INT4、Binary(INT1)的计算能力,性能依次翻倍。此外,在架构配备了RT Core(专用光线追踪处理器),能够高速对光线和声音进行渲染,面向专业图形应用中应用。

2020年发布Ampere 架构,对Tensor Core又进行了升级,增加了TF32和BF16两种数据格式的支持,也增加了对稀疏矩阵计算的支持。

英伟达的对手有AMD,其 RDNA架构专为新一代高能效、高性能游戏而设计。2019 年,AMD放弃了长期使用的GCN架构,RDNA架构再度崛起,全方位布局AI芯片,与高伟达瓜分GPU市场。

RDNA 2在RDNA 1基础上进行了扩展,同时添加了光线追踪支持和其他一些增强功能。RDNA3架构第一次引入了chiplet小芯片和光追技术。架构效率以及性能并没有达到AMD希望达到的水平。AMD还宣布了下一代GPU图形架构 Polaris。该架构的推出有望将显卡性能水平提升多个层级,带来流畅的虚拟现实 (VR) 体验。

图源:AMD

Intel以往是没有独立的GPU的,而是以集成显卡存在的GPU,最近两年英特尔后知后觉发力,提供集成和独立的高性能计算、图形解决方案,设计了全新的Xe GPU架构,并细分为主打集成显卡和入门独显的超低功耗Xe LP、针对游戏优化的高性能图形Xe LPG、面向数据中心和AI应用的高性能Xe HP、适合超级计算的高性能计算Xe HPC四种微架构。

十几年来,显卡市场就英伟达和AMD两家此消彼长,但整体上一直是NVIDIA占据优势,掌握着绝对的主动权。

近几年国内GPU公司乘着政策、资本、人才和应用的东风相继涌现,除了一众老将之外,包括珠海芯动力、壁仞、沐曦、登临、天数智芯、红山微电子、瀚博半导体等新势力集结发力,在自研架构层面及相关GPU产品的高算力高方向努力。

景嘉微是首家成功研制国产GPU芯片并实现大规模工程应用的企业,先后研制成功JM5系列、JM7系列、JM9系列等GPU芯片均使用自主研发的架构。景嘉微所代表的是自主知识架构GPU的顶尖水平。2021年,景嘉微被美国列入实体清单。但景嘉微产品在人工智能、云计算、军用工业等领域,至少是保证了国内相关产业即使被封锁也依然能够正常提供服务。

沐曦致力于为异构计算提供安全可靠的GPU芯片及解决方案。旗下产品包括用于AI推理的MXN曦思系列、用于AI训练和通用计算的MXC曦云系列、用于图形渲染的MXG曦彩系列,均采用完全自主研发的GPU IP,拥有完全自主知识产权的指令集和架构,采用可重构并行计算架构,可突破传统 GPU 性能瓶颈、实现世界一流的GPU 计算性能。

登临科技是一家专注于为新兴计算领域提供高性能、高功效计算平台的高科技企业。2022年推出Goldwasser作为登临科技GPU+系列的首款产品,是国内目前首个规模量产的GPGPU高性能通用人工智能加速器。自主研发的创新通用GPU架构GPU+(基于GPGPU的软件定义片内异构体系结构)、硬件兼容CUDA等主流生态。

国内首款通用GPU——天垓100芯片 图源:天数智芯

天数智芯是中国第一家通用GPU高端芯片及高性能算力系统提供商,开发自主可控高性能通用GPU产品,加速AI计算与图形渲染融合。2022年4月发布通用天垓100GPU芯片,采用全自研的架构、计算核、指令集及基础软件栈。

深流微智能科技(深圳)有限公司已完成了超级流架构 GPU 渲染管线和计算单元等核心关键设计,同时和硬件联合调优的全栈 GPU 软件也进展顺利,首两款芯片已完成性能内测.目前深流微 XST GPU 架构已实现从系统架构、硬件架构、软件架构到微架构全自研,形成了完整且可迭代升级的基础开发生态系统。

壁仞科技致力于在聚焦云端通用智能计算、人工智能训练和推理、图形渲染等多个领域实现国产高端通用智能计算芯片的突破。2022年8月,壁仞科技发布首款通用GPU——BR100。这是国内首款真正具有国际竞争力的通用GPU,迈入‘每秒千万亿次计算’新时代。BR100基于完全自主原创架构——壁立仞架构以数据流为中心,对数据流进行深度的优化,通过六大技术特性,比较完整地解决了数据搬移的瓶颈和并行度不足的问题,使得BR100芯片在给定的工艺下实现了性能和能效的跨越式进步。

西安翔腾微电子科技有限公司是航空工业计算所全资子公司,2022年5月发布采用了完全自主的指令架构、核心算法、图形流水、软硬件代码及生态HKM9000 GPU图形处理器应用于C919大飞机,这也是国内第一款应用到民航领域的专用GPU芯片。

摩尔线程是一家以 GPU 芯片设计为主的集成电路高科技公司,专注于全功能GPU的设计与研发,致力于打造赋能下一代互联网和元宇宙的元计算平台。目前,摩尔线程基于其MUSA统一系统架构打造的全功能GPU芯片——“苏堤”和“春晓”已正式发布。芯片内置现代图形渲染、智能多媒体、AI计算加速、物理仿真及科学计算四大引擎,旨在以先进的现代GPU架构、广泛的平台通用性和全栈计算能力。

砺算自研架构、自主开发、自有知识产权GPU产品(盘古架构™、天图TrueGPU™),用于从端+云+边的高性能图形渲染。砺算第一代高性能GPU芯片G100不仅提供国际主流产品级别的图形渲染能力,也提供了GPU自带的科学计算能力、张量计算能力,将在2023年量产。

智绘微电子科技(南京)有限公司是一家创新型GPU芯片设计研发商,专注于国产自主可控的创新型GPU芯片设计。智绘微电子于2023年发布基于自研架构的GPU第二款产品IDM929,进入流片阶段并试产。依托智绘微电子自研的IDMV架构、指令集以及编译器,具备高算力、高通用性、高能效三大优势。

图源:智绘微电子

芯动力专注于国产化GPGPU芯片的设计与开发。2022年11月,芯动力第一代RPP-R8芯片一次性流片成功。基于自主原创的RPP(可重构并行处理器)芯片架构,解决了通用处理器GP-GPU效率低,而专用集成电路ASIC(TPU/NPU)没有通用编程性的问题。在以计算机视觉计算为代表的并行计算中带来高效而通用的并行计算芯片。

红山微电子是目前全球唯一在GPGPU设计上采用MIMD(多指令多数据)技术路径并已成功的芯片设计公司,国内唯一内核代码等核心IP可实现自主可控。

寒武纪目前已完成第五代智能处理器微架构和智能处理器指令集的研发工作。云端产品线方面,公司已先后推出了思元 290 和思元370 芯片及相应的云端智能加速卡系列产品、训练整机。边缘产品线方面,公司面向边缘计算场景推出的思元 220 芯片和边缘智能加速卡已落地多家头部企业,自发布以来累计销量突破百万片。

当然,还有一些没有提及的黑马初创企业。他们通过自研微架构或开发高算力产品,走向了不可逆转的国产替代道路。从今往后,国产GPU厂商将持续投入研发快速迭代架构,推动产业开放构建自主生态,加速追赶全球头部企业。

国产替代需求持续释放叠加国际局势不确定性加剧,AI及其相关产业刺激的GPU需求正在增高。国产GPU正发挥并行处理、灵活可编程的优势,为丰富的应用提供高效加速。我们相信在未来竞争中,国产GPU新架构及高性能新品将在AI人工智能、HPC高性能计算、深度学习、量子计算、元宇宙、智能汽车市场发挥奇幻作用。


# 不可一世的CUDA生态

比造芯更难的是搭建生态,全球GPU生态都来自CUDA。

CUDA,是英伟达2006年推出的通用并行计算架构生态。毋庸置疑,CUDA是迄今为止最发达、最广泛的生态系统,也是深度学习库最有力的支持。虽然有PyTorch支持更多GPU厂商,再加上OpenAI的Triton搅局,但无法撼动CUDA的统治地位。目前RoCm等兼容Cuda的类计算生态蓬勃发展并处于快速推广阶段。

CUDA使GPU能够解决复杂的计算问题。目前在英伟达的软件栈体系中,分为CUDA-X AI和CUDA-X HPC,分别面向AI和HPC两大领域。CUDA-X则是对CUDA核心能力的抽象和扩展,向上对接不同的行业应用需求。

随着人工智能领域的蓬勃发展,GPU和CUDA被从业者视为标配,使用GPU做加速计算已成为行业主流。虽然英伟达GPU本身硬件平台的算力卓越,但其强大的CUDA软件生态才是推升GPU计算生态普及的关键力量。

由于当前全球主流深度学习框架均使用 CUDA 平台进行开发,国产GPU大都可以通过兼容CUDA的部分功能快速打开市场,减少开发难度和用户移植成本。然而,CUDA 广泛功能已与英伟达GPU硬件深度耦合,不利于完全发挥国产 AI 芯片性能,所以国产GPU厂商仍需要构建自主可用的软硬件生态。


海光DCU兼容主流生态,推出国内首个全精度异构计算平台。海光 DCU 协处理器全面兼容 ROCm GPU 计算生态,ROCm 和 CUDA 在生态、编程环境等方面具有高度的相似性,也被 称为“类 CUDA”。海光DCU属于GPGPU,主要适用于AI相关场景。

AI异构计算架构CANN是华为针对AI场景推出的异构计算架构,通过提供多层次的编程接口,支持用户快速构建基于Asend平台的AI应用和业务。2018年推出1.0版本至今,已经迭代到了3.0版本。目前不仅使用于推理、训练场景,还能够实现“端边云协同”。目前昇腾开发者已达到百万级。

TopsRider 图源:燧原

燧原科技专注研发针对云端数据中心的深度学习高端芯片,定位于人工智能训练及推理解决方案。驭算TopsRider是燧原科技自主知识产权的计算及编程平台,成为燧原科技构建原始创新软件生态的基石。从2019推出保持每年一代的路线图。得益于完善软件架构设计,绝大多数模型可无缝从传统GPU开发平台迁移到燧原平台上来,同时有效降低了迁移成本。同时有国内最大的AI计算单芯片邃思等组合产品选。作为国产AI芯片企业,我们可以看到它的星星之火早已开始燎原。

目前,RISC-V正在积极向高性能领域扩展,显示出RISC-V架构在GPU上的潜力。Imagination发布新一代面向移动市场的GPU IP产品DXT系列,部分采用了RISC-V。Think Silicon展示了RISC-V 3D GPU 设计,这是该公司首款基于 RISC-V 的低功耗 GPU。国内的赛昉科技还推出全球性能最高的量产RISC-V开源单板计算机,也是全球首款集成3D GPU的量产RISC-V单板计算机。

RISC-V三五年后在高性能方向上无处不在,已成为国产AI芯片的最重要突破框架。随着国际形势的变化,许多开发者反而利用RISC-V的缺陷——碎片化就代表着厂商可以更独立自主的去建立自己的指令集,并在RISC-V的框架下去建设自己的生态。


# 缺人,缺人,还是缺人!

GPU是一种比CPU还要难开发的芯片,尤其在AI时代的GPU更是刀锋上的试验。

因此需要极致专业的团队,而打造一个经验丰富的工程师至少要在大厂锻炼10年以上。从目前国产企业情况来看,创始团队基本均有英伟达、AMD的工作经验的,且领军人物和工程师少之又少。一个团队从前到后要做到软硬件全栈设计开发。专业人才要涵盖架构、算法、硬件、软件以及各种验证方式,包括后端、版图、驱动、测试、结构、生产代工等,大批量还需考虑供应链等领域。

然而,需要注意的是,GPU芯片并不是AI技术发展的总关键。AI技术包含了多个组成部分,如数据采集、处理、训练和推理等,GPU芯片只是其中的一部分。AI技术的发展还需要依靠其他技术和资源的支持,如大数据、云计算、和上述的人才队伍等。


# 中国几乎所有AI芯片高科技企业都进入美帝黑名单

2020年1月6日,美国政府限制向中国出口人工智能软件条例正式生效。

根据这份条例,一切应用于智能化传感器、无人机、自动驾驶、卫星和其他自动化设备的目标识别软件都将受到管制。

2022年10月7日,美国商务部工业和安全局(BIS)宣布将对向中国出口先进人工智能(AI)和超级计算芯片制造、生产设备以及所需的某些工具实施新限制。英伟达推出的两种顶级AI计算芯片以及搭载A100、A100X及H100的DGX及其他整机系统无法被中国客户采购。英伟达在加速卡领域最大的竞争对手AMD也收到了相应的通知,涉及产品则是MI250及搭载这些系列加速卡的整机系统。路透社指出,如果没有英伟达和AMD等公司的美国芯片,中国的机构将无法经济、有效地开展用于图像和语音识别等许多任务的先进计算。

2022年12月15日,美帝国主义将长江存储、寒武纪、上海微电子装备、中科院计算所等在内的36家中国科技公司和研究机构列入了实体清单,以期进一步阻挠和打压中国科技行业的发展。其中制裁覆盖了所有的寒武纪子公司。寒武纪作为中国最具有代表性的本土AI芯片厂商。

采用Ampere架构 GPU 图源:浪潮信息

2023年3月3日,美国商务部以所谓涉及国家安全等无理理由,将28个中国实体列入实体清单,包括第四范式、 香港华大基因科技服务有限公司、浪潮集团、龙芯中科、盛科通信等。其中浪潮信息是全球领先的 AI 基础设施供应商,拥有业内最全的人工智能计算全堆栈解决方案,涉及训练、推理、边缘等全栈 AI 场景,ChatGPT 是 AIGC浪潮的重要部分,同时也对AI产业上下游产生重大影响。第四范式是中国AI独角兽之一,提供以平台为中心的人工智能解决方案,作为决策类AI企业,应用场景包含金融、零售、制造、能源与电力、电信及医疗保健等。

至此,中国所有AI芯片及GPU芯片相关高科技企业都上了美国的黑名单。而万恶不赦的美帝国主义掌舵的拜登政府正在考虑一项行政命令,禁止美国投资中国高端技术,例如人工智能、量子计算、5G和先进半导体。

我们在GPU、GPGPU、AI芯片已经涌现了许多明星企业,如寒武纪、海光信息等优质的AI算力芯片上市公司,以及沐曦、天数智芯、壁仞科技等在产品端突破的非上市AI算力芯片公司。尽管其中部分产品逼近或超越了美国头部厂商的性能。但是我们的底层和产品大量采用了美国技术、IP和人员经验,并且依赖台积电的先进制程代工,更存在IP授权不可控的风险。

高端GPU的突发断供,引发市场对于国产GPU自主可控的关注。中国AI芯片企业拥抱全球化的梦想被迫毁后,主流舆论观点认为,中国要想实现GPU的自主可控,必须走全盘去美化的道路——这不单单关乎芯片安全,还涉及到中国AI产业的整体安全。

2023年2月27日,中共中央、国务院印发了《数字中国建设整体布局规划》中提到,数字中国基础设施的建设有望拉动以数据中心、超算中心、智能计算中心为代表的算力基础设施建设,从而带动服务器与 AI 算力芯片的需求快速增长。

相较于全球范围内的人工智能产业发展,中国有着极其良好的产业土壤。除了缺有经验的工程师,丰富的应用场景、庞大的数据训练量、相对廉价的红利,将为在AI算法的研发、应用和投入产出比上有着先天优势。


# 要下深功夫,禁止耍功夫

全球竞争格局来看,GPU市场仍为Intel、Nvidia和AMD三个海外巨头所垄断。占据市场份额高达63%。Verified Market Research数据显示,2022年全球独立GPU市场规模约448.3亿美元,NVIDIA和AMD的市场份额占比约为8:2。英伟达2023 财年,英伟达数据中心营收达到 150 亿美元,同比增长41%。其中AI算力芯片使英伟达今年一季度涨了76%,市值6822.4亿美元,超过特斯拉和巴菲特旗下伯克希尔哈撒韦,成为整个美股市值排名第五的企业。FY2017-FY2023 复合增速达 63%,表明全球 AI 芯片市场规模保持高速增长。Intel依托其CPU市场占有率优势,全球PC端 GPU出货量的市场份额达60%。

在中国市场中,三大巨头也是分走了大部分“蛋糕”。其中英伟达在中国加速市场份额达到了惊人的80%!国产GPU还处于起步阶段,与国际一流水平还有着很大的差距。景嘉微、沐曦、登临科技、天数智芯、壁仞科技、智绘微电子、芯动力、燧原科技等一众新势力崭露头角,打开GPU国产替代的市场空间。但比起三巨头,国内GPU厂商的营收规模十分有限。

在芯片半导体板块,不少企业预告业绩下滑,在芯片行业经历了2022年低潮之后,AI芯片成2023年半导体业务的增长点。随着AI进一步发展,对于算力以及数据存储的需求将会进一步加强。投资机构给出意见:投资者如果想把握住AI浪潮,与其局限于某一公司的某项技术、某项产品,不如放眼整个算力提升领域。

黄仁勋表示,AI服务的价值在于加速制造、科研等行业生产效率,而这些行业的体量都在万亿美元级别。据甲子光年预测,中国AI芯片市场规模2023年达到557亿元。根据IDC预测,中国AI算力规模将保持高速增长,预计到2026年将达1271.4EFLOPS,CAGRA(2022-2026年)达52.3%。

基于Intel Purley处理器平台开发的高规格双路GPU 图源:中科曙光

在此背景下,IDC预测未来 18个月全球人工智能服务器GPU、ASIC和FPGA的搭载率均会上升。2025年人工智能芯片市场规模将达726亿美元。AI进步引出算力缺口和云平台繁荣,服务器终端投资有望超预期:微软数据披露,从GPT到GPT-3,参数量从1.17亿到1750亿,增长1500倍,庞大的参数量需要算力和服务器持续迭代。建议关注AI服务器制造、图像数据资源及应用、先进封装、企业级存储等方面的机会。

当然在当前AI带动下,GPU在数据中心、智能汽车、游戏等应用领域的需求量也有极大的提升。未来,随着科技巨头与资本的持续加注,AI芯片算法、算力不断精进,也将造福千行百业。

美国限制对英伟达和中国客户是双输的局面。更大的压力在于我们,哪怕烧钱训练出一个能用的模型,美国还是通过算力降维打击。

要想在大模型上反超,中国在AI算力、资金和耐心坚持有很大的差距。要想在AI算力芯片突围,中国GPU企业必须在底座、专利、核心技术、人才建设和产业联盟下大功夫,下深功夫,而不是在资本(最短期争取最大回报)的牵绊下只耍一会功夫。

# AI赛道国内主要参与企业及GPU产品进度表

点赞(5)
立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部