英伟达(NVDA.US):全球AI模块(43000字深度报告)重构计算

2023-11-23

  汇报前言

  以超异构创新重构规模人工智能计算,占GPU市场近80%%数据中心业务份额快速发展,成为世界人工智能的增长引擎。

  投资要点

  第一次覆盖,给予“加持”等级。作为龙头企业,英伟达当之无愧。考虑到其2024年1QFY收入的出色表现,包括数据中心收入42.8亿美元的纪录,以及英伟达本身对2QFY2024年收入的乐观预期,我们预计FY2024E/FY2025E/FY2026E的营业收入分别为400.0/516.26/620.0亿美元,同比增长48.29%/ 29.07%/ 20.09%,调整后的FY2024E/FY2025E/FY2026E净利润分别为151.96/223.07/285.79亿美元。同增247.89%/ 46.80%/ 28.12%。

  面对规模AI测算的软件竞争优势,英伟达以超异构创新构建。

  

面对规模AI测算的软件竞争优势,英伟达以超异构创新构建。面对AI时期规模并行计算,英伟达对全栈系统进行了优化。NVLink可以快速迭代英伟达芯片互联通信技术,GPU Bluefield DPU Grace 芯片系统之间的高速通信互连是CPU集成开放的。同时,CUDA作为引进英伟达软件服务和全生态系统的通用平台。在我们看来,芯片与系统联合的完成促使英伟达真正实现了超异构创新。

  

GH200非常芯片是英伟达产品和技术的大成者。在我们看来,GH200汇集了最前沿的Grace Hopper架构,应用第四代Tensor NVLink完成了高速传输,特别是NVLink颠覆了传统PCIE复杂的传输过程,满足了每个GPU之间实现无缝高速通信的需要,构建了芯片之间的快速互联系统,英伟达的竞争壁垒将进一步形成。

  

作为行业领导者,英伟达将享受人工智能芯片行业整体需求高增长带来的红利。

  

作为行业领导者,英伟达将享受人工智能芯片行业整体需求高增长带来的红利。

IDTechex预测,2033年全球AI芯片市场将增长至2576亿美元;JPR预测,2022-2026年全球GPU销量复合增长率将保持在6.3%水准。作为业内有目共睹的龙头公司,英伟达的产品生态显著稀缺,将从算率行业获益充足,享受市场爆发造成的客户需求高增。【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

风险防范:人工智能应用的发展低于预期;公司研发进度低于预期;国际形势矛盾危害商品销售。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

目录【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

  

报告正文

  

1

  

不断进化的设备,

  

建设生态王国三十年

  

1.1.

图形芯片时代开始了,帝国之路开始了

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

英伟达成立于1993年,具有创造图形芯片时期的愿景。英伟达(NVIDIA)总部位于加州圣克拉拉市,以硅谷为世界电子工业基地,1993年,黄仁勋、克里斯(Chris A.Malachowsky)与普雷艾姆(Curtis Priem)满怀 PC 有一天,它将成为游戏和多媒体消费设备的信念,共同创造英伟达。

  

  

1.2.

多方追求重构领域,彻底改变当代图形

  

1.2.1. 1993年-1998年:萌芽

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

图形芯片市场竞争日益激烈,多方探索英伟达寻求突破。【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)英伟达成立以来,市场上只有20多家图形芯片公司。1994年,英伟达首次与SGS-THOMPSON进行战略合作;1995年,英伟达发布了其第一款显卡NV1,配备了2D/3D图形核心,根据正交纹理映射、3D处理量也具有音频处理水平;1996年,英伟达发布了首款适用于Direct3D的Microsoft DirectX 驱动软件;1997年,英伟达公布了世界上首款128位3DCpuRIVA 128.发布后四个月内销量超过100万台,但此时,图形芯片市场的竞争对手已飙升至70家,英伟达陷入会计泥潭,最后,我们决定专注于2D/3DPC结合显卡行业的研发和生产;1998年,英伟达与台积电签署了多年的战略合作伙伴关系,台积电逐渐帮助制造英伟达产品。

  

  

  

1.2

.2. 发展期为1999-2005年

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

GPU于1999年发明,从此开启了领域重建之路。GeForce 英伟达公布的256是世界上第一个GPU, 英伟达将GPU定义为“集成转换、照明、 单芯片Cpu,三角设置/切割和渲染发动机,每秒至少可以处理1000万多边形”。GeForce 英伟达公布的256是世界上第一个GPU, 英伟达将GPU定义为“集成转换、照明、 三角形设置/切割和渲染发动机的单芯片CPU每秒至少可以处理1000万多边形”。同年,英伟达发布了适用于专业图形的Quadro GPU,并宣布首次以每股12美元的价格公开募股。2000年,显卡先驱3dfx拒绝使用微软Direct3D通用API规范,导致显卡通用减少, 英伟达以其市场战略错误最终以低价收购;2003年,英伟达回收了无线行业图形和多媒体技术经理MEDIA Q,2004年,NVIDIA SLI推出,大大提高了每台PC的图像处理能力。

  

  

1.2.3. 2006年-2014年:成熟【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)CUDA创建GPU计算开发工具,硬件 软件生态王国初显。

2006年,英伟达发布了基于通用GPU计算的CUDA架构,依靠CUDA和GPU的并行计算能力,英伟达获得了巨大的开发者用户群;2007年,英伟达发布了Tesla GPU,使之前只能在超级计算机中提供的计算水平得到更广泛的应用;Tegra移动处理器于2008年推出,其能耗约为普通PC笔记本电脑的三十分之一;2013年,四核移动处理器Tegra 4公布;2014年,英伟达发布了192核芯片Tegra 平板电脑SHIELDK1 tablet。到目前为止,英伟达的几条主要生产线逐渐成熟,应用产业逐渐扩大,产品生态逐渐完善。

  

  

  

1.2.4. 2015年至今:调整期【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)深度学习需要催化英伟达商品转型,为人工智能改革注入强大动力。

2015年配备256核移动非常芯片Tegra NVIDIAX1 DRIVE适用于驾驶辅助系统,为无人驾驶汽车技术的发展铺平了道路,也标志着英伟达宣布致力于深度学习行业;2016年,英伟达发布了第11代GPU架构PASCAL、超级计算机DGX-1集成深度学习,人工智能汽车计算平台DRIVE PX 2.与CPU相比,DGX-1可将深度学习训练速度提高96倍;2017年,更适合超算Volta结构公布;在接下来的几年里,Turing、Ampere等架构陆续发布,继续帮助人工智能改革。

  

  

  

1.3.组织结构明确,营销团队专业【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)组织结构服务产品业务线,营销团队权责明确。

根据theoficialboard,英伟达的组织结构清晰,技术和运营部门巨大,团队主要负责各种关键业务线路。

根据theoficialboard,英伟达的组织结构清晰,技术和运营部门庞大,团队主要负责各种关键业务线路。英伟达官网招聘信息显示,英伟达定义的主要部门包括人工智能、三类研究和硬件。我们认为,公司的组织结构与产品业务平行,有利于充分发挥研究者的关键技术能力,指出研究的前瞻性和突破性。同时,以黄仁勋为首的管理团队具有专业的业务背景和管理能力,公司高管和股东大会均由经验丰富的人员担任。

  

  

  

1.4.

黄仁勋:不仅是CEO,更是精神支柱

  作为创始人、首席执行官和精神支柱,黄仁勋带领英伟达创造了人工智能领导者的惊喜。黄仁勋,1963年出生于中国台北,美籍华裔。黄仁勋作为公司创始人,30年后仍担任英伟达总裁兼首席执行官。他被《哈佛商业评论》和Glassdor评为世界上最好的首席执行官和员工评论最高的首席执行官。2021年9月,黄仁勋走上《时代》杂志封面,成为《时代》杂志2021年世界上最具影响力的百位人物之一。

  兼顾技术和业务背景,保持实际工作和远见。1984年,黄仁勋在俄勒冈州立大学获得学士学位,1990年获得斯坦福大学硕士学位。1983-1985年,他担任AMD芯片工程师,然后跳槽到LSI 继续从事LSIIC设计的Logic 在Logic任职期间,黄仁勋换岗销售部,以其出色的表现迅速晋升为业务经理,然后踏入管理工作。1993年英伟达准备时,克里斯和普雷艾姆推荐黄仁勋担任英伟达总裁兼CEO。2020年,黄仁勋获得台湾大学名誉博士学位,表彰其在人工智能和高效计算行业的伟大贡献。

  2

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)技术和产品高筑堡垒,让 AI 照进现实

  将英伟达的产品线细分为三个维度:硬件产品、软件系统和应用框架。同时,英伟达根据“硬件”“硬件” “软件”的技术优势,依托该领域推出的应用框架,为细分领域带来了定制的行业解决方案。

  

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)2.1. 硬件产品始于GPU,但不仅GPU

  创新GPU产品,促进CPU中逻辑函数模块数量的增长。

CPU是计算机的微处理器,也是计算机控制和计算的关键,可以解释计算机发出的指令。GPU是计算机的图形处理器,最初主要用于图像计算。世界上第一个GPUU GeForce 256是GPU开放的先例,使GPU慢慢演变成普遍使用的并行CPU。总的来说,GPU和CPU都是基于芯片微控制器的重要计算引擎。CPU有更大的逻辑函数单元和控制模块,缓存空间更大,但GPU有更多的逻辑函数模块总数。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

  需求激增催化 GPU 市场容量井喷式增长。

IC Insights 资料显示,2015 年到 2021 年里,全球 GPU 芯片市场规模年均增速超过 20%,2021年,全球 GPU 芯片市场规模已经超过 220 全年交货总额超过1亿美元 4.6亿片。我们认为,现在 GPU 仍占全球 AI 芯片的主导地位。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

英伟达深耕 GPU 业务,关键显卡商品快速更换。

英伟达关键显卡产品 GeForce 命名前缀,自己 2000 年发布 GeForce 2 GTS从一开始,GeForce系列就分为多种型号。到目前为止,英伟达销售的关键显卡产品包括GeForce16、Geforce20、Geforce30、Geforce40 等。从 GPU 架构视角,自我 2008 年发布 Tesla 架构完成后,英伟达相继发布。 Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere、Hopper、AdaLovelace 等 GPU 近年来,微架构 GPU 架构更新速度明显加快。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

Ada Lovelace 结构为英伟达 GeForce RTX 40 适用于增加动力的系列显卡。

Ada Lovelace 该架构主要用于第四代游戏显卡生产 TensorCore 新的应用程序首次推出 FP8 Transformer 模块可以增加货运量的四倍;第三代 RT Core 配置全新 Opacity Micromap 和 Displaced Micro-Mesh 模块,光线跟踪速度可以大大提高,占据的显存只有之前的二十分之一;而且,Ada Lovelace 架构可使用 DLSS 3(深度学习超采样)算法可以采样多个分辨率较低的图像,用之前帧的运动数据和反馈重建原始质量图像,从而建立大量高质量帧,显著提高 FPS(Frames per second),现在已经应用了 200 一些游戏和应用。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

Hopper 为了加速计算,架构实现了新的飞跃。

  

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  Hopper 为了加速计算,架构实现了新的飞跃。与 Ada Lovelace 架构不同,Hopper 构建加速计算平台的关键架构。Hopper Transformer 加速模块,其中之一 Hopper Tensor Core Transformer可以大幅加速 模型 AI 测算。Hopper 同时配备架构 NVLink Switch 系统,NVLink 作为一种垂直扩展互连技术和新的外部技术 NVLink 当交换机结合使用时,系统可以跨越多个服务器 GPU 900 GB/s 双向带宽扩展较多 GPU IO,每一个都能满足 GPU 实现无缝高速通信的多节点、多节点 GPU 需要系统。同时,Hopper 该架构还采用了具有机密计算功能的加速计算平台 CCX,以确保数据处理阶段 GPU 安全可靠。

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

GeForce RTX 根据Ada,40显卡 Lovelace架构建造。【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)英伟达最新的显卡是Geforce RTX 40系列,GeForce RTX 40配备英伟达前沿GPU,采用新型SM多模块流处理器将能耗比提高2倍,并采用第四代Tensor Core提高了计算能力,实现了1.4 Tensor-petaFLOPS,同时,第三代RT Core完成了光跟踪,可以提高两倍,可以模拟现实世界中的光源特性,可以显著提高玩家的游戏体验。

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)Tensor 自Volta架构以来,Core一直是英伟达的关键技术,实现了HPC和AI的大规模加速。

Tensor Core 可实现混合精度计算、动态管理计算率,同时提高货运量,Tensor Core给出了一套完整的精度(TF32、Bfloat16 浮点运算能,FP16、FP8 和 INT8等。),以确保优秀的通用性和能源的实现。

Tensor Core 可实现混合精度计算、动态管理计算率,同时提高货运量,Tensor Core给出了一套完整的精度(TF32、Bfloat16 浮点运算能,FP16、FP8 和 INT8等。),以确保优秀的通用和能源的实现。目前,Tensor 人工智能练习和推理已广泛应用于Core。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

从A100到H100,人工智能练习和推理发生了历史变化,创造了加速计算的量级飞跃。

与2016年的P100相比,H100的上一代商品在四年内将高能计算的启动速度提高到了9倍,但H100确实实现了数量级飞跃。H100根据Hopper架构的非凡优势,配置第四代Tensor Core和Transformer模块使双精度Tensorr Core的每秒浮点运算量增加了3倍。与A100相比,H100可以是主专家模型(MoE)练习速率提供九倍以上。在推理方面,H100表现同样出色。H100可以将推理速率提高到A100的30倍,并提供超低延迟。在减少内存占用和提高计算能力的同时,仍然保持大语言模型的准确性。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

Jetson嵌入式系统创建了一个方便和可扩展的嵌入式硬件解决方案。

Jetson是一个先进的平台,用于独立机器和其他嵌入式应用。该平台包括Jetson模块和Jetpack,用于加速软件 SDK,包括传感器,SDK、生态系统的服务和产品。其中,每个Jetson都包括CPU、GPU、内存、电池管理和高速接口是一个完整的系统模块 Jetson 同一软件堆栈支持模块,这意味着公司可以在任何地区随意布局,只需要一次开发。目前,英伟达出售的Jetson主要包括Jetson Orin系列,Jetson Xavier系列,Jetson TX2系列和Jetson系列 Nano,在数据中心和云部署技术的基础上,可以为人工智能应用提供端到端的加速。

  以Jetson为例 以Orin为例,Jetson Orin模块每秒可实现275万亿浮点运算(TOPS)计算率可以是上一代产品的8倍,可以用于多个并发人工智能推理。此外,它还可以通过高速接口支持多个传感器,这使得 Jetson Orin 成为机器人开发新时代的理想解决方案。量产级Jetson Orin模块可以为企业提供在边缘建立独立设备所需的能源和能源效率,以帮助企业更快地进入市场。英伟达给了Jetson AGX Orin开发者模块可以实现所有Jetson 模拟Orin模块系列。

  

  

面对人工智能的下一波浪潮,Jetson和VIMA有望与具体智能相结合。

具体智能是一个能够理解、推理和全球物理交流的智能系统。ITF World 在2023年半导体会议上,黄仁勋表示,下一波人工智能将是“具体智能”,英伟达还宣布了Nvidia VIMA,VIMA是一个多模态的人工智能系统,可以在视觉文本提醒的帮助下执行复杂的任务。在我们看来,随着Jetson和VIMA软件的逐步研发和完善,英伟达将成为推动具体智能发展的引导者。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

总的来说,英伟达在边缘的优势可以给扩大市场带来更多的可能性。

公司可以随意开发和部署Jetson AI 赋能机器人、无人机、IVA 使用和其他可以自我思考的自主设备。中小企业和初创公司可以承担Jetson的部署费用,开发独立机器和其他嵌入式应用程序,英伟达在嵌入式技术行业具有领先优势,每个人都积极关注市场。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

2.2.

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)软件平台带来了新的可能性,为生态王国奠定了基础

  CUDA构建软件业务底层框架基础,打造连接行业解决方案的研发平台。

英伟达于2006年宣布CUDA,成为首款GPU通用计算解决方案。依靠 CUDA 在工具箱中,开发人员可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署应用软件。CUDA工具箱主要包括GPU加速库、调试和优化工具C/C 用于部署应用程序的编译器和工作环境库。根据CUDA开发的使用,无论是图像处理、计算科学还是深度学习,都已部署到无数GPU中。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

  从此,开发者不再需要通过写大量的底层语言编码来启用GPU。

CUDA接近C语言的框架。CUDA作为一种C语言,对于开发者来说难度不大,也适用于Python、Java等主流编程语言。此外,CUDA程序可分为三个部分:一是从主机端申请启用GPU,将要复制的内容从主机内存复制到GPU;第二,GPU中的核函数计算复制信息;第三,将计算结论从GPU复制到处理的主机端,释放GPU的显存和内存。整个过程清晰易用。可以说,CUDA建立了一个平台,帮助开发者根据高级编程语言应用GPT来满足特定行业要求的功能,英伟达创建了一个“硬件” 生态王国软件平台。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

  

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)集合CUDA构建软件加速库-X AI,协助当代人工智能应用软件加快运行。

CUDA-X 人工智能作为软件加速库的结合,建立在CUDA以上。其软件加速库集成到所有深度学习框架和常见的数据科学手机中,以改进深度学习、机器学习和高能计算。库包含 cuDNN(用于加快深度学习基元)、cuML(用于加快数据科学和机器学习算法的内容)、TensorRT(用于提高参与模型的推理能力)、cuDF(用于浏览pandas等数据科学 API)、cuGraph(用于图形上的高能分析),以及13个以上的其他库。CUDA-X 人工智能已成为包括AWS在内的领先云平台、Microsoft Azure和Google 包括Cloud在内的一部分,可以通过NGC网站逐个下载,也可以作为容器软件栈一键下载。

  

  构建高兼容性GPU通用平台,促进GPU应用领域的不断扩大。CUDA可以作为英伟达GPU系列的通用平台,因此开发者可以配备布局和扩展跨GPU的应用。CUDA最初被用来帮助GeForce提高游戏开发效率,但随着CUDA高适应性优势的突出,英伟达将GPU的应用范围扩展到计算科学和深度学习行业。因而,根据 CUDA 目前已部署到嵌入式系统、工作站、数据中心和云中的GPU。与此同时,CUDA为开发者创建了一个自由分享经验的社区,并提供了大量的代码库资源。在我们看来,CUDA已经形成了极高的准入堡垒,成为英伟达不断拓展人工智能市场的品牌影响力的源泉。

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)将DOCA与DPU相结合,打造开发平台,成为激发DPU潜力的重要组成部分。

依靠DOCA,开发者可以创建软件定义,云原生,DPU 加快服务编程未来数据中心的基础设施。具体来说,DOCA 软件开发软件套件(SDK)和运行中(Runtime)环境组成,SDK包含全面的软件框架,Runtime包含在所有数据中心的无数DPU上配备、部署和编辑容器服务的工具。DOCA与DPU的融合可以开发突破性的网络、安全性和存储能源的应用,合理满足现代数据中心日益增长的能源和安全性需求。

  

  

构建深度学习推理优化器Tensort,GPUUU 深度学习推理能力。

Tensorrt是英伟达的高能推理平台,包括深度学习推理优化器和运行环境,为深度学习推理应用提供低延迟和高吞吐量。与只使用CPU的平台相比,Tensort可以将货运量提高40倍。依靠 TensorRT,开发者可以在所有主要框架中优化训练的神经网络模型,提高模型激话精度最后,将模型部署到超大型数据中心、嵌入式或汽车产品平台上。

Tensorrt以CUDA为载体,与开发架构紧密集成。

Tensort以 CUDA 作为载体,可以帮助开发者使用 CUDA-X 对于人工智能、独立设备、高能运算图形等深度学习框架中的推理,里面的库和开发工具技术。根据Tensorrt的应用,INT8和FP16可以改进运动的神经网络模型,如视频流传输、语音识别、推荐系统和自然语言理解,并在应用平台上部署优化的模型。Tensorrt也与Tensorflow同时、MATLAB的深度学习框架集成可以将预训练模型引入Tensort进行推理,具有较高的适应性。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

2.3.

构建包装SDK的应用框架,在标准化领域创建场景

SDK推动标准化领域场景建设,大大提高开发效率和能源。SDKSoftware全名Software Development Kit,即在建立特定硬件系统、软件框架、操作系统等应用软件时使用的开发工具的集合。英伟达基于自己丰富的“软件” “硬件”一体化的优势是将其改进并包装成SDK,形成了自身完善的应用框架体系,为解决行业突出问题创造了标准化的领域场景。完善的SDK系统有利于更大程度地提高开发者的工作效率,从而显著提高相关应用框架的能量和移植能力。

2.3.1. 元宇宙运用-Omniverse【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  开创元宇宙模拟平台Omniverse,共同设计和运营虚幻世界和数字孪生。Omniverse是基于USDD(Universal Scene Description)在omniverse中,艺术家可以用3D工具写出一个具有全设计保真度和实时虚幻世界的可扩展平台。企业在商品投产前通过数字双胞胎模型实时设计、模拟和改进产品、设备和步骤。Omniverse目前拥有15万多名普通用户和300多名企业客户。此外,英伟达还推出了LaaS商品 Omniverse Cloud,Omniverse应用程序可以连接云、边缘设备或当地运行,可以设计、发布和感受元宇宙在任何位置的应用程序,例如依靠Omniverse Cloud Simple Share服务,只需点击即可在线包装和共享Omniverse场景。

2.3.2. 云AI视频流-Maxine

Maxine加速GPUAI SDK和云原生服务适用于安排人工智能功能,即时提高声频、视频和实际效果。Maxine应用最前沿的模型来创造高质量的效果,可以用标准的麦克风和摄像头设备来完成。其中,Audio Effects SDK提供基于人工智能的音频质量改进算法,提高窄带、宽带和超宽频音频的端到端对话质量,包括噪声去除、回声消除、声频超分辨率等效果,Video Effects SDK给人工智能GPU加速视频效果,如虚拟背景、放大器、减少伪影和眼神接触。Maxine可以部署在当地、云或边缘,微服务也可以在应用程序中单独管理和部署,从而加快开发时间。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

2.3.3. 语音AI-Riva

Riva构建定制的实时语音AI应用,生成端到端语音工作内容。随着全球对基于语音使用的需求激增,这就要求语音人工智能在识别领域使用特殊术语,并对跨多语种做出实时响应。Riva包括优秀的实时自动语音识别(ASR)和文字转语音 (TTS)作用。在自定义数据集中应用中,客户可以选择预训练的语音模型 微调TAO工具模块可以将特定领域的模型开发速度提高10倍。Riva的高能推理取决于TensorRT,它已经完全容器化,可以轻松扩展到数千个并行流。

2.3.4. 数据分析-RAPIDS【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

RAPIDS为新的高能数据科学生态系统奠定了基础,并通过相互操作减少了新库的准入条件。英伟达建立了由一系列开源项目库和API组成的PAPIDS系统,适用于从数据读取和预处理、模型培训到可视化的全数据科学工作。根据集成领先的数据科学架构(如Apachee) Spark、cuPY、Dask和Numba)以及许多深度学习框架(如Pytorch)、TensorFlow 还有Apache MxNet),RAPIDS可以帮助扩展选择范围,并支持其他内容的集成。总的来说,RAPIDSCUDA-X 人工智能是英伟达在显卡、机器学习、深度学习、高能计算等领域的载体(HPC)等待行业多年的发展成果。

2.3.5. 医疗健康-Clara【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

Clara,打造人工智能助力的医疗卫生平台,推动新一代医疗设备和生物医学研究。Clara主要包括Holoscann、Parabricks、Discovery和Guaradian分别用于建设医疗影像和医疗器械、基因组学、生物医学和智能医院。以holoscan为例,开发人员可以建造设备并立即将人工智能应用部署到临床环境中。准确的数字双胞胎模拟手术环境有利于提高手术效率,缩短患者留在诊所的时间。其中,MONAI是开源诊疗AI的专用 建立强大的软件框架,目标是加快创新和临床转化。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)2.3.6. 高能测算

HPC软件开发模块助推高能计算。

HPC SDK C、C 和 Fortran编译器适用于标准C 和Fortran一起、OpenACC命令和CUDA 对 GPU加速了HPC建模和模拟应用软件。GPU加速数学库提高了普通HPC算法的能量,改进的通信库适用于多GPU和可扩展系统编程。HPC应用程序的移植和改进可以简化分析和调试工具,容器化工具可以很容易地安排在当地或云中。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)HPC GPU数学库是SDK的主要功能,Tensor Core提升、CPU提升、多GPU编程、可扩展系统编程、Nsight分析等。

其中,GPU 加速数学库适用于计算密集型应用、cublas和cuSOLVER 库可以为LAPACK提供各种BLAS例程及其关键例程,并尽可能自动应用GPU Tensor Core。结合通讯库 (NCCL) 可实现多GPU编程,应用MPI兼容的alll-gather、all-reduce、broadcast、reduce和reduce-scatter例程完成了多GPU和多节点结合通信基元的高度改进,以使用HPC服务器节点和跨HPC服务器节点中的所有可用GPU。

2.3.7. 智能视频分析-Metropolis【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

英伟达(NVDA.US):全球AI模块(43000字深度报告)重构计算

Metropolics将像素转化为观点,致力于构建多向智能视频分析应用框架。Metropolics整合了可视化数据和人工智能,解决了数万亿传感器产生的大量信息,提高了许多行业的运营效率和安全性。公司可以从边缘到云创建、部署和扩展人工智能和物联网应用程序。DeepStream SDK是由AI驱动的SDK实时监控分析,能显著提高能量和货运量;TAO 工具箱依靠特定的机器视觉预训练模型和结构,加快深度学习训练;Tensorrt将高能机器视觉推理应用软件从Jetson开始 Nano部署在边缘的T4服务器上。目前,Metropolics已广泛应用于新型智慧城市、零售物流、医疗保健、工业和制造业。

2.3.8. 推荐算法-Merlin【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

英伟达给予开源框架Merlin,用于大规模构建高能推荐算法。Merlin允许数据科学家、机器学习工程师和其他研究人员大规模建立高能推荐器。通过实现常见的预处理、特色工程、实践、推理和生产部署,Merlin架构包括库、方法和工具,优化了推荐系统的建设。Merlin 通过改进组件和功能,还可以支持100多个TB数据的搜索、过度考虑、得分和排列,并可以通过易于使用的API浏览。

2.3.9. 机器人-Isaac【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

Isaac平台加快和优化机器人开发,从开发、仿真到布局。工商机器人的开发过程相当复杂,在许多情况下,缺乏结构化的环境来支持开发。为了应对这些挑战,Isaac机器人开发平台创建了端到端解决方案,可以帮助控制成本,简化开发步骤,加快产品上市。当地和云提供的Isaac Sim可以为机器人产品建立准确的真实环境和模拟测试环境;EGX Fleet Command 和Isaac一起 for AMR (包含 Metropolis、CuOpt 能够管理机器人编队进行部署的DeepMap。

2.3.10. 电信-Aerial

Aerial用于构建高能、软件定义、云原生5G应用框架。【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)Aerial旨在构建和部署GPU加速的5G虚像无线接入网络。Aerial SDK是一个高度编程的物理层,可以支持L2或以上的函数,通过GPU加速,复杂计算的启动速度超过现有的L1解决方案。Aerial CUDA适用于SDK Baseband(cuBB)和CUDA虚拟网络函数(cuVNF),构建可编可扩展的软件定义5G无线接入网的过程变得更加简单。

2.4. 全覆盖产业解决方案,促进产业生态迭代【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)2.4.1. 人工智能和机器学习技术

AI Foundations为企业打造生成式人工智能,MaaS(模型即服务)帮助企业开发自己的人工智能模型。

英伟达AI Foundations是专门为AI推出的行业解决方案。

英伟达AI Foundations是专门为AI推出的行业解决方案。现在,生成式AI已经扩展到全球企业,黄仁勋强调,AI Enterprise就像Redd Hat通常为Linux提供维护和管理服务,并将其整合到全球机器学习和操作模式中。总的来说,英伟达通过一系列云服务模块、预训练基本模型、顶级架构和推理引擎,与API一起支持生成人工智能。AI 根据DGX的搭载,Foundations Cloud - AI Nemo在超级计算机中、Picasso和 BioneMo云服务可以提供文本生成、图像生成、聊天机器人、汇总和翻译等生成人工智能开发服务。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

给Nemo LLM服务致力于大型语言模型的开发和维护。

英伟达Nemo LLM服务允许客户在每个框架上定制和使用LLM,并在云上使用NeMo LLM服务部署公司级AI应用。NeMo LLM减少了大模型的开发和维护完成文本生成、引言、图像生成、聊天机器人、编码、翻译等服务的难度。与此同时,Nemo LLM将Megatron 530B 作为云API发布的模型,作为端到端架构,Megatron 530B适用于最大数万亿参数LLM的布局。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

加快机器学习训练时间,创造高能数据科学解决方案。

除上述Maas外,英伟达还为人工智能提供了一个实践和推理的计算机平台。从机器学习的角度来看,英伟达依靠快速 GPU 所有数据科学工作内容的计算和操作。APIDS应用框架的应用程序命令最初需要几天,现在只需要几分钟就可以完成,因此用户可以更顺利、更快地构建和部署价值生成模型。根据英伟达的解决方案,只使用了大约16台DGX 基于CPU服务器的A100可以达到350台能量。减少抽样和模型迭代次数对企业实际业务决策的负面影响,减少设备学习中因计算率限制而被迫产生的模型,加快模型投入生产时间。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

建立详细的深度学习培训和深度学习推理平台,不断扩大深度学习的领导地位。

从培训平台的角度来看,客户可以选择当地的工作站、数据中心和云作为培训平台,依靠SDK中的软件和架构库进行深度学习和培训,也可以从英伟达GPU进行 免费浏览Cloud所需的深度学习训练软件。从推理平台的角度来看,客户可以使用Tensorrt平台及其Triton推理服务器进行模型推理和部署,Triton服务器允许团队根据Tensorflow进行模型推理和部署、PyTorch、TensorRT Plan、Caffe、MXNet 根据GPU或其他自定架构,在任何基础上 CPU基础设施,从本地存储、谷歌云平台或AWS S3部署经典练习模型。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

AI Enterprise 给予AI 工作流解决方案。

  

  

  

AI Enterprise 给予AI 工作流解决方案。AI Enterprise是英伟达推出的端到端云原生AI软件模块,可加快数据科学步骤,简化预测AI模型的开发和部署。AI Enterprise 人工智能架构、预训练模型和各方资源(如Helm图表)Jupyter Notebook和文档)包装可以缩短开发时间,控制成本,提高精度和能量。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

2.4.2. 数据中心和云计算解决方案【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  充分释放云计算解决方案的优势,为世界先驱提供巨大的计算率。英伟达的云合作伙伴包括阿里云、谷歌云、腾讯云AWS、IBM Cloud和Microsoft Azure等,用户可以通过云合作伙伴应用英伟达服务。此外,英伟达根据BlueField Quantum,DPU架构 InfiniBand网络搭建了云原生超级计算平台。DPU可以卸载和管理主机CPU数据中心的基础设施,完成超级计算机的安全和编辑;云原生超级计算机在多租户环境中实现零信任架构,最大限度地保证安全。同时,英伟达还拥有强大的边缘计算服务,产生“云计算” 边缘计算服务系统。

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)引入culitho计算光刻技术软件库,加快计算,加快半导体行业芯片设计制造速度。

英伟达culitho和半导体行业领导者TSMC的推出、ASML与Synopsys的合作,使晶圆厂能够提高效率,减少碳足迹,为2纳米及更高的工艺奠定基础。culitho在GPU上运行,可以比目前的光刻技术提高40倍,可以加快每年消耗数百亿CPU小时的大规模计算工作负荷,只需要500个DGX H100系统可以完成需要4万个CPU系统的工作。短时间内,使用culitho的晶圆厂每日光掩模(芯片设计模板)产量可增加3-5倍,用电量可减少9倍。

  2.4.3. 车辆行业解决方案

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

英伟达自主研究NVIDIA DRIVE,生产适合自动驾驶汽车的硬件 软件 结构有机统一。

硬件端,DRIVE Hyperion是一个大规模生产自动驾驶汽车的平台,具有详细的自动驾驶软件栈、驾驶员监控和可视化功能。DRIVE DRIVERIVHyperion Orin SoC(系统级芯片)每秒可提供254万亿次计算的算率负载。与此同时,2022年9月,英伟达依托全新的GPU和CPU,打造了新一代SOC芯片DRIVE Thor,其可给予2000 计划2025年DRIVE万亿浮点运算能 Thor可以获得量产。

  

  

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)DRIVE SDK使开发者能够有效地安排无人驾驶应用程序,创造未来的旅行体验。

DRIVE SDK为开发人员提供了一系列包含认知、定位、驾驶员控制和自然语言理解的应用软件。

  

  

  

  

DRIVE基本架构包括开发自动驾驶技术全过程所需的数据中心硬件、软件和工作流。

英伟达加快环保节能人工智能计算实践,有利于人工智能收集大量真实驾驶数据作为培训集;在DRIVE 在Sim中,可以通过模拟驾驶在虚拟世界中进行检测,在各种罕见和危险的驾驶条件下获得驾驶数据。目前,英伟达开发的AI创变无人驾驶汽车已应用于各大主流汽车企业,成为无人驾驶汽车开发的关键工具。

  

  

2.4.4. 虚拟现实和游戏产业商品

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

英伟达GPUVR帽和Geforce Game Ready推动适应即插即用。

VR显像是否连贯将极大地影响头部显示器的用户体验。舒适的VR感觉规定,显示屏的合理分辨率至少为4K,刷新率至少为90Hz,这需要GPU为其提供适用性。GeForce RTX GPU适用于目前市场上流行的VR帽,通用性强。从能上看,GeForce RTX 依托其DLSSSGPU、光跟踪和Physx三大成像技术为客户模拟VR感觉,就像现实世界一样。【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

全方位覆盖游戏娱乐体验,营造专业网络环境。

目前,超过2亿玩家和原创者使用Geforce GPU,英伟达为目标客户创造了一系列专业的游戏服务: GeForce Experience可以提取并与朋友分享截屏、视频和直播;Game Ready 一键优化游戏设置可实现驱动软件;Broadcast App提供专业的直播服务,只需点击一个按钮就可以去除噪音或添加虚拟背景;Omniverse Machinima可以操作和处理虚幻世界中的人物和环境,并完成动画【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

3

  

重新定义市场,促进人工智能发展

  

3.1. 显卡市场长期处于领先地位,市场份额保持较高水平

  

英伟达长期独特的市场份额排名第一,与AMD暗流涌动有关。【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)根据3DCenter,2022Q2全球独展共交付约1040万张,总销售额约55亿美元,与2021年差距较大,其中显卡平均售价从2021Q21029美元大幅下降至2022Q2529美元。

据3DCenter介绍,2022Q2全球独秀共交付约1040万张,总销售额约55亿美元,与2021年差距较大,其中显卡平均售价从2021Q21029美元大幅下降至2022Q2529美元。据JPR计算,22Q2英伟达交付占全球独特市场份额79%,同比增加4pct,同比减少1pct。此外,AMD(超威半导体)涵盖20%英特尔作为新入局者的市场份额(Intel),其市场份额仅为1%,由此可见,英伟达在独特行业长期耕耘的市场优势明显,尤其是高端显卡市场。随后,22Q3全球独特销量下降33.7%至690万张,22Q4同增7.8%至743万张。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

英特尔维持了世界上最大的PCGPU经销商地位,2022年全球GPU市场低迷。

据JPR, 22Q4全球单GPU和集成GPU共交付6420万元,同比-38%,同比-15.4%,总体下降显著,突出了市场需求低迷的心态,特别是集成显卡制造商的购买意向严重下降。从市场份额来看,以22Q4为例,英特尔PC端GPU销量占71%,英伟达和AMD分别占177分%和12%。总体而言,集成显卡市场库存过剩与需求疲软的供需矛盾尚未缓解,销量可能继续保持低位。

  

  3.2. 合作伙伴网络巨大,人工智能市场不断扩大

  英伟达关键客户群覆盖顶尖科技公司,未来将继续拓展到人工智能市场。

在英伟达半导体产业链上游的R&D和设计中,半导体细分行业的几家龙头制造商具有很强的垄断力,其主要客户包括华硕、联想、惠普Facebook、IBM、慧与、三星等。下游需求严重危害英伟达的库存和生产规划。从库存角度来看,2020年FY库存周转天数的增加主要是由于原材料价格的上涨,2023年FY库存周转天数的再次增加是由需求疲软引起的积压货物。然而,随着人工智能计算能力需求的增加,我们认为英伟达的库存周转预计将回到合理的范围,人工智能开发的持续投资预计将吸引人工智能公司使用英伟达芯片产品。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

根据巨大的合作伙伴网络,英伟达共同推动未来视觉计算。

作为行业领导者,英伟达率先推出了视觉计算解决方案,近30年来,根据合作伙伴网络(NPN)将产品投放市场。合作伙伴包括升值代理、解决方案集成、设计或制造系统、托管服务、咨询以及为英伟达产品和解决方案提供维护服务的公司。同时,英伟达根据GTC会议积极吸引更多的全球合作伙伴,2023年GTC会议裸钻合作伙伴包括微软、谷歌云、阿里云、戴尔科技等国内外大型工厂,黄仁勋强调,全球英伟达生态有400万开发商、4万家公司和1.4万家初创公司。

  

  

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

3.3. 人工智能市场继续高增,周期布局价值突出【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)人工智能芯片市场已成为一个新的增长极,周期布局价值逐渐显现。

业务增长,如云计算、人工智能、工业5G和加速计算,将成为处理计算期问题的最后几个拼图。

云计算、人工智能、工业5G、加速计算等业务增长将成为处理计算期问题的最后几个拼图。硬件 该软件的完整生态系统将有助于英伟达在人工智能的快速发展中稳定其头部经销商的地位。根据IDTechex发布的报告《2023-2033年人工智能芯片》,到2033年,全球人工智能芯片市场将增长到2576亿美元。JPR还预测,2022-2026年全球GPU销量复合增长率将保持在6.3%预计2027年全球GPU市场容量将超过320亿美元。目前Open 人工智能模型主要由英伟达GPU实践,我们对人工智能芯片市场激增对英伟达投资价值的催化反应持乐观态度。

  

英伟达预测,总潜在市场为亿美元,对各业务线持乐观预期。

在2022年3月的投资者活动中,英伟达指出了其业务领域的总潜在市场 (TAM) 为 1 游戏业务约1000亿美元,人工智能企业软件150亿美元Omniverse业务1500亿美元,硬件和系统3000亿美元,无人驾驶市场3000亿美元。即使英伟达没有明确计划实现这一目标的具体时间,它仍然在一定程度上反映了英伟达对各业务线市场份额权重的合理预期。

  

  3.4. 重构摩尔定律,AI iPhone时刻给予新的机会

  摩尔定律慢慢无效,“黄氏定律”重构了产业生态的好季节。

在摩尔定律所指价格不变的前提下,集成电路上可容纳的晶体管数量每18个月增加一倍左右。自半世纪以来,摩尔定律引领芯片市场蓬勃发展。但随着传统半导体晶体管结构进入纳米水平,摩尔定律在高成本的推动下逐渐无效。但现在,大型模型对计算率飙升的需求远远高于摩尔定律所的预期。黄仁勋预测了人工智能的改进,强调GPU将推动人工智能每年翻一番,也就是说,GPU每10年可以增加1000多倍。这种观点又称“黄氏定律”。英伟达首席科学家兼研究院副总裁 Dally表示,目前单芯片推理能力提高的主要原因是Tensor 电路原理和结构的改进和改进并不是制造技术的发展。因此,在摩尔定律消失后,黄氏定律将继续刺激计算能量的发展。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

ChatGPT成为人工智能的iPhone时刻。

无论是第一个发明GPU并保持约2年的架构更新速度,还是成为第一个建造硬件的人 英伟达是一家软件生态公司,为领域生态系统创造了新的发展机遇。目前,以ChatGPT为代表的人工智能对社会的危害,就像Apple根据iPhone开启全球智能手机市场一样。英伟达的愿景是提前布局人工智能业务。早在2016年,英伟达就将英伟达DGX交付给OpenAI 人工智能超级计算机已成为适用于ChatGPT大语言模型突破的模块,可以说DGX超级计算器是当代的“人工智能工厂”。

  

  

  【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)4

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

研发创新围绕公司历史,迭代公司增长曲线

  

4.1. 科研投入不断增加,研发团队的规模越来越大

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

英伟达不断加大研发投入,注重创新能力的培养。

2023年,英伟达研发支出达到73.39亿美元,同比增长39.31%,近年来,英伟达研发支出增速显著,FY2021-FY2023连续三年超过30年%同比增长率。

2023年,英伟达研发支出达到73.39亿美元,同比增长39.31%,近年来,英伟达研发支出增速显著,FY2021-FY2023连续三年超过30年%同比增长率。据FourwekMBA统计,截至2023年1月,英伟达全球员工26196人,其中R&D团队19532人,R&D人员约占75人%。在过去的四年里,英伟达研发团队的总数几乎翻了一番,研发人员的高比例反映了公司对研发创新企业生命线的关注。【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

  

4.2. 在人工智能拐点时刻,大型语言模型产生了新的技术重点

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

神经网络行业已成为研究和专利申请的重点。

根据智能芽数据,截至2021年,英伟达及其关联公司共申请了9700多项专利,集中在GPU相关硬件行业。其中,2013年专利申请和受权最大值。自2014年以来,专利申请和受权比前值明显下降,受权比例也呈下降趋势。这种转变的主要原因是研发重心转移带来的产出效应的替代。与1993-2013年和2014-2021年专利关键词云相比,“Cpu“、”存储器“、“计算机语言模块”的比例相对降低,取而代之的第一个关键词是“神经网络”,反映了神经网络相关技术已成为英伟达研发的关键方向。

  

  

  

大型语言模型业务已成为未来技术发展的重点,并发布了四个新的计算技术平台。

英伟达(NVDA.US):全球AI模块(43000字深度报告)重构计算
在GTC 2023年,英伟达加快了生成式AI应用的部署,发布了四个用于AI视频的英伟达L4计算技术平台,Omniversee、英伟达L40,用于大型语言模型推理的H100,用于大型语言模型推理,如图形渲染、文字转图像和文字转视频 GraceeNVL及其适用的推荐算法和大型语言模型数据库 Hopper。黄仁勋说:“黄仁勋说:“AI 它正处于一个拐点,为任何行业的广泛应用做准备。从初创公司到知名企业,我们可以看到人们的生成 AI 对多功能和能力越来越感兴趣。因此,大型语言模型业务将成为英伟达技术发展的重点。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

  4.3. 突出地区优势,继续加强产学研深化合作

  英伟达灵活运用硅谷的区域优势,与学术界保持长期合作关系,给予不断创新的动力。

除与专业研究团队合作外,英伟达还将顶尖大学的优秀学生作为重点人才资源,不断加强产学研深化合作。关键合作科学研究项目包括与加州大学伯克利分校的ASPIRE项目、与北卡罗来纳州立大学联合的CAEML项目、CV2R项目、与斯坦福工程学院的SCIEN项目等,包括机器学习、虚拟现实等行业,覆盖软硬件市场。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

  5

  创造多元文化,勇于承担社会责任

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

5.1. 坚持可持续发展,实现ESG目标

  

英伟达重视可再生资源与生产率,助推实现ESG目标。

英伟达每年都计划购买和生产大量的可再生能源,以充分满足全球电力需求。

英伟达计划每年购买和生产大量的可再生能源,以充分满足全球电力需求。此外,英伟达的GPU根据计算率的提高降低了能耗。对于一些人工智能和HPC的工作负载,其能效通常是CPU的20倍。2022年5月,英伟达发布了液冷GPU。根据Equinix和英伟达的独立测试,选择液冷技术的数据中心的工作负载能量与风冷设备相同,能耗降低约30%%。值得一提的是,Green500排名是测试超级计算机能效的重要因素。在2022年6月Green500排行榜前30名的超级计算机中,英伟达的GPU支持了23台。

  

  

5.2. 承担社会责任,参与慈善活动

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

员工致力于建立促进人类进步的技术,并支持他们的工作和生活社区。

英伟达表示,作为一家积极承担社会责任的优质公司,他的员工向世界上几家慈善机构捐款。与此同时,英伟达成立了37个专项基金会%FY2023参加基金会Inspire的员工 365方案总共捐赠了880多万美元,带来了大约2.9万小时的志愿服务时间,比FY2022增加了 74%。加上以公司名义的捐赠,总捐赠总额为2250万美元,覆盖55美元 5800多个国家或地区的非营利组织。

  

  

5.3. 注重以人为本,深耕公司文化

  

英伟达注重创造多元化的公司文化,改善员工福祉。

Glassdor的评选结果表明,英伟达的员工将该公司评为全国第一工作场所。《财富》杂志还将其评为“最佳雇主100强”。此外,英伟达专注于创造更加多元化的文化,构建“残疾公平指数”、“公司公平指数”和“其他公平指数”等数据突出了公司以员工为导向的理念,给予了宽容的工作场所,并始终坚持履行其对同酬的承诺。

  

  5.4. 关心客户隐私,不断提高产品质量

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

在人工智能时代,重视数据安全,创建专业的风险响应团队。

英伟达创建了一个全球产品安全事故响应团队(PSIRT),解决与产品和服务相关的安全漏洞,并将NIST网络安全框架元素和控制集成到其安全系统中。同时参与全球网络安全机构MITRE,扩大人工智能 MITRE ATT&;为了更好地应对人工智能时代的新危险,CK架构。

  

打造注重隐私保障的联合学习体系,整体产品质量可控。

以医疗行业为例,英伟达在线医学影像分析联合学习系统( Federated Learning),通过建立全局模型,防止患者信息无条件共享。医院、研究所和疾病预防控制中心可以根据现有数据将数据提交给当地培训模型,并在一定时间内将数据提交给全球参数服务器。该服务器可以整合每个节点的模型信息,生成新的模型,然后将模型反馈给每个节点。在隐私保护的前提下,该系统最大限度地保证了模型能量,合理安排了多种数据信息。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

6

  

以超异构创新重构大规模人工智能计算,

  

发起全球AI模块

  

6.1. CPU难以支撑人工智能计算能力的需求,市场迫切需要更强的计算能力

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

CPU以串行计算为主,基于CPU和PCIE的数据中心货运量不足。

串行计算是指在同一CPU上执行多个程序。只有在当前程序运行完成后,才能实现下一个程序。CPU的运行主要以串行计算的形式进行。同时,根据CSDN,以最新版本的PCIE5.0为例,其传输速度仅为32 GT/s或25GT//s,PCIE货运量的计算方法是:货运量=传输速度*编码方案,因此传输速度的缺陷直接导致CPU根据PCIE货运量较小,这意味着其带宽较小。与此同时,以最新版本的PCIe5.0为例,CSDN的传输速度只有32 GT/s或25GT//s,PCIE货运量的计算方法是:货运量=传输速度*代码方案,因此传输速度的缺陷直接导致CPU根据PCIE的货运量较小,这意味着其带宽较小。此外,在此过程中,CPU产生的功耗和延迟较高,会产生较高的会计成本。因此,基于CPU串行计算特性和较小的带宽,很难适应当前数据中心的计算率规定。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

CPU难以适应高并发、并行计算和矩阵处理等计算率规定。

以神经网络模型为例,它包括输入层、输出层和内层(也称为隐藏层)。近年来,深度学习应用需求的激增迫使开发者完成更强的函数模拟能力,这需要通过提高模型的复杂性来实现,直接导致神经网络内层数量的激增,最终导致神经网络参数的激增。由于神经网络高度平行,应用神经网络进行大量计算转换为小计算,特别是使用卷积神经网络进行图像识别、卷积和池化过程应进行大量矩阵操作,CPU内部计算单元有限,实施此类任务后将大大消耗模型训练时间。根据多层神经网络的复杂计算,迫切需要更强的计算能力。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

6.2. 当GPU诞生时,英伟达发展迅速

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

6.2.1. 技术日新月异,AI芯片应时代需要

  

GPU处理率限制顽症,必须进行高带宽融入模型训练

。与CPU相比,应用GPU进行大规模并行计算的优势得到了充分展示,H100 Tensor Core 以GPU为例,它适用于18个NVLink连接,总货运量为900 GB/s,是PCIe 5.0带宽7倍,实现超快速深度学习训练。对于神经网络模型的实践,可以充分发挥GPU逻辑函数模块的诸多优点,满足GPU无法实现的高并发、并行计算和矩阵处理率的要求。因此,GPU无疑已经成为深度学习的硬件选择。对于神经网络模型的实践,可以充分发挥GPU逻辑函数模块的诸多优点,满足GPU无法实现的高并发、并行计算和矩阵处理率的要求。因此,GPU无疑已经成为深度学习的硬件选择。

  

人工智能迭代迅速刺激芯片技术创新,DPU、FPGA、ASIC等AI芯片应时代需要。

由于人工智能时代呼吁新架构,即使GPU比CPU具有显著的计算优势,市场也可能需要比GPU更优越的特殊芯片。目前,不仅GPU可以用于深度学习模型练习。近年来,人工智能芯片技术发展迅速,各种人工智能芯片发展迅速。参照《科学观察》杂志论文《人工智能芯片专利技术研发趋势》,人工智能芯片技术系统分为以下11个分支行业。【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

ASIC融入个性化的高需求应用场景,可根据算法定制计算能力和效率。专用集成电路(ASIC)是指根据客户的特殊要求和特殊电子系统的要求制造的集成电路,设计后固定集成电路的结构。ASIC适用于对芯片要求高、个性化程度高的使用场景,如以前的矿机芯片和现在流行的自动驾驶芯片。Frost &; 根据Sullivan的数据分析,2018年全球ASIC市场容量从299亿美元增长到2023年674亿美元,复合增长率达到17.7%。ASIC的发展有望在一定程度上满足AI对算率飙升的需求,但短期内很难摆脱英伟达GPU在市场份额上的领先优势。

  

  

FPGA作为ASIC中半定制电路,“先购买再设计”,与AI相互实现。

现场可编程门阵列(FPGA)开发人员可以根据产品需要提前设计硅片,并配备可编特的集成电路。与原ASIC相比,FPGA具有后期可编辑性,适用于需求量相对较小的个性化场景,具有较高的灵活性。FPGA技术目前有很高的技术要求,但由于人工智能技术的不断扩大,行业需求明显明确,有望吸引竞争对手进入,影响GPU的潜在市场。【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

6.2.2. 大战AMD、英特尔和互联网大佬

  

英伟达、英特尔、AMD是GPU行业巨头,苹果、高通等破局者不断涌入。

据JPR计算,英伟达长期占据全球独特市场的近80%%,AMD几乎占据了其他市场份额。因此,英伟达和AMD是GPU芯片市场的核心。英特尔是一家基本的CPU制造商,也在PCGPU中占据领先地位。英伟达的主要竞争对手集中在GPU产业链的设计上。但与此同时,苹果、高通等破局者也在进入GPU市场,试图完成自主开发的GPU,以减少对外技术依赖的要求。【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

  

AMD是半导体行业的领先企业,处于高能和自适应测算领域。

作为英伟达在独立GPU领域的主要竞争对手,AMD提供CPU、全方位的产品和服务,如显卡、软件和应用,CPU GPU DPU FPGA产品线已全面布局。AMD还提出了自己的全套解决方案,如车辆、超级计算和高能计算、网络电信和机器人自适应计算。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

与英伟达GH200相比,最有可能的AMD商品MI300年内将公布。

Instinct MI300 集成数据中心的创新设计包括13个小芯片,其中许多是 3D 创建一个有24个Zen的层叠 4 CDNA核心与CDNA核心相结合 3 GPU和 128G 配备HBM3显存的超级芯片 5nm 和 6nm IP。总之,芯片有 1460 晶体管亿次,是的 AMD 主芯片投入生产。在我们看来,MI300不仅实现了长期的大规模生产,而且其计算率仍低于英伟达大规模生产的产品线,与英伟达GPU研发和生产的总体差异约为2年。目前,英伟达GH200的竞争压力较小。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

依托其在集成GPU市场的主导地位,英特尔提供了非凡的图形解决方案。

与英伟达和AMD不同,英特尔更注重GPU行业的集成显卡业务。英特尔的GPU家族包括锐炫显卡、锐炬Xe显卡和Data Center GPU等。英特尔开发了Xe-HPG 微架构,Xe-HPG GPU 中的每个 Xe 核心配备了一组256位矢量模块,可以加快传统图形和计算工作负载,而新的1024位矩阵模块或Xe矩阵扩展旨在加快人工智能工作负载。英特尔还形成了覆盖云计算、人工智能、5G、物联网、边缘计算和商用计算机的业务解决方案也涵盖了GPU的生产和密封测试阶段,在台式机和笔记本电脑行业也有更客观的市场份额。但总体而言,英特尔的收入增长相对缓慢,由于PC端销售不良,其在GPU的核心业务增长动力不足。

  

高通等破局者致力于GPU的研发制造。

第二代骁龙8旗舰移动平台(骁龙8 Gen 2)以新一代Adreno为例。 与上一代相比,GPU可以提升25%、功耗降低了45%,CPU的能量也提高了35%、功耗降低了40%,它反映了高通在GPUIC设计行业的快速迭代水平,包括华硕、荣耀,OPPO、小米、夏普、索尼、vivo等公司也将发布骁龙8 Gen 2的商品。

  

  

英伟达的潜在竞争对手可能是互联网的头部制造商,以加快人工智能芯片的布局。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

  大型头部制造商加快了人工智能芯片的布局,英伟达的潜在竞争对手可能是互联网头部制造商。

我们发现英伟达的竞争对手可能不是目前正在开发GPU的专业制造商。互联网市场的顶级工厂包括谷歌、在人工智能芯片研究中,阿里、微软、亚马逊和IBM都在进行中。微软还开始开发其AI芯片Athena,为其OpenAI提供硬件支持。总的来说,比如TPU、NPU的发展也适用于人工智能,因此英伟达的潜在竞争风险仍然存在,并不局限于GPU设计领域。

  Google发布TPU,云服务器提高深度学习计算效率。

自2014年起,Google逐步自主开发AI专用芯片,并在AlphaGo击败李世石后发布TPU (Tensor Processing Unit),TPU也成为近年来最热门的ASIC。TPU利用矩阵乘法阵型进行矩阵操作,不需要像GPU那样多次访问存储器,也可以通过云TPU服务器进行跨设备操作。因此,TPU完成了将模型参数保存到同一高带宽存储器中,并将调用的芯片空间用于模型计算,降低了能耗,全面提高了启动速度。直到2021年,Google才推出TPUV4,在一定程度上阻碍了英伟达市场需求的增加。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

特斯拉先后推出了以NPU为核心的FSD车载芯片和D1芯片,将客户转变为竞争敌人。

NPU(Neural Network Processing Unit)与GPU相比,在练习神经网络模型时,能耗和成本降低,并且更与环境兼容,可以减少神经网络计算过程的时间。英伟达的重要客户特斯拉于2019年宣布了其自主研发的FSD平台(Full Self-Driving Computer),配备两个车载芯片,主要部件NPU由特斯拉硬件团队定制。每个FSD芯片包含两个相同的NPU,一个GPU和一个CPU。2021年,特斯拉发布了D1芯片,并创建了人工智能超级计算机Exapod。与英伟达现有的特斯拉计划预算相比,它具有4倍能量、1.3倍能效比和仅1/5体积。FSD车载芯片和D1芯片的发布,意味着特斯拉对英伟达芯片的依赖性开始下降。

  

  按照GPU相对较低的成本和繁荣的生态,仍然是超级计算的首选,市场地位在短时间内保持不变。

以史为镜,2017年Google发布Transformer模型,成为OpenAI开发GPT-1的前提。此后,英伟达迅速抓住全球计算能力需求爆发的机会,发布了配备Transformer加速引擎的Hopper架构,并推出了H100 Tensor Core GPU,满足超算计算能力要求。总的来说,与ASIC等AI芯片相比,GPU的生产成本最低,生态最繁荣。同时,由于模型正处于快速变化的快速增长期,ASIC的个性化设计需要根据模型变化的新需求同时迭代,难以实现稳定的生产。因此,GPU仍然是处理人工智能计算率的最佳选择,其市场地位在短时间内保持不变。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

6.3. 面对大规模人工智能测算的软件竞争优势,采用超异构创新构建

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

6.3.1. 超异构创新总览

  

面对大规模人工智能计算,超异构创新构建超级计算机。

异构计算是指根据启用能和结构不同的计算单元(包括CPU)、为了满足不同的计算要求,完成计算优化,GPU和各种专用AI芯片等。在我们看来,英伟达的核心竞争优势在于打造了面对规模并行计算的全栈异构信息中心。英伟达NVLink可以快速迭代,NVSwitch可以连接多个NVLink,在单个节点和节点之间进行多对多GPU通信,满足每个GPU、GPU和CPU之间完成无缝高速通信的需要,同时基于DOCA加速数据中心工作负荷的潜力,提高DPU的效率,GPU Bluefield DPU Grace 芯片间的快速互连是CPU集成开放的。同时,CUDA作为引进英伟达软件服务和全生态系统的通用平台。同时,CUDA作为一个通用平台,引入了英伟达软件服务和全生态系统。我们认为,芯片和系统的完成使英伟达真正实现了超异构创新。

  

  

6.3.2. NVLink

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

首先,NVLink颠覆了传统PCIE复杂的传输过程,完成了GPU与CPU的相互连接。

以GH200非常芯片为例,它使用NVLink-C2C芯片进行互联,基于Arm的Grace CPU与H100 Tensor Core GPU集成,然后不需要从传统CPU到GPU PCIE连接。传统的PCIE需要从CPU到内存,然后从主板,最后通过显存到GPU。因此,与传统的PCIE技术相比,NVLink将GPU和CPU之间的带宽提高了7倍,将互联网功耗降低了5倍左右,并为DGX GH200 超级计算机提供了600GBHoper架构GPU搭建模块。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

  

6.3.3. DPU

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

DPU大大降低了CPU的负荷,给现代数据中心带来了前所未有的改进。

2020年,英伟达宣布BlueField-2 DPU,Conectx-6 Dx的强大功能与可编Arm关键等硬件卸载功能相结合,用于软件定义存储、网络、安全和管理负荷。BlueField-3 作为一个400GB/s基础设施计算平台,DPU更强大,每秒处理速度达到400 Gb,与BlueField-2相比,计算能力和加密加速 DPU增加4倍,存储响应速度增加2倍,内存带宽增加4倍。同时,BlueField 一系列DPU有利于节能降耗。在OVS软件的检测中,当服务器负载较大时,DPU的能耗低于CPU29%。英伟达还推出了结合加速器商品的Amperere GPU架构和BlueField 增强DPU安全网络的功能。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

英伟达(NVDA.US):全球AI模块(43000字深度报告)重构计算
最新Spectrum-X 英伟达Spectrum-4、BlueField-3 DPU 与加速软件相结合。

Spectrum-X是基构建Spectrum-4以太网交换机和英伟达BlueField-3 DPU紧密相连,网络平台通用性高,可用于各种人工智能应用。它使用了一个完全标准的以太网,并与现有的以太网堆栈相连。全球领先的云服务提供商可以选择该网站来水平扩展其生成的人工智能服务。我们认为,Spectrum-X的上市将进一步提高英伟达以太网人工智能云的能量和效率,成为英伟达清除人工智能工作负荷障碍的关键环节。

  

6.3.4. CPU

  

英伟达自主研究Grace AI数据中心为CPU非常芯片。

与传统的CPU不同,英伟达Grace NVLinknk选择CPU C2C技术是专门为数据中心设计的CPU,其可操作性包括人工智能、工作负载包括高能计算、数据分析、数字孪生和云应用。Grace CPU 提供144Arm Neoverse V2核心和1 TB/s的内存带宽引入了可扩展的一致结构 (SCF),SCF 可用以保证 NVLink-C2C、数据流量流动在CPU核心、内存和系统IO之间。从软件的角度来看,英伟达Grace CPU软件生态系统将用于CPU、GPU 将DPU的全套英伟达软件与完整的Arm数据中心生态系统相结合。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

6.3.5. “GPU DPU CPU三芯战略

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

综上所述,英伟达根据“GPU DPU CPU三芯战略已初步实现,软件和硬件相互支持,成为人工智能发展的技术榜样。

在我们看来,英伟达的商业模式正在销售“硬件” 软件制造商不断转型为大型人工智能计算平台公司,根据基于异构计算的硬件迭代和软件服务的整体生态升级,不断提高计算速度,降低计算成本。根据“英伟达”“英伟达”GPU DPU CPU“与传统云服务器计算系统相比,建立英伟达加速计算平台,加速计算系统带来新的GPU和DPU,适用于现代业务应用,包括人工智能和可视化。英伟达亚太地区开发技术部经理李曦强调,目前世界上只有5个%计算任务加快,未来十年所有计算任务都将加快,新的计算任务将出现十倍,这将为加快计算市场带来超过100倍的增长空间。

  

  

  

  6.3.6. CUDA和DOCA

  CUDA和DOCA构建软件生态,从而构成全栈硬件系统的优势。如上所述,CUDA可以作为英伟达GPU系列的通用平台,因此开发者可以配备布局和扩展跨GPU的应用。

如上所述,CUDA可以作为英伟达GPU系列的通用平台,因此开发人员可以配备布局和扩展跨GPU的应用。随着CUDA的高适应性,英伟达成功地将GPU的应用范围扩展到计算科学和深度学习行业。DOCA最重要的作用是加速、卸载和保护数据中心系统架构的DPU,真正充分展示人工智能的潜力,促进数据中心加速计算,以满足日益增长的计算要求。

  6.3.7. GH200

  根据超异构创新,英伟达宣布DGX可以提供强大的AI能量 AIGH200内存 超级计算机。

DGX系统采用全堆栈解决方案和公司级应用,为企业AI系统架构树立榜样,是TOP500中几台超级计算机的核心基础模块。DGX 作为热门产品,GH200融合了Grace CPU和H100 GPU,根据定制的NVLink,拥有近2000亿晶体管 Switch System将256个GH200非常芯片和144TB共享内存组合成一个单元,使DGX GH200系统256H100 GPU作为一个整体合作操作。DGX GH200给予1 exaflop能和144 与单独的DGX相比,TB共享内存 A100 320GB系统高于近500倍。这使得开发者能够建立一个复杂的算法,用于生成人工智能聊天机器人的大型语言模型,推荐算法,以及用于欺诈检测和数据分析的图形神经网络。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

GH200芯片是英伟达系统竞争优势的大成者。

在我们看来,GH200非常芯片汇集了最前沿的Grace Hopper架构,应用第四代Tensor NVLink完成了高速传输,Core提高了计算能力,进行了模型优化,这将进一步形成英伟达的竞争壁垒。Grace Hopper非常芯片全面投产,全球厂商很快就会给企业使用独特的数据来构建和部署生成人工智能应用所需的加速基础设施。谷歌云、Meta 和微软是第一批有望连接DGXX的人 GH200公司。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

一般来说,英伟达作为行业领导者,将享受人工智能芯片行业整体需求高增长带来的红利。

IDTechex预测,2033年全球人工智能芯片市场将增长至2576亿美元。预计2022-2026年全球GPU销量复合增长率将保持在6.3%水准。根据摩根大通的预测,英伟达将于2023年在人工智能产品市场获得60英镑%其份额主要来自GPU和网络互联商品。因此,作为人工智能产业的上游领先经销商,英伟达对英伟达产品的井喷式需求增长持乐观态度。凭借超异构创新研发能力和行业领先生态的优势,牢牢把握以生成人工智能为代表的人工智能快速产生的业务变化,仍处于市场领先地位,其领先地位在短时间内保持不变。

  

7

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

数据中心推动收入超出预期,

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

市值提升创新高

  

7.1. 收入指数显著增长,充分突出盈利能力的优势【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  收入和利润变化很大,利润水平可以预期提高。英伟达FY2022/FY2023/1QFY24营业收入分别为269.14/269.74/71.92亿美元 61.40%/ 0.22%/ -13.22%;FY2022/FY2023/1QFY24的销售费用为94.39/116.18/25.44亿美元,同比 50.33%/ 23.09%/ -10.96%; FY2022/FY2023/1QFY24净利润97.52/ 43.68/ 同比20.43亿美元, 125.12%/-55.21%/ 26.27%。近年来,营业收入和净利润总体呈上升趋势,表现出竞争特征,特别是FY2023净利润持续下降,不如FY2022的一半。近年来,营业收入和净利润总体呈上升趋势,表现出竞争特征,特别是2023年FY净利润持续下降,不如2022年FY一半。然而,1QFY24的收入增长明显超出预期,预计未来的利润水平将继续上升。

  

销售毛利率和净利率大幅上升,但2023财年略有下降。

FY2022/FY2023/1QFY24销售净利率分别为36.23%/16.19%/28.41%,同比 10.25pct/ -20.04pct/ 8.89pct销售毛利率分别为64.93%/56.93%/64.63%,同比 2.59pct/-8.00pct/ 0.90pct,FY2023总体保持积极增长,但表现出一定的下降。1QFY24,销售毛利率和净利率再次回升。

  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

  

  英伟达的毛利率和净利率明显高于英特尔和AMD,突出了盈利能力的优势。

比较公司的两个竞争对手英特尔和AMD:2022年英特尔销售净利率12.71%,42.61销售毛利率%;AMD销售净利率5.59%,44.93的销售毛利率%,两者均低于英伟达在FY2023的表现,反映出英伟达对主要竞争对手的利润水平较高。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)  

  英伟达FY2023年收入和利润下降的因素逐步解决,看中了公司的长期利润水平。

FY2022/FY2023/1QFY24英伟达ROE分别为44.83%/17.93%/8.76%,ROA分别为26.73%/ 10.23%/ 4.77%,FY2023企业盈利水平逆风。我们认为,2023年英伟达FY收入低于预期的关键是游戏收入下降。2020年,由于全球疫情,显卡市场炒作疯狂,显卡价格飙升。随着疫情危害的逐渐减弱,显卡市场的需求导向变得疲软。与此同时,黄仁勋强调,中国市场业务的阻碍也极大地影响了英伟达的收入表现。然而,随着宏观逆风因素的逐渐消退,以及2022年底GPT流行行业带来的需求激增,我们认为英伟达预计将在2024财年继续改善其收入。

  

  7

.2. GPT促进了市值的高增长,股价转向了上升通道

  

股价回到上涨通道,利润水平继续释放。

2013年1月2日,英伟达股价仅为12.72美元,自2016年起一路高涨。2018年底回调后,自2019年底起再次进入上涨通道(注:2021年7月20日,英伟达当日直线下跌。:4.个股比例分割)。2022年初,由于业绩预期放缓,英伟达股价呈明显下跌趋势。自2023年初以来,市场逐渐对英伟达的升值空间有了一致的预期。随着价值探索的深入,潜在利润水平预计将继续释放。2022年初,由于业绩预期放缓,英伟达股价呈现明显下跌趋势。自2023年初以来,市场逐渐对英伟达的升值空间有了一致的预期。随着价值探索的深入,潜在利润水平预计将继续释放。2023年5月25日,英伟达股价迅速上涨至379.8美元,受第一季度收入超出预期和2QFY24利用收入预期达到110亿美元的影响。

【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

  

GPT推动公司市值一路上升。

随着公司股价的上涨,英伟达股票市值井喷式上涨。截至2023年5月26日,英伟达的市值约为9630亿美元,而英特尔的市值约为1230亿美元,AMD的市值约为1700亿美元。英伟达的市值领先企业水平已远远超过英特尔和AMD的总市值。【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  

7.3. 数据中心已成为利润的关键驱动力,创造了高收入的惊喜【国君海外科技】英伟达(NVDA.US):重塑计算,世界AI的引擎(43000字深度报告)

  数据中心业务收入占一半以上,成为收入增长的重要驱动因素。根据英伟达的财务报告,英伟达主要分为数据中心、游戏、专业视觉、汽车和嵌入式技术四个领域。FY2023以上四大业务收入分别为150.1/90.7/15.4/9.03亿美元,同比 41%/-27%/-27%/ 60%。1QFY2024四大营业收入分别为42.8/22.4/2.95/2.96亿美元 14%/ -38%/ -53%/ 114%,英伟达营业收入的主要来源是数据中心和游戏业务。其中,FY2023Q2游戏业务持续下滑,随后第三季度仍处于低位,对年收入影响较大。但总体而言,数据中心业务的高增长率促进了收入的高增长,部分缓解了游戏业务低迷对收入增长的障碍。

  

  

  

大模型训练催生了计算能力需求,英伟达在模型训练和推理中的地位在短期内保持不变。

以ChatGPT为代表的AI产业,英伟达已经形成了CPU GPU CUDA软件系统构成了DPU的硬件组成,为基石创造了应用生态。1QFY24中英伟达推出的四大推理平台,将英伟达的全栈推理软件与最新推理平台相结合 NVIDIA Ada、NVIDIA Hopper和NVIDIA Grace Hopper处理器结合在一起,更稳定了英伟达在模型训练和推理中的地位。英伟达表示,云服务提供商对公司的基础设施非常感兴趣,英伟达立即与全球近1万家人工智能初创公司合作,并与经济合作变好,宏观逆风慢慢消退,企业上云的过程可能会修复。在未来,我们认为其数据中心业务的利润是可以预期的。

  8   投资建议 行业龙头不允许,英伟达的盈利水平可以期待。考虑到英伟达1QFY2024年收入的出色表现,包括数据中心42.8亿美元收入的记录,以及英伟达本身对2QFY2024年收入的乐观预期,我们预计FY2024E/FY2025E/FY2026E的营业收入分别为400.0/516.26/620亿美元,同增48.29%/29.07%/20.09%,调整后的FY2024E/FY2025E/FY2026E净利润分别为151.96/223.07/285.79亿美元,同比增加247.89亿美元%/ 46.80%/ 28.12%。      在估值层面,我们选择全球半导体市场龙头企业作为英伟达的可比公司。      在估值层面,我们选择全球半导体市场龙头企业作为英伟达的可比公司。结合彭博社的一致预测,可比公司 2023E 均值 PE 46.1X。英伟达作为业内有目共睹的龙头企业,在图像处理领域具有卓越的技术实力和领先地位,产品生态显著稀缺。与此同时,在人工智能浪潮中,英伟达将从计算行业、客户需求增长、强大的生态系统等竞争对手中受益。所以我们给它超过行业平均水平的东西 PE 70.0X,第一次遮盖,并给予“加持”等级。         5   风险防范   AI 应用发展低于预期;企业研发进度低于预期;国际矛盾危害商品销售。
标签: 英伟达   计算