您现在的位置是 : 首页  >  聚焦  > 正文

天风电子:专业云厂商扩张趋势逐渐明确,建议关注云端AI相关企业及算力芯片相关企业

日期:2023-06-21 14:25:42 来源:金融界

1、英伟达、微软投资CoreWeave,云服务助力算力布局CoreWeave是一家专为大规模GPU加速工作负载而架构的专业云提供商。1)产品:CoreWeave拥有七大产品模块,通过并购Conductor Technologies赋能产品及扩张。2)核心优势:与传统云提供商相比,采用Kubernetes-native云计算平台基础机构,通过Kubernetes的API和控制面板来管理和调度容器和GPU资源,计算成本比其他竞争对手产品便宜80%(无需基础架构开销)(英伟达HGX H100 GPU组件成本4.76美金每小时),速度提升了35倍。3)合作:英伟达(参与公司B轮融资)、微软(投入十亿美元用于云计算基础设施)与CoreWeave合作以应对日益增长的算力需求和高昂的算力成本。此外,公司与Tarteel AI、Anlatan(NovelAI创建者)、Stable diffusion、EleutherAI(机器学习项目和开源人工智能)、Spire Animation以及PureWeb(视觉效果和动画公司)建立了合作关系。


(资料图片仅供参考)

2、AIGC显著提速,算力及云服务需求呈向上弹性AIGC大模型、多模态、商业化发展推动算力需求持续扩大。AIGC大模型的数据规模和算法模型的双层叠加下,算力需求将会越来越大。国际科技巨头纷纷推动AI模型商业化,进一步刺激算力需求。据中国信息通信研究院报告,预计2030年全球算力规模将达到56 ZFLOPS。AIGC大模型时代的到来使得智能算力成为普遍需求,影响云计算服务的模式和格局。根据中商产业研究所数据,2022年全球云计算规模达到3566亿美元,预计2023年将突破4000亿美元。

3、AIGC基础设施层发展成熟,云服务与芯片为核心资源。在所有层级中,基础设施层通常被认为是最成熟、稳定和商业化的。该层级中重点关注云服务与芯片两个核心资源:1)云服务提供商:云服务提供商通过提供超大规模和特定目的的计算、储存和网络技术在基础设施层占据了市场的主导地位。AI需要机器庞大的计算能力,很多公司转向云服务,通过云服务基础设施来解决算力问题。2)芯片:AI算力芯片是类ChatGPT模型的基石。我们认为,短期内具有大算力、通用性的GPU芯片或成为大算力应用首选,未来GPU与ASIC的界限可能会在较大程度上模糊。

投资建议:建议关注云端AI相关企业:寒武纪、海光信息(天风计算机团队覆盖)、龙芯中科、紫光国微、复旦微电、安路科技、亚马逊、微软公司(天风海外组覆盖)、谷歌、甲骨文等;建议关注算力芯片相关企业:英伟达(天风海外组覆盖)、AMD、Intel、景嘉微(天风计算机团队联合覆盖)等。

风险提示:AI发展及商业化不及预期、AI行业竞争加剧、政策不确定性。

1. 英伟达、微软投资CoreWeave,云服务助力算力布局

CoreWeave是一家专为大规模GPU加速工作负载而架构的专业云提供商。CoreWeave由Michael Intrator、Brian Venturo 和 Brannin McBee于2017年成立,曾是一家以太坊挖矿企业,后转型为云计算平台公司。CTO Brian Venturo是一名以太坊挖矿爱好者,曾选择英伟达硬件来增加内存(英伟达后成为CoreWeave的投资方)。CoreWeave的快速发展也受到融资团队的大力支持,融资团队包括Magnetar Capital、Nvidia、前GitHub执行官Nat Friedman和前苹果高管Daniel Gross。

1.1. 拥有七大产品模块,并购赋能产品及扩张

CoreWeave拥有七大板块产品。主要产品包括NVIDIA HGX H100、GPU Compute、CPU Compute、Kubernetes、Virtual Servers、Storage和Networking:

1)NVIDIA HGX H100为大规模 HPC 和 AI 工作负载而设计,与 NVIDIA HGX A100 相比,高性能计算 (HPC) 应用程序的效率提高了 7 倍,最大模型的 AI 训练速度提高了 9 倍,AI 推理速度提高了 30 倍。CoreWeave HGX H100 分布式训练集群采用轨道优化设计,使用 NVIDIA Quantum-2 InfiniBand 网络支持 NVIDIA SHARP 网络内收集,每个节点提供3.2Tbps的 GPU Direct 带宽。CoreWeave 针对 NVIDIA GPU 加速工作负载进行了优化,能够轻松地运行现有工作负载,而只需进行极少更改或无需更改。CoreWeave的快速、灵活的基础架构也可以帮助实现最佳性能。

2)GPU ComputeCoreWeave是GPU 加速工作负载的主要云提供商,核心产品是各类别的 NVIDIA GPU。作为一家专业的云提供商,CoreWeave在使用户能够扩展的基础架构上提供与用户的工作负载复杂性相匹配的计算服务。CoreWeave 拥有 10 多个专为计算密集型用例设计的 NVIDIA GPUs的使用案例,使客户能够适当调整工作负载的性能和成本。CoreWeave 是为大规模弹性、实时消费而构建的,可以在客户需要时提供所需的GPU并且拥有可配置实例、透明定价和直观计费。

3)CPU ComputeCoreWeave的 CPU 服务器群独立存在。凭借针对最终帧渲染、数据分析或视频转码显著的扩展能力,CoreWeave 的纯 CPU 实例提供了通用计算所需的规模、范围和灵活性。CoreWeave CPU可以轻松扩展用户的应用程序,从同一控制平面安排和管理客户的 CPU 工作负载。CoreWeave 的 CPU 计算产品组合为任何用例提供了经过成本调整的出色性能选项,按需启动数以万计的 CPU 内核以满足紧迫的渲染期限,或以惊人的规模进行数据分析。

4)Kubernetes与传统的基于 VM 的部署相比,通过单个编排层管理所有资源,CoreWeave的客户可以充分利用更高的可移植性、更少的开销和更低的管理复杂性。得益于容器图像缓存和专门的调度程序,CoreWeave的工作负载可以在短短 5 秒内启动并运行。CoreWeave可以即时访问同一集群中的大量资源,只需用户请求所需要的 CPU 内核和 RAM,以及可选数量的 GPU。CoreWeave 处理所有控制平面基础设施、集群操作和平台集成,因此客户可以将更多时间用于构建产品。

5)Virtual Servers:CoreWeave的虚拟服务器建立在 Kubernetes 之上,使用开源项目 KubeVirt 来处理不易容器化的工作负载。从 UI 或通过 CoreWeave Kubernetes API 在几秒钟内启动虚拟服务器。CoreWeave通过 PCI 直通专用的 GPU 的裸机性能,没有 GPU 虚拟化或共享资源。与 CoreWeave 中的所有内容一样,虚拟服务器是可定制的,可以将客户的工作负载与NVIDIA GPU 相匹配,在几秒钟内实现类型切换,并且完全支持 Linux 和 Windows 虚拟服务器。

6)Storage:根据用户的工作负载,CoreWeave 提供一系列存储选项。CoreWeave Cloud Storage Volumes 建立在 Ceph 之上,Ceph 是一个软件定义的横向扩展企业级存储平台,旨在为客户云原生工作负载提供高可用性、高性能存储。CoreWeave使用三重复制,分布在多个服务器和数据中心机架上,专为高可用性而构建。所有存储卷都可以由容器化工作负载和虚拟服务器安装,从而可以灵活地更改底层计算资源或部署方法,并且可以将容量从 1GB 快速扩展到 PB (1000 TB) 规模。

7)Networking:CoreWeave 的 Kubernetes 原生网络设计将功能转移到网络结构中,因此客户可以花更少的时间管理 IP 和 VLAN 来获得所需的性能和安全性。通过区域优化的交通提供商,CoreWeave 的公共连接为美国超过 5100 万人提供低延迟访问。使用 Kubernetes 网络策略管理防火墙,或为第 2 层本机环境部署 VPC 网络。CoreWeave可以为客户的应用程序部署负载平衡器服务,以免费提供高度可用、可扩展的基础架构。当需要管理第 2 层环境时,CoreWeave 虚拟私有云 (VPC) 将网络控制权交还给用户。

CoreWeave积极通过并购来增强自己的产品并实现扩张。2023年1月,CoreWeave宣布对于Conductor Technologies的收购。Conductor是基于云的任务管理服务开发商。CoreWeave对Conductor的收购将增强产品在媒体和娱乐行业的应用,将帮助CoreWeave扩展VFX和动画工作室的功能,轻松地将工作负载到云端。同时,这一收购也使得Core Weave的员工人数快速增加,截至23年1月25日,员工数量已超过90人,Conductor的CEO Mac Moore现在在CoreWeave管理媒体和娱乐部门。

1.2. 三大优势助力,生成式AI市场中脱颖而出

CoreWeave与传统云服务商相比聚焦于生成式AI、深耕GPU加速技术并且具有价格优势:

1)聚焦于生成式AI:AWS、微软和谷歌云等传统超大规模云计算服务商,形成了一系列大规模的云计算服务并建立庞大的数据中心,目的在于针对几乎所有的潜在客户需求。而CoreWeave则采用完全相反的方法,聚焦于以极具竞争力的价格为生成式AI提供平台。CoreWeave在生成式AI领域的合作表现亮眼。CoreWeave与知名生成人工智能公司Tarteel AI、Anlatan (NovelAI的创建者),机器学习及开源人工智能公司Stability AI的Stable Diffusion和EleutherAI进行合作。同时,Spire Animation和PureWeb等视觉效果(VFX)和动画公司已与CoreWeave建立合作关系。

2)深耕GPU加速技术:CoreWeave 云架构是专为大规模GPU加速工作负载构建的Kubernetes原生云。Kubernetes是一种容器编排引擎,支持容器自动化部署、大规模弹性扩展及容器化应用的统一管理。在Kubernetes统一管理和使用GPU资源可以提高部署效率、实现租户隔离和进行统一资源调度和管理。现在对 GPU 加速技术的关注使 CoreWeave 在涉及更专业的用例,尤其是 AI 特定需求时,能够超越其他云提供商。生成式 AI 技术,例如 ChatGPT 聊天机器人和 Stable Diffusion 的艺术生成 AI,需要大规模运行大量几乎相同的任务。由于GPU 擅长执行此操作,从而大大提高了速度和功率。

3)价格优势:云基础设施可用于众多用例,包括视觉效果渲染、机器学习和人工智能、大规模批处理和像素流,根据公司官网数据,与通用技术相比,处理速度最高可提高 35 倍,成本降低 80%。一方面,CoreWeave采用的是Kubernetes原生云可以实现可移植性,即可以充分利用混合云并部署到任何云提供商,可以帮助客户降低基础设施的构建成本。另一方面,CoreWeave使用基于资源的定价,客户只需在使用资源时为使用的资源付费。除此之外,CoreWeave提供所有大型云提供商中最低的按需价格和业界最广泛的 NVIDIA GPU。以CoreWeave的GPU云定价为例,定价为单点定价,其中总实例成本是 GPU 组件、vCPU 数量和分配的 RAM 量的组合。为简单起见,每个基本单元的 CPU 和 RAM 成本相同,唯一的变量是为客户的工作负载或虚拟服务器选择的 GPU。

1.3. 英伟达、微软AIGC亮眼,与CoreWeave进行战略合作

英伟达、微软等巨头AIGC表现靓丽。英伟达掌握AI算力命脉。NVIDIA H100被黄仁勋称为“全球首个为AIGC设计的计算机芯片”,产品可以帮助AI系统更快输出顺畅自然的文本、图像和内容。当前AI需求高涨,AI算力芯片赛道竞争激烈,但英伟达凭借通用性和易用性具有稳定优势。2023年第一季度英伟达总收入达到71.9亿美元。美东时间5月30日,英伟达成为全球首家市值超过1万亿美元的芯片公司。微软本季度发布一系列“AI全家桶”,AI算力需求吸引部分新客户,Bing搜索引擎崛起有望挤压谷歌部分市场份额和营收。微软第一季度营收为528.6亿美元,收入主要来源于云服务,其中Azure和其他云服务收入增长27%。

英伟达、微软与CoreWeave合作提升算力储备。AIGC受到投资者追捧。根据PitchBook数据,2023年第一季度,AIGC初创企业进行的46项交易总价值约17亿美元,另外还有106.8亿美元交易在该季度宣布。截至2023年5月31日,CoreWeave总融资达到5.765亿美元,英伟达也参与了B轮融资。根据cbinsights网站数据,CoreWeave的估值在2023年4月就已达到20-22.21亿美元。以CoreWeave为代表的新一代云服务提供商通过定制硬件和更低价格来针对可互换的AI工作负载,可以与传统的超大规模云服务提供商形成一定的竞争。根据CNBC消息,微软将在未来数年内向CoreWeave投资数十亿美元,用于GPUs驱动的云计算基础设施,以确保OpenAI有足够的算力运营,体现了科技巨头通过将基础设施、模型和应用程序结合在一起的解决方案应对日益增长的算力需求和高昂的算力成本。

2. AIGC显著提速,算力及云服务需求呈向上弹性

2.1.AIGC大模型、多模态、商业化发展,算力需求持续扩大

AIGC大模型推动算力需求增长。算力是数字经济时代的核心生产力,也是人工智能技术发展的重要支撑和驱动力之一。以AIGC大模型ChatGPT为例,算力需求场景可以分为训练和推理两大类,根据实际应用可以进一步拆分为预训练、Finetune和日常运营三个阶段。根据OpenAI论文,GPT-3模型参数约1750亿个,预训练数据量为45TB,折合为训练集约为3000亿tokens,训练阶段算力需求约为3.15×108 PFLOPS。除了训练,在推理方面也需要强大的算力支撑。在数据规模和算法模型的双层叠加下,算力需求将会越来越大。

多模态AIGC或成算力需求新驱动力。2021年后,人工智能逐渐从单模态AI转向了多模态AI。作为人工智能最受瞩目的发展方向之一,AIGC是以人工智能为核心,多模态交互技术等技术共同整合而成的。随着算法的不断迭代,AIGC可生成的内容形式已囊括文本、图像、音频和视频。今年3月OpenAI发布GPT-4模型,接受文本和图像输入信息。以谷歌发布的PaLM-E多模态模型为例,参数量最高可以达到5620亿个,需要集成各类模型对信息流的嵌入处理,使得模型整体更为庞大,对算力资源的需求进一步提升。

算力赋能AIGC商业化。国际科技巨头纷纷推动AI模型商业化。微软发布Microsoft Copilot,将包括GPT-4在内的LLM与Microsoft 365应用程序和Microsoft Graph中的业务数据相结合,将带给用户一种全新的工作方式。同时,GPT-4通过开放API接口,尝试接入更多的商业合作伙伴,以创造出更多的商业化的应用。Google推出的PaLM 2,Meta的LLaMA以及Amazon的Bedrock均体现AIGC的商业化。随着AIGC商业化发展,强算力资源的企业将拥有更多的商业可能,我们认为这将进一步刺激算力需求。根据中国信息通信研究院报告,预计2030年全球算力规模将达到56 ZFLOPS。

2.2. AIGC模型及算力需求提升,云计算服务格局及规模有望改善

AIGC发展刺激云计算服务需求。随着AIGC大模型时代的到来,智能算力成为普遍需求,进一步影响云计算服务的模式和格局。AI云服务为AIGC开发提供了平台支撑。具体来看,人工智能预训练模型开发对于云服务有较大需求,AI云服务可以提供人工智能开发模块,通过多元化的服务模式,降低开发者的开发成本和产品开发周期,为模型开发提供AI赋能。AIGC大模型的逐渐成熟将推动云计算格局逐步从算力为基础的平台IaaS,走向以模型能力为主的平台MaaS。云计算AI能力的逐步放大也将刺激云计算服务需求。根据中商产业研究所数据,2022年全球云计算规模达到3566亿美元,预计2023年将突破4000亿美元。

3. AIGC基础设施层发展成熟,云服务与芯片为核心资源

基础设施层领衔AIGC技术栈成熟发展。生成式人工智能技术栈由三层组成,包括基础设施层、模型层和应用层。基础设施层包括超大规模计算及芯片两大部分,分别作为AIGC的基础设施和硬件基础。基础设施层现有龙头企业主要提供算力、网络、储存和中间件基础设施。芯片方面,厂商提供专门为人工智能工作负载优化的芯片。模型层到应用层的实现主要为两种方式,包括垂直整合基础模型以及在基础模型和微调模型基础上进行应用程序开发两种方式,相当于AIGC的平台。在所有层级中,基础设施层通常被认为是最成熟、稳定和商业化的。

该层级中重点关注云服务与芯片两个核心资源:

1)云服务提供商云服务提供商通过提供超大规模和特定目的的计算、储存和网络技术在基础设施层占据了市场的主导地位。云服务提供商的商业模式通过提供可扩展的计算资源,并采用按消费计价的定价策略被证明是有效的。为了使得AIGC的工作负荷更加稳定,云服务提供商已经与模型提供商签署相关承诺,以保证未来的工作。AI需要机器庞大的计算能力,很多公司转向云服务,通过云服务基础设施来解决算力问题。从市占率来看,目前亚马逊是云服务市场的领头羊,微软、IBM、谷歌和阿里云也具有较高的市场份额。具体来看,Azure与OpenAI、Google与Anthropic以及AWS与Stability.ai已形成重要合作。

2)芯片:基础设施中另一个快速发展的关键层次是芯片。AI算力芯片是类ChatGPT模型的基石,支撑类ChatGPT模型需要大量的算力芯片,其中对GPU、FPGA、ASIC需求较大。在这方面,英伟达和AMD是行业的领导者。英伟达的Ampere和Hopper系列GPU、分别为训练和推理工作负载专门设计,加上英伟达的Selene超级电脑计算集群,可以加速训练时间。同时,AMD的CDNA2架构同样也是专门为机器学习应用的超级计算而设计,推动了高性能计算市场的竞争。我们认为,短期内具有大算力、通用性的GPU芯片或成为大算力应用首选,未来GPU与ASIC的界限可能会在较大程度上模糊,形成替代竞争。

4. 投资建议

建议关注云端AI相关企业:寒武纪、海光信息(天风计算机团队覆盖)、龙芯中科、紫光国微、复旦微电、安路科技、亚马逊、微软公司(天风海外组覆盖)、谷歌、甲骨文等;

建议关注算力芯片相关企业:英伟达(天风海外组覆盖)、AMD、Intel、景嘉微(天风计算机团队联合覆盖)等。

5. 风险提示

AI发展及商业化不及预期:AIGC预期技术迭代及商业化进程可能受到软硬件研发和市场反馈的影响不达预期。

AI行业竞争加剧:国内外科技企业布局AIGC产业链,可能导致AI行业供给快速增加,导致行业竞争超出预期。

政策不确定性:AIGC行业未来可能受到监管对于数据安全、版权等方面的限制。

本文源自:券商研报精选

标签:

推荐