「生成式AI不只展现强大能力,更让企业产生重新思考产品和商业模式的急迫感,」Nvidia执行长黄仁勳在今年GTC大会开场演讲时这样强调,不分产业,企业都纷纷加快数位转型,要变成软体驱动的科技公司,「企业想要成为推动变革的一方,而不是被变革淘汰的另一方。」
黄仁勳讲这一席话的时候,新一代GPT-4正式发表刚满一周,全世界再一次感受到生成式AI的新威力,Nvidia趁势发表了全新的云端营运模式。
ChatGPT从去年底爆红後,迅速累积破亿人注册使用。今年3月1日,OpenAI正式推出ChatGPT付费API後,这股浪潮更从个人使用,迅速蔓延到企业应用场域,各种ChatGPT相关应用纷纷出炉,两大科技巨头也大秀AI军火。微软展示了用GPT-4打造的下一代Office,从文书处理、试算表到简报都能辅助,全新AI助手Microsoft 365 Copilot让人惊艳。追赶的Google则祭出5,400亿参数训练的PaLM模型迎战,同样展示了下一代WorkSpace将如何结合生成式AI,以及可以自动生成App程式的Generative AI App Builder工具。微软不甘示弱,祭出全新GitHub Copilot X反击,将GPT-4更深度整合到IDE开发工具中,成为开发人员的万能AI助手,从自动写程式、除错到优化配置样样都行。
光是在3月,科技巨头的AI竞争,就像拳击场上你来我往的肉搏对打,让企业主感受到一股非了解不可的焦虑感。尤其更强大、正确性更高、还能支援图文输入的GPT-4正式登场,让企业主这股焦虑感更是火上添油。
调查160万人,竟有3.1%员工上传机敏资料到ChatGPT
但是,企业要使用ChatGPT或是GPT-4,并非是件马上就能决定的事,需要考量的细节,远远和个人使用截然不同,尤其企业格外会担心内部机敏资料的外泄风险。
根据国外一家提供企业级资料侦测与应变(DDR,Data Detection and Response )的新创Cyberhaven,在2月底到3月初时调查旗下企业用户,统计超过了160万名员工的资料上网情形,高达8.2%的员工会用ChatGPT,其中竟有3.1%的员工将企业机敏资料输入到ChatGPT上。在调查那一周内,平均每10万名员工,就出现199次机密文件上传警告通报,以及173起顾客资料上传警告通报。
最近一起引起众人关注的则是韩国经济学人媒体披露的三星半导体ChatGPT资料外泄事件,在开放半导体厂使用ChatGPT不到20天,就发生了3起机敏资料外泄事件,两起是开发人员将设备量测与良率检测特定用途的完整程式码,输入到ChatGPT上来寻求除错,另一起则是助理将重要会议内容输入ChatGPT来产生摘要。三星半导体紧急限缩ChatGPT的使用,并打算发展自制的GPT模型来替代。不过,早在三星发生资料外泄事件之前,就有很多企业都意识到自行训练生成式AI模型的重要性,三星机敏资料外泄事件只是再次证实了这个考量的必要性。
看准模型客制化需求,将AI超级电脑产品线变成云端服务
Nvidia正是看准了这一波ChatGPT爆红背後的客制化AI模型训练需求,宣布了全新的商业模式,不只是以硬体晶片生产和软体技术提供为主的科技产品制造商,更进一步自己跳下来变成云端服务供应商,要把自家AI超级电脑产品线,变成了云端的AI超级电脑云服务。
黄仁勳以「人工智慧的iPhone时刻」来形容这股ChatGPT带动的生成式AI浪潮,以及可能带来的重大变革,而新推出的云端AI超级电脑服务,就是Nvidia因应这股变革的关键战略。「要透过浏览器将Nvidia AI带给每一家企业。」他强调。
DGX是Nvidia的AI超级电脑产品线,黄仁勳透露,他亲手将第一台DGX超级电脑提供给OpenAI,变成了大型语言模型技术突破背後的引擎。DGX最初的用途是为了AI研究,但现在已经进入了企业营运领域,需要支援全天候的运作,甚至,得有能力扩充到数十万节点的庞大规模。至今,超过半数财富100大企业导入了这套要价不菲的设备。
早在去年GTC大会上,Nvidia就先发表了第四代DGX H100超级电脑,采用了以COBAL发明人Grace Hopper 命名的Hopper架构,以及用这个架构打造的H100 GPU。这款AI超级电脑也在2023年初正式出货。
在第四代DGX超级电脑,搭载了8个H100模组,而H100 GPU还搭载了一个前一代A100 GPU所没有的新加速引擎Transformer Engine,这是一个专门为NPL知名Transformer模型所打造的加速引擎,可以用来加速BERT、GPT-3模型的训练。
Nvidia透露,和前一代A100相比,H100在神经网路运算上,可以达到6倍的速度,也能兼顾精准度。甚至可以利用16位元精度与H100新增的8位元浮点资料格式(FP8),结合进阶软体演算法,还能进一步提高AI训练速度,在同一款大型语言模型上,H100速度提升可以达到A100的9倍之多,推论速度甚至是前一代GPU的30倍。
另外,H100也采用了第二代MIG技术,更容易支援云端多租户服务的组态方式,可以同时承载7个更小且隔离的实例,而A100只能承载1个。换句话说,H100是更适合发展成云端服务型态的GPU。另外,Hopper新架构也开始能支援GPU机密运算,可以用来保护用户AI模型、演算法机密性和完整性,因此,采用此架构的H100,可以让企业在第三方业者提供的云端基础架构环境中,更安心散布和部署自家的AI模型。
过去,多家公云巨头原本就推出采用A100的云端VM服务,也纷纷宣布将跟进推出搭载新款H100 GPU的VM服务。例如甲骨文OCI率先推出搭载8颗H100 GPU的VM,甚至最大可以扩充到16,384个H100 GPU的超大规模丛集。AWS则宣布推出可以扩充到2万个互连的H100 GPU的P5执行个体,Azure则是先推出H100 v5预览版,Google Cloud後续也会推出。各大伺服器制造商也开始提供搭载H100 GPU的伺服器和系统。
不只是出租AI超级电脑硬体,更有整套基础架构软体
不过,今年Nvidia更进一步,不只是卖超级电脑硬体给公云业者,还自己下海,变成了云端服务供应商,黄仁勳宣布要推出AI超级电脑云服务DGX Cloud,可以提供按月租用的超级电脑丛集,而且可以提供到H100等级的GPU。
目前Nvidia将与三家公云业者合作,在微软Azure、Google Cloud和甲骨文OCI上提供DGX Cloud托管服务。将先在OCI上推出,最大可以提供到超过32,000个GPU的超级电脑丛集服务,Azure预计今年第二季推出,Google Cloud则在今年更晚时上线。
DGX Cloud不只是提供超级电脑硬体出租,而是包含了一整套的超级电脑基础架构,从最底层提供了高效能的储存空间(单实例有10TB容量,每月输出流量10TB),再上一层则是可以提供单一执行个体内建8个H100或A100 80GB Tensor核心GPU,每个节点共有640GB的GPU记忆体。
这两层是硬体体层基础架构,再往上是超级电脑的基础架构软体层,包括了用於调度基础架构软体的Nvidia Base Command管理软体,以及开发人员管理AI应用开发流程的Base Command Platform云端SaaS服务,再加上最上一层的AI Enterprise软体套件(包括了AI和资料科学工具和常用AI框架等)。
从技术架构图来看,云端业者负责云端服务的支援,而Nvidia则提供了AI技术客服窗口和AI专家的技术支援服务。
这座超级电脑云采取按月订阅制,月租费是每个执行个体最低36,999美元起跳(约台币113万元),远低於一台DGX A100在2020年中刚推出时的买断报价19.9万美元(约台币600万元)。
DGX Cloud包含了整套超级电脑基础架构,最底层是高效能储存,再上一层是H100或A100硬体VM,再往上是超级电脑的基础架构软体层,包括了运算资源调度的Nvidia Base Command管理软体、管理AI应用和开发流程的Base Command Platform云端SaaS服务,以及AI Enterprise软体套件。云端业者负责云端服务支援,而Nvidia则提供了AI技术客服窗口和AI专家支援。图片来源/Nvidia
重头训练1,750亿参数的GPT-3模型要多少亿?
根据Nvidia测试,过去要用一个3,000亿个Token的公开网路资料集,来训练出1,750参数的GPT-3模型,若采用1,024张A100 GPU,还是要花上24天。换句话说,企业若要想在一个月内训练出参数量和ChatGPT相当的自有GPT-3模型,得采购128台DGX A100超级电脑(单台8个GPU),光硬体费用就超过7.68亿元,就算愿意等上一年训练一次,也至少要投资5千多万元采购9套。若换成按月租用的超级电脑服务,以月租费113万元X128个超级电脑VM,则约台币1.4亿元。虽然远比7.6亿元低得多,但仍是一笔巨额投资,甚至远远超过许多台湾2千大规模企业一整年度的IT投资规模。只有少数大型高科技制造业或金控,才负担得起自己从头训练出一套GPT-3模型的硬体费用,这还不包括人事费、软体和资料集蒐集费用。生成式AI带来的创新竞争,无疑是一项庞大财力的竞赛。
提供更低成本的预训练模型服务,不用重头训练超大模型
所以,为了抢攻全球企业疯ChatGPT的浪潮,Nvidia还锁定了那一群没有足够资源从头训练,但又想要打造专属客制化模型的企业,推出了一套AI超级电脑软体服务AI Foundations,提供预训练的GPT-3模型,让租用企业不用重新训练,而是进行微调优化就可以打造出使用,可以让企业用自己的资料,快速训练出专属的生成式模型,如此一来,不只可以大幅降低所需的运算量,训练用资料集也不用准备到3,000亿个Token之多,更能大幅缩短训练时间。这正是Nvidia用来瞄准企业自建专属生成式AI模型的杀手级服务,也能发挥按月租用模式的特性,用更低成本来打造出企业专属的GPT-3模型。
3种生成式模型服务,瞄准文字、影音和药物开发3大类需求
在这套AI Foundations服务中,提供了三种生成式模型,包括了文字NLP生成模型服务NeMo,图像生成模型服务Picasso,以及可以生成药物分子结构的药物生成模型BioNeMo服务。
NeMo就是可以用来训练出专属GPT-3的模型服务,类似微软Auzre的OpenAI API服务,可以让企业训练自己专属的GPT-3模型。
目前NeMo可以提供80亿参数、430亿参数和5,300亿参数三种GPT-3预训练模型,企业不用从头开始训练,而是可以直接使用这些预训练模型来进行微(finetune)就可以客制化。NeMo还提供了一个Inform模型服务,内建向量资料库,可供企业上传自家企业资料转换成嵌入向量储存到Inform模型服务上,来限制客制化GPT-3模型推论的输出,尽量局限在企业提供的资料范围内。
不只是预训练模型,NeMo还提供了两种微调功能,一种是P-Tuning提示微调功能,透过模型训练来优化提示问题,改用一个提示工程的嵌入向量(Prompt Vector)来取代提示问题,来提高提示工程的效果,提高GPT-3的准确度,另外,NeMo也支援真人回馈的强化学习优化提示工程做法,透过真人标记来设计奖励模型,让模型回答出更接近企业想要的答案。这个强化学习做法,也是借镜了OpenAI用真人强化学习来打造出ChatGPT效果的做法。
如同Azure OpenAI的GPT模型服务的推论内容过滤机制,Nvidia也在Nemo服务设计了内容护栏服务(Guardrail Service),企业可以监控每一次模型推论的输出内容,检查不适当的内容,也能设定偏差阀值或是指定领域来控管内容,避免模型意外输出了不适合提供的内容。Picasso则是视觉的大型语言模型服务,可以透过简单的文字或影像提示,来产生自订的影像内容,还能生成影片,甚至是用於生成3D素材。而BioNeMo服务则可设计用来探索疾病成因的生物学小分子、蛋白质或抗体新分子结构,也能用来作为分子相互作用的最後筛选参考之用。
Nvidia在AI Foundations服务中,提供了文字NLP生成模型服务NeMo,可以提供80亿参数、430亿参数和5,300亿参数三种GPT-3预训练模型,企业不用从头开始训练,而是可以直接使用这些预训练模型来进行微调。图片来源/Nvidia
DGX Cloud就是云端AI工厂
Nvidia不单是出租超级电脑硬体,还将原本搭配DGX超级电脑的软体产品,不论是Base Command管理软体,或是可用於开发和部署AI应用的Ai Enterprise软体,转为变成在云端提供的托管服务,而且可以支援混合云架构,企业也可以和本地端DGX超级电脑混用。
黄仁勳如此形容这个超级电脑云服务的特性,DGX Cloud就像是一间在云端的AI工厂一样。 而AI Foundations服务就像是工厂中的铸造厂,可以快速铸造出一个又一个客制化的专属生成式模型,这正是Nvidia抢攻庞大ChatGPT浪潮下的AI新战略。