您的位置:主页 > 公司动态 > 公司新闻 > 公司新闻

OpenAI自研芯片,有何怪异之处?-国际原油

克日,路透社报道称OpenAI正在思量自研芯片。凭证报道,自从去年最先,OpenAI已经最先在为人工智能模子训练芯片缺货(即Nvidia GPU供货主要)的问题最先思量对策,而现在正在起劲准备自研芯片以知足未来对于人工智能芯片的需求。事实上,不久之前OpenAI的CEO Sam Altman曾公然示意Nvidia GPU缺货对于OpenAI以及整小我私人工智能行业都存在着很大的影响。另外,从今年最先OpenAI最先招募硬件相关的人才,官方网站上有数个软硬件协同设计的职位在招聘,同时在今年九月OpenAI还招募了人工智能编译器领域的著名牛人Andrew Tulloch加入,这似乎也在印证OpenAI自研芯片方面的投入。OpenAI官方对此事拒绝揭晓谈论,然则若是这件事最后落地的话,OpenAI将会是继谷歌、亚马逊、微软、特斯拉等之后有一个加入自研芯片行列的硅谷科技巨头。

1、OpenAI为什么要自研芯片

如前所述,OpenAI自研芯片的主要动力是由于GPU缺货。更详细地说,是由于无论是购置Nvidia的GPU,照样使用基于GPU的云服务,价钱都太贵,尤其是思量到OpenAI未来模子训练需要的算力可能还会指数级提升。

OpenAI从数年前最先就结构天生式人工智能,而在去年的GPT-3以及去年下半年的ChatGPT宣布后,由于这些天生式大语言模子的能力在已往数年内获得了大幅提升而且到达了可以和人类实现有意义的对话的境界,OpenAI一举成为了人工智能领域的领头羊,而天生式人工智能也成为了预计未来几年内对于人类社会影响*的手艺。凭证路透社的报道,OpenAI去年录得收入2800万美元,而总体亏损为5.4亿美元;而OpenAI伟大的亏损背后,主要缘故原由就是由于算力开销。值得注重的是,5.4亿美元的损失照样在天生式人工智能火爆前夕的2022年;在未来算力开销可望会指数级提升,这主要由于:

大模子竞争更猛烈,模子进化速率变快,需要的算力快速提升:除了OpenAI之外,谷歌等科技巨头也在力推自己的大模子,这使得大模子的进化速率显著变快,未来预计一个季度到半年就要更新一代,而最尖端模子需要的算力估量每年都市上升一个数目级

大模子应用场景变得更广:现在,微软和谷歌已经在搜索和代码编写领域最先使用大模子,预计在未来会有更多的大模子应用场景,包罗自动义务处置、多模态问答等等,而这些会让差其余模子数目大大提升,同时也大大提升了模子部署需要的总算力。

凭证美国金融公司Bernstein的剖析,若是ChatGPT的接见量到达谷歌搜索十分之一的水平(而这也是OpenAI未来的主要目的之一),那么每年OpenAI的GPU开销将到达160亿美元。而这样的开销,可能是未来OpenAI进一步规模化的一个主要瓶颈。

那么,OpenAI若是要自研芯片,那么将能把成本节约若干呢?现在,一台使用八卡Nvidia H100 GPU的服务器采购成本约为30万美元,加上云服务商的溢价使用这台服务器三年的总成本为100万美元左右(这是AWS的官方报价,其他云服务商提供的价钱应该在统一数目级);若是OpenAI能用自研芯片把这样的八卡服务器的成本降低到10万美元以下,将会大大降低其成本。另一方面,若是自研芯片乐成的话,在大规模部署的情形下单张加速卡的成本控制在1万美元以下应该很有希望,也即八卡服务器的成本控制在10万美元之下并非遥不能及。

2、OpenAI自研芯片,有何怪异之处

现在,自研芯片的科技公司已经有不少,那么OpenAI若是自研芯片会和谷歌、亚马逊等科技公司的自研芯片有什么差异呢?

「水果大王」快速「坠落」

首先,OpenAI的自研芯片纯粹是为了自己的模子训练使用,这一点和谷歌、亚马逊等自研芯片而且目的放在云端服务器上供客户使用的商业模子纷歧样。对于谷歌、亚马逊等自研芯片供云服务客户使用的场所来说,由于用户使用模子的场景并不明确,使用的软件栈不确定、详细训练的模子也不确定,因此需要在芯片设计上知足兼容性的需求,而这样兼容性的思量往往会以牺牲每个训练义务的效率和性能为价值。相反,OpenAI自研芯片只是为了自己使用,而且训练的模子异常明确:就是以Transformer为基本组件的大语言模子,而且使用的软件栈也完全控制在自己手里,因此可以确保设计有异常高的针对性。

第二点差异在于OpenAI对于模子有异常深入的明白。OpenAI在天生模子领域是领军企业,现在GPT系列模子仍然是大语言天生式模子中性能*的模子,而且OpenAI在天生式模子领域有着多年积累,因此OpenAI对于目宿世成式模子的种种设计方案有着深入的明白,这意味着OpenAI有足够的能力和积累做芯片-模子协同设计,能够凭证芯片的特征去设计响应的模子,同时也可以凭证模子的需求去明确芯片的设计指标,包罗若何在盘算单元、存储和芯片间互联之中做*化的折衷等。最要害的是,OpenAI对于未来几年的天生式大模子的蹊径图有着行业中最明确的设计,这意味着纵然自研芯片需要数年的时间,也不用过于忧郁芯片真正量产后已经无法遇上模子更新的事态。从这个角度来说,OpenAI的自研芯片和谷歌以及亚马逊都有很纷歧样的地方,然则和特斯拉的Dojo系列自研模子训练芯片却有相似之处;而和特斯拉又纷歧样的是,OpenAI对于模子训练的需求显然会远高于特斯拉,而这样的自研芯片的主要水平对于OpenAI来说也会更高。

这些OpenAI的怪异之处,让它有时机能实现使用非通例专用设计完成的高性能芯片。最近,Nvidia在官方博客中对于其GPU的性能提升纪律做了剖析:Nvidia的GPU算力在不到十年提升了1000倍,凭证剖析在1000倍算力提升中,盘算精度的优化(纵然用16位甚至8位浮点数来取代原本的32位浮点数盘算)而且搭配专用的盘算模块实现了16倍的性能提升,而芯片架构领域和编译器的协同优化又提供了12.5倍的性能提升,而另一方面半导体工艺带来的性能提升仅仅只有两倍。由此可见,在高性能盘算芯片领域,算法和芯片架构协同设计(包罗模子算法和编译器算法)才是主要的性能提升动力(也即Huang‘s Law),而从这一角度来说,OpenAI确实处于一个异常有利的职位,依附着其对于算法的深刻明白,OpenAI可望可以充实行使Huang’s Law,从而在未来几年内实现高性能盘算芯片的设计。

3、OpenAI自研芯片的挑战

OpenAI自研芯片除了有自己的优势之外,固然也有挑战。

OpenAI自研芯片的目的明确,就是用于大模子的高算力芯片。高算力芯片的主要挑战就是其庞大度,从芯片设计角度,高性能盘算芯片中的盘算单元、存储接见以及芯片间的互联都是需要仔细思量。例如,为了能知足大模子的需求,芯片也许率会使用HBM内存;为了实现芯片的高能效比和规模化,预计会在先进工艺上搭配芯片粒等手艺实现高良率;大模子通常会使用漫衍式盘算,因此芯片间的互联就显得至关主要(Nvidia的NVLINK和InfiniBand手艺对于GPU来说异常主要,OpenAI也需要类似的手艺)。这些芯片设计组件每一个都需要有相当履历的团队来实现,而把这些组件集成在一起也需要异常优异的架构设计来确保整体性能。OpenAI若何在短时间内组建一个有履历的团队来做这些具有挑战性的设计将是一个主要的挑战。

除了芯片设计之外,若何确保软件和硬件协同事情,或者换句话说若何设计一个高性能的编译器以及相关软件生态是OpenAI的另一大挑战。现在,Nvidia GPU的一个主要优势就是由于其CUDA软件系统,经由十多年的积累后已经有很高的性能以及兼容性。OpenAI的自研芯片中,编译器系统也需要实现CUDA这样的高性能才气完全行使芯片的算力。与其他针对云服务的科技公司自研芯片差异,OpenAI的芯片主要是供自己使用,因此无需太忧郁生态和对于用户模子支持度的问题,然则在编译性能上也需要到达和Nvidia的CUDA靠近才行。事实上OpenAI在这个领域从早些时刻已经最先有投入;今年七月OpenAI宣布了自己的基于开源Triton语言的人工智能模子编译方案,可以把Python代码通过编译为使用开源Triton语言的中央代码(intermediate representation,IR),然后再使用Triton编译器和LLVM编译器编译到PTX代码,从而可以直接在支持PTX的GPU以及人工智能加速器上运行。从这个角度看,OpenAI对于编译器的投入或许就是其自研芯片的先声。

最后,芯片的详细生产也会是一个挑战。如前所述,OpenAI也许率会使用先进工艺节点和高级封装手艺来实现,因此若何确保生产的良率,以及更主要的是,若何在高级封装和先进工艺节点产能仍然有可能主要的几年内获得足够的产能以量产,也是一个需要解决的问题。

思量到这三个挑战,我们以为,OpenAI现在自研芯片的设计可能会是多步走。首先,在手艺团队和生产问题没有完全解决前,OpenAI可以选择和微软(其*股东,同时也有自研芯片设计Athena)以及Nvidia(或者AMD)互助,选择半定制化芯片,例如OpenAI提供芯片需要支持的一些指标,甚至提供一些IP,而可以和这些互助方一起把芯片设计和生产出来。而在手艺团队和生产问题解决后,OpenAI可以选择鼎力投入自研的全定制芯片,从而完成*的性能和可控性。