最近ChatGPT的火爆,让所有人,包括我们这些外行都见识到了大模型的厉害。
于是,根据历来传统,想要自主可控的欲望越发的强烈。笔者在自己的老爷机器(i7 4790,32G RAM,gtx1080 8G)上尝试跑了一下GPT2的预训练模型(如果有人感兴趣,可以给大伙弄个简单的流程说明)。
效果嘛:
典型的人工智障。
来看看ChatGPT是咋说的:
为啥和ChatGPT差距这么大?
主要原因还是在模型规模上。
为啥不搞个更大的模型啊?
因为笔者不配。。。
我们知道,神经网络或者是深度神经网络的三大要素:模型、数据以及算力。
就GPT来说:
模型基本公开。 数据就是自然语言。麻烦主要在标注部分,但是一定能解决(毕竟笔者这样的廉价劳动力有的是)。 算力,也就是我们的炼丹炉,在大模型上来说就比较难搞了。我们来讨论一下。
目前chatgpt的GPT-3.5还没有具体的信息。所以我们还是以目前公开领域能看到的GPT-3为例。这玩意有1750亿的参数。这是个什么概念呢?
我们用有具体数据的开源模型来估计吧。一个60亿参数的GPT-J模型,其预训练参数的zip包大概60GB。一款3A大作也就这样了。1750亿,扩大了将近30倍!
有人可能会觉得:还不到2TB,现在硬盘也不贵,这有什么?
小伙汁,这就naive啦。这玩意做推理和训练的时候,是要载入内存哒。而且,这么大的模型,要在可接受的时间内计算出结果,用CPU也是不行哒,要用并行计算来加速。一般来说就是GPU了。
仍旧以GPT-J为估算基础,加载这个模型内存要40-50G以上,显存要在13G以上。使用rtx3090 tuning(注意,是tuning,还不是training),需要12个小时。之后的模型参数还会膨胀一些,大概要到80G。
那么GPT-3炼丹大概会是一个什么地狱场景,想必大家心里也应该有数了吧(据说需要几百块A100,训练时间以天计算)。更可怕的是GPT-3现在已经过时了。。。
chatgpt背后的模型据说比GPT-3还要大。这就是我之前文章中认为中小企业无法拥有自己的LLM的主要原因。
分析了一圈。一块A100,便宜的也要6万多。对于一个普通人来说,别说数百块,一块就破产。想要自己跑一个可用的GPT,基本是没什么希望的。
ChatGPT的所作所为大伙最近应该已经看了够多的了。作为一个普通人,要想不被AI卷死,就只能用大企业的服务,老老实实的交AI税。但是别无选择的服务和奴役又有什么区别?