GPT-3.5(ChatGPT)训练和部署成本估算

GPT-3.5(ChatGPT)训练和部署成本估算 2023-09-18 443

因为ChatGPT（GPT-3.5）未正式公布参数量，暂时按照1750亿参数计算。后续其他模型公布参数量后，可按参数量线性比例估算相关数值。

以下数值仅为理论估算，可能和实际数值相差很大，敬请谅解。

一、GPT-3.5磁盘占用估算

不同模型之间，磁盘、参数量可以按线性关系粗略估算； yolov5x：参数量87.6M，磁盘占用166M 175B/87.6M = 1751024/87.6 = 2046 GPT-3.5磁盘占用估算：1662046/1024 = 332G 所以GPT-3.5模型大小约为332G。GPT-3.5参数量是YOLOV5X参数量的2046倍。

二、GPT-3.5用于推理时显存占用估算

显存占用估算方法参考：https://blog..net/weixin_49305813/article/details/119179849 显存占用=模型显存(参数)+batch_size×每个样本显存(输出和梯度动量) GPT-3显存占用：17510244 /1024 = 700G (参数为32float，占4个字节) 需要A100数量：700G/80G = 9块A100 所以，GPT-3.5仅做推理时，空转显存占用约700G，需要大约9块A100(80G)显卡。

考虑用户访问模型：国信证券测算称，训练阶段每个Token的训练成本约为6N（推理成本为2N）。根据Similarweb的数据，23年1月份当前ChatGPT日活约1300万人，每人平均1000字左右的问题，因此合计产生约130亿字（173.3亿个token）。假设24小时平均分配任务，需要的算力为 173.3亿21750亿/（51%24小时3600秒）=173000000002175000000000/24/3600/0.51/1000000000000000 =137 PetaFLOP/S 由于访问流量存在峰值，假定访问峰值是一天均值的5倍， NVIDIA 80GB A100 GPU理论算力是 0.312 PFLOPS。需要A100显卡数量 137*5/0.312 = 2195块所以，大约需要2195块A100可以满足日活约1300万人访问需求。

三、GPT-3.5训练使用的显卡数量估计

据OpenAI团队发表于2020年的论文《Language Models are Few-Shot Learners》，训练一次1746亿参数的 GPT-3模型需要的算力约为3640 PF-days。如果是 NVIDIA 80GB A100 GPU, 理论算力是 312 TFLOPS，Megatron 利用 tensor parallel 和 pipeline parallel 并行技术能达到 51.4% 的利用率，也即是每秒能完成 0.160 PFLOPS。一张A100卡需要跑3640/0.16 = 22750(天) 按照1个月的训练时间计算，需要A100卡数量估计 = 22750/30 = 758 (块) 据悉，训练Meta AI的OPT-175B使用了992张80GB的A100 GPU，每个GPU的算力达到了147 TFLOP/s。所以，综合以上信息估计完成一次训练，A100卡的用量需求大约为1000块。

四、租赁价格估计

显卡（NVIDIA 80GB A100 GPU）的租赁价格为 1.5 刀每小时综合上面的访问和训练用A100数量：2195+1000=3195；还需要考虑并行训练、测试等用卡量，总体按10000块A100估计。 10000块A100一天的租赁费用：10000 * 24 * 1.5 = 360000刀 = 36万刀注：以上未考虑英伟达对OpenAI的优惠价格。

五、其他机构预测（感觉比较离谱）

六、参考

以GPT-3 175B为例，说明PF-days和flops的等量关系； 3.64E+03 PF-days=3640 * 1000 * 1000* 100010001000243600 = 3.14E+23 次浮点运算

NVIDIA 80GB A100 GPU 理论算力参考：

Megatron 利用率参考： GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale

显卡租赁价格参考：

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate117/279036.html

上一篇：通过多线程提高代码的执行效率例子

下一篇：我的Python程序太慢了。如何加快速度？