【资料图】
全参数微调的显存使用量和推理一样多,大模型不再只是大型科技公司的玩具了。
在大模型方向上,科技巨头在训更大的模型,学界则在想办法搞优化。最近,优化算力的方法又上升到了新的高度。 大型语言模型(LLM)彻底改变了自然语言处理(NLP)领域,展示了涌现、顿悟等非凡能力。然而,若想构建出具备一定通用能力的模型,就需要数十亿参数,这大幅提高了 NLP 研究的门槛。在 LLM 模型调优过程中通常又需要昂贵的 GPU 资源,例如 8×80GB 的 GPU 设备,这使得小型实验室和公司很难参与这一领域的研究。 最近,人们正在研究参数高效的微调技术(PEFT),例如 LoRA 和 Prefix-tuning,为利用有限资源对 LLM 进行调优提供了解决方案。然而,这些方法并没有为全参数微调提供实用的解决方案,而全参数微调已被公认为是比参数高效微调更强大的方法。 在上周复旦大学邱锡鹏团队提交的论文《Full Parameter Fine-tuning for Large Language Models with Limited Resources》中,研究人员提出了一种新的优化器 LOw-Memory Optimization(LOMO)。 通过将 LOMO 与现有的内存节省技术集成,与标准方法(DeepSpeed 解决方案)相比,新方法将内存使用量减少到了之前的 %。因此,新方法能够在一台具有 8×RTX 3090 的机器上对 65B 模型进行全参数微调,每个 RTX 3090 具有 24GB 内存。 在该工作中,作者分析了 LLM 中内存使用的四个方面:激活、优化器状态、梯度张量和参数,并对训练过程进行了三方面的优化: 从算法的角度重新思考了优化器的功能,发现 SGD 在微调 LLM 完整参数方面是一种很好的替代品。这使得作者可以删除优化器状态的整个部分,因为 SGD 不存储任何中间状态。 新提出的优化器 LOMO 将梯度张量的内存使用量减少到 O (1),相当于最大梯度张量的内存使用量。 为了使用 LOMO 稳定混合精度训练,作者集成了梯度归一化、损失缩放,并在训练期间将某些计算转换为全精度。 新技术让内存的使用等于参数使用加上激活和最大梯度张量。全参数微调的内存使用被推向了极致,其仅等同于推理的使用。这是因为 forward+backward 过程的内存占用应该不会比单独的 forward 过程少。值得注意的是,在使用 LOMO 节省内存时,新方法确保了微调过程不受影响,因为参数更新过程仍然等同于 SGD。 该研究评估了 LOMO 的内存和吞吐量性能,表明借助 LOMO,研究者在 8 个 RTX 3090 GPU 上就可以训练 65B 参数的模型。此外,为了验证 LOMO 在下游任务上的性能,他们应用 LOMO 来调优 SuperGLUE 数据集集合上 LLM 的全部参数。结果表明了 LOMO 对具有数十亿参数的 LLM 进行优化的有效性。 在方法部分,本文详细介绍了 LOMO(LOW-MEMORY OPTIMIZATION)。一般而言,梯度张量表示一个参数张量的梯度,其大小与参数相同,这样一来内存开销较大。而现有的深度学习框架如 PyTorch 会为所有参数存储梯度张量。现阶段,存储梯度张量有两方面原因:计算优化器状态以及归一化梯度。 由于该研究采用 SGD 作为优化器,因此没有依赖于梯度的优化器状态,并且他们有一些梯度归一化的替代方案。 他们提出了 LOMO,如算法 1 所示,LOMO 将梯度计算与参数更新融合在一个步骤中,从而避免了梯度张量的存储。 下图为 SGD 和 LOMO 在反向传播和参数更新阶段的比较。Pi 为模型参数,Gi 为 Pi 对应的梯度。LOMO 将梯度计算和参数更新融合到一个步骤中,使梯度张量最小。 具体而言,该研究将 vanilla 梯度下降表示为 ,这是一个两步过程,首先是计算梯度,然后更新参数。 融合版本为 。 该研究的关键思想是在计算梯度时立即更新参数,这样就不会在内存中存储梯度张量。这一步可以通过在向反向传播中注入 hook 函数来实现。PyTorch 提供了注入 hook 函数的相关 API,但却无法用当前的 API 实现精确的即时更新。相反,该研究在内存中最多存储一个参数的梯度,并随着反向传播逐一更新每个参数。本文方法减少了梯度的内存使用,从存储所有参数的梯度到只存储一个参数的梯度。 大部分 LOMO 内存使用与参数高效微调方法的内存使用一致,这表明 LOMO 与这些方法相结合只会导致梯度占用内存的轻微增加。这样就可以为 PEFT 方法调优更多的参数。 在实验部分,研究者从三个方面评估了他们提出的方法,即内存使用情况、吞吐量和下游性能。如果不作进一步解释,所有的实验都是用 7B 到 65B 的 LLaMA 模型进行的。 研究者首先剖析了,在不同设置下,训练期间的模型状态和激活的内存使用情况。如表 1 所示,与 AdamW 优化器相比,LOMO 优化器的使用导致内存占用大幅减少,从 减少到 ;与 SGD 相比,在训练 LLaMA-7B 模型时,内存占用从 减少到 。内存用量的大幅减少主要归因于梯度和优化器状态的内存需求减少。因此,在训练过程中,内存大部分被参数占据,与推理过程中的内存用量相当。 如图 2 所示,如果采用 AdamW 优化器进行 LLaMA-7B 训练,相当大比例的内存(%)被分配给优化器状态。用 SGD 优化器替换 AdamW 优化器可以有效减少优化器状态占用内存的百分比,从而减轻 GPU 内存使用(从 减少到 )。如果使用 LOMO,参数更新和 backward 会被融合到一个步骤中,进一步消除优化器状态对内存的需求。 研究者比较了 LOMO、AdamW 和 SGD 的吞吐性能。实验是在一台配备了 8 个 RTX 3090 GPU 的服务器上进行的。 对于 7B 的模型,LOMO 的吞吐量呈现显著优势,超过 AdamW 和 SGD 约 11 倍。这一重大改进可归功于 LOMO 在单个 GPU 上训练 7B 模型的能力,这减少了 GPU 间的通信开销。与 AdamW 相比,SGD 的吞吐量略高,这可归因于 SGD 排除了动量和方差的计算。 至于 13B 模型,由于内存的限制,它无法在现有的 8 个 RTX 3090 GPU 上用 AdamW 训练。在这种情况下,模型的并行性对 LOMO 来说是必要的,LOMO 在吞吐量方面仍然优于 SGD。这一优势归功于 LOMO 的内存高效特性,以及只需要两个 GPU 以相同的设置来训练模型,从而降低了通信成本,提高了吞吐量。此外,在训练 30B 模型时,SGD 在 8 个 RTX 3090 GPU 上遇到了内存不足(OOM)的问题,而 LOMO 在只有 4 个 GPU 的情况下表现良好。 最后,研究者使用 8 个 RTX 3090 GPU 成功训练了 65B 模型,实现了 TGS 的吞吐量。利用这样的服务器配置和 LOMO,模型在 1000 个样本上的训练过程(每个样本包含 512 个 token)大约需要 小时。 为了评估 LOMO 在微调大型语言模型方面的有效性,研究者进行了一系列广泛的实验。他们将 LOMO 与其他两种方法进行比较,一种是不需要微调的 Zero-shot,另一种是目前很流行的参数高效微调技术 LoRA。 LOMO 和 LoRA 在本质上是相互独立的。为了验证这一说法,研究者使用 LLaMA-13B 在 BoolQ 和 MultiRC 数据集上进行了实验。结果如图 3 所示。 他们发现,LOMO 在持续增强 LoRA 的性能,不管 LoRA 取得的结果有多高。这表明,LOMO 和 LoRA 采用的不同微调方法是互补的。具体来说,LOMO 专注于微调预训练模型的权重,而 LoRA 则调整其他模块。因此,LOMO 不会影响到 LoRA 的性能;相反,它有助于对下游任务进行更好的模型调优。 ©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@
推荐内容
-
650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了
-
湿气重的症状有哪些_社会文明行为有哪些|环球即时
-
保险销售话术模板大全图片_保险销售话术模板大全
-
临沂教育局举报热线(临沂教育局举报电话)
-
【天天新视野】selena gomez身价_selena gomez吸毒
-
热点!浙江发布今年首个山洪红色预警
-
iGame RTX 4090 LAB 显卡超频至 3.93GHz 创纪录
-
微资讯!microsoft office 2013激活密钥_microsoft office 2007密钥
-
金融基础知识考试题库及答案(金融基础)_最新
-
长沙太平洋影城怎么样好玩吗|每日关注
-
全球即时看!20230607学会期刊导读
-
天天快看:若以7000万欧加盟纽卡,托纳利将超越卡卡成米兰队史最贵出售球员
-
53雅思:三大方向定义靠谱的雅思提升方式
-
国足老队长郑智:别去找下一个郑智
-
全球消息!贵州省黔东南州人大常委会党组成员、副主任刘建新接受纪律审查和监察调查|世界即时看
-
内蒙古新井煤矿事故失联者全部遇难
-
20cm跌停!昆仑万维被要求说明是否借热点操纵股价、配合实控人前妻减持
-
维也纳酒店引领时尚潮流,网红推崇的打卡新感受成为热门话题-即时
-
【全球独家】武威市启动“缤纷夏日 惠购武威”促消费系列活动
-
成都街头上演“粽”头戏!“婆婆经济”撑起大产业|当前头条
-
亳州市中小学家校社联谊为学生烹制端午文化餐
-
中金公司:股东海尔金盈减持约2806万股公司A股股份
-
农历7月初7 农历7月初7阳历是多少
-
新亚电子(605277)龙虎榜数据(06-21)|世界观点
-
古文字体有哪些_古文字体_世界百事通
-
天天观速讯丨苏州瀚海新材料有限公司官网_瀚海拍卖公司官网
-
宁夏建材股东户数减少212户,户均持股28.48万元
-
环球快播:饿了么打出王炸,六大方面重点扶持商家
-
五里亭茶叶市场党支部成立 以茶名片全力打造“世界茶港”
-
6月21日国内主要交易市场现货锌价汇总
-
法国名宿:金球奖将在梅西和姆巴佩之间产生,哈兰德是另外的热门-天天热消息
-
环球视点!神农架模式标本植物:图谱·题录
-
漫画|选择
-
【环球速看料】中国电建华东院中标华能2个海上风电项目!
-
绝经前的症状有哪些 绝经前的四症状很明显_绝经前的症状有哪些
-
新西兰DFS免税店_关于新西兰DFS免税店简介
-
马来西亚和国内的时差_马来西亚时差与中国差多少_世界短讯
-
亚太主要股市午间多数下跌
-
力拓(RIO):继续投资以增强美国铜供应|世界快播报
-
努力的成语接龙 努力的成语
-
provide是什么意思(pro vl)_环球实时
-
海报|世界难民日,不断攀升的数字令人痛心
-
4699元起!AYANEO 2S掌机发布 能玩大游戏。_天天滚动
-
实时:蓝色沸点眼镜系列_蓝色沸点太阳镜
-
世界百事通!香港威雅学校学费及简介
-
2023阜阳投资贸易洽谈会举行_今日热文
-
中央气象台:未来几天 华北黄淮局地或现40℃高温|环球观天下
-
中科海讯(300810)6月20日主力资金净买入2993.53万元|当前热讯
-
天天观点:楼诚weavi(楼诚什么意思)
-
每日热文:涨停雷达:通用设备个股异动 龙溪股份触及涨停
-
650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了
-
网友打听蔚来手机进度,李斌:测试中,表现不错|环球报资讯
-
美专家史文语中评:布林肯访华是稳定的开始
-
湿气重的症状有哪些_社会文明行为有哪些|环球即时
-
环球观察:国家卫健委:国家级烧伤重症专家赶赴银川,伤员均无生命危险
-
女人做微商励志的句子大全 环球动态
-
保险销售话术模板大全图片_保险销售话术模板大全
-
河北格力旗舰店618盛大开业 充分展现了渠道改革下的市场活力
-
实时焦点:公募REITs上市两周年:募集资金超900亿元,近三成跌破发行价
-
陕西省高陵县发布高温黄色预警_全球速讯
-
入户门改为向外开 福州这户人家被法院判令改回向内开门_环球快报
-
环球热推荐:不结婚怎么解决生理需求?知名女星公开坦言
-
违建被认定一年仍未拆除?福州仓山城管局:相关程序在履行中
-
周到晨报 | “端午”小长假期间,上海6条轨交线延时运营;露台花园DIY了一个昆虫屋,来看移步异景的露台版江南园林;端午节吃粽子,哪些人不能多吃?-世界热头条
-
临沂教育局举报热线(临沂教育局举报电话)
-
1-5月我国企业承接服务外包合同额8159亿元人民币
-
【天天新视野】selena gomez身价_selena gomez吸毒
-
世界头条:2023年“驻华使节艺术沙龙——香山仲夏夜”在香山公园举办
-
大学生不限次免费乘地铁!郑州人才主题公交地铁上线了→
-
热点!浙江发布今年首个山洪红色预警
-
全球微头条丨《第七史诗》萌新开局指南
-
端午节至,祖辈留下的老讲究,不要忘-当前观察
-
iGame RTX 4090 LAB 显卡超频至 3.93GHz 创纪录
-
荒野生存埃德斯塔福特
-
山东省纪委监委公开曝光4起典型问题!
-
微资讯!microsoft office 2013激活密钥_microsoft office 2007密钥
-
可持续发展环保主义英语作文_可持续发展与环境保护英语作文 微头条
-
信用卡欠40万告诉父母有影响吗_当前播报
-
ET5 Touring引人瞩目 可蔚来还是更需要一款“Model Y” 环球速讯
-
金融基础知识考试题库及答案(金融基础)_最新
-
长春动植物园如何变身成“东北迪士尼”?
-
长沙太平洋影城怎么样好玩吗|每日关注
-
【天天时快讯】广州华林国际怎么走
-
当前短讯!侠记:独行侠已和绿军讨论过签换得到格威
-
全球即时看!20230607学会期刊导读
-
教育部发文要求规范做好高校毕业生去向登记 天天新消息
-
新游《废土帝国:人类复兴》评测:文明7出了?!
-
心悦俱乐部地下城与勇士特权专区_xinyuejulebu
-
天天快看:若以7000万欧加盟纽卡,托纳利将超越卡卡成米兰队史最贵出售球员
-
消炎痛片_新癀片是消炎药吗 焦点速递
-
互联网看点:黑鲨电竞指套上架:还原真实的屏幕触感-最新快讯
-
渔家傲送张元唐省亲秦州抒情特点_渔家傲送张元康省亲秦州赏析
-
53雅思:三大方向定义靠谱的雅思提升方式
-
我的愿望或理想普通话三分钟范文_我的愿望或理想普通话三分钟|全球快报
-
每日快讯!乡村文旅模式创新者刘兵谈文旅产业赋能乡村振兴
-
国足老队长郑智:别去找下一个郑智
-
一人一档,闵行“一键通”为老人提供多元专属服务
-
晋城更好治疗妇科炎症的医院 妇科炎症甲硝唑吃几粒 焦点关注
-
全球消息!贵州省黔东南州人大常委会党组成员、副主任刘建新接受纪律审查和监察调查|世界即时看
-
国外电话怎么打出去 中国手机如何拨打国外电话 天天热推荐
-
全球速读:再见阿门-汤普森!火箭4号签目标布莱克,斯通心仪勇士目标莱夫利
-
世界微动态丨工地实习日志
-
内蒙古新井煤矿事故失联者全部遇难
-
当家球星遭挖角!AC米兰欧洲寻枪,500万欧元报价法甲希望之星|每日讯息
-
20cm跌停!昆仑万维被要求说明是否借热点操纵股价、配合实控人前妻减持
-
端午假期将至,郑州多家博物馆捧出假日文化大餐
-
苏州母子医院电话_苏州母子医院 全球聚看点
-
维也纳酒店引领时尚潮流,网红推崇的打卡新感受成为热门话题-即时
-
世界新消息丨乐鑫科技:董事徐欣辞职
-
世界快报:谁在导演这场“卷不动”的618
-
【全球独家】武威市启动“缤纷夏日 惠购武威”促消费系列活动
-
新加坡金管局白皮书:意向货币技术可用于跨境支付、预付费消费等|全球球精选
-
遭员工集体起诉,推特的混乱不止不休 今日讯
-
当前简讯:南京邮电大学:产教融合贯通培养集成电路人才
-
【全球新视野】特斯拉又一劲敌?美国造车新势力Fisker即将入华,首店落户上海
-
成都街头上演“粽”头戏!“婆婆经济”撑起大产业|当前头条
-
胜宏科技:“仿真人型机器人PCB”研发项目已完成 公司具有一定的技术储备
-
湖南发布今年首个暴雨红色预警
-
天天微速讯:北京市国资委系统通报4起违反中央八项规定精神典型问题和1起市管企业干部醉驾问题
-
亳州市中小学家校社联谊为学生烹制端午文化餐
-
学习贯彻全会精神丨泸州:坚定不移推进工业兴市制造强市
-
中金公司:股东海尔金盈减持约2806万股公司A股股份
-
中国传统文化“茶文化”_焦点简讯
-
环球时讯:女子因琐事将农药倒入父亲的止咳糖浆瓶内 涉故意杀人罪被公诉
-
城地香江董秘回复:
公司具备数据中心全产业链服务能力
-
新亚电子(605277)龙虎榜数据(06-21)|世界观点
-
农历7月初7 农历7月初7阳历是多少
-
《我们的荆轲》曹禺剧场上演 历史故事连接当下
-
税务登记证号是什么哪几位数_税务登记证号是什么_看点
-
古文字体有哪些_古文字体_世界百事通
-
天天快看:东鹏饮料(605499)6月21日主力资金净卖出314.56万元
-
禾迈股份董秘回复:
如果充电站建设了光伏电站,可以使用微逆产品;公司严格按照监管要求履行信息披露义务 天天速看
-
和美城乡 四大行动|丹寨县金泉街道开展和美城乡“四大行动“扛旗争星“表扬大会|环球聚焦
-
商丘工学院教育与现代艺术学院辅导员马月开展爱心陪餐活动 每日看点
-
天天观速讯丨苏州瀚海新材料有限公司官网_瀚海拍卖公司官网
-
【当前独家】这次,韦老师也生气了
-
热点!洞口县万名“爱心妈妈”呵护留守儿童
-
【报资讯】三大运营商公布5月运营数据,中国移动、中国电信稳步增长
-
环球快播:饿了么打出王炸,六大方面重点扶持商家
-
宁夏建材股东户数减少212户,户均持股28.48万元
-
nvidia控制面板怎么设置_按以下步骤可完成 速讯
-
世界快播:医药板块重点关注创新药和器械,估值接近10年来最低点!
-
就在今晚!义乌正式进入!
-
五里亭茶叶市场党支部成立 以茶名片全力打造“世界茶港”
-
6月21日国内主要交易市场现货锌价汇总
-
雷军参加武汉大学2023毕业典礼、称有句话让他受益终身
-
氤氲是什么意思解释和造句_氤氲是什么意思_环球速递
-
血液肿瘤领域靶向药创新推动疗法升级
-
跨端互联无感体验,ColorOS双5G通信共享实现多设备通信自由
-
环球视点!神农架模式标本植物:图谱·题录