SERVICE PHONE

363050.com
kaiyuan 开元棋牌
你的位置: 首页 > 开元棋牌
开元棋牌官网 - 注册送彩金88元正版棋牌娱乐平台【立即下载】MIT发布自适应语言模型!新任务自生成远超「GPT-41合成训练数据」

发布时间:2025-07-10 13:28:56  点击量:

  开元棋牌,开元棋牌官网,开元棋牌下载,开元娱乐,棋牌游戏平台,棋牌真钱游戏,注册送彩金棋牌,棋牌游戏,棋牌平台

开元棋牌官网 - 注册送彩金88元正版棋牌娱乐平台【立即下载】MIT发布自适应语言模型!新任务自生成远超「GPT-41合成训练数据」

  【新智元导读】自适应语言模型框架SEAL,让大模型通过生成自己的微调数据和更新指令来适应新任务。SEAL在少样本学习和知识整合任务上表现优异,显著提升了模型的适应性和性能,为大模型的自主学习和优化提供了新的思路。

  经过海量文本预训练后的大模型,已经能够很好地理解语言,并根据要求来生成文本。

  不过,在部署大模型应用于特定任务、整合新信息或学习新的推理技能时,仍然需要人工标注数据对模型权重进行微调。

  大模型是否可以通过「自己生成训练数据和学习方法」来实现对新任务的自适应?

  麻省理工学院的研究人员提出了一个全新的自适应语言模型(Self-Adapting LLMs,简称SEAL)的框架,可以让大模型通过生成自己的微调数据和更新指令来实现自适应。

  与以往依赖独立适应模块或辅助网络的方法不同,SEAL直接利用模型自身的生成能力来参数化和控制其自我适应过程。

  当模型接收到新的输入时,会生成一个「自编辑」(self-edit)——即自然语言指令,用于指定数据和优化超参数,以更新模型的权重。

  通过有监督微调(SFT),自编辑能够实现持久的权重更新,从而实现长期的适应性。

  为了训练模型生成有效的自编辑,研究人员采用强化学习循环,以「更新后模型在下游任务中的表现」作为奖励信号。

  在尝试「将新的事实性知识整合到LLM」的实验上,研究人员使用SEAL模型生成的合成数据进行微调。

  相比与直接在原始文本上微调不同,经过强化学习训练后,使用SEAL生成的合成数据进行微调,将SQuAD无上下文版本的问题回答准确率从33.5%提高到47.0%,甚至超过了GPT-4.1生成的合成数据。

  研究人员还在ARC-AGI基准测试的简化子集上对SEAL进行了少样本学习评估,模型需要利用一组工具自主选择合成数据增强和优化超参数(例如学习率、训练周期、对特定token类型的损失计算)。

  实验表明,使用SEAL自动选择和配置这些工具,比标准的上下文学习(ICL)和没有强化学习训练的自编辑表现更好。

  假设语言模型的参数为θ,C是与任务相关的上下文信息,τ是用于评估模型适应性的下游任务,SEAL会针对每个任务实例(C, τ)进行操作。

  在知识整合任务中,C是需要整合到模型内部知识中的段落,τ是关于该段落的问题和答案;

  给定上下文C后,模型会生成一个自编辑(SE),通过有监督微调的方式来更新自己的参数。

  研究人员使用强化学习来优化自编辑生成的过程:模型生成SE作为动作,根据生成SE后模型在τ上的表现获得奖励,并根据奖励更新策略,以最大化预期奖励。

  由于模型参数会不断更新,之前版本模型收集的(状态,动作,奖励)三元组可能不再适用于当前模型。

  因此,研究人员采用「在线策略」方法,即从当前模型中采样自编辑,并基于当前模型计算奖励。

  相比其他策略方法,ReSTEM采用的「拒绝采样+有监督微调」,可以让训练过程更稳定。

  ReSTEM的过程为:首先从当前模型策略中采样一些候选输出(即自编辑),然后只对那些获得正奖励的样本进行监督微调,以此来强化模型的策略。

  由于大多数ARC任务对于未经过ARC预训练的模型来说难度较大,研究人员从ARC训练集中筛选出11个任务,从评估集中筛选出8个任务,确保这些任务在最优TTT(测试时训练,test-time training)配置下可以被基础的Llama-3.2-1B-Instruct模型解决。

  在训练过程中,研究人员使用ReSTEM方法,通过为每个训练任务采样15个自编辑来训练模型。

  每个自编辑分别应用于生成15个更新后的模型,然后在对应的测试样本上进行评估,只保留那些「经过适应后能够为测试输入生成正确输出」的模型。

  评估指标为成功率:为每个保留的评估任务生成5个自编辑并评估模型,然后统计能够产生正确输出的自编辑的百分比,可以反映出所学自编辑生成策略的质量。

  对比基线方法包括上下文学习(ICL)、TTT+自编辑(无强化学习)和Oracle TTT(性能上限)。

  与基线方法相比,SEAL显著提高了适应成功率(72.5%),而未经强化学习训练的基础模型的自编辑成功率仅为20%,不进行任何适应的成功率为0%

  研究人员使用Qwen2.5-7B模型,从SQuAD(斯坦福问答数据集)的段落中整合新的事实内容。

  对比基线包括基础模型(直接在问答任务上评估,Base Model)、仅在段落上微调模型(Train on Passage)、在段落和自动生成的推论上训练模型(Train on Passage + Synthetic)、在段落和通过OpenAI API从GPT-4.1收集的模型生成推论上训练。

  在单段落设置下,仅在段落上微调的模型相比基础模型几乎没有提升(33.5% vs. 32.7%),表明仅使用原始数据是不够的。

  使用GPT-4.1生成的推论可以将准确率提升到46.3%,比仅使用段落的基线个百分点。

  使用Qwen2.5-7B模型生成的合成数据可以达到39.7%,提高了6.2个百分点。

  经过强化学习后,SEAL进一步将准确率提升到47.0%,尽管模型规模较小,但表现优于使用GPT-4.1生成的合成数据。

  在持续预训练(CPT)设置下,模型从200个段落中整合信息,并在所有974个相关问题上进行评估。研究人员为每个段落采样5个自编辑生成内容,并将这些合成数据用于持续预训练。

  虽然绝对性能低于单段落设置,但相对提升效果保持一致,这表明SEAL发现的编辑策略不仅适用于单个段落的合成数据生成,还能推广到更广泛的场景。

  仅需两次迭代,SEAL就超过了使用GPT-4.1数据的效果,后续迭代的提升效果逐渐减弱,表明策略迅速收敛到一种能够「将段落提炼为易于学习的基本事实」的编辑风格。

  从例子中,可以看到强化学习可以促使生成更详细的自编辑内容,而这些更详细的编辑又反过来提升了整体性能。

  06月30日,山西古建筑100问——一座关帝庙为什么是“万里茶道”的重要见证?,闲来斗地主app,伟德官网入口,九卅娱乐10年信誉登陆,亚盈体育app下载入口

  06月30日,【东西问】郭京宁:从周口店遗址可窥探人类起源的哪些秘密?,zoty中欧体育,皇冠直营现金网官方网,澳门棋牌游戏大厅,沙巴体育188

  06月30日,多国和国际组织重申恪守一个中国原则 外交部:正义之声、和平之声,千亿可靠吗,九游的网址是多少,正规的买球app排行十佳平台,澳门金沙官方网址多少

  06月30日河南扶沟:蔬菜大棚除雪忙龙八娱乐app缅华纳国际真人娱乐yabo娱乐官网牛牛抢庄什么意思

  06月30日以历史主动精神推进中国式现代化(新知新觉)伟德竞彩官网宝博官网登录ku游app银河国际代理平台首页

  06月30日国产“三蹦子”在国外火了,背后有哪些启示?澳洲杯斗牛游戏哪个好王者炸金花真人亿博电子网投……

  06月30日,宁夏一企业发生一起爆燃事故:2人受轻伤 火情已解除,亚美体育官网app,皇冠官网app下载安装,ag手机版下载,玄机彩图

  06月30日,陈茂波:香港经济保持增长势头 资产市场气氛改善,天博下载app,马经王牌料(荐),足球世界杯2019赛程,彩6安app

  06月30日房地产税收新政密集落地 居民购房信心进一步提振体育平台注册送礼金2022买球网站两个平台对打让另一个平台输乐鱼买球网址

  06月30日,“中法文明交流互鉴:回顾与展望”学术研讨会在巴黎举行,365bet安卓手机版,k66凯时官网,看四张牌抢庄斗牛有什么技巧,威尼斯人网页版下载

  06月30日,消防员胡远祥:3000余次救援中书写“火”热青春,bet8游戏,澳门新葡萄在线,开元棋牌线路检测,bibo必博体育网

  06月30日,中国“治沙劳模”殷玉珍:在沙漠的39个春天,BET九州体育,永利电子游戏网站,银河电子公司,沙巴体育官网是多少

  06月30日外媒:孟加拉国总统宣布解散国民议会AG线xbet万博手机版官方登录bet9会员登录通道

  06月30日东西问丨汉学家马克林:为什么说新疆现实与所谓“种族灭绝”的恶意指控恰恰相反?ag电游金狮贵宾会登录中心下载万博maxapp下载9339体育

  06月30日桂林迎来2024年第一场雪 瑞雪漫天飞舞火狐体育在线下载凤凰彩票体育外围玩捕鱼怎么赚现金内部版输尽光

  最听劝老板靠刷评论区救活伞厂,向佐穿女装带货首场卖出5千万把岁月过成书的模样 “年货”日历书焕新升级21点棋牌游戏评测网威尼斯澳门网站皇冠手机登录地址官网

  潘展乐告状 汪顺告白,深蓝G318上市发布会《平“语”近人——习喜欢的典故》(国际版)在法国播出足球如何买外围澳门威尼斯人充值网站极跃体育官网网址kok官方下载

  《九龙城寨之围城》豆瓣开分7.5,外媒指控幻兽帕鲁虐待动物习言道|习这样谈青年担当天天斗牛皇冠体育在线MG真人电竞网上ag真人官方app

  披荆斩棘的大小姐,国漫女配颜值比拼大赛(新春走基层)千年古城沿河老街“年味浓” 游客感受“烟雨江南”沙巴体育手机登录沙巴体育体育平台2018亚冠直播yobo体育官网

  特朗普提名戴维·珀杜任驻华大使,拉夏贝尔总部基地9.5亿元起拍财政部:2023年全国新增的减税降费约1.57万亿元抢庄牛牛支付宝提款必赢网址地址现金电子注册平台合乐HL8新版

  TTG 3-0 零封狼队,红旗车队将送神十九航天员出征海内外嘉宾相聚山东潍坊 探索文化交流新局面bsports登录入口app澳门大金沙app纬来体育备用网址九游会网址平台

  考研上岸,海贼王1117话 阿金登场悉尼唐人街升级 华人重开中餐厅“延续传统”必博体育下载中超足球官方网站pg免费游戏试玩网页版亚娱怎么注册

  740支队伍参赛 “古剑山”第一届全国大学生网络攻防大赛落幕香港美协举行第三届主席团及理事就职典礼

地址:开元棋牌永久网址【363050.com】  电话:363050.com 手机:363050.com
Copyright © 2012-2025 开元棋牌官网 版权所有 非商用版本 ICP备案编: