当前位置: 主页 > 新闻资讯 >

月球的黑暗面“训练”了最强的特工,并赢得了“最后的人类考试”

发布者:365bet体育注册
来源:未知 日期:2025-06-23 12:42 浏览()
昨天,Moonzhi Dark Side发表了一个博客,讲述了一个名为Kimi-Osearcher的自主代理。该代理在多个搜索和推论中脱颖而出,每个任务平均执行23个推理步骤,访问200多个URL。它基于Kimi K系列模型的内部版本,并通过学习端到端代理的强化而完全训练。它也是基于中国自我开发模式的少数代理商之一。 github链接:https://moonshotai.github.io/kimi-researcher/in人类的最终考试,Kimi-Osearcher获得了26.9%的传球@1得分,确定了Cassock的最后一级,并且Pass@4精度率达到40.17%。从最初的8.6%的HLE得分开始,KIM研究人员几乎完全基于结束 - 末端的增强学习训练,以提高其分数为26.9%,显示出强大的潜力,可以在改善AEND -END -END -END -END -END -END -END -END -END -END -ENGENT RINGNATENS INTRACENTS INTEMATENT中提高。 Kimi-Osearcher也是在现实世界的复杂且极具挑战性的参考点上出色。借助Xbench,一个新的动态和专业对齐套件将AI能力与实际生产力相结合,Kimi-Exharder使用Xbench-Deepsearch subtarte(平均4个执行)和1个平均通行证 @1,使用搜索工具(例如O3)将模型超过了模型。 Kimi-Osearcher在参考测试中取得了出色的成果,例如多个圆形搜索推理(Marcos,Seal-0等),并搜索事实信息(例如SimpleQA)。请举个例子。我们想找到外国动画电影,但我们记得情节。我想找到一部外国动画电影,讲述一位致力于强大的魔术师的公主。我记得我被锁在塔里。她潜入城市,看到人们缝制了类似的东西。简而言之,有一天,有些王子在世界各地带来了宝贵的礼物。她给其中一个珠宝作为礼物。我发现她与当地人进行了激烈的战斗以获得它。她责备因为他被偷走了圣洁的东西,所以他成为小偷。魔术师然后说服国王说他在说谎,告诉他他是由某种邪恶精神所有的,并承诺“净化她”以换取与她结婚的换取。然后,魔术师使用魔术将她变成一个成年女性并带走她。他把她锁在一个地牢中,但她有一个戒指,让她背诵三个愿望。由于魔术,他失去了逃脱的意愿,并浪费了前两个愿望。衣服,床铺等...然后它似乎逃离了……用手触摸了魔术师...后来他找到了一块可以产生水的石头……我记得有人变成了青蛙...整部电影都在一个世界末日的环境中发生,这是数百年的底部,数百年,数百年,在古代魔法文明的崩溃之后。如果每个人都知道这是什么样的电影,那就知道。我一直在寻找这部电影。 Kimi-Esearcher基于规格寻求IED散布信息,并最终将电影识别为“ Alet公主”,发现了电影与绘图一一的描述之间的对应关系。此外,您还可以进行学术研究,法律和政策分析,临床证据审查,公司财务报告的分析等。您和研究人员开始逐步向用户介绍,这允许对Kimi内的任何主题进行详细且全面的调查。还计划开放月球的黑暗面,以开放基本的训练模型及其强化学习模型,在该模型中,您和研究人员在未来几个月内信任。强化学习DAND端到端的代理Kimi-Osearcher是一种自治代理,也是一种思想模型,旨在通过多个步骤计划,推理和使用工具来解决复杂的问题。使用三个主要工具。内部搜索工具并行实时。用于交互式Web任务的基于文本的浏览器工具。一个自动化的编码工具执行代码。代理商的传统发展有几个重要的局限性。基于工作的系统:多个代理工作流程可用于提供特定的分析。阿西格(Asigne)的角色朝骑士界的角色,并根据通知使用工作流程对其进行调整。它是有效的,但基于特定的语言模型版本,该版本需要在模型或环境变化时经常进行手动更新,限制系统可伸缩性和灵活性。模仿学习(SFT)通过进行精细的调整监控:通过模仿学习,该模型与人类的演示结合了很好的结合,但是数据注释具有挑战性,尤其是在具有长期动态环境的代理商任务中。此外,SFT数据集通常与特定工具的版本强烈耦合,并且随着工具的发展,它们的概括降低。末端-To -end代理增强学习(RL代理)被训练为一种可以解决问题的独特模型。考虑到咨询,E代理人探索许多可能的策略,通过正确的答案进行学习回报,并总结所有决策的经验。与经过精心监控的调整(SFT)不同,末端 - 端方法自然地适应了当前基于策略的推理过程对工具和环境的变化。它也与模块化方法不同,该方法通过在模型中整合计划,识别,工具使用和其他特征而无需手动编写规则或工作流模板来整合统一学习。先前的研究,例如Openai的深入研究,也证明了这种方法的强烈表现,但也提出了新的挑战。动态环境:即使您面对同样的问题,环境的结果也会随着时间的流逝而改变,并且代理必须能够适应不断变化的条件。目的是实现稳固的概括函数以改变分布。长距离任务:基米:研究人员可以执行UTE使用上下文窗口,可以触及数十万个令牌。这对模型的内存和延长上下文处理功能施加了巨大要求。数据短缺:高质量的加强数据集的问题和反应的代理人很少。研究人员解决了这个问题,自动集成了培训数据,并在没有手动输入的情况下实现了大规模学习。执行效率:多轮推理和经常工具的调用会导致效率低下的培训和缺乏GPU资源。优化部署效率是实现可扩展和实用代理的强化学习的关键。 Kimi-Osearcher研究方法通过端到端的强化学习进行培训。研究人员观察到代理在任务多个领域的表现持续改善。图2-a显示了强化期间的木木训练训练者的一般精度趋势arning。图2-B显示了几个内部数据集中模型的性能。培训数据采用了两种补充策略来建立培训语料库,以解决缺乏高质量代理数据集的问题。首先,我们设计了一套具有挑战性的以工具为中心的任务,旨在促进代理商对工具使用的详细学习。这些任务的指示是故意构建的,因为它们需要调用某些工具来解决它们。因此,简单的策略尚未完成以完成任务或效率低下。通过将工具的依赖性集成到任务设计中,代理不仅要学习何时调用工具,还学习了如何在现实世界的复杂环境中有效地使用多个工具。 (图3显示了使用这些训练数据的模型调用工具的频率)。然后,我们计划并将工具的推理和能力与许多任务集中在旨在改善中心认知AB的推理上代理商的权限。本节分为两类:数学和代码推理:任务重点介绍逻辑推断,算法问题和序列计算。 Kimi研究人员不仅基于解决问题的思维链,而且还结合了一组解决复杂问题的工具。高分辨率搜索:这种类型的任务要求代理在上下文限制下执行多个搜索回合,信息集成和推断,并最终获得有效的答案。案例研究表明,这些困难的搜索任务推动了模型,更深入的吸引力,并且更多地表明,它会产生强大而改进的工具推理策略。为了构建这套多样的大规模迹象,研究人员开发了一个完全自动化的生成和验证过程,可以通过几乎手动干预生成多对问题和答案,同时保证T的多样性和精度他的数据。对于复合任务,“精确的标准答案(地球,GT)”很重要,因此我们引入了强大的GT提取方法,以确保所有问题都配备了可靠的答案。此外,我们设计了一个严格的过滤过程,以消除歧义性,复杂性或成对的非valid问题和答案。该模型主要有助于提高训练过程的稳定性丢弃一些负面样本,以使训练期间的熵崩溃的风险,并且该模型使用较长的训练周期来不断提高性能。根据合法轨迹,根据模型输出和标准响应水平评估局限性。观察代理的环境可以奖励更有效的研究任务,而无需更有效的内存管理机制,这表明,实验表明,在上下文管理机制中引入的模型的迭代次数平均增加了30%,从而获得了更多在效率和稳定性方面,形成并应对增加大规模学习的挑战。部署系统:实现具有可扩展性和健身房界面的完全异步部署系统。根据服务器端体系结构,系统可以有效地协调轨迹,环境交互和代理并行奖励的生成。与同步系统相比,该设计通过消除资源不活动时间可显着提高运营效率。转弯级别的部分令人沮丧的人:代理RL培训允许从一开始就完成大多数任务,但是某些任务仍然需要许多迭代。为了解决这个长期的问题,研究人员设计了一种地方一级的再生机制。具体而言,超过时间预算的任务存储在播放缓冲区中,其余的在随后的迭代中继续使用更新的型号权重。优化算法CA机制n实现了显着的部署加速度(至少高1.5倍)。强大的沙盒环境:研究人员建立了一个统一的沙盒体系结构,可以消除容器之间的通信超负荷,同时维护任务。基于Kubernetes的混合云体系结构提供了零不活动的时间编程和动态资源的分配。代理通过MCP(模型上下文协议)与工具通信,并支持会话和与状态断开连接的功能。 Architecture接纳了多元通讯的实现,确保了对生产环境中的失败和高可用性的容忍度。根据代理商在末尾的末端增强学习过程中的出现,研究人员观察到,基米的研究人员出现在值得关注的几种新能力中。如果多个来源信息不一致,您的研究人员可以通过重复纠正Shodo来消除冲突这些和自我纠正机制以及逐渐斜及理性的结论。它显示出谨慎而严格的行为模式。即使他们面临明显简单的问题,KIM研究人员也会在响应之前积极进行其他搜索,反映出高度的可靠性和信息安全意识,并进行跨访问信息。请参阅原始文本以获取更详细的内容。
分享到