克劳德(Claude)的团队揭示了:如何动员多个代

日期:2025-07-14 浏览:

如何使用多个代理方法构建详细的搜索?目前,克劳德(Claude)的团队与公众分享了最新的经验。本文提供了有关如何创建多个代理的有效研究系统的详细说明。这是一种架构,主要代理人生成和协调子代理以涵盖系统的体系结构,快速的工程和评估方法,并探讨复杂的并行咨询。 Claude数据显示了此功能在一系列行业和行业中使用的百分比。专业软件系统的开发为10%,是专业和技术内容的开发,开发发展和收入生成策略的增长代表8%,学术研究以及教育材料的发展帐户支持7%,研究和审查信息帐户支持研究和审查帐户的5%。互联网用户评论:对AI模型的人类团队的理解确实是MURDER。让我们看一下如何使用本教程。关键体系结构:协调员 - 工人体系结构Claude团队使用协调架构 - 专门设计用于管理多个代理之间的任务和协作。下图说明了多个代理的架构的行为。此外,系统使用多个步骤而不是静态搜索来动态搜索相关信息,适应新发现并分析结果以形成高质量响应。上图说明了团队多个代理的研究系统的完整工作流程。该系统允许克劳德(Claude)与大型语料库杠杆网络,工作空间和个性化工具的整合相同的高质量响应计划,搜索和动态综合。总代理商分解咨询,推出专业的次要代理(每个儿童代理都有其自己的工具,指示,内存)并集成结果。这种平行而广泛的设计大大提高了LLM在研究任务中的连续使用的性能。与克劳德(Claude)与单个代理相比,它的内部资格率为90%。例如,具有克劳德·奥普斯4(Claude Opus 4)的多个代理作为领先的代理人十四行诗4作为系统,而subagente则比团队内部研究评估中唯一的克劳德·奥普斯4(Claude Opus 4)高90.2%。通过将工作分配给多个代理和上下文窗口,Claude系统有效地扩展了推理功能并提高了并行的推理功能。克劳德(Claude)的最新车型在使用代币的效率的好友中发挥了重要作用。 Claude Sonnet 4的更新引起的性能提高甚至大于Claude Sonnet 3.7的代币预算的两倍。作为标准聊天,这将是令牌成本的15倍。因此,多个代理的结构可以有效地扩展代币来处理TASK超出了单个代理的限制,但仅适用于高价值咨询。快速工程:通过快速设计优化了启发式人类。代理行为。他们将启发式方法用于任务复杂性,代表团的清晰度,工具的选择和思想策略的可扩展性。团队指导代理人明确观察思维过程,扩大思想的轨迹,并允许克劳德(Claude)向世代发出其他代币。主要代理使用此思想机理计划一般策略,评估任务的必要工具,确定咨询的复杂性,确定是否应调用儿童代理商以及如何为每个子代理分配特定角色。这是一种特定方法:了解代理的确切心理模型。团队使用控制台使用系统中的快速,精确的单词和工具来构建模拟,然后逐渐观察代理的工作。这确认s有效和快速的单词基于精确的心理模型,以了解代理的行为并揭示最重要和最有影响力的优化途径。任务分配:在系统中,主要代理将咨询分为tasasas,描述了清晰的目标,预期的输出格式,可用的工具和原始指南以及明确任务的限制以及SK的步骤subtraceas。调整量表:为了准确确定代理需要进行不同任务的合理工作负载,团队已纳入指南:指导的即时规模调整规则。例如,简单的信息收集任务通常只需要一个儿童代理,并将工具3从10到10次调用。超过10个儿童代理人可以参与复杂的研究任务,这需要明确的角色和责任。工具的设计和选择:设备为代理商提供了明确的启发式方法。例如,请参阅全部首先可用的工具,将工具的使用与用户的意图保持一致,并执行广泛的Web搜索以探索外部信息或优先考虑常见工具上的专业工具。个人克服:团队创建了一个工具测试代理。如果您获得了ADEFECTY MCP工具,请尝试重写该工具的描述,以避免使用该工具后任何故障。这有助于代理人显着提高后续劳动任务的精度,并将完成任务完成40%的时间减少。搜索范围重点:团队从对代理商进行简短而广泛的咨询开始,对这一趋势进行了补偿,评估可用资源并敦促代理商逐渐减少其护理范围。并行工具调用:团队介绍了两种并行策略。 (1)主体不再按顺序生成子代理,而是同时创建3-5个子代理。 (2)每个Subagente同时调用三个或更多工具以恢复和分析信息rmation。这些优化将复杂的咨询处理时间降低了90%。最初接受HORAS的研究任务可以在几分钟内完成,并且可以涵盖其他系统的处理能力以外的更广泛的信息。资格:灵活的方法和良好的结果对于建立可靠的代理至关重要。传统的评估方法通常遵循固定的路线,并且多个代理系统无法确定“正确的步骤”。设备可以使用以下方法来确定代理是否已达到正确的结果:请确保遵循合理的过程。 SOL小型提取提取:设备认为最好先使用一些示例来执行小型测试,而不是等到您可以在开始之前进行更完整的评估。例如,在早期代理的发展中,快速单词设置可以将成功率从30%提高到80%。使用LLM作为法官:美国LLM团队作为“法官”来评估每个RESULT基于OnPre的得分标准。特定维度包括:事实的精度:语句与参考源一致吗?预约精度:任命是否真的反映了上述信息?诚信:您满足任务的所有要求吗?来源质量:有关第二质量第二手源的主要信息是否更喜欢?工具效率:是否合理有效地使用了相关工具?该团队尝试了多个法官来评估每个方,但是实验发现,得分为0.0-1.0和通过/无判断的得分是最稳定的,是通过单个呼叫LLM组成的,由手动评估组成。借助LLM的自动评估机制,研究人员可以以可扩展的方式有效评估数百个复杂的输出,从而显着提高评估任务的速度和一致性。评估工具:人类评估者可以识别出常常难以证实的异常行为通过自动分数进行调查,例如在面对异常咨询或更微妙的偏见时产生的幻觉反应,以及对某些类型的来源的偏见。即使使用高度自动化的评估系统,手动测试仍然是不可替代且重要的链接,使您可以不断发现盲点并提高系统的一般可靠性。此外,应考虑到多个代理系统中存在典型的紧急措施。这些行为不是由特定的编程逻辑引起的,而是由多种代理的相互作用自然产生的。例如,主体的小变化可以以不可预测的方式改变subgente的行为。因此,要构建成功的系统多种代理,关键是要了解交互模式。对于代理商的最佳建议也是严格的指示以及劳动分工。这也意味着它也是合作的框架定义解决问题的方法和预算的工作。这个协作框架需要仔细设计建议和工具,建立可靠的启发式方法,实现可观察性并建立附近的反馈周期。 Team Open获得了一些厨房书籍的提示和示例。问题和挑战:小变化会导致智能系统的“蝴蝶效应”的小变化,触发一系列链接,引起“蝴蝶效应”,从而导致行为变化和重要后果。智力仍然处于“状态”状态,并且错误积累。该团队构建了一个系统,该系统在急诊室发生时从代理商的位置恢复,利用模型的智能来处理问题,并与关键的安全措施(例如保留的逻辑和常规控制点)配对。例如,如果该工具断开并通知代理和适应,则非常有效。调试需要一种新方法。团队介绍了一个完整的M用于监测生产环境以系统定位代理的机能。失败的具体原因是固定的。除了传统的可观察性指标外,设备还监视决策路线和代理相互作用结构。这些过程包括监视特定的对话内容以确保用户隐私。这种高水平的结构化观察功能使设备能够识别潜在的问题,检测异常行为并迅速修复系统内常见的失败。需要调整,需要更新。更新版本时,设备必须确保系统不会损坏。该团队使用彩虹实施政策来避免执行代理的中断,逐渐将较旧版本的贩运推出到新版本上,并同时维护两个版本。同步执行中有一个瓶颈。同步执行会在代理之间创建信息瓶颈s。这意味着主要代理商不能领导子代理商,而儿童代理人无法协调,因此搜索被中止。设备试图异步执行:当可以实现其他并行操作时,代理将同时运行,并在必要时使用新的子代理。但是,异步执行方法可能导致问题,例如调整结果,estado的一致性以及在儿童药物中错误的传播。该团队期望异步执行引起的性能提高将超过处理的复杂性。已经提出了对在多个回合中改变国家的代理商进行最终国家评估的其他建议。该团队最好通过回合分析专注于最终的国家评估,而不是一轮评估。这种方法认识到代理找到了相同目标的替代途径,同时保证了预期的结果是ACHIev。对于复杂的商业过程,请勿检查每个中间步骤。将资格分为个人控制点,并观察到这些控制点中发生的特定状态的变化。长期对话管理。生产代理通常需要参加数百个对话并仔细设计上下文管理策略。团队实现了一种模式,其中代理总结了在执行新任务之前在外部内存中完成并存储重要信息的工作阶段。儿童经纪人将出口写入文件系统,以减少“电话游戏”的现象。与主体代理商和儿童代理商的引导路径模式不同,出口可以通过专业代理创建。这样可以节省外部系统,返回对协调员的光线引用,从而提高忠诚度和性能。这避免了在多个阶段处理中丢失信息的丢失,并减少了代币超负荷以复制出色的生产粗糙的对话历史。此模式特别适合结构化输出,例如代码,报告,数据查看等,在该输出中,该子代理的专业建议产生的结果比通过Universa CoordinatorL过滤更好。建立代理系统时,开发人员执行的工作代码基础需要大量的工程工作才能成为可靠的生产系统。通道故障会导致代理人探索完全不同的地址,从而导致无法预测的结果。该团队给出了许多理由和原型。他说,IPE系统与生产系统之间的差距往往比预期的要大得多。当单个代理的功能接近上限时,它成为多个代理打破限制并实现“智能乘法”的重要工具。参考链接[1] https://www.anththropic.com/engineering/buritment-multi-agent-research-system [2] https://x.com/omArsar0/状态/19339415555881587400这来自信微信的公共帐户:Qubit(ID:QBITAI)作者:Yiran作者:Yiran

0
首页
电话
短信
联系