几乎所有人都想自己卖狗。现在AI代理泡沫有多大

- 编辑:必赢唯一官方网站 -

几乎所有人都想自己卖狗。现在AI代理泡沫有多大

代理,代理?代理人!说起今年的AI浪潮,除了年初Deepseek引领的强化学习浪潮外,业界最受关注的就是各种AI和“类代理”代理。不知道从什么时候起,药剂就成了万能公式,可以适用于任何事物。但是,经纪人真的有那么好吗?真的有竞争力吗? “我认为Manus前段时间刚刚推出的新的广泛研究功能非常没有竞争力,对提高产品竞争力没有任何用处。”某大型金融公司AI技术专家王贤(化名)告诉智微。从一轮重大车型升级剔除的“次日”产品清单来看,2025年代理商开工的兴奋背后是徽章留存率和更加同质化的体验。几乎所有代理产品都在谈论“更智能、更通用、更自动化”,但尝试过一次后就离开的用户比例仍然居高不下。哎呀。恶魔可以飞,但落地时往往会摔倒。这是否意味着万能代理的叙述已经透支了?在这篇文章中,志伟把镜头拉远,看看泡沫是资本驱动的、技术错配还是妄想场景?我们邀请了多位来自大企业、初创企业的实战线路,以近期新产品马拉瓦克产品以及公司的逃亡、撤资事件为例,询问国内外代理泡沫乱象的现实、背后的原因以及未来代理赛道的安全规则。在沟通过程中,志伟发现,通用性和垂直性的选择和融合是决定去或留的关键。事实上,今年代理火了很大程度上得益于工具使用的突破。王文广,《知识图谱:认知智能理论与实践》、《知识增强大模型》、《强于RAG——知识增强LLM应用》作者“实践”和一位大模型技术专家告诉智微,“具体来说,从编程到浏览器使用,再到计算机使用,而且随着MCP通用接口的普及,Agent的工具使用能力得到了增强,从外部获取信息,与外部系统交互更好,”平安保险技术组负责人张森森在智微进一步解释道,“在技术层面,协议动作的执行: 过去,他们只是提供答案,但他们可以帮助完成完整的行动。市场竞争的焦点发生了转移。 “但这其中,以Manus为代表的通用代理产品一直饱受争议。一方面资本对其非常喜爱,另一方面用户不断批评它。直到最近,Manus先是出逃,将公司总部从中国搬到了新加坡,然后推出了广泛的研究型产品。后来有消息透露,融资可能会是为了解决这个问题。”e因安全审查问题被迫撤回。沿着赛道,炒作了半年多的经纪人概念也开始面临越来越明显的质疑。王宪向智微德泰灵解释了为什么广泛研究没有竞争,“首先,广泛研究提高了并行处理的效率,但它也消耗了大量的计算资源和调用配额,因此非常昂贵。” “其次,单个高性能深度研究中没有对性能准确性和成本效率进行公开比较或测试,因此不确定使用大量并行任务后其效果是否真正得到改善。” “最重要的一点是,它仍然没有解决场景障碍的问题。”无专业数据、无专用供应链、无行业认证、无深度业务融合、无高价值场景绑定。因此,更注重拓展工程能力而不是开发护城河场景。 “当然,前期采取浅而广的策略获取客户没有问题,但从长远来看,Manus无法阻止模型厂商的下沉和垂直厂商的渗透。”AI技术专家、企业家陈伟也普遍持有同样的观点:“广泛研究的本质是‘规模化通用任务执行器’,效率很高,但无法解决‘决策’的问题。” 发现当遇到真正复杂的问题时,这个总代理还是帮不上忙,最终只能求助于专业的垂直产品或者人工服务,导致用户留存率很低。”如果延伸到任何一个通用代理,它们看起来都很吸引人,但实际上都有一个蹩脚的特点:任务范围不明确。智言极智CEO付锐吉告诉智微,“任务范围不明确肯定会对产品产生不好的影响。”高。”福瑞吉福他向志伟解释了近期代理泡沫兴起的创业者心态:“大模型的出现让大家感觉开发门槛降低了,感觉‘人人都可以当代理’。很多开发者和初创公司认为,可以包装成一个代理,可以解决各种问题。‘超级助手’可以快速吸引大量C端用户。万能代理的主要卖点是‘解决所有问题’。” 问题'。但事实是,迄今为止还没有代理商能够做到这一点。 “王宪也认为,这个泡沫的兴起是创业公司和资本合谋的产物。” Manus并不生产产品,而是走资本路线,通过不断提高市场知名度来获得更高的融资。比如创始人拿到融资后是否真的会去现场打造产品,还是卷款跑路,只有创始人自己知道。产品大失败,营销却失败会非常成功。 ”付锐吉补充道,“营销可以负责吸引公众注意力,但代理不同于基于内容的产品(如短视频)。只要用户的关注度足够,用户的实际问题还是需要解决的。如果用户发现产品“华而不实”,则很难维护它。牧通科技大数据负责人薛兆明认为,这种产品模式有一定的合理性,但还是需要区分TOC和TOB的逻辑。 “TOC和TOB是两种逻辑,TOC一定是不同的,这种差异也代表了用户选择的差异。TOB是另一种业务逻辑,必须强调执行和交付,否则就没用。王宪用泛研为例,解释了为什么泛研产品目前对企业用户来说没什么用处。”率,以及他们如何整合他们的结果。那么我该如何完成审核呢?作为一家企业,我需要审核流程的合规性以及实施过程中到底发生了什么。所以我不相信它的最终结果。“如果直接告诉我买哪只股票或者投资哪家公司,我就无法根据这个结果去执行。”“Manus虽然获得了很多中外基金的投资,但其业务主要集中在海外市场,总部也搬到了新加坡。这只是代理泡沫的一小部分。但放眼国内,情况却不容乐观,可以说即使有 有很多相似之处。 ”薛兆明表示,“事实上,目前无论是创业公司还是一线云产品厂商,大部分产品还是在某个场景下展现,真正的大功能还是有很多。 “速度快,痛点不集中。他们并不缺乏。主要的制造商参与其中。它们都具有通用代理的特点,功能多但不精细。编写代码的准确性不高,数据分析缺乏可解释性,设计输出的质量参差不齐。第一次使用时可能会感觉新鲜,但很难获得长期的可靠性。有几个可交付成果明显与工作流程和 KPI 相关。 “具体来说,一些金融工具类APP(公司实体一般没有正式的金融业务牌照),比如股票交易平台,会提供所谓的股票“红三兵”,未来可能会增加,但这样的判断没有准确的点。这类产品可能无法反映这些复杂的因素。看起来像机器人投顾,但实际上并没有真正实现投资组合优化或风险控制,也无法连接到交易 系统,也无法支持其广告定位。 “目前,市场上没有人能够做好机器人投顾功能。事实上,大多数经纪公司都有相关部门来做这件事。问题在于,一方面,他们觉得自己应该这样做,另一方面,当他们看到大模型似乎解决了问题时,他们就开始投资开发。完成后,他们立即宣传它,说它与大模型和一些能力有关。就是他们的宣传能力与实际能力不符。并不是他们的能力完全没有用,而是存在明显的差距。 ”王文光表示,“成功展现的往往是作品中20%的标准部分,但真正构成主体作品的是充满‘长尾异常’的80%复杂现实。” “即使是全主动或简单暴露的AI搜索,也确实非常初级。”集纳人工智能前CTO王楠告诉智微,“现在的智能体可以多轮使用简单工具,也可以单轮使用复杂工具,但多轮使用复杂工具(例如搜索工具)的能力尚未达到生产用途。从Browsecomp基准来看,大型搜索模型的搜索工具使用仍有很大的改进空间。造成这种差距的原因是大型模型使用通用工具的能力从来没有出现过。 ”白鲸开源CEO郭为志伟总结道,“目前,总体来说,各种代理产品并没有足够让人惊喜。由于代理技术本身尚未进入成熟或真正可用的阶段,技术生态系统并不完善。即使是关于代理的概念,也不是每个人都想清楚的。 “国内大部分所谓的代理商其实都不是真正的代理商,他们只是为了吸引眼球而起个名字。在我的理解中,能够取代TOB SaaS和TOC App的代理商产品还没有出现。对于国产品牌来说更是如此。” “换句话说,如今大多数客服人员都使用 RPA(软件机器人程序)ess Automation),基于交互语言,一般没有深度。那么为什么不直接使用 RPA 呢? RPA 还不是幻觉。王文光指出,“名不副实”的现象就是所谓的“洗涤剂”,这种现象在行业中已经司空见惯。 “这是‘产能泡沫’的直接产物。”该公司正在利用市场对“代理”一词日益增长的兴趣来吸引投资和用户。最直接的例子就是权威报告指出,2022年底聊之前,全球几乎所有在所谓RPA等赛道上取得成绩的公司,都在靠情报卖RPA狗肉。 “Gartner今年6月的市场分析报告显示,在测试的‘数千种’所谓代理产品中,只有约130种真正符合标准。”因此,您可以做一个简单的排除法,寻找代理商或大型号的供应商。首先,淘汰那些不这样做的公司过去的 e RPA。这样就可以避免一半的陷阱。投资也是如此。 ”王文光还总结了C端和B端代理泡沫的一般特征,“TOC泡沫主要是由‘万能个人助理’的梦想驱动的,而TOB泡沫更多是由企业对提高生产力和降低成本的焦虑驱动的。 “TOC的这种愿景非常有吸引力,很容易引发病毒式传播和广泛的媒体关注,从而在短时间内产生非常高的价值和用户增长的预期。但当产品体验达不到预期时,用户会毫不犹豫地离开。” ”“如果结合国内外的代理泡沫现象,那就是另外一回事了。张森森解释道,“国内外的代理泡沫表现不同,GDPR、CCPA等法律等监管措施,特别是跨境场景下,安全审计要求变得更高,许多竞争对手被迫加大在合规性和差异化方面的投资。虽然用户集中在C端,但泡沫几乎只存在于B端。究其原因,B端企业受到补贴、国产化等政策影响,同时市场受累严重,用户注重实用性而非炒作。 B端用户相对平静,TOB初创企业太多,很快就倒闭了。一些过去几年还在讨论的公司今年已经消失了,泡沫很快就会破灭。 “目前的代理产品普遍存在明显的缺陷,这可以从产品、工程、场景等多个方面来理解。真正的代理应该比App更方便、更简单。” “而且如果是B区的产品,应该比现有的软件更简单、更准确、更方便。以前用户点三下鼠标就能完成的事情,现在是代理了要求先用自然语言说一个句子,然后再说十个句子,用三下点击代替原来的任务。这种体验让人们更喜欢点击鼠标。 ”王文光说,“换句话来说,最根本的原因是,对于大多数现实世界的任务来说,隔离成本和用户为验证和纠正AI代理的输出而付出的时间成本超过了代理本身节省的成本。 “‘万能个人助理’承诺了一个科幻的未来。他们处理的任务,比如预订家庭旅行、管理个人财务、安排重要会议,都有一个共同点:财务要求高,可靠性很低。”这种‘高信任要求’和‘低可靠性’之间的巨大差距,或者说无法阻止从‘新奇玩具’到‘可靠的用户维护’的跨越,是C端代理商无法获得服务的主要原因。长期用户 观点:“首先,现实环境非常复杂,不可能有一个干净的数据如实验环境。事实上,数据质量往往很差并且用户界面不一致。 “其次,很多接口需要跨系统访问、SSO(单点登录)、数据脱敏等,这些环节很容易卡住,导致平台之间的接口被阻塞。工具版本也存在弱点。比如长期任务缺乏持久化状态,上下文无法保存,状态机失败,最后一个任务无法继续,只能从头开始。” 验证和回滚机制,并且没有二次验证或回滚策略。 》》第五,SLA(服务提供商和客户之间关于质量标准、性能指标等的协议))和成本约束。企业在使用时必须考虑成本,服务需要有保障,确保TCO(总拥有成本)超过企业的成本。好处。 “第六,缺乏合规和审核能力。生产过程必须有监控、有解释、有权限和操作流程的控制。但这在各个平台的演示中几乎看不到,这当然是商家最重要的需求。”在场景层面,郭认为原因可以很简单,“没有真正走到用户场景,很早期。但真正重要的代理商需要在某个业务领域有深厚经验的人或公司。张森森也持有类似的观点,”事实上,目前国内外的人都在践行技术。他们太关注技术,这使得大家围绕技术建立大的模型和代理。”通俗地说,有什么技术我就做什么。王文光补充道,“目前,AI公司往往不了解业务,而商业公司也不能准确了解AI代理技术。”无论是AI端还是业务端,都要了解技术边界,知道代理能做什么、不能做什么,并与业务结合起来做好。 “但Agent不仅仅是独立覆盖各个场景,它带来的变化是生态层面的。”郭伟说,“Agent本身就是一个大的生态系统,就像软件或者SaaS生态系统一样。”在hforward中,它将形成一个完整的生态系统。当这个生态系统真正建立起来之后,就可以形成所谓的Agent代理,它会在Agent期间继承并改变原有的生态系统。 “这个生态系统是巨大的,以TOC手机版为例,目前手机版还没有通用的APP,需要在现场出现相应的代理商,比如国内的携程、小红书等类似的、更便捷的代理商,来支撑第一层生态系统。”生态系统的第二层是通用代理。普世时代的核心nt位于入口处。比如Apple Intelligence就是一个入口。 “进入之战本质上是流量之争,而不是技术或产品本身。谁能挖掘新一代代理商的流量,谁就在整个代理商领域占据优势。”从这一点来看,Manus的流量策略似乎合理?但王仙却不这么认为。他表示,应用层的初创公司没有机会占据这个流量入口。也就是说,初创公司无法绕过第一层生态,直接跳到第二层成为流量入口。 “初创公司现有的代理产品直接跳转到第二层生态,你就会面临Manus目前的困境。”从用户角度来看,像Manus这样的产品,用户数量有所下降,使用意愿不足。无论是初创企业还是老牌企业,首先要解决的就是安全问题。该产品必须符合拥有正的投资回报率,能够实现价值,而且使用成本不能太高。但Manus的产品只是存在变现量不足的问题,而且时间、学习和金钱的成本太高。”王贤也认为,进军流量并不是OpenAI这类公司的发展方向。“OpenAI是一家初创公司,但同时也是一家大型模型制作商,肯定不会成为流量入口。与anthropic和Google相比,OpenAi更加面向公众。郭伟表示,“像苹果这样的公司有天然的优势,可以为移动端打造完全通用的座席。理想情况下,用户只需要说‘帮我在上海订一张机票,通用助理座席就可以自动调用很多应用程序或座席服务来完成整个流程。’” “oftob领域的逻辑是类似的,每个垂直方向都会出现相应的saa。通用代理出现得比较晚。无论是在B还是在C,我们首先要c培育原始赛道,逐步培育生态。 “上面我们描述了代理泡沫的大概情况。可以看出,造成这一现象的根本原因是初创公司和各大厂商在技术有限、产业政策甚至一些痼疾的背景下,对代理产品在生态系统中的定位产生了误解。接下来,志伟将以更详细的限制、技术的限制、技术的限制、技术的限制来解释这些背景。” 技术的限制、技术的限制、技术的限制、人工智能的限制。多智能体扩展限制、上下文长度限制、大智能限制等。最后,智能体必须使用A2A(智能体到智能体)协议来传递完整的垂直智能体之间的通信。完成任务。 "" MCP 是总代理与外部数据源之间的通信协议。当MCP i所谓的,自然语言信息不可避免地会转换为结构化查询或结构化请求给ADB来执行操作。这个转换的正确性必须由调用者保证。然而,现实中通用智能体很难将专业词汇准确地翻译成专业领域的精确指令,然后提供给原始程序执行。 “以我们正在做的ahe的datante为例,这项工作需要很长时间,因为构建必须从底层到过去完成,底层的数据通常是原始数据,比如CSV文件,里面包含各种原始数据。未来这些数据需要转换成有语义的上下文数据单元(CDU),才能被上层代理表有效消费。对于企业来说,这需要高度专业的数据采集厂商 来完成。 Salesforce 查询数据,但它不知道数据当前上下文中“消费价值”的具体含义来自Salesforce、SAP或其他系统。 “因此,TOB的全能代理不能通过‘在MCP上加一层全能代理’来实现,而必须基于A2A(代理+代理)的基础上,通过多个专业领域的代理相互合作来实现。”“相比之下,快言快语和代币成本爆炸的专业性更次要,随着时间的推移自然会解决。”代理还有一个无法解决的问题,那就是底层大客户的错觉。 模型。此前的研究已经证明,大模型并不能完全消除理论上的幻觉。“现有的大模型技术下,有很多情况尝试完全代理,但效果并不完美。”以自动化编码为例。各种声称可以取代人类编码的工具,无论是带有代理、游标的云代码,还是增强代码等和监督。氧否则,当出现幻觉且没有有效控制时,风险就非常高。例如,某公司最近在使用reload自动化工具时出现错误,导致数据库被删除。 “目前还没有特别好的方法来自动发现和追踪幻觉。在验证时,虽然不可能验证所有环节,但可以利用传统方法或知识库随机检查一两个关键点并进行纠正和约束。”幻觉在沟通的早期阶段有一些优势,因为它可以带来一些创新的想法。但在业务实施阶段,应尽量控制甚至避免使用大模型。当智能体执行任务时,要减轻错觉,只有工作流程才能保证足够的确定性。 ” “总之,目前使用大模型和代理作为效率工具,显着提高了开发能力。例如,我几乎没有现在是自己写代码的时候了,对一些新发布的Python函数不太了解,但是大模型可以帮我弄清楚并直接生成代码,也可以解释逻辑。这样我只需验证逻辑是否正确并运行就可以快速完成任务。这种方式不仅比自己写代码更快,有时得到的算法思想比我最初想象的还要好。 ”王文光指出,思维锁链的幻象在代理产品中确实很常见。”这通常被称为错觉过程,即AI执行了它不执行或未能执行的操作过程。 ""输出的并不是真正的操作日志,而是生成‘看起来成功’的操作日志。例如,它声称“我成功地运行了测试并且所有测试都通过了”,但实际上它可能没有运行测试的能力或权限,或者实际的测试运行可能失败了。 “也可以从这个角度可以看出,很多时候,有很多问题是仅仅依靠大模型是无法解决的。如果我们把所有的问题看成一个平面,大模型能解决的问题就是平面上的结构,解决不了的问题就是平面上的孔洞,那么我们可以看到这个平面上布满了孔洞。”在智能体框架设计方面,目前有一个概念首先是,在当前的实际应用中,Ahentity之间的交互主要局限于两个智能体。来自编程经验背景的Claude Code并没有使用Agentity。 多主体合作机制。张森森表示,“单代理或者双代理已经可以覆盖80%的企业业务场景。另外,对双智能体的限制也是出于成本考虑。”具体来说,多智能体会显着增加复杂性,使出错的错误变得更加困难,引入更多的智能体开发、维护、计算能力,效益和成本不相容。 ” 抵消延迟,使系统更加稳定。越高。” 也有多代理的情况。例如,一些游戏公司正在创建AI团队游戏,并在沙盒环境中测试多智能体交互。对于大多数企业来说,这种复杂程度是不必要的。目前,能力的一个非常主要的限制是上下文的长度。尽管 OpenAI、Anthropic 和 Google 等 AI 公司一直声称模型的上下文达到数十万或数百万个代币,但 Reddit 社区报道称,模型的上下文非常流动。有时,如果有数千个输入标记,模型的准确性会显着下降。张森森表示,“从实际体验来看,大多数厂商声称的上下文长度确实很水。更不用说两三千行代码,或者一千多行c颂歌,信息开始消失。” 上下文长度代表了基础模型能力的天花板,特别是在编码代理场景下,是难同好的标准水平。”“ 在业务内部优化这个问题不仅困难,而且业务本身也无法完全解决。可选的解决方案包括:代码提取和更智能的代码提取;动态上下文管理,只加载与此变更相关的依赖文件。但它只治标不治本。 根本原因。 ” “这对高级程序员没有影响,他们可以很快发现逻辑漏洞。 ”“但是对于初学者来说,一旦项目规模较大,IDE在频繁加载时就会崩溃。当项目规模较大时,会涉及到很多模块和依赖,甚至是跨模态的复杂系统。模型经常会丢失上下文并重新加载信息,导致迭代过程完全崩溃,忘记做出了什么决定,甚至重新安排g 车轮。 ”郭伟补充道,“目前的局限性不仅源于模型本身,还与底层芯片架构有关,包括显存、外部存储等,需要进一步完善。” “王宪认为,在硬件基础设施的限制下,瓶颈语境的长度将成为国家更严重的问题。”国外的芯片如NVIDIA H100、A100等高端GPU可以更高效地进行分片计算,处理数十万或数百万个token上下文。同时它们还有软件层面的优化,比如flashattention工具、张量计算的优化配置等,通过软硬件结合来提升性能。 “相反,中国主要是通过算法优化和软件工程来完成一些‘曲线救国’的工作。同样,像Deepseek、Kimi这样的团队也是同时还发布了各种上下文剪枝、分层记忆、稀疏注意力等方法,这些都是非常廉价的解决方案。 H100很相似,但差距确实很大。国外的顶级集群,比如带有NVLLINK交换机的H100,可以轻松处理数百万代币。 ”王文光表示,“事实上,无论国内外,限制推理极限的都是AI芯片的存储容量和带宽。 “HBM 是通用 GPGPU 的最佳选择,但专用推理芯片有许多不同的路线,例如使用 3D 堆栈的专用 AI 芯片。”国内有一些非常前沿的芯片公司如cimicro.ai,走的是与寒武纪、华为、海谷等不同的路线,如果成功挖出来,带宽可以得到很大的提升,比NVIDIA使用的HBM高一个数量级。如此一来,对大模型的理解速度将会大大提升,并且长上下文和深度思维会对代理人产生很大的影响。有很大的进步。 “除了上下文的长度之外,更大的限制自然来自于基础模型的智能限制,尤其是最近发布了被批评通用性的 GPT-5 后的 Claude 4,因为 GPT-5 倾向于在编码代理中“准确地发现问题”和“最小化有趣的变化”,而 Claude 4 更加自主,编写更复杂的代码手段。现在 GPT-5 通过多模型提高了上限 路由,这基本上意味着大型模型的缩放定律已经几乎失效,并且很难在单个模型上得到很好的改进。事实上,GPT-5的发布本身就有点“难产”,更像是一个形式而不是一个自然过程。未来基础模型能否进一步改变还有待观察。 ” “这就是大家提升特工能力的原因。与基本模型相比,Agent的可解释性相对更好,并且我可以更好地结合具体的业务情况来提高实际能力,但基本模型往往是指代理的上限。未来大车型的趋势可能会变得更加正直。参数数量可能不会无限增加,而是侧重于更细分的场景。 “大模型厂商在营销中往往会刻意忽略目前模型上限的智能程度,完全可以放心地依赖大模型来完全执行任务,这太过分了。比如Claude也介绍过简单粗暴的使用经验。他们使用claud inside.e代码编写代码时,有一个原则是“如果不行,再试一次。”王文光说,“‘不行我就重启’的做法毫无意义。” 与金钱或时间有关,但与解决问题的复杂性有关。简单地说,在原型或简单应用程序的探索阶段,它是一条有效的捷径,但在严肃的、可维护且复杂的生产环境,是不稳定且极具破坏性的工作模式。”对于主模型本身,王文光认为发展还会继续,“整个代理生态系统也在等待主模型的下一次重大成功。一旦出现新的、更强大的基础模型,就会立即提升整个智能体生态系统的天花板能力,催生新的应用。”除了工程和模型层面的技术问题,还有产业层面的基础问题,包括颠覆性的基础叙事、行业基础层面的基础问题,包括基础层面、基础层面、基础层面、行业叙事基础层面、模型公司,以及国内tob的长期问题。 SaaS。张森森表示,“目前代理赛道正处于资本和叙事第一阶段,VC们过于乐观。然而,代理的实际可用性仍然很困难,并且没有看到积极的投资回报率。总拥有成本(TCO)远大于利润。”“投资热情与用户体验存在差异的原因在于,投资方和市场更多的是追逐故事,喜欢‘通向Agi的必由之路’、‘下一代操作系统’之类的愿景或词语。”尤其是早期投资者更关心市场的潜在规模和抢占代理商的速度,而不是急于影响利润,所以愿意把钱投给某些类型的代理商。 资本存在盲目信任。”“很多投资者来自应用市场,相信有一天会出现一个类似于微信、iOS 的代理平台。生态垄断程度。因此,他们不想错过机会,抱有‘你不投我就投’的竞争心态。”尤其是在当前的市场环境下,资本确实没有其他方向。投资。代理类项目几乎成为唯一可以投资和传播的故事。 “所以,有些产品就算不行,也会发布来讲故事。所以,融资的估值并不是与产出的实际效率挂钩,而是与产品覆盖率、dau、mau等指标挂钩。思路是先把体量拿出来,然后再深入。公司内部,大家讨论未来的改进,给老板讲未来的故事,如果gayon只要能带来效率的提升,大家都愿意尝试。是吗? 公众和客户对早期产品的错误和漏洞的容忍度相对较高。 “因此,投资方看到的是未来的潜力,目前的经验与这个目标之间存在时间差。但如果用户体验长期得不到改善,投资端很快就会降温。这是一个动态的博弈过程。“公司核心模型的挤压是智能体赛道乃至整个AI赛道过去和现在的发展,我们现在和未来都会继续面临不确定性的压力。”张森森表示,“大规模模型的发展非常快,日新月异。”作为代理供给方,对应用层影响很大。很多厂商,尤其是钱文、豆宝等,都会在每次迭代中深化自己的能力,平滑通用层的一些差异,压缩创建通用应用的初始生活方式。”“GPT-5也有类似的趋势。例如,他们希望彻底改变教育,利用人工智能帮助用户学习韩语。 Duolingo和Speaker本来就是这样。”总代理的通用能力其实来自于大模型本身,非基本模型公司生产的TOC产品大多没有约束,这就导致了很大的可能性TOC产品最终将被基础型企业收割。 Openai 最新的 Agentkit 是一个现实且持续的例子。 “业界普遍认为不会发生类似的事情。像Manus这样的公司实际上处于模型层和垂直应用层之间非常薄弱的​​工具层。但是模型制造商和垂直制造商都可以轻松挤压工具层,因此它的优点和缺点都很明显。”“光标的优点是交互体验确实更好,例如内嵌对话,上下文定位等,早期的光标可以通过它获得用户和粘性。 》》但是光标没有生态绑定。像微软这样的大公司都有自己的生态系统,可以通过Visual Studio接入,工具形成绑定,再加上品牌信任度,各大厂商的关注度只会越来越高。或者一旦Cloud Code、Codex等做了一些交互相关的优化当制造商的主要工具越过之后,光标的关系就会消失。 “要想保持优势,就不能停留在接触和优化的层面,而必须在上下游的开发流程中深度绑定,走向整个开发环节针对特定编程语言、框架和行业开发场景的更完整的处理上下文,从规划、做测试到扩容淘汰,做到差异化和全流程协同。要理解这一点,我们需要深入探究代理之间的差异。 前面提到的国内外泡沫。在大模特、大经纪人时代,这种泡沫获得了许多新的表现形式,但其背后却隐藏着许多老问题。郭伟表示,“在国内做垂直代理和在国外做垂直代理是不一样的。相比之下,困难并不主要来自于代理本身的技术,而是来自于之前的产业环境的问题。这与创建 SaaS 或软件的逻辑相同。 “我国缺乏大型软件企业,SaaS的发展还不成熟,使得软件的整体价值没有得到充分体现。由于劳动力成本相对较低,软件在提高效率方面的价值还不够突出,Agent的价值也很难得到充分的认可。”傅锐吉表示,“SaaS在国内各行业的渗透率较低,软件生态系统的碎片化,导致不同的企业面临着不同的情况。” 对于企业来说,这使得代理商的开发也必须大量定制,开发成本高昂。 ”郭伟补充道,“毕竟代理是。”不是凭空出现的新东西,而是软件原有形态的延续,无论是app、SaaS,还是其他类型的软件。张森森表示,“理念国外SaaS的服务和逻辑与国内不同。他们更注重结果和整合,注重整体整合。尤其是北美、欧洲等地区的公司更倾向于使用成熟的SaaS产品,很少自行研发,因此接口普遍通用。 ” “这种情况下,在做海外代理的时候,更多考虑的是如何使用成熟的API协议,比如将MCP和A2A协议集成到现有的ERP和CRM中。对于他们来说,整合成本相对较低。 “国内的软件生态大多是企业自主开发,企业之间的协议差异很大,甚至同一企业内部的协议都严重抑制了TOB代理的发展,这是目前的主要障碍。”目前只能复制方法层面的东西,比如流程设计思想、代理架构方法、“由于每个公司要做大量的自研,所以很大概率会走向全栈或通用产品,很难推出垂直场景竞争优势突出的产品。”因此,相比之下,中国更注重速度和范围,因为市场涉及面很广,企业更倾向于快速占领用户心智并覆盖 “也许未来随着MCP等协议的发展,这种情况会逐渐好转,但至少短期内,我个人的判断是否定的。”拓展TOB、TOC以及国外市场,总体安全压力较大,B端SaaS的基础不足限制了代理商的发展,也阻碍了初创企业的接入。生态只能向C端转移,虽然C端有优势。 在通讯中和资本叙事,竞争激烈,维护困难。因此,企业最终都会选择出海,通过抢占国外市场的算力、合规和融资来寻找突破口。 “现在B端的通用代理大多是在销售、打包的,你会看到很多所谓的‘企业UI’、‘商教代理’等,但当它们真正运用到业务流程中时,问题就暴露出来:性能稳定性不够、合规性不够、可追溯性差。” “真正能够生存的解决方案一定是垂直+深度融合的解决方案。我们使用代理需要灵活性,符合特定行业以及业务的需求和机制,这样才能真正落地。”王贤说,“但相比国外,在中国建立垂直代理是非常困难的。代理需要清理深层次的领域才能做大做强,跨越各种障碍才能获得数据。”例如,高质量的医疗数据分散在各个医院之间,无法共享。 ” “我很清楚。在与业内众多医疗AI专家交谈时,经常提到的最大痛点就是数据隔离。王贤继续说道,“因此,国内大模型的训练速度比国外要慢。” “相比之下,国外很快就开始建设垂直代理。领域内的初创公司可以直接使用OpenAI等公共API,但在中国,大规模模型只能私下部署,这进一步拖慢了步伐。” “也可以说,国内模型厂商主要倡导的开源、轻量级大型模型做法,其实是适应了国内独特的条件。”更值得关注的是,在大型模型发展的后期,由于整体质量的提高,国产大型模型的发展将面临更加严峻的挑战。f 数据集太差。 “其次,客户差异、需求差异、定制成本也比较高。” “国内同一垂直行业的各个公司都有上述TOB SaaS行业的缺点,比如国内的CRM。有多少个系统?只要在网上搜索一下,就会发现数千个,甚至每个公司都需要定制它们进行私有化和二次开发。”代理的可复制性和可扩展性高于中国。国内产业生态也封闭,大厂商倾向于开发自己的产品。龙头企业也自己建立垂直代理,不与其他企业合作,导致初创企业很难进入主流局面,无法与行业生态对接。 》》反观国外,其实有很多开放生态和第三方市场落地,所以小公司和中小型公司有机会在某些垂直领域生存。 “最后,商业化周期也存在明显差异。垂直代理的特点是,初期实施阶段需要长时间的行业积累和客户教育,本质上是‘慢工出细活’。国内投资环境普遍缺乏耐心,追求短期回报。TOB场景太高,实现概率太低,可复制性太低,整个中国市场更倾向于做TOC,而 TOC是最容易用资本讲故事的。 “这也不难理解为什么很多国内企业在海外做TOC,甚至Manus也把公司总部搬到了新加坡。王贤表示,“这么多企业选择海外做,原因有很多。”首先,国内市场竞争压力很大。以Manus这样的产品为例。 dom 更容易estic用户转向更好的同类产品。这是国内市场的一个特点,就是产品更新换代成本低。通用C端代理往往具有“一次性体验”、缺乏复用性的特点。如果初期用户主要来自中国,一旦竞争加剧,价格战随之而来,产品的战略国内市场很快就会消失。 “第三,像Manus这样的公司会考虑数据隐私管理、供电等问题。可以进入欧美市场。搬到新加坡可以减少很多海外用户的数据安全需求。新加坡GDPR、CCPA等法规对Manus的影响肯定比中国好。新加坡虽然在东南亚市场也有相应的PDPA数据安全法规,但相对低于中国。” 模型仍然存在。移居新加坡后,您可以与Amazon、OpenAi、Anthropic等公司更方便地使用他们的API服务。这项服务目前超过了国内的Deepseek、Qianwen等API模式,可以提升产品能力。”虽然这一举动可以用“taktFul”来形容,但王文光认为意义还不够大,更加残酷。未来很酷,“TOC代理,我认为除了中国和美国以外,在其他地区没有任何意义。”“而且,在美国市场,总代理的生态位被 主要型号厂家自己也早。在中国,很快就会与这个国家统一。因为TOC总代理的竞争力和护城河就是大模型本身。” “我觉得做国内外的代理确实很难。做国内代理的难点本质在于硅谷有很多钱,而Cweakness却缺钱。”在技术和产业的制约下,代理赛道未来将是一个泡沫,而且还会不断扩大。但从长远来看,将会制定更严格的规则。只有遵守规则,我们才能继续生存。这些规则包括:在自己的行业知识范围内构建代理,采用垂直大规模模型,权衡工作流程和代理,重点关注关键情况,最终为成功商业化铺平道路。郭伟表示,“在行业做代理的难点不在于代理的实施,因为从技术角度来说,如何做代理每个人都可以掌握。” “无论是在C还是在B,真正的代理一定是商人或者对行业有深入了解的公司,也就是nogosyante或者在行业有丰富积累的公司来做,而不是仅仅加上一个薄薄的壳。” “比如B to B侧的全能座席,在企业内部办公系统等场景下,一直在特定工作的企业多年在c领域有着天然的优势。以飞书为例,它已经有一个wiki,并按照系统组织和编译内容。这样,当底层上下文准备好时,上层无论是通过作业还是通过代理,都可以更高效地完成任务。过去幸存下来的都有一些新兴领域的变化和新的交互方式,拖慢了一个原有的APP和生态模式,但它的伟大性至少应该与一个成熟的APP相当,场景的复杂性和解决问题的便捷性也应该相等。它为企业提供知识库服务,它会面临相反的挑战。需要投入大量的精力对知识库按照系统进行分类和标注。像飞书这样的公司已经完成了这些基础任务,没有必要重复建设。 “当我们创建数据代理时,我们处于类似的情况。我们的数据系统原生支持 300 个不同的NT数据库和原始语言数据。数据源只是顶层的一层薄薄的封装。客户自然不会满意,因为数据访问受到限制,而且技能差距也很明显。 “所以,未来能在代理领域有所建树的,不太可能成为大厂商的典范,而是成为原来的SaaS和工具厂商。” “Industry Knowhow不仅会直接影响企业决策者的方向,还可以通过消费模型来影响每个产品规范的方向。从上面提到的MCP和A2A的实际差异,我们可以看到模型能力在垂直场景中对于代理商的重要性。一般的LLM但是行业LLM,它会被使用,实际上它降低了AI能力的要求。在明确的条件和规则下,表面信息和结果的准确性将受到影响。 大大改善。 ”张森森表示,“我们倾向于使用大立式立柱主要有几个原因l 型号。首先是成本优势。一般大模型参数较多,而垂直大模型参数较少,计算成本较低。 “第二个是可视化方面,垂直模型更准确,更适合业务自身的生态环境。相比之下,通用的大规模模型依赖于通用的强大能力,往往需要更多的人工校对,增加分析成本。”第三是易于部署和合规性。 Vertical 的较大模型更容易私下部署,并且更符合数据合规性和隐私要求。大型模型的通用目的通常依赖于云调用,企业有很多顾虑而不敢使用。同时,从可用性和适应性的角度来看,垂直模型可以为行业定制,例如设置信号、模板策略、引擎工具调用技术来实现获得更稳健的响应模式。 “从更长远的角度来看,现场领域肯定更具有商业价值,无论是直观体验还是数据规模和价值评估。”郭伟表示,“从数据体量来看,互联网数据规模远远超过企业级数据,差距达到几个数量级。”但从业务价值来看,企业级数据含金量更高,信息熵或者说信息密度和价值要优于互联网数据,因为这些数据直接关系到企业本身的业务生命线。 ”张森森补充道,“对于垂直数据和互联网数据规模的比较,不同的人有不同的看法。典型的语料数据可以达到万亿代币的规模。单个垂直数据通常是数十亿、数百亿级别,不可能达到万亿级别。但如果把所有行业的内部数据加起来以太坊,比如金融、医疗、制造等领域,总量肯定会超过通用网络或者通用语料库的数据。 “然而,工业互联网的数据大多是垃圾数据,可用于训练的数据很少,尽管其总价值可能比互联网的一般数据还要多。”当然,仅仅依靠大规模的垂直模型是不够的。 Agent实现面临一个考验工程能力的问题,就是工作流和age.NT的权衡。王楠说:“Agent和工作流有很大的区别。Agent主要是利用LLM来做决策,动态开发工作流。而工作流则是预定义的、静态的。这种区别决定了两者适用于不同的场景。” “由于缺乏灵活性和适应性,工作流实际上能解决的实际问题有限。相比之下,代理更加灵活,通用性更强。”le,并且能够更好地解决实际工作环境中的复杂问题。”张森森说,“从广义上讲,凡是需求组合爆炸的情况,比如行程规划、医生排班、护理服务等,使用工作流时,这时候就需要一个自主代理。郭伟说,“Nursethis也是这个行业发挥作用的地方。决策者需要权衡哪些部分使用固定的工作流程,哪些部分应该作为复杂系统中合适的代理。”张森森表示,“代理的实施取决于流程的性质,最合适的就是对工作流程进行小规模的局部改造。流程标准化程度高,数据流转清晰,任务有明确的输入输出,这些都是代理实施的最佳条件。” 宽容(或容易“监管)将帮助代理人顺利落地。”张森森举例解释道。比如金融行业数字化程度高,流程标准化程度高,所以是代理人落地的一个非常好的场景。“金融行业过去在风控、投研、合规等方面已经有了智能应用,代理人主要是作为辅助模块嵌入在这些环节,而不是取代整个业务。” 系统。例如,银行在贷款审批过程中使用代理自动提取数据,在合规过程中比较条款,在输入数据处理过程中获取数据并输出审批结论和风险标签。链接已修复,使嵌入代理变得更加容易。此类场景风险承受能力较低,更适合Workflow+代理模式。但在一些风险承受能力较高的场景下,比如旅行规划,可以直接使用代理,无需依赖工作流程。 “进一步来看,代理可以分为两种类型,基于工作流程和自主性。”基于工作流的代理组织执行计划,过程相对可控。非工作流代理可以自主规划和执行、自动调用工具使用和编排、动态更新上下文以及处理排队和个性化需求。 “王楠补充道,”例如,仅具有采集和生成功能的RAG系统是典型的工作流代理,而具有反射和归档工具使用的深度研究或搜索代理则是自主代理。 “从投资者的角度来看,我们目前并不看好自主智能体,更看好基于工作流的现场智能体。”付锐吉表示,“在目前的发展阶段,工作流型智能体更加实用。基于强化学习的自主智能体还需要较长时间的探索,而未来的智能体还需要更多的时间去探索。”直到前者被广泛使用并为后者的实践提供大量数据后,它才真正流行起来。 “在实际工程权衡下,企业可以更加现实一些,”郭伟表示,“控制力非常重要,尤其是在TOB场景下。”用户真正关心的是结果,并不关心采用哪种技术路径来实现,是rag、agent+rag,还是单独的agent。因此,未来的模式更有可能是“代理+拉格+传统工作流程(或RPA)”的组合。 “这个模型可以结合使用大规模模型和代理来处理人类交互并理解用户的意图,同时确保确定性。”主代理其功能是做出分工决策,知道哪个代理将执行任务,以及将给它什么信息。但在实际实施阶段,往往是通过工作流来完成,RAG也可能不参与。既然幻觉无法消除ved,尽量不要使用它们。张森森也认为,这是一个非常务实的解决方案,“目前大多数公司都在使用这种方式”。 ”郭W继续解释道,“之所以这么分工,是因为我们意识到现场大模特和经纪人解决的最重要的问题必须交付。 “大多数情况下,人们很难准确地表达自己的需求,必须通过与大模型的多轮沟通,逐步明确‘自己想要什么’。传统软件和SaaS无法完成这种深度、多轮次、要求极高的挖掘。这种能力无论是在C的情况下,还是现在更注重结果的更好代理的情况下,都同样重要。处理一些原本例行公事、工程化、重复性的任务,发挥更大的价值 在交互中,比如与客户交谈,深入了解需求,并据此设计出完整的解决方案思路,然后设计制定实施路线图或工作流程。 “基于此,郭伟认为,代理未来的发展分为两个阶段。第一个阶段是解决原来领域中工具所服务的业务场景,只有在这些场景中实现更高的便利性,解决更明显的痛点,才能在沟通方式和技术能力上有新的突破。”第二阶段,在实现场景足够深入之后,需要找到一个创新的入口 “就像我们做新闻的时候,今日头条找到了一个新的切入点。”“目前国内外还没有一款满足以上两点的代理应用。”薛兆明表示,“行业内那些代理产品的介入,在人机交互方面还是有难度的。” OpenAi还提出,2025年将是上下文工程元年,交互能力是重要的上下文理解上限能力。当然,路线之间也存在冲突,比如是更多地依赖用户上下文还是让模型自己解决。场景,对于需要什么还没有达成共识。目前总体情况还比较盲目,围绕技术更新已经做了很多尝试,而TOB场景已经有了比较明确的优先方向。张森森说,“目前企业内部最紧急的代理申请情况有3种。”首先,跨系统编排和自动化。例如,通过自然语言连接ERP、CRM、知识库、工单等业务系统。目前,许多代理只能执行会话式查询,并没有形成完整的自动执行链。因此,由于缺乏可视化的安排和审批机制,企业不敢把基本任务交付到心里。 》第二,知识问题和知识答案与决策——制作。 (以前称为chatbi)。主要能力包括半自动或全自动数据分析和报告生成;了解业务内部BI系统的数据模型;自动编写SQL或调用数据分析API; “但目前的情况是,很多产品只实现了‘表格分析+自然语言表格生成’,生成的数据需要大量的人工校对,往往‘耗费半条命’,成本极高,严重影响实用性。” 语义层面,仍处于“玩具”阶段。此时,大多数客户只是抱着“尝鲜”的心态来尝试。这种模式无法充分释放数据的价值,无法支撑移植一个真实的代理生态系统。 “实现理想的数据代理架构有两个主要挑战。”首先,底层数据处理的复杂性。底层系统中有数千种不同的数据源,将数据转换为大型模型可以理解的上下文是一项繁琐而复杂的任务。大模型本身并不能直接完成“脏活儿”,需要专业人士的长期积累和处理能力。 “第二,数据的参与和转换。需要利用大型模型的交互能力,为其配备语言和语言处理能力,将需求转变为对底层数据的精确调用。这需要在wikia中的上层需求与底层数据结构之间建立良好且准确的映射,这也是一个艰巨的挑战。语言可以快速完成任务,即使没有自然语言输入t。只需提供所需的SQL或数据描述,系统即可自动生成完整的工作流程。这种功能可以真正解决用户的痛点。 “只有代理产品能够解决这类基本情况的问题,企业才会愿意付费并推动大规模部署。”总体来说,未来代理赛道无论是TOC方向还是TOB方向还有很长的路要走。王贤总结道,“在目前的大环境下,大家还是想赚一波快钱,这确实是一个双赢的局面,就是资本方想赚快钱,而企业等机构也希望帮他们讲一个AI的故事。”对于个人来说,在这种氛围的影响下,他们进入了焦虑模式,如果没有人工智能就活不下去,然后每个人都努力为人工智能而努力。当然,这只是小胜,绝对算不上大胜。后t本轮泡沫消退,企业热情消退,大家会更加冷静地看待。我估计还需要一到两年的时间。对于TOC赛道整体,张森森认为,“目前通用消费级代理商只能靠融资生存,商业化路径还没有走完。”那么,初创企业如何抓住机遇呢?关于企业家的方向选择,目前有一个理论是“为大模式的最后一公里发展”。比如,当医疗、法律等流程达到95分时,就让大模型接手,取代人。可能是创业者当前的选择,也可能是大企业的无奈转移。王文广认为,“这个选择对人类来说并不性感,人类会达到95%,然后被AI取代。效率提高十倍以上。”王楠也认为,初创公司仍然需要依靠速度来构建护城河,而在同时,也要认真开发产品。例如,genspark在其产品中推出的改进策略包括:引入专业数据源、并行搜索、多智能体交叉验证、专家分析先手多个智能体以确保准确性、通过先发优势掌握大量数据。 Genspark的做法基本上是市场上认真做代理商搜索和深度研究产品的公司的常见做法。对于genspark和confusion来说,对于Y这样的公司来说,核心市场仍然是通用搜索,因此控制数据和搜索能力是自然的选择。相比传统搜索巨头,初创公司在产品差异化速度和执行能力方面也具有优势。随着大模型能力的加持和时间的流动,我们将会看到更多的小公司迅速崛起,抢走大公司的蛋糕。人工智能企业家Li Feng 如此认为,“从技术角度来看,TOC 代理的护城河就是大模型本身。要与 ChatGPT 竞争,首先必须有一个可以竞争或超越 Chatgpt 的大模型。显然,Manus 没有。为了避免竞争,只能在场景层面做小而美的事情,选择一个或几个主场景,实现真正的可靠性和效率。”在工程层面,Genspark 确实做实事,打造了一个 基于交互需求的高度复杂且精心编排的隐式工作流系统。他们利用先发优势,快速开发和完善这个复杂的系统,从而形成事实上的护城河。设计、实施和调整这样一个包含多个模型、工具和数据源的复杂工作流程系统需要大量的工程和时间投资。 “即使基础模型公司做得再好,也需要做同样的工作。如果隐含的工作流程系统很复杂,或者应用层代理初创公司从尾部产品入手。”而生态。“长尾场景虽然用户基数较小,但有独特的需求和尖锐的痛点。当用户的痛点较高时,他们对不完美的解决方案的容忍度更高。即使只是部分缓解,用户的感受也是显而易见的。而尾部解决方案可以产生更强的屏障。由于这些情况需要结合高度专业化的数据,甚至涉及那些内部流程和工具,积累的知识和技术很难用通用模型来重现。长期复发后,还可以蔓延到相似的场景,逐渐形成护城河。 “比如 Figma 最初并不是为了 UI 设计而设计的,而是解决了一个非常强的痛点:在线协作,然后扩展到高频产品的需求,最终发展成为行业领导者。Zoom 也遵循了类似的路径。作为代理商,你肯定没有机会。如果你是只要一个人在技术或一般功能上有所不同,你就会很容易被其他人取代或杀死。 “最后回到代理泡沫本身,基于科技行业发展的一般规律,还是需要更加辩证地看待它存在的重要性。郭我们认为代理泡沫是客观存在的,但事实上还不够,“毕竟对于日常使用的SaaS软件和App来说,还有大量的功能没有落地。真正要做代理,还需要更多的泡沫来推动它成熟。这也是一个长期的规律。每一个新兴的创新领域,前期都会受到大量资本的推动,最终一些初创公司和创意会存活下来。”薛兆明表示,“肯定是代理泡沫的存在带来了突破。渗透与融合。 ', 'AI Agent技术能否为这个2倍或2倍的问题提供新的解决方案比现有解决方案好 10 倍? '还有其他问题。 “‘先做’并不完全矛盾。” “但从长远来看,只有这种基于行业真实、深层痛点的思考,才能找到真正重要、有护城河的落地场景。”现有所谓代理商的重组应该会在未来三到五年内发生。 “整个行业最终都会走向绝代代理人的时代。所以,不管你怎么活(靠融资生存也是一种很好的活法),最重要的是能够走向未来。你我都不知道未来有什么潜在的突破,但只要活到那个时候,我们就有机会。而且应用程序会嵌入模型,成为某种形式的代理人。”在AGI/ASI到来之前,请注意, AGI或ASI是前提。基于大型模型的智能代理的成功具有很高的可能性,不属于“平台”公司那些试图用总代理解决所有问题的公司,而是那些能够将这个领域深度整合为业务能力,生产出该领域具有智能决策和自然语言交互的专业软件的公司。泡沫不一定是坏事,真正的长期投资者可以利用泡沫来实现增长。但只有回答“它是谁、在哪里使用、以什么方式稳定运行”,我们才能克服喧嚣,进入一个可用的现实。撰文:刘大谷 编辑:大比 如果您觉得这篇文章不错,请回搜狐查看更多