4月17日,字节跳动旗下火山引擎面向企业市场发布了豆包1.5・深度思考模型,并同步升级了文生图模型3.0和视觉理解模型。此外,还推出了OS Agent解决方案及AI云原生推理套件,旨在帮助企业客户构建与部署Agent(智能体)应用。
技术逻辑上,Agent是此次豆包发布系列产品的重点,而深度思考模型则是其技术底座。在采访中,火山引擎总裁谭待对第一财经记者表示,聊天和信息处理只是AI中的一小部分,要真正为各行各业带来变革,Agent是必经之路。
而深度思考模型正是构建Agent的基础,谭待称,该模型必须具备良好的思考、计划和反思能力,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent才能更好地处理复杂任务。
技术报告显示,豆包深度思考模型采用MoE架构,总参数为200B,激活参数仅20B。该模型还上线了一款深度思考视觉版,具备视觉推理能力,能够像人类一样对看到的事物进行联想和思考。在实际案例中,该模型可以看懂复杂的企业项目管理流程图表,快速定位关键信息;也可以结合地貌特征分析航拍图,判断区域开发可行性。竞品对比环节,根据数学推理AIME 2024测试,豆包1.5・深度思考模型得分追平OpenAI o3-mini-high,编程竞赛和科学推理测试成绩接近o1。
多模态深度思考模型的基础之上,谭待认为Agent需要良好的架构和工具去操作数字世界和物理世界。此次火山推出的OS Agent解决方案便现场演示了由Agent操作浏览器搜索商品页、实现iPhone比价的任务。
模型与工具加速Agent落地的同时,Agent也会带来更大量的模型推理消耗。据火山引擎披露,截至2025年3月底,豆包大模型日均tokens调用量已达到12.7万亿,较去年5月发布时增长上百倍。为应对大规模推理需求,火山引擎打造AI云原生ServingKit推理套件,GPU消耗相比传统方案降低80%。
趋势之下,行业也开始出现Agent泛滥的现象,有厂商自称部署近5000个Agent。谭待认为Agent定义需要更新——简单完成打油诗等任务的已不能称为Agent。从定性角度来看,Agent应能完成专业度较高、耗时较长的完整任务;从技术实现角度来看,如果没有运用思考模型、缺乏反思和规划能力,也很难被认定为Agent。
随着技术落地,今年行业对Agent的定义将会更加清晰,谭待认为或许会像自动驾驶分级一样,对Agent也进行自L1至L4的分级。但整体来看,深度思考模型是构建Agent的基础,模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样。
帮企客致力于为您提供最新最全的财经资讯,想了解更多行业动态,欢迎关注本站。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com