📍 39.105.163.190
📱 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36
🔗 /15527649518.html
📄 就在今天,字节方面宣布豆包专业版上线。标准版连续包月68元,加强版200元,高级版500元。标准版里,专家模式、办公任务模式等功能额度是免费版的5倍以上;加强版额度是标准版的4倍;高级版额度是标准版的10倍。 豆包收费的消息传出以来,有一个问题在业内和用户间的讨论就没有休止过:豆包专业版到底值不值得付费?为了参与这场讨论,字母AI第一时间实测了一下同步上线的办公模式。测评的基础逻辑很简单:一个普通打工人临时接到活,能不能让豆包先出一版材料;一个行业研究任务,能不能让豆包搭出框架和表格;一个更复杂的动态问题,能不能让2.1 Pro跑出一套长链Agent工作流。不过,我们尚无法体验到完全体”专业版”豆包,由于尚未全量同步到所有用户,在豆包Web端,我们能稳定体验到的是免费的办公模式,也就是2.1 Turbo驱动的版本。因此,这次测试分成两部分。第一部分,测试现在普通用户就能用到的免费办公模式。我们让2.1 Turbo完成两份办公任务:一份戛纳创意节AI营销复盘,一份Siri AI端侧Agent行业研报。第二部分,补测2.1 Pro的长链能力。我们把2.1 Pro接入OpenClaw,给它一道最近很多Agent都会遇到的题:预测世界杯冠军。和以往的Agent赛前预测世界杯的逻辑不同,而是要求它把夺冠概率、晋级路径、单场预测、战术阵型和预测逻辑做成一个动态看板。打工人的豆包,到底能不能担起这份职责呢?A第一组测试从一个临时办公任务开始。 在这次任务中,豆包的设定是广告公司策略实习生,负责撰写一份关于“2026戛纳创意节AI营销复盘”的文档。该复盘需要涵盖过去一周戛纳创意节中关于AI营销、Agentic AI、创意自动化、内容生产、广告效果评估的信息,并产出四类内容:600字中文复盘文档、一张趋势表、6页PPT以及一段100字老板微信汇报。 在办公模式下,豆包没有只给一段总结,而是将任务拆分成了文档、表格、PPT和微信汇报四个交付物。生成的文档标题为《2026戛纳创意节AI营销复盘》,结构分为“今年戛纳在讨论什么”、“AI营销从哪里变了”、“品牌方最关心什么”、“广告公司应该怎么跟”。 与此同时,还提供了我们要求的PPT,一共6页,覆盖核心议题、创意生成与媒介投放、数据洞察与内容资产、品牌方关切、广告公司策略等内容,并带有讲稿备注。 趋势表则把内容拆成“趋势、代表案例/观点、对应岗位、可落地动作、风险点”。而那段需要提供给老板的微信汇报,豆包给出的原文是:“老板,刚整理完2026戛纳创意节AI营销复盘。今年AI从工具升级为创意基础设施,新增AI Craft奖项,Agentic AI成全场焦点。四大变化:创意从辅助到核心、媒介从人工到AI代理、数据从描述到因果、内容从项目到资产。品牌最关心ROI、创意疲劳和合规。建议尽快搭建AI创意体系,从卖创意转向卖能力。” 它的信息点完整,覆盖了趋势、变化、品牌关切和建议。但是对于汇报的场景的理解没有完全到位,更适合作为素材使用,不适合原封不动地发给老板。 总的来说,依托一个并不详细的prompt,豆包还是凭空给出了一套文档、表格和PPT,满足了0-1的需求。但只看产出的质量,2.1 Turbo驱动的Agent也存在一定短板。部分案例没有明确来源标注,PPT里有模板污染,表达有时偏口号化。总的来说,它能节省从0到初稿的时间,但不能跳过人工校对和改写。 第二组测试换成行业研究任务。这一次,豆包围绕“WWDC 2026后Siri AI入局端侧Agent”写一份中文行业研报。Prompt要求最终交付物包括1500字研报、竞品对比表、产业影响表、老板版摘要和研究员核验清单。 豆包给出的研报题目是《Siri AI入局,端侧Agent会重写手机入口吗?》。正文结构包括事件概述、Siri为什么从语音助手变成端侧Agent、端侧Agent核心竞争维度、苹果优势和短板、对App和手机厂商的影响、未来6个月观察指标。 它给出的核心判断是:端侧Agent大概率会成为手机AI主入口,但不会完全替代App,更可能形成”Agent调度层+App执行层”。这份产出的优点是框架感强。它能把一个技术事件拆成赛道、竞品、产业链影响和观察指标,接近一个初级行业分析师的工作方式。为了让研报看起来更”硬”,豆包生成了一些非常具体的技术信息,例如系统版本、模型参数、厂商能力、地区上线节奏。豆包直接在结果中体现了这些关键信息,但并没有提供可靠信源核验。两轮免费办公模式测试放在一起看,完成情况基本可以满足一个初稿框架级别。戛纳复盘任务中,豆包强项在多格式产出。文档、表格、PPT、微信汇报都能完成,且结构完整。Siri研报任务里,豆包强项在问题定义和框架拆解。 对普通打工人来说,它已经具备了一定的生产力交付能力。对严肃交付的任务来说,拥有更强模型、更多Agent生态的付费专业版也许更合适。目前,专业版里接入2.1 Pro的办公任务模式还没有完全开放。为了测试2.1 Pro在更长链任务里的表现,我们把它接入OpenClaw,给它一个时下非常流行的Agent任务:预测世界杯冠军。但是,我们并没有把这个场景设计成一道普通问答题。如果只是问“世界杯冠军会是谁”,任何模型都可以给出法国、巴西、英格兰、阿根廷等热门答案。但世界杯是动态系统,每一天的比赛和动态信息都会改变接下来的战局情况。因此,我们给2.1 Pro+OpenClaw的任务,是搭一个动态预测看板。它需要生成全局夺冠概率榜、强队晋级路径、小组赛出线概率、当前比赛胜平负概率、战术阵型图、停赛和伤停展示、信息缺口和置信度说明,并且必须把预测逻辑写清楚。最终,它生成了一个运行在本地的网页看板。看板里,全局夺冠概率榜显示,法国以4.5%暂列第一。在这个看板中,强队晋级路径条用分段颜色展示各队从小组出线到夺冠的不同概率。小组赛预测覆盖12个小组、48支球队,绿色标记稳出线,橙色标记有晋级可能。 在单场比赛层面,看板给出了捷克vs墨西哥、南非vs韩国两场比赛的胜平负概率。 捷克vs墨西哥接近五五开,预测为捷克胜37.8%、平24.9%、墨西哥胜37.3%。南非vs韩国则因为南非已有两名主力红牌停赛且已出局,韩国赢球概率被拉高到58.4%。 看板还做了战术阵型板,页面采用绿色草皮背景,球员以圆形卡牌呈现,显示姓氏首字、号码和位置。停赛球员用灰色标记,伤病球员用红色标记,客队阵型自动翻转,形成类似足球游戏开赛前阵型展示的效果。 简单来说,2.1 Pro拿出了一版完成度还不错的网页产品搭建流程,而且分析链路有多个维度,确保客观性和科学性。它的单场比赛评分采用7个维度:基础实力、近期状态、核心球员、阵容完整度、战术对位、战意压力、赛程体能。每个维度都有固定权重。两队综合得分差再换算成胜平负概率。信息缺口越高,球队总分和置信度越低。全局世界杯预测采用2000次蒙特卡洛模拟。它先基于48支球队的基础实力分,模拟小组赛循环结果,随后模拟淘汰赛,统计每支球队进入32强、16强、8强、半决赛、决赛和最终夺冠的频率。当然,如果从真实产品角度看,它还有一些缺陷。比如,数据源还没闭环。当前基础实力分是预设值,伤停和停赛也需要继续接入实时来源。再比如,赛制模拟还不够细。它用了2000次蒙特卡洛模拟来算晋级概率,但淘汰赛对阵目前仍是简化处理,这里多少有一点偷懒的成分。可如果你把它当成一个协助你做原型的Agent, 2.1 Pro+OpenClaw还是能够胜任的。尤其是,我们这里体验的是原生OpenClaw版,如果收费版有更多豆包原生的Skill生态,对于类似模糊需求的评估和匹配,可能会做得更到位。值得一提的是,这个看板搭建任务进行了2-3轮微调,总计缓存命中超过1000万tokens,加上输入输出的用量,大概花费了25块钱。 豆包专业版的收费背后,是过去一年,AI产品的付费逻辑已经变了。用户最早为更强模型付费,后来为更高额度付费,现在付费理由开始和工作流挂钩。谁能把模型塞进一个具体任务,谁就更有资格收费。作为最早收费的原生AI产品之一,OpenAI在ChatGPT上的变化很值得参考。 在ChatGPT的付费页面上,Plus版本对应“高级工作和生产力”,提供更深入的Deep Research和Agent模式;Pro版本则专注于研究和编程,并提供更多Codex任务、Deep Research和Agent模式。 对于企业用户,OpenAI今年为ChatGPT Enterprise增加了用量分析和支出控制功能。Anthropic更进一步,将Agent集成到企业的工作台。最近,Claude Tag进入Slack,表明Anthropic希望Claude能融入团队协作流程中。用户可以在群聊中@Claude,让它执行上下文理解、拆解任务和提示重要更新等操作。重点在于Claude能否适应高频工作的Slack环境。 在国内,大模型独角兽Kimi已经将会员价格设定在49元至699元不等,豆包并非唯一瞄准C端商业化的AI公司。豆包的专业版也采取类似的策略。68元、200元、500元三档价格表面上是会员分层,而真正决定用户是否购买的是办公任务、专家模式、AI PPT、AI表格、深入研究、录音纪要等场景是否能稳定产出。 目前,免费用户可以体验2.1 Turbo办公任务模式,专业版则在此基础上增加2.1 Pro和更高额度的任务,实质上是构建从轻量办公到复杂任务的升级路径。这也是我们进行三组测试的原因。 第一个戛纳复盘任务测的是最常见的办公交付,需要将热点信息转化为文档、表格、PPT和老板微信。2.1 Turbo已能生成初稿,但来源标注、语言质感、PPT细节仍需人工处理。另一个Siri研报任务则是研究型任务,需要将技术事件拆解成行业框架、竞品表和产业影响表。同样是免费版,豆包能搭建研究框架,也能给出表格化交付;但事实层面需要更清楚的来源分层。 而我们手搓的2.1 Pro龙虾,其搭建的世界杯看板测的是更长链的Agent任务。对于普通用户来说,完成一个产品的原型搭建已经不成问题。 从目前的情况来看,豆包专业版的收费策略要经过三道关:第一道是“效率关”,即用户付费后,必须明显减少从0到1的工作,初稿级任务后如何进一步持续修正,需要收费模式提供更好的Skill生态和长链任务的稳定性。 第二道关卡,是“复杂场景”。免费版能做的东西,专业版要做得更深,也更垂直。2.1 Turbo如果已经能完成普通办公初稿,2.1 Pro就必须能理解更多的复杂业务场景。 第三道关,是“稳定交付”。AI产品从尝鲜走向付费,最难的是稳定。事实是否可追溯、表格是否能继续编辑、任务是否能中断后恢复,尤其是高频付费用户,对于稳定性的要求只会更高。 简单来说就是,办公交付比聊天更容易被挑错。豆包收费版的定价不能仅仅是模型能力的升级,更应该有产品体验层面的正反馈。 从我们的测试结果来看,新一代模型和办公模式下的豆包,还是收获了及格以上的正反馈,但一个人工规划的测试集,显然无法替代真实工作中的复杂业务需求。 接受万千普通用户的检验,在争议和反馈中不断优化Agent使用体验,这将是豆包乃至所有想要打造收费版AI产品的必经之路。 特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。