⚡ AgentUpdate 技术博客

Gemini 3.5 深度拆解:Google 的“数字员工”正式上岗了

Gemini 3.5 深度拆解:Google 的“数字员工”正式上岗了
目录

这次 Google I/O 2026 结束以后,我坐在电脑前发了很久的呆。作为一名写了二十年代码的老兵,我最直观的感觉是:AI 的“聊天时代”结束了,“打工时代”正式开始了。

很多人看到 Gemini 3.5 Flash 发布,第一反应可能是:“哦,又升版本了,模型更聪明了吧?”但如果你仔细翻完所有的技术文档,你会发现 Google 这次想做的根本不是一个更聪明的聊天框,而是一个能 24 小时在线、能操作你电脑、能帮你跑业务流程的智能体 (Agent)

今天咱们不聊那些虚头巴脑的参数,我用大白话带大家拆一拆,Gemini 3.5 到底凭什么说它能当你的“数字员工”。

1. 什么是智能体 (Agent)?为什么它比聊天重要?

在聊 Gemini 3.5 之前,咱们先搞清楚一个核心概念:智能体 (Agent)

以前我们用 AI,逻辑是“问答式”的:你问一句,它答一句。这叫助手。而现在的 Gemini 3.5 追求的是“行动式”的:你给它一个目标(比如:帮我调研 10 家竞品并写一份对比报告),它自己去搜索、去点开网页、去整理文档、去发邮件。这叫智能体 (Agent)

为了实现这种“像人一样干活”的能力,Gemini 3.5 引入了几个狠角色:

  • 深度思考 (Deep Think):以前 AI 是“脑筋急转弯”,想都不想就秒回。现在它会像人类高手一样,在回答前先在脑子里打几个草稿,对比不同的假设,选出最优解。这在技术上叫多路径推理 (Multi-path Reasoning)
  • 电脑操作 (Computer Use):这是最“恐怖”的。Google 的 Project Mariner 让 AI 拥有了“手”。它能看懂你的屏幕,自己去点网页、拖拽文件、操作 App。它不再是躲在 API 后面的代码,而是能直接接管你电脑的“代驾”。
  • 思维保留 (Thought Preservation):以前多轮对话,AI 容易“聊着聊着就忘了”之前的思考逻辑。现在它能记住中间的推理路径,确保在执行复杂任务时不会断片。

2. 开发者必看:Gemini 3.5 的“新规矩”

如果你是开发者,想把 Gemini 3.5 接进自己的系统,这次的 API 变化非常大。Google 不再让你猜心,而是把控制权交给了你。

思考等级 (Thinking Level)

现在的 API 引入了分层设计,你可以根据任务的难易程度和预算来选:

等级 场景 优势
Minimal 简单聊天、快速问答 极速、极省钱
Medium (默认) 大多数 Agent 任务 性能与成本的平衡点
High 硬核数学、复杂代码重构 逻辑最严密,但稍慢

核心代码示例:如何调用 Gemini 3.5 执行任务

下面是一个典型的 Python 调用示例,注意看我写的注释,这涉及到 Gemini 3.5 最核心的 API 变动:

python import google.generativeai as genai

配置你的 API Key

genai.configure(api_key="YOUR_GEMINI_API_KEY")

初始化模型,注意模型名已经更新为 gemini-3.5-flash

model = genai.GenerativeModel('gemini-3.5-flash')

发起对话请求

response = model.generate_content( "帮我分析这段遗留代码,并给出重构建议", generation_config={ # 新增的 thinking_level 参数,medium 是大多数场景的最优选 "thinking_level": "medium", # 3.5 版本不再推荐手动调节 temperature,模型会自动根据任务优化 } )

打印 AI 的思考过程(如果开启了思维保留)

if response.candidates[0].thought: print(f"AI 的思考路径: {response.candidates[0].thought}")

print(f"最终建议: {response.text}")

注意:在 3.5 中,Function Calling(函数调用)变得更严格了

每一个 FunctionResponse 必须携带唯一的 ID,且名称必须完全匹配,否则模型会直接报错

3. 业务流程是如何被 Gemini 3.5 跑通的?

很多企业老板问我:“这东西到底能帮我省多少钱?”

以往的自动化(比如 RPA)是死板的,你得写好“第一步点哪,第二步点哪”。一旦网页改版,程序就挂了。Gemini 3.5 的逻辑是语义驱动的自动化。它能理解“开户”、“报销”这些业务逻辑,自己去适配不同的界面。

我们可以通过这个 Mermaid 流程图来看看一个典型的“AI 员工”是如何工作的:

mermaid graph TD A[接收任务: 处理客户开户材料] --> B{任务拆解} B --> C[步骤1: 从邮件下载附件] B --> D[步骤2: 使用 OCR 识别证件信息] B --> E[步骤3: 登录企业 CRM 系统录入]

C --> F[执行中...]
D --> F
E --> F

F --> G{结果校验}
G -- 失败 --> H[深度思考: 为什么录入失败?]
H --> E[修正录入策略并重试]
G -- 成功 --> I[发送结果通知给人工审核]
I --> J[任务闭环]

4. 价格:涨了 6 倍,但为什么大家还说“香”?

这里有个争议点:Gemini 3.5 Flash 的价格比之前的 3.1 Flash Lite 贵了整整 6 倍。输入 1M token 要 1.5 美元,输出要 9 美元。

作为老兵,我想说:别只盯着单次调用的单价看。

  1. 效率提升:3.5 Flash 的输出速度比竞品快 4 倍。在 Agent 场景下,时间就是金钱。
  2. 成功率提高:以前便宜的模型,跑 10 步流程可能断 3 次,你得反复重试(Retry),重试也是要钱的。3.5 更加稳定,一次跑通的概率大,算下来单次任务成功成本 (Cost per Task Success) 反而可能更低。
  3. 上下文窗口 (Context Window):它支持 1M token 的超长输入。你可以把一整本厚厚的员工手册或者整个项目的源码全塞进去,它不会“断片儿”。

💡 总结提炼 / 写在最后

Gemini 3.5 的发布,标志着 AI 正在从“玩具”变成“工具”。如果你还在纠结怎么写提示词 (Prompt) 让它写诗,那你可能真的落伍了。现在你应该思考的是:

  1. 哪些重复性的数字劳动可以交给 Agent? 比如发票报销、简历初筛、代码迁移。
  2. 权限管理 (Permission Isolation) 是重中之重:既然 AI 都要操作你电脑和企业系统了,千万别给它“超级管理员”权限。一定要在受控的沙箱环境里运行。
  3. 不要迷信全自动:现阶段最靠谱的方案是 Human-in-the-loop (人工在环)。让 AI 跑完流程,最后一步由人来点“确定”。

总的一句话:模型变强只是表象,AI 开始连接真实世界、执行真实任务,才是这波浪潮里最硬核的变化。 各位同行,准备好迎接你的 AI 同事了吗?

✨ 继续阅读

Claude Computer Use 全攻略:让 AI 真正接管你的桌面

Claude Computer Use 全攻略:让 AI 真正接管你的桌面

深度拆解 Anthropic 重磅推出的 Computer Use 功能。我们将从技术原理(视觉驱动 vs 代码驱动)讲到实战应用(E2E 测试、跨应用自动化),再到开发者最关心的避坑指南。无论你是想解放双手的打工人,还是想构建下一代 Agent 的开发者,这篇长文都能带你从小白进阶到老司机。

✍️ Eric w 📅 2026年5月19日
装上 OpenWolf,Token 消耗直接砍掉 80%

装上 OpenWolf,Token 消耗直接砍掉 80%

Claude Code 虽好,但“金鱼脑”导致的重复读文件会让 Token 账单瞬间爆炸。本文深度拆解开源中间件 OpenWolf,教你如何通过 6 个 Hook 脚本给 AI 装上持久化记忆,实测最高节省 80% Token,让你的 AI 编程既聪明又省钱。

✍️ AgentUpdate 📅 2026年5月19日