这次 Google I/O 2026 结束以后,我坐在电脑前发了很久的呆。作为一名写了二十年代码的老兵,我最直观的感觉是:AI 的“聊天时代”结束了,“打工时代”正式开始了。
很多人看到 Gemini 3.5 Flash 发布,第一反应可能是:“哦,又升版本了,模型更聪明了吧?”但如果你仔细翻完所有的技术文档,你会发现 Google 这次想做的根本不是一个更聪明的聊天框,而是一个能 24 小时在线、能操作你电脑、能帮你跑业务流程的智能体 (Agent)。
今天咱们不聊那些虚头巴脑的参数,我用大白话带大家拆一拆,Gemini 3.5 到底凭什么说它能当你的“数字员工”。
1. 什么是智能体 (Agent)?为什么它比聊天重要?
在聊 Gemini 3.5 之前,咱们先搞清楚一个核心概念:智能体 (Agent)。
以前我们用 AI,逻辑是“问答式”的:你问一句,它答一句。这叫助手。而现在的 Gemini 3.5 追求的是“行动式”的:你给它一个目标(比如:帮我调研 10 家竞品并写一份对比报告),它自己去搜索、去点开网页、去整理文档、去发邮件。这叫智能体 (Agent)。
为了实现这种“像人一样干活”的能力,Gemini 3.5 引入了几个狠角色:
- 深度思考 (Deep Think):以前 AI 是“脑筋急转弯”,想都不想就秒回。现在它会像人类高手一样,在回答前先在脑子里打几个草稿,对比不同的假设,选出最优解。这在技术上叫多路径推理 (Multi-path Reasoning)。
- 电脑操作 (Computer Use):这是最“恐怖”的。Google 的 Project Mariner 让 AI 拥有了“手”。它能看懂你的屏幕,自己去点网页、拖拽文件、操作 App。它不再是躲在 API 后面的代码,而是能直接接管你电脑的“代驾”。
- 思维保留 (Thought Preservation):以前多轮对话,AI 容易“聊着聊着就忘了”之前的思考逻辑。现在它能记住中间的推理路径,确保在执行复杂任务时不会断片。
2. 开发者必看:Gemini 3.5 的“新规矩”
如果你是开发者,想把 Gemini 3.5 接进自己的系统,这次的 API 变化非常大。Google 不再让你猜心,而是把控制权交给了你。
思考等级 (Thinking Level)
现在的 API 引入了分层设计,你可以根据任务的难易程度和预算来选:
| 等级 | 场景 | 优势 |
|---|---|---|
| Minimal | 简单聊天、快速问答 | 极速、极省钱 |
| Medium (默认) | 大多数 Agent 任务 | 性能与成本的平衡点 |
| High | 硬核数学、复杂代码重构 | 逻辑最严密,但稍慢 |
核心代码示例:如何调用 Gemini 3.5 执行任务
下面是一个典型的 Python 调用示例,注意看我写的注释,这涉及到 Gemini 3.5 最核心的 API 变动:
python import google.generativeai as genai
配置你的 API Key
genai.configure(api_key="YOUR_GEMINI_API_KEY")
初始化模型,注意模型名已经更新为 gemini-3.5-flash
model = genai.GenerativeModel('gemini-3.5-flash')
发起对话请求
response = model.generate_content( "帮我分析这段遗留代码,并给出重构建议", generation_config={ # 新增的 thinking_level 参数,medium 是大多数场景的最优选 "thinking_level": "medium", # 3.5 版本不再推荐手动调节 temperature,模型会自动根据任务优化 } )
打印 AI 的思考过程(如果开启了思维保留)
if response.candidates[0].thought: print(f"AI 的思考路径: {response.candidates[0].thought}")
print(f"最终建议: {response.text}")
注意:在 3.5 中,Function Calling(函数调用)变得更严格了
每一个 FunctionResponse 必须携带唯一的 ID,且名称必须完全匹配,否则模型会直接报错
3. 业务流程是如何被 Gemini 3.5 跑通的?
很多企业老板问我:“这东西到底能帮我省多少钱?”
以往的自动化(比如 RPA)是死板的,你得写好“第一步点哪,第二步点哪”。一旦网页改版,程序就挂了。Gemini 3.5 的逻辑是语义驱动的自动化。它能理解“开户”、“报销”这些业务逻辑,自己去适配不同的界面。
我们可以通过这个 Mermaid 流程图来看看一个典型的“AI 员工”是如何工作的:
mermaid graph TD A[接收任务: 处理客户开户材料] --> B{任务拆解} B --> C[步骤1: 从邮件下载附件] B --> D[步骤2: 使用 OCR 识别证件信息] B --> E[步骤3: 登录企业 CRM 系统录入]
C --> F[执行中...]
D --> F
E --> F
F --> G{结果校验}
G -- 失败 --> H[深度思考: 为什么录入失败?]
H --> E[修正录入策略并重试]
G -- 成功 --> I[发送结果通知给人工审核]
I --> J[任务闭环]
4. 价格:涨了 6 倍,但为什么大家还说“香”?
这里有个争议点:Gemini 3.5 Flash 的价格比之前的 3.1 Flash Lite 贵了整整 6 倍。输入 1M token 要 1.5 美元,输出要 9 美元。
作为老兵,我想说:别只盯着单次调用的单价看。
- 效率提升:3.5 Flash 的输出速度比竞品快 4 倍。在 Agent 场景下,时间就是金钱。
- 成功率提高:以前便宜的模型,跑 10 步流程可能断 3 次,你得反复重试(Retry),重试也是要钱的。3.5 更加稳定,一次跑通的概率大,算下来单次任务成功成本 (Cost per Task Success) 反而可能更低。
- 上下文窗口 (Context Window):它支持 1M token 的超长输入。你可以把一整本厚厚的员工手册或者整个项目的源码全塞进去,它不会“断片儿”。
💡 总结提炼 / 写在最后
Gemini 3.5 的发布,标志着 AI 正在从“玩具”变成“工具”。如果你还在纠结怎么写提示词 (Prompt) 让它写诗,那你可能真的落伍了。现在你应该思考的是:
- 哪些重复性的数字劳动可以交给 Agent? 比如发票报销、简历初筛、代码迁移。
- 权限管理 (Permission Isolation) 是重中之重:既然 AI 都要操作你电脑和企业系统了,千万别给它“超级管理员”权限。一定要在受控的沙箱环境里运行。
- 不要迷信全自动:现阶段最靠谱的方案是 Human-in-the-loop (人工在环)。让 AI 跑完流程,最后一步由人来点“确定”。
总的一句话:模型变强只是表象,AI 开始连接真实世界、执行真实任务,才是这波浪潮里最硬核的变化。 各位同行,准备好迎接你的 AI 同事了吗?