Open-AutoGLM：用自然语言掌控手机的智能Agent框架

“打开美团，搜索附近火锅店。”“给文件传输助手发消息：部署成功。”——只需口头指令，手机就能自动完成，听起来是不是很酷？

今天，我们关注由智谱AI生态（zai-org）开源的Open-AutoGLM项目（GitHub地址），这是一个创新的手机Agent框架，旨在通过自然语言实现对手机的智能控制。

Open-AutoGLM的核心在于两大支柱：一是其强大的手机Agent框架，它运行在PC端，通过ADB（Android设备）或HDC（HarmonyOS设备）与手机通信。其工作流程形成一个闭环：首先截取手机屏幕，然后由一个视觉模型理解界面内容，接着输出相应的操作指令（如启动应用、点击坐标、输入文本等），最后通过ADB/HDC执行这些操作。二是AutoGLM-Phone系列视觉-语言模型（9B参数），这些模型针对移动界面进行了优化，能够通过智谱大模型、ModelScope API或用户自建的vLLM/SGLang服务进行调用。用户只需简单地说出“打开小红书搜索美食”，Agent便能自动完成整个操作流程。值得一提的是，该框架还支持敏感操作确认和人工接管功能，例如在登录或验证码环节，确保操作的安全性和灵活性。项目广泛支持Android 7.0+及HarmonyOS NEXT设备，已覆盖超过50款Android应用和60款HarmonyOS应用，并可与Midscene.js等UI自动化工具集成。

要深入了解Open-AutoGLM，我们需要掌握以下几个关键点：它的核心定位是“自然语言 → 手机操作”的手机Agent框架与AutoGLM-Phone模型组合；其完整的工作流程包括屏幕截图、视觉模型解析、动作规划、ADB/HDC执行、远程调试以及人工接管机制；环境搭建涉及Python、ADB/HDC配置、开发者选项以及ADB键盘设置；模型获取和部署方式，包括使用智谱/ModelScope API或自托管vLLM/SGLang服务；以及支持的应用范围、可用操作和二次开发结构。

上手该项目需要一些基础知识：熟悉Python 3.10+、pip和虚拟环境；了解ADB或HDC的基本概念（设备连接、命令执行）。如果选择自托管模型服务，还需要具备GPU和vLLM/SGLang的基础经验；若使用云API，则仅需申请API密钥。

总结来说，Open-AutoGLM集成了开源的手机Agent框架和AutoGLM-Phone视觉-语言模型，旨在实现“用自然语言控制手机”的目标。用户在电脑上输入指令后，Agent通过ADB或HDC控制手机，结合多模态屏幕理解和规划能力，自动完成打开应用、点击、输入、滑动等一系列操作。框架内置了敏感操作确认和人工接管（例如应对登录、验证码），并支持WiFi/网络远程调试，无需全程物理连接。模型方面，提供了针对中文优化的AutoGLM-Phone-9B和多语言版本AutoGLM-Phone-9B-Multilingu。

Open-AutoGLM：用自然语言掌控手机的智能Agent框架

推荐阅读

Gemma 4与LLM运维：TRL微调、本地推理及显存优化新进展

开放模型竞争升级：Gemma 4时代，成功关键何在？

字节跳动Seedance 2.0深度解析：AI视频超越Sora与Veo