“打开美团,搜索附近火锅店。”“给文件传输助手发消息:部署成功。”——只需口头指令,手机就能自动完成,听起来是不是很酷?
今天,我们关注由智谱AI生态(zai-org)开源的Open-AutoGLM项目(GitHub地址),这是一个创新的手机Agent框架,旨在通过自然语言实现对手机的智能控制。
Open-AutoGLM的核心在于两大支柱:一是其强大的手机Agent框架,它运行在PC端,通过ADB(Android设备)或HDC(HarmonyOS设备)与手机通信。其工作流程形成一个闭环:首先截取手机屏幕,然后由一个视觉模型理解界面内容,接着输出相应的操作指令(如启动应用、点击坐标、输入文本等),最后通过ADB/HDC执行这些操作。二是AutoGLM-Phone系列视觉-语言模型(9B参数),这些模型针对移动界面进行了优化,能够通过智谱大模型、ModelScope API或用户自建的vLLM/SGLang服务进行调用。用户只需简单地说出“打开小红书搜索美食”,Agent便能自动完成整个操作流程。值得一提的是,该框架还支持敏感操作确认和人工接管功能,例如在登录或验证码环节,确保操作的安全性和灵活性。项目广泛支持Android 7.0+及HarmonyOS NEXT设备,已覆盖超过50款Android应用和60款HarmonyOS应用,并可与Midscene.js等UI自动化工具集成。
要深入了解Open-AutoGLM,我们需要掌握以下几个关键点:它的核心定位是“自然语言 → 手机操作”的手机Agent框架与AutoGLM-Phone模型组合;其完整的工作流程包括屏幕截图、视觉模型解析、动作规划、ADB/HDC执行、远程调试以及人工接管机制;环境搭建涉及Python、ADB/HDC配置、开发者选项以及ADB键盘设置;模型获取和部署方式,包括使用智谱/ModelScope API或自托管vLLM/SGLang服务;以及支持的应用范围、可用操作和二次开发结构。
上手该项目需要一些基础知识:熟悉Python 3.10+、pip和虚拟环境;了解ADB或HDC的基本概念(设备连接、命令执行)。如果选择自托管模型服务,还需要具备GPU和vLLM/SGLang的基础经验;若使用云API,则仅需申请API密钥。
总结来说,Open-AutoGLM集成了开源的手机Agent框架和AutoGLM-Phone视觉-语言模型,旨在实现“用自然语言控制手机”的目标。用户在电脑上输入指令后,Agent通过ADB或HDC控制手机,结合多模态屏幕理解和规划能力,自动完成打开应用、点击、输入、滑动等一系列操作。框架内置了敏感操作确认和人工接管(例如应对登录、验证码),并支持WiFi/网络远程调试,无需全程物理连接。模型方面,提供了针对中文优化的AutoGLM-Phone-9B和多语言版本AutoGLM-Phone-9B-Multilingu。