
0成本实现最强浏览器AI智能体 阿里Mobile Agent实战保姆级教程 带你从0到1轻松实现办公自动化(数据隐私安全| 永久免费) | Hex-电脑课堂
Audio Summary
AI Summary
本视频详细介绍了如何部署和使用一个基于Alibaba的智能应用,特别关注其在浏览器上的多平台应用。该应用能够通过AI分析屏幕内容,并自动执行一系列任务,如搜索信息、创建表格等。
**核心功能演示:**
视频首先展示了一个实际的应用场景:搜索股票价格并创建WPS表格。
1. **信息获取:** 应用能够识别出“苹果”股票价格高于250美元,并准确获取“英伟达”股票价格为182.81美元。
2. **自动化操作:** 应用随后自动打开WPS,创建新表格,并将获取到的股票数据(如苹果股价约250元,英伟达股价182元)准确填入。
3. **本地保存:** 最后,该应用会将生成的表格保存到本地。
**部署与配置步骤(聚焦浏览器端):**
视频详细讲解了在WSL2环境下部署该应用的过程,并重点说明了浏览器端的操作。
1. **环境准备:**
* **硬件要求:** 提到16GB显存是重要考量,影响可运行的模型大小(例如,只能支持4B模型)。
* **WSL2设置:** 强调了在WSL2(Ubuntu 24.04)环境中进行操作。介绍了安装WSL2的命令,并建议如果已安装旧版本,需先卸载再重新安装。
* **Miniconda安装:** 指导用户下载并安装Miniconda,通过bash命令执行安装脚本,并激活配置文件,最后验证conda版本。
* **项目克隆:** 使用Git命令将项目代码克隆到本地。
* **HuggingFace模型下载:** 在本地创建一个文件夹,用于下载HuggingFace模型。根据显存限制,选择合适的模型(如4B模型),并提供下载命令。强调模型名称和本地文件夹路径的准确性。下载过程可能需要10-20分钟。
* **Python环境与依赖:** 创建虚拟环境(Python 3.12),激活环境,并安装所有必要的Python依赖库。
2. **浏览器端特定配置:**
* **Playwright安装:** 强调了正确安装Chrome Playwright的重要性,这是控制浏览器的核心工具。整个安装过程可能耗时约半小时,并提供了加速下载的命令。
* **Windows与WSL2的交互:** 这是一个关键且容易出错的环节。
* **文件迁移:** 需要将WSL2中的`brow`用户文件夹内容复制到Windows本地。这是为了确保浏览器在Windows本地而非WSL2环境中打开。
* **Windows命令行操作:** 在Windows的CMD中,需要先激活WSL2中已创建的虚拟环境。
* **API配置:**
* **本地模型API:** 强调使用的是本地VLLM大模型,需要配置API。对于Windows,需要自定义API密钥;Linux用户也可参考相关指令。
* **环境变量持久化:** 为了避免每次启动都配置API,建议在Windows项目文件夹下创建`.env`文件,并将API配置写入其中。
* **IP地址配置:** 这是解决客户端与服务器通信的关键。
* **Windows视角:** 使用`hostname -i`命令获取WSL2的IP地址。
* **Linux视角:** 使用特定命令获取Windows的IP地址。
* **重要性:** 错误的IP配置可能导致502错误,无法处理客户端请求。获取到的IP地址需要配置到服务提供商的设置中。
3. **配置文件详解:**
* **任务配置:** 介绍了与任务相关的参数,如`task`(定义具体任务)和`web`(指定首次打开的网址)。
* **截图处理:** `DIR`参数用于指定保存截图的文件夹,这些截图将用于大模型分析。
* **Agent配置:**
* **模型选择:** 指定使用的本地模型(如4B模型)。
* **基础URL:** 配置与本地服务器连接的URL(端口8000)。
* **图片格式:** 讨论了`Base64`、`file`和`OSS`等图片格式,并指出`Base64`在处理速度上可能较慢,`file`格式(本地文件路径)速度更快,但模型和脚本需在同一机器上运行。
* **Max TOKEN:** 设置最大上下文长度,默认为2048,可根据需要调整。
* **浏览器参数:**
* **`use_css_selector`:** 指示模型使用CSS选择器来定位元素,速度更快,资源占用少。
* **`use_omi_selector`:** 另一种元素识别方式,可能更精确,但对内存和速度要求更高。
* **`headless`:** 无头模式,用于生产环境以节省资源。演示时会关闭此选项,以便观察浏览器行为。
* **`highlight_mouse`:** 鼠标高亮功能。
4. **服务器与客户端部署:**
* **服务器启动:** 使用Python命令启动服务器,指定模型路径、模型名称(如4B模型)、性能管理参数(如上下文长度24576)、GPU使用率、并发请求数(建议5个)等。
* **客户端执行:**
* **API地址:** 强调了API地址需要包含基础URL、端口号(8000)以及`/v1`的路径,以兼容OpenAI的API格式。
* **任务修改:** 演示了如何修改项目中的`agent.py`脚本,以实现自定义任务,例如查询GitHub仓库的“star”数量。这需要修改函数的返回逻辑,使其能够输出所需信息。
* **执行命令:** 启动客户端执行命令,通过浏览器打开网页,执行搜索、数据提取等操作。
**实际案例演示:**
视频展示了两个具体任务的执行:
1. **查询GitHub仓库的“star”数量:** 应用成功搜索到GitHub项目,并准确提取出“star”数量为76.2k,整个过程约20秒。
2. **搜索VLLM信息并查找“Issue”:** 应用通过Bing搜索VLLM,进入GitHub仓库,并定位到“Issue”标签页,提取出相关信息,如某个Issue的标题。
**总结与展望:**
* **关键考量:**
* **显卡算力:** 显存大小决定了可运行的模型规模,算力越强,可运行的模型越大,效果越好。
* **任务分解:** 将复杂任务分解为更小的、清晰的指令,有助于模型更好地执行。
* **错误处理:** 该框架具备自动纠错机制,即使出现小错误,最终也能完成任务。
* **隐私保护:** 使用本地大模型,无需担心API调用和数据隐私问题。
* **未来优化方向:**
* **多Tab并行:** 当前浏览器端一次只能处理一个Tab,未来可优化为支持多Tab并行处理。
* **跨Tab交互:** 增强不同Tab之间的信息交互能力。
* **与商业API兼容性:** 解决本地模型与外部商业API(如Kimi)集成时的兼容性问题,以充分发挥模型能力。
* **用户友好界面:** 考虑开发集成化工具,提供图形界面,让普通用户无需手动输入命令即可配置和执行任务。
* **移动端与语音控制:** 探索通过移动端发送指令,并结合语音识别,实现更便捷的远程控制。
总而言之,该视频为用户提供了一个全面、详细的部署和使用指南,展示了Alibaba智能应用在浏览器端的强大功能,并指出了未来的发展潜力和优化方向。