0成本实现最强浏览器AI智能体阿里Mobile Agent实战保姆级教程带你从0到1轻松实现办公自动化（数据隐私安全| 永久免费) | Hex-电脑课堂

Hex-电脑课堂·Apr 13, 2026

Audio Summary

AI Summary

本视频详细介绍了如何部署和使用一个基于Alibaba的智能应用，特别关注其在浏览器上的多平台应用。该应用能够通过AI分析屏幕内容，并自动执行一系列任务，如搜索信息、创建表格等。 **核心功能演示：** 视频首先展示了一个实际的应用场景：搜索股票价格并创建WPS表格。 1. **信息获取：** 应用能够识别出“苹果”股票价格高于250美元，并准确获取“英伟达”股票价格为182.81美元。 2. **自动化操作：** 应用随后自动打开WPS，创建新表格，并将获取到的股票数据（如苹果股价约250元，英伟达股价182元）准确填入。 3. **本地保存：** 最后，该应用会将生成的表格保存到本地。 **部署与配置步骤（聚焦浏览器端）：** 视频详细讲解了在WSL2环境下部署该应用的过程，并重点说明了浏览器端的操作。 1. **环境准备：** * **硬件要求：** 提到16GB显存是重要考量，影响可运行的模型大小（例如，只能支持4B模型）。 * **WSL2设置：** 强调了在WSL2（Ubuntu 24.04）环境中进行操作。介绍了安装WSL2的命令，并建议如果已安装旧版本，需先卸载再重新安装。 * **Miniconda安装：** 指导用户下载并安装Miniconda，通过bash命令执行安装脚本，并激活配置文件，最后验证conda版本。 * **项目克隆：** 使用Git命令将项目代码克隆到本地。 * **HuggingFace模型下载：** 在本地创建一个文件夹，用于下载HuggingFace模型。根据显存限制，选择合适的模型（如4B模型），并提供下载命令。强调模型名称和本地文件夹路径的准确性。下载过程可能需要10-20分钟。 * **Python环境与依赖：** 创建虚拟环境（Python 3.12），激活环境，并安装所有必要的Python依赖库。 2. **浏览器端特定配置：** * **Playwright安装：** 强调了正确安装Chrome Playwright的重要性，这是控制浏览器的核心工具。整个安装过程可能耗时约半小时，并提供了加速下载的命令。 * **Windows与WSL2的交互：** 这是一个关键且容易出错的环节。 * **文件迁移：** 需要将WSL2中的`brow`用户文件夹内容复制到Windows本地。这是为了确保浏览器在Windows本地而非WSL2环境中打开。 * **Windows命令行操作：** 在Windows的CMD中，需要先激活WSL2中已创建的虚拟环境。 * **API配置：** * **本地模型API：** 强调使用的是本地VLLM大模型，需要配置API。对于Windows，需要自定义API密钥；Linux用户也可参考相关指令。 * **环境变量持久化：** 为了避免每次启动都配置API，建议在Windows项目文件夹下创建`.env`文件，并将API配置写入其中。 * **IP地址配置：** 这是解决客户端与服务器通信的关键。 * **Windows视角：** 使用`hostname -i`命令获取WSL2的IP地址。 * **Linux视角：** 使用特定命令获取Windows的IP地址。 * **重要性：** 错误的IP配置可能导致502错误，无法处理客户端请求。获取到的IP地址需要配置到服务提供商的设置中。 3. **配置文件详解：** * **任务配置：** 介绍了与任务相关的参数，如`task`（定义具体任务）和`web`（指定首次打开的网址）。 * **截图处理：** `DIR`参数用于指定保存截图的文件夹，这些截图将用于大模型分析。 * **Agent配置：** * **模型选择：** 指定使用的本地模型（如4B模型）。 * **基础URL：** 配置与本地服务器连接的URL（端口8000）。 * **图片格式：** 讨论了`Base64`、`file`和`OSS`等图片格式，并指出`Base64`在处理速度上可能较慢，`file`格式（本地文件路径）速度更快，但模型和脚本需在同一机器上运行。 * **Max TOKEN：** 设置最大上下文长度，默认为2048，可根据需要调整。 * **浏览器参数：** * **`use_css_selector`：** 指示模型使用CSS选择器来定位元素，速度更快，资源占用少。 * **`use_omi_selector`：** 另一种元素识别方式，可能更精确，但对内存和速度要求更高。 * **`headless`：** 无头模式，用于生产环境以节省资源。演示时会关闭此选项，以便观察浏览器行为。 * **`highlight_mouse`：** 鼠标高亮功能。 4. **服务器与客户端部署：** * **服务器启动：** 使用Python命令启动服务器，指定模型路径、模型名称（如4B模型）、性能管理参数（如上下文长度24576）、GPU使用率、并发请求数（建议5个）等。 * **客户端执行：** * **API地址：** 强调了API地址需要包含基础URL、端口号（8000）以及`/v1`的路径，以兼容OpenAI的API格式。 * **任务修改：** 演示了如何修改项目中的`agent.py`脚本，以实现自定义任务，例如查询GitHub仓库的“star”数量。这需要修改函数的返回逻辑，使其能够输出所需信息。 * **执行命令：** 启动客户端执行命令，通过浏览器打开网页，执行搜索、数据提取等操作。 **实际案例演示：** 视频展示了两个具体任务的执行： 1. **查询GitHub仓库的“star”数量：** 应用成功搜索到GitHub项目，并准确提取出“star”数量为76.2k，整个过程约20秒。 2. **搜索VLLM信息并查找“Issue”：** 应用通过Bing搜索VLLM，进入GitHub仓库，并定位到“Issue”标签页，提取出相关信息，如某个Issue的标题。 **总结与展望：** * **关键考量：** * **显卡算力：** 显存大小决定了可运行的模型规模，算力越强，可运行的模型越大，效果越好。 * **任务分解：** 将复杂任务分解为更小的、清晰的指令，有助于模型更好地执行。 * **错误处理：** 该框架具备自动纠错机制，即使出现小错误，最终也能完成任务。 * **隐私保护：** 使用本地大模型，无需担心API调用和数据隐私问题。 * **未来优化方向：** * **多Tab并行：** 当前浏览器端一次只能处理一个Tab，未来可优化为支持多Tab并行处理。 * **跨Tab交互：** 增强不同Tab之间的信息交互能力。 * **与商业API兼容性：** 解决本地模型与外部商业API（如Kimi）集成时的兼容性问题，以充分发挥模型能力。 * **用户友好界面：** 考虑开发集成化工具，提供图形界面，让普通用户无需手动输入命令即可配置和执行任务。 * **移动端与语音控制：** 探索通过移动端发送指令，并结合语音识别，实现更便捷的远程控制。总而言之，该视频为用户提供了一个全面、详细的部署和使用指南，展示了Alibaba智能应用在浏览器端的强大功能，并指出了未来的发展潜力和优化方向。