📑 资源名片
💡 核心摘要:Gemini Browser Agent 是一款开源浏览器扩展,将 Google Gemini 的 Computer Use 能力直接注入 Chrome,无需沙盒或虚拟机即可让 AI 自动点击、输入、滚动等,彻底解放重复性浏览操作。
🏷️ 标签集锦:
Gemini Browser Agent浏览器自动化Chrome扩展Gemini Computer UseAI操作浏览器
Gemini Browser Agent浏览器自动化Chrome扩展Gemini Computer UseAI操作浏览器
引言:还在手动填表、刷网页?是时候让 AI 替你操作浏览器了!
🌟 核心亮点
- 零环境依赖:利用 Gemini Computer Use API,直接在真实浏览器中执行动作,告别沙盒与虚拟机。
- 屏幕截图+事件流:实时分析标签页截图,生成点击、滚动、键盘输入等原生浏览器事件,像真人一样操控网页。
- 开源与可扩展:基于 Chrome Extension Manifest V3 构建,代码完全开放,支持接入自定义 workflow 与自动化流程。
🚀 使用指南
- 安装扩展:从 GitHub Releases 下载
.crx文件拖入 Chrome,或通过开发者模式加载解压后的文件夹。 - 配置 API Key:在扩展设置页填入你的 Google AI Studio Gemini API Key(需申请 Computer Use 访问权限),选择模型版本即可开始操控。
💡 站长点评
将 Gemini 的强大多模态推理直接融入浏览器,让自动化不再割裂——虽然还在早期阶段,但已经能瞥见「AI 替你上网」的雏形。
[hide]
https://github.com/pmbstyle/gemini-browser-agent/
[/hide]
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END












