·browser automation
*

browser automation

使用 Midscene 的视觉驱动浏览器自动化。完全通过屏幕截图进行操作——不需要 DOM 或辅助功能标签。无论技术堆栈如何,都可以与屏幕上的所有可见元素进行交互。 通过 Puppeteer(无头 Chrome)为每个目标 URL 打开一个新的浏览器选项卡。 当用户想要执行以下操作时使用此技能: - 浏览、导航或打开网页 - 从网站上抓取、提取或收集数据 - 填写表格、单击按钮或与网络元素交互 - 验证、验证或测试前端 UI 行为 - 截取网页截图 - 自动化多步骤网络工作流程 - 运行浏览器自动化或检查网站内容 由 Midscene.js (https://midscenejs.com) 提供支持

454安装·53热度·@web-infra-dev

安装

$npx skills add https://github.com/web-infra-dev/midscene-skills --skill browser automation

如何安装 browser automation

通过命令行快速安装 browser automation AI 技能到你的开发环境

  1. 打开终端: 打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等)
  2. 运行安装命令: 复制并运行以下命令:npx skills add https://github.com/web-infra-dev/midscene-skills --skill browser automation
  3. 验证安装: 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code、Cursor 或 OpenClaw 中使用

来源:web-infra-dev/midscene-skills。

SKILL.md

查看原文

CRITICAL RULES — VIOLATIONS WILL BREAK THE WORKFLOW: Never run midscene commands in the background. Each command must run synchronously so you can read its output (especially screenshots) before deciding the next action. Background execution breaks the screenshot-analyze-act loop.

Run only one midscene command at a time. Wait for the previous command to finish, read the screenshot, then decide the next action. Never chain multiple commands together.

Allow enough time for each command to complete. Midscene commands involve AI inference and screen interaction, which can take longer than typical shell commands. A typical command needs about 1 minute; complex act commands may need even longer.

使用 Midscene 的视觉驱动浏览器自动化。完全通过屏幕截图进行操作——不需要 DOM 或辅助功能标签。无论技术堆栈如何,都可以与屏幕上的所有可见元素进行交互。 通过 Puppeteer(无头 Chrome)为每个目标 URL 打开一个新的浏览器选项卡。 当用户想要执行以下操作时使用此技能: - 浏览、导航或打开网页 - 从网站上抓取、提取或收集数据 - 填写表格、单击按钮或与网络元素交互 - 验证、验证或测试前端 UI 行为 - 截取网页截图 - 自动化多步骤网络工作流程 - 运行浏览器自动化或检查网站内容 由 Midscene.js (https://midscenejs.com) 提供支持 来源:web-infra-dev/midscene-skills。

可引用信息

为搜索与 AI 引用准备的稳定字段与命令。

安装命令
npx skills add https://github.com/web-infra-dev/midscene-skills --skill browser automation
分类
*创意媒体
认证
收录时间
2026-03-07
更新时间
2026-03-10

Browse more skills from web-infra-dev/midscene-skills

快速解答

什么是 browser automation?

使用 Midscene 的视觉驱动浏览器自动化。完全通过屏幕截图进行操作——不需要 DOM 或辅助功能标签。无论技术堆栈如何,都可以与屏幕上的所有可见元素进行交互。 通过 Puppeteer(无头 Chrome)为每个目标 URL 打开一个新的浏览器选项卡。 当用户想要执行以下操作时使用此技能: - 浏览、导航或打开网页 - 从网站上抓取、提取或收集数据 - 填写表格、单击按钮或与网络元素交互 - 验证、验证或测试前端 UI 行为 - 截取网页截图 - 自动化多步骤网络工作流程 - 运行浏览器自动化或检查网站内容 由 Midscene.js (https://midscenejs.com) 提供支持 来源:web-infra-dev/midscene-skills。

如何安装 browser automation?

打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/web-infra-dev/midscene-skills --skill browser automation 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code、Cursor 或 OpenClaw 中使用

这个 Skill 的源码在哪?

https://github.com/web-infra-dev/midscene-skills

详情

分类
*创意媒体
来源
skills.sh
收录时间
2026-03-07