·browser automation
*

browser automation

Visionsgesteuerte Browser-Automatisierung mit Midscene. Funktioniert vollständig über Screenshots – es sind keine DOM- oder Barrierefreiheitskennzeichnungen erforderlich. Kann unabhängig vom Technologie-Stack mit allen sichtbaren Elementen auf dem Bildschirm interagieren. Öffnet über Puppeteer (Headless Chrome) einen neuen Browser-Tab für jede Ziel-URL. Verwenden Sie diese Fähigkeit, wenn der Benutzer Folgendes möchte: - Durchsuchen, navigieren oder öffnen Sie Webseiten - Scrapen, Extrahieren oder Sammeln von Daten von Websites - Füllen Sie Formulare aus, klicken Sie auf Schaltflächen oder interagieren Sie mit Webelementen - Überprüfen, validieren oder testen Sie das Verhalten der Frontend-Benutzeroberfläche - Machen Sie Screenshots von Webseiten - Automatisieren Sie mehrstufige Web-Workflows - Führen Sie eine Browserautomatisierung durch oder überprüfen Sie den Website-Inhalt Unterstützt von Midscene.js (https://midscenejs.com)

454Installationen·53Trend·@web-infra-dev

Installation

$npx skills add https://github.com/web-infra-dev/midscene-skills --skill browser automation

So installieren Sie browser automation

Installieren Sie den KI-Skill browser automation schnell in Ihrer Entwicklungsumgebung über die Kommandozeile

  1. Terminal öffnen: Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.)
  2. Installationsbefehl ausführen: Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/web-infra-dev/midscene-skills --skill browser automation
  3. Installation überprüfen: Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code, Cursor oder OpenClaw

Quelle: web-infra-dev/midscene-skills.

CRITICAL RULES — VIOLATIONS WILL BREAK THE WORKFLOW: Never run midscene commands in the background. Each command must run synchronously so you can read its output (especially screenshots) before deciding the next action. Background execution breaks the screenshot-analyze-act loop.

Run only one midscene command at a time. Wait for the previous command to finish, read the screenshot, then decide the next action. Never chain multiple commands together.

Allow enough time for each command to complete. Midscene commands involve AI inference and screen interaction, which can take longer than typical shell commands. A typical command needs about 1 minute; complex act commands may need even longer.

Visionsgesteuerte Browser-Automatisierung mit Midscene. Funktioniert vollständig über Screenshots – es sind keine DOM- oder Barrierefreiheitskennzeichnungen erforderlich. Kann unabhängig vom Technologie-Stack mit allen sichtbaren Elementen auf dem Bildschirm interagieren. Öffnet über Puppeteer (Headless Chrome) einen neuen Browser-Tab für jede Ziel-URL. Verwenden Sie diese Fähigkeit, wenn der Benutzer Folgendes möchte: - Durchsuchen, navigieren oder öffnen Sie Webseiten - Scrapen, Extrahieren oder Sammeln von Daten von Websites - Füllen Sie Formulare aus, klicken Sie auf Schaltflächen oder interagieren Sie mit Webelementen - Überprüfen, validieren oder testen Sie das Verhalten der Frontend-Benutzeroberfläche - Machen Sie Screenshots von Webseiten - Automatisieren Sie mehrstufige Web-Workflows - Führen Sie eine Browserautomatisierung durch oder überprüfen Sie den Website-Inhalt Unterstützt von Midscene.js (https://midscenejs.com) Quelle: web-infra-dev/midscene-skills.

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/web-infra-dev/midscene-skills --skill browser automation
Kategorie
*Kreativität
Verifiziert
Erstes Auftreten
2026-03-07
Aktualisiert
2026-03-10

Browse more skills from web-infra-dev/midscene-skills

Schnelle Antworten

Was ist browser automation?

Visionsgesteuerte Browser-Automatisierung mit Midscene. Funktioniert vollständig über Screenshots – es sind keine DOM- oder Barrierefreiheitskennzeichnungen erforderlich. Kann unabhängig vom Technologie-Stack mit allen sichtbaren Elementen auf dem Bildschirm interagieren. Öffnet über Puppeteer (Headless Chrome) einen neuen Browser-Tab für jede Ziel-URL. Verwenden Sie diese Fähigkeit, wenn der Benutzer Folgendes möchte: - Durchsuchen, navigieren oder öffnen Sie Webseiten - Scrapen, Extrahieren oder Sammeln von Daten von Websites - Füllen Sie Formulare aus, klicken Sie auf Schaltflächen oder interagieren Sie mit Webelementen - Überprüfen, validieren oder testen Sie das Verhalten der Frontend-Benutzeroberfläche - Machen Sie Screenshots von Webseiten - Automatisieren Sie mehrstufige Web-Workflows - Führen Sie eine Browserautomatisierung durch oder überprüfen Sie den Website-Inhalt Unterstützt von Midscene.js (https://midscenejs.com) Quelle: web-infra-dev/midscene-skills.

Wie installiere ich browser automation?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/web-infra-dev/midscene-skills --skill browser automation Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code, Cursor oder OpenClaw

Wo ist das Quell-Repository?

https://github.com/web-infra-dev/midscene-skills

Details

Kategorie
*Kreativität
Quelle
skills.sh
Erstes Auftreten
2026-03-07