Die Gemini Skills: der Sprung von Assistent zu autonomem Agent innerhalb Chrome

Veröffentlicht 4 min de lectura 151 Lesen

Google bereitet eine neue Funktion vor, die Gemini mehr als nur ein passiver Assistent innerhalb von Chrome macht: es testet, was intern als "Skills" bezeichnet wird, eine Reihe von Fähigkeiten, die das Modell erlauben würde, Aufgaben automatisch innerhalb des Browsers auszuführen.

Heute, in den Versionen, die bereits in den Vereinigten Staaten zirkulieren, wirkt Gemini als kontextuelle Unterstützung: Sie öffnen es, wenn Sie auf einer Seite sind und bitten ihn, einen Absatz zu klären, einen Artikel zusammenfassen oder Informationen zwischen mehreren Registerkarten zu vergleichen. Diese Fähigkeit, mehrere Registerkarten zu "lesen" und Daten zu verurteilen - zum Beispiel, nehmen Sie die relevanten Details von drei offenen Registerkarten auf Flügen, Hotels und Aktivitäten und machen sie zu einem einzigartigen Plan - ist genau die Grundlage, auf der Google will, mehr autonome Funktionen zu bauen.

Die Gemini Skills: der Sprung von Assistent zu autonomem Agent innerhalb Chrome
Bild generiert mit IA.

Der konkrete Track kam, als ein Ermittler eine Aufnahme veröffentlichte, die eine neue interne Seite zeigt, Chrom: / / Fähigkeiten wo Sie einen "Skill" mit einem Namen und Anweisungen definieren können. Diese Erkenntnis wurde in Netzwerken von Leo verbreitet und kann in der öffentlich geteilten Verbindung selbst gesehen werden: Erfassung der Entdeckung. Die Existenz dieser Seite deutet darauf hin, dass Google ein System für Gemini einstellt, um konkrete Aktionen innerhalb des Browsers auszuführen, nicht nur Fragen zu beantworten.

Nach dem, was das Unternehmen selbst in seinen Präsentationen auf Gemini erklärt hat und was in Tests gesehen wurde, ist die Idee, von einem Assistenten zu entwickeln, der erklärt und summiert bis zu einem Agenten, der Aufgaben erledigen kann: zu suchen Seiten, die Sie zuvor mit Fragen in der natürlichen Sprache besucht haben, enger mit Google-Anwendungen wie Kalender, YouTube oder Maps zu interagieren und wahrscheinlich wiederkehrende Schritte zu automatisieren, ohne die Registerkarte ständig ändern. Für den offiziellen Kontext zu Gemini und Googles Strategie bei IA ist es angebracht, Ihre Blogeinträge über das Projekt zu überprüfen: offizielle Einführung in Gemini.

Geminis Erwerb von ausführbaren "Skills" innerhalb des Browsers eröffnet klare Produktivitätsmöglichkeiten: sich vorstellen, die Aufgabe zu delegieren, Preise zu vergleichen, Terminpläne zu extrahieren oder Formulare auszufüllen und eine Planantwort oder sogar eine konkrete Aktion zu erhalten. In diesem Schritt werden aber auch technische und ethische Fragen angesprochen, die nicht unterschätzt werden sollten. Ein Agent, der auf Websites handeln kann, muss sich mit Genehmigungen, klaren Grenzen, Transparenz über das, was er tut und warum und schützt, um unerwünschte Handlungen oder Missbrauch durch Dritte zu vermeiden.

Im Browser-Ökosystem gibt es bereits Präzedenzfälle für experimentelle Funktionen, die über interne Seiten oder Verzögerungen zugänglich sind, und das Chromium-Projekt bietet den technischen Hintergrund, der Google erlaubt, Änderungen in Chrome zu testen, bevor sie im Allgemeinen starten: Projektstandort Chrom. Aber diese internen Tests in eine öffentliche Funktion zu verwandeln, beinhaltet die Gestaltung von Datenschutzkontrollen, Sicherheitsaudits und wahrscheinlich Optionen für den Benutzer zu begrenzen, was "Skills" laufen kann und in welchen Kontexten.

Die Risiken, die von Experten oft festgestellt werden, wenn eine IA Autonomie im Internet gewinnt, umfassen unfreiwillige Aktionen (Klicks, Formulare), unbemerkte Filterung sensibler Daten und die Möglichkeit, dass Erweiterungen oder Dritte bösartige Fähigkeiten konfigurieren, wenn es keine strengen Kontrollen gibt. Es ist daher angemessen zu erwarten, dass Google ausdrückliche Bestätigungen, körnige Berechtigungen und einen Aktivitätsrekord für einen automatisierten Betrieb implementiert, obwohl es noch keine öffentlichen Angaben zu diesen Maßnahmen gibt.

Die Gemini Skills: der Sprung von Assistent zu autonomem Agent innerhalb Chrome
Bild generiert mit IA.

Für den Moment ist die Neuheit in internen Tests und hat keinen bekannten Starttermin. Parallel hat Google seine Absicht deutlich gemacht, Gemini stärker mit seinen eigenen Dienstleistungen zu integrieren und seine Fähigkeit zu "agieren" in Web-Umgebungen, eine Bewegung, die mit der allgemeinen Tendenz, Sprachmodelle zu realen und wiederkehrenden Aufgaben zu bringen. Um der Entwicklung dieser Tests zu folgen, sollten die Diskussionen über Sicherheit und Privatsphäre auf die offiziellen Chrome-Kanäle und technische Berichte, die in spezialisierten Medien entstehen aufmerksam sein.

Wenn Sie daran interessiert sind, frühe Chrome-Funktionen zu testen oder den Experimenten folgen, veröffentlicht die Chrome-Blog-Seite in der Regel Nachrichten und Anzeigen, wenn die Tests zu mehr offenen Phasen bewegen: Beamte Chrome blog. Und wenn es um die Sicherheitsaspekte geht, bietet die Dokumentation und Diskussion des Chromium-Projekts eine nützliche technische Vision, wie diese Fähigkeiten entwickelt und getestet werden.

Kurz gesagt, "Skills" für Gemini zielt darauf ab, den Assistenten in einen Agenten zu verwandeln, der Aufgaben in Chrome ausführen kann. Es ist ein Fortschritt mit potenziell großen Auswirkungen auf die Produktivität, erfordert aber auch robuste Kontrollen, um Daten zu schützen und gefährliche Automatisierungen zu vermeiden. Zwischen der öffentlichen Ankündigung und der tatsächlichen Umsetzung wird es kritische Designentscheidungen geben, die bestimmen, ob diese Funktion eine diskrete und sichere Hilfe oder eine Quelle von mehr Datenschutzproblemen in der täglichen Navigation ist.

Deckung

Verwandte Artikel

Weitere Neuigkeiten zum selben Thema.