Les compétences Gemini: le saut de l'assistant à l'agent autonome à l'intérieur Chrome

Publié 5 min de lectura 150 lecture

Google prépare une nouvelle fonction qui rend Gemini plus qu'un simple assistant passif au sein de Chrome: il teste ce qu'on appelle en interne "Skills", un ensemble de capacités qui permettrait au modèle d'exécuter des tâches automatiquement dans le navigateur.

Aujourd'hui, dans les versions déjà en circulation aux États-Unis, Gemini agit comme support contextuel : vous l'ouvrez quand vous êtes sur une page et lui demandez de clarifier un paragraphe, de résumer un article ou de comparer des informations entre plusieurs onglets. Cette capacité de "lire" plusieurs onglets et de condamner les données - par exemple, prendre les détails pertinents de trois onglets ouverts sur les vols, les hôtels et les activités et les transformer en un plan unique - est précisément la base sur laquelle Google veut construire des fonctions plus autonomes.

Les compétences Gemini: le saut de l'assistant à l'agent autonome à l'intérieur Chrome
Image générée avec IA.

La piste concrète est venue quand un enquêteur a publié une capture qui montre une nouvelle page interne, chrome: / compétences où vous pourriez définir une "compétence" avec un nom et des instructions. Cette constatation a été diffusée sur les réseaux par Leo et peut être vue dans le lien public lui-même: Capture des découvertes. L'existence de cette page suggère que Google met en place un système pour Gemini pour exécuter des actions concrètes dans le navigateur, pas seulement répondre aux questions.

Selon ce que l'entreprise elle-même a expliqué dans ses présentations sur Gemini et ce qui a été vu dans les tests, l'idée est d'évoluer d'un assistant qui explique et résume à un agent qui peut faire des tâches : rechercher des pages que vous avez visitées avant avec des questions en langage naturel, interagir plus étroitement avec des applications Google telles que Calendrier, YouTube ou Maps, et probablement automatiser des étapes répétitives sans avoir à changer l'onglet en permanence. Pour le contexte officiel sur Gemini et la stratégie de Google à l'IA il est approprié de revoir vos entrées de blog sur le projet: présentation officielle à Gemini.

L'acquisition par Gemini de "compétences" exécutables dans le navigateur ouvre des possibilités de productivité claires : imaginez déléguer la tâche de comparer les prix, d'extraire des horaires d'événements ou de remplir des formulaires, et de recevoir une réponse de plan ou même une action concrète. Toutefois, cette étape soulève également des questions techniques et éthiques qui ne doivent pas être sous-estimées. Un agent qui peut agir sur des sites Web doit traiter des permis, des limites claires, de la transparence sur ce qu'il fait et pourquoi, et des garanties pour éviter les actions indésirables ou les abus de la part de tiers.

Dans l'écosystème du navigateur il y a déjà des précédents pour les fonctionnalités expérimentales accessibles par des pages internes ou des laps, et le projet Chrome offre le fond technique qui permet à Google de tester les changements dans Chrome avant de les lancer en général: Site du projet Chromium. Mais transformer ces tests internes en une fonction publique impliquera la conception de contrôles de la vie privée, des audits de sécurité et probablement des options pour l'utilisateur de limiter ce que les « compétences » peuvent exécuter et dans quels contextes.

Les risques qui sont souvent notés par les experts lorsqu'une IA gagne de l'autonomie sur le web comprennent des actions involontaires (clics, formulaires), le filtrage non remarqué de données sensibles et la possibilité que des extensions ou des tiers configurent des compétences malveillantes s'il n'y a pas de contrôles stricts. Il est donc raisonnable de s'attendre à ce que Google mette en œuvre des confirmations explicites, des autorisations granulaires et un dossier d'activité pour toute opération automatisée, bien qu'il n'y ait toujours aucun détail public sur ces mesures.

Les compétences Gemini: le saut de l'assistant à l'agent autonome à l'intérieur Chrome
Image générée avec IA.

Pour le moment la nouveauté est dans les tests internes et n'a pas de date de lancement connue. En parallèle, Google a clairement indiqué son intention d'intégrer plus profondément Gemini à ses propres services et d'améliorer sa capacité à « agir » dans les environnements web, un mouvement compatible avec la tendance générale à apporter des modèles de langage à des tâches réelles et répétitives. Pour suivre l'évolution de ces tests, les discussions sur la sécurité et la confidentialité devraient être attentives aux canaux officiels Chrome et rapports techniques qui émergent dans les médias spécialisés.

Si vous êtes intéressé à tester les fonctions de Chrome tôt ou après les expériences, la page de blog Chrome publie habituellement des nouvelles et des annonces lorsque les tests passent à des phases plus ouvertes: fonctionnaire Blog Chrome. Et s'il s'agit des implications pour la sécurité, la documentation et la discussion du projet Chrome fournissent une vision technique utile de la façon dont ces capacités sont conçues et testées.

Bref, "Skills" pour Gemini visent à transformer l'assistant en un agent capable d'exécuter des tâches dans Chrome. Il s'agit d'une avancée qui peut avoir un impact énorme sur la productivité, mais qui nécessite également des contrôles robustes pour protéger les données et éviter les automatisations dangereuses. Entre l'annonce publique et la mise en oeuvre réelle, il y aura des décisions de conception critiques qui détermineront si cette fonction finit par être une aide discrète et sécurisée ou une source de plus de problèmes de confidentialité dans la navigation quotidienne.

Couverture

Autres

Plus de nouvelles sur le même sujet.