- Hugging Face a débuté un outil d’IA pour naviguer sur le Web en votre nom
- L’agent informatique ouvert utilise un véritable navigateur Web pour effectuer des tâches comme obtenir des itinéraires ou réserver des billets
- L’agent et sa démo open source peuvent voir ce qui est à l’écran, cliquer sur les boutons, remplir les formulaires et déplacer étape par étape à travers des tâches comme un humain
Hugging Face a présenté sa propre vision du nombre croissant d’agents d’IA semi-indépendants qui peuvent faire des courses en ligne pour les gens. L’agent d’ordinateur ouvert nouvel et gratuit (si limité), c’est comme avoir un assistant personnel vivant dans votre navigateur Web.
Faisant partie de l’initiative «Smolagents» en cours de l’entreprise, l’agent informatique ouvert peut s’engager avec des sites Web et des applications comme vous, gérant une souris et un clavier invisibles pour répondre aux demandes. L’IA peut ouvrir un navigateur, taper des choses dans les formulaires, cliquer sur les boutons, etc. Demandez-lui de trouver des instructions, et il ira sur Google Maps, entrez l’origine et la destination, et vous montrer la route comme un chauffeur numérique dévoué.
Vous pouvez l’essayer vous-même avec la démo en direct. Avertissement juste, sa popularité entraîne certains retards et erreurs dus à un arriéré.
Nous lançons une utilisation d’ordinateur dans Smolagents! 🥳-> À mesure que les modèles de vision deviennent plus capables, ils deviennent capables d’alimenter les flux de travail agentiques complexes. En particulier les modèles Qwen-VL, qui prennent en charge la mise à la terre intégrée, c’est-à-dire la capacité de localiser n’importe quel élément d’une image par ses coordonnées, donc à… pic.twitter.com/mi8muwzkis6 mai 2025
Agent AI
L’agent informatique ouvert est une philosophie différente d’une idée qui a conduit à des outils similaires tels que l’opérateur d’Openai, l’utilisation du navigateur, le proxy 1.0 et l’opérateur de navigateur d’Opera. Comme ces outils, l’agent AI de Hugging Face consiste à être un participant actif au lieu d’une source passive d’informations.
Comme l’utilisation du navigateur, l’agent informatique ouvert est open-source, ce qui signifie que n’importe qui peut voir comment il fonctionne et construire au-dessus de celui-ci, ou au moins le modifier pour les cas d’utilisation de niche. L’agent est le début de quelque chose de plus flexible, pas un produit fini avec un million de clause de non-responsabilité légale. Cela signifie également que la démo est exactement cela, une démonstration, pas un package poli. Il peut se tromper et vous obliger à sauter pour les connexions et les tests captcha.
La réservation de billets, la vérification des heures de magasin, les recherches, la recherche de directions et la cliquetis sur les menus sont toutes des choses que beaucoup de gens aimeraient pouvoir faire avec une seule invite en langage naturel. C’est une chose de demander à Chatgpt comment trouver des vols bon marché. C’est un autre pour regarder un outil aller sur un site Web de voyage, faire défiler les listes et tenter de cliquer sur «Réserver maintenant».
Il peut être imparfait et loin d’être flashy, mais l’agent informatique ouvert représente une approche de l’IA qui pourrait devenir aussi courante que les générateurs d’image AI désormais omniprésents.