// CLUBIC — LINUX & OPEN SOURCE
Ubuntu va s'enrichir d'une IA locale et miser sur l'accessibilité et la confidentialité
Canonical a présenté Myna, un nouvel outil de reconnaissance vocale prévu pour la prochaine version d'Ubuntu Desktop. Le traitement de la voix est effectué en local. Il ne requiert donc pas de connexion Internet, ni ne transfère de données vers un service tiers une fois les modèles installés.
Sur la plupart des systèmes d'exploitation, la reconnaissance vocale est devenue une fonction courante. Mais jusqu'à présent, ce n'était pas le cas sur Ubuntu. Dès la version 26.10, attendue en octobre, les choses devraient changer avec Myna.
Dans cette première version, l'implémentation sera assez sommaire. L'utilisateur sera en mesure de presser un raccourci clavier, avant de parler, pour voir le texte apparaître directement dans l'application en cours d'utilisation, et avec un indicateur visuel pendant l'écoute. Le traitement repose sur des modèles de reconnaissance vocale qui s'exécutent sur la machine elle-même, sans recourir à un serveur distant une fois ces modèles installés. Cette première mouture cible Ubuntu Desktop sous Wayland, le protocole d'affichage retenu par défaut, avec GNOME comme environnement de bureau.
Le microphone n'est sollicité qu'au moment où la dictée est activée. Le flux audio capté est traité en mémoire puis effacé après usage, sans envoi vers un service externe. Nous rapportions fin avril la feuille de route IA de Canonical, laquelle distinguait des fonctions "implicites", comme une reconnaissance vocale améliorée, de fonctions "explicites" bâties autour d'agents autonomes. Myna correspond donc à cette première catégorie, pensée comme un outil d'accessibilité discret plutôt que comme un service conversationnel.
Pour cette étape, Canonical exclut volontairement les assistants vocaux, les commandes vocales, le pilotage du bureau par la voix, la traduction et la détection automatique de langue. L'architecture reste modulaire, avec la reconnaissance vocale séparée de l'interaction utilisateur, de la gestion de la dictée et de l'injection du texte. L'idée est de pouvoir faire évoluer chaque brique indépendamment. Le dépôt GitHub du projet, publié en open source, ne contient pour l'instant que la documentation et les spécifications d'architecture. Dans un premier temps, Canonical recherche donc des retours auprès des utilisateurs avant de figer ses choix.