Parvenir à créer un assistant vocal open source, local, privé et efficace… Voilà l’ambition que porte l’équipe de Home Assistant depuis presque deux ans. Dans leur Voice Chapter 10, les développeurs de Nabu Casa ont détaillé cette semaine les dernières avancées de leur assistant vocal et de Voice Preview Edition. Une étape importante pour ce projet open source, qui vise ni plus ni moins à offrir une alternative crédible aux géants du secteur. Mais si les fondations sont posées, l’édifice, lui, reste encore à construire.
Home Assistant Voice : une architecture plus solide, des performances en hausse
Premier chantier de Home Assistant Voice : l’optimisation. Grâce à l’intégration directe de plusieurs fonctions clés dans ESPHome 2025.5.0 (détection de mot-clé, lecture FLAC, mixage audio intelligent), le gain de performance ces derniers mois est net : la charge processeur est tombée de 72 % à seulement 35 % dans certains scénarios. Une économie précieuse pour les appareils embarqués.
Côté matériel, les passionnés seront ravis d’apprendre que Nabu Casa partage désormais tous les fichiers KiCad nécessaires pour fabriquer soi-même une enceinte vocale basée sur Home Assistant Voice Preview Edition. L’open hardware devient donc une réalité : chacun peut adapter l’appareil selon ses besoins, en modifiant par exemple la qualité audio ou en ajoutant des micros, des capteurs, etc. Ils sont disponibles en téléchargement sur GitHub.
Du côté du Speech-to-Phrase — le système de reconnaissance vocale local — les progrès sont subtils mais efficaces : meilleure gestion des apostrophes en français, filtrage des commandes absurdes (« set the to red ») et un enrichissement progressif des langues prises en charge. L’équipe en propose déjà six, avec une feuille de route ambitieuse pour en ajouter vingt-et-une supplémentaires.
Enfin, la synthèse vocale Piper continue de gagner en fluidité, avec des voix plus naturelles, de nouveaux accents et un support linguistique qui s’élargit. Là aussi, le ton monte — au sens propre.
Une Preview qui porte bien son nom
En janvier, nous vous avions présentés un premier test de Home Assistant Voice Preview Edition après quelques semaines d’utilisation. Et autant le dire tout de suite : si la vision nous a séduits, l’expérience reste encore très perfectible. Les choses ont un peu avancé depuis, mais nous sommes encore bien loin de ce que proposent Amazon et Google.
La qualité audio captée par le micro (basé sur une puce ESP32-S3 et un codec XMOS XU316) est incontestablement bonne. Même dans une pièce légèrement bruyante, les enregistrements sont clairs et exploitables. En revanche, la détection des mots de réveil s’est montrée inégale. « Ok Nabu » est plus efficace que « Hey Jarvis », chez nous en tout cas, mais il faut souvent élever la voix, s’approcher du micro, répéter à plusieurs reprises. Rien de dramatique s’agissant d’une « preview », mais nous sommes encore loin du niveau attendu pour envisager de remplacer Alexa à la maison.
Autre point noir : les délais de réponse. Il n’est pas rare d’attendre plusieurs secondes (jusqu’à 10 dans certains cas) entre une commande et sa confirmation vocale. Certes, ces lenteurs sont souvent dues à la configuration réseau ou au chiffrement TLS côté serveur… mais elles pèsent sur l’expérience utilisateur. Là encore, Home Assistant Voice souffre de la comparaison avec Alexa, Google ou même Siri.
Le défi d’un assistant vocal à visage humain
Ces limitations nous rappellent à quel point créer un assistant vocal fiable est un défi colossal. Amazon et Google y sont parvenus après des années d’efforts, des milliards de requêtes analysées, et des armées d’ingénieurs. Nabu Casa, de son côté, avance avec une équipe réduite, sur un modèle appelé à fonctionner en local et avec un code 100 % ouvert. Comme le disait il y a quelques mois avec humour Mike Hansen, responsable de l’ingénierie vocale de Home Assistant, le budget alloué à son équipe correspond probablement à ce que l’équipe vocale d’Amazon dépense en pizzas. Les moyens ne sont évidemment pas comparables.
Et c’est justement ce qui rend l’effort d’autant plus méritoire. La direction est la bonne : performances en hausse, ouverture matérielle, amélioration continue de la reconnaissance vocale, et surtout, un respect total de la vie privée. Mais pour espérer rivaliser avec Alexa ou Google Assistant, il reste un long chemin. D’autant que les deux géants risquent de reprendre quelques longueurs d’avance avec Alexa+ et Gemini.
En attendant, pour parvenir au niveau des premières génération d’Alexa et Google Home, l’équipe de Nabu Casa devra encore surmonter trois grands obstacles : une détection de mot-clé aussi fiable, une latence imperceptible, et une compréhension linguistique aussi nuancée que multilingue.
Home Assistant Voice : un futur prometteur, mais encore en construction
Quoi qu’il en soit, le chapitre 10 de Home Assistant Voice témoigne d’une avancée notable. Nabu Casa continue de poser les briques d’un assistant vocal open source, respectueux de la vie privée et personnalisable. À l’heure où les grandes plateformes ferment leurs écosystèmes pour protéger leurs développements en matière d’intelligence artificielle, cette alternative open source a toutes les raisons d’exister.
Mais en dépit de progrès solides, l’assistant vocal de Home Assistant reste pour l’instant une technologie d’avenir plus que de présent. Il fascine, il promet, il progresse… mais il n’est pas encore prêt à répondre à tout, à tout moment, comme ses rivaux plus commerciaux. Patience, donc, car si le pari est osé, il est aussi enthousiasmant.