On parle sans arrêt de la latence des modèles. Quel fournisseur répond le plus vite. Quel modèle démarre plus tôt. Lequel sort sa réponse en deux secondes plutôt qu'en quatre.
Très bien. Ce n'est pas un faux sujet.
Mais dans mon usage quotidien, l'irritation venait surtout d'ailleurs : je passais encore un temps absurde à taper. Des prompts, des notes, des réponses, des demandes de reformulation, des précisions, des relances. Bref, tout ce petit emballage verbal que les systèmes actuels savent très bien traiter... une fois qu'on a fini de le saisir.
C'est ce décalage qui m'a mené vers MachinesFluent.
Au départ, je me suis mis à la dictée pour une raison assez simple : le dos. Je voulais continuer à travailler sans rester vissé au clavier toute la journée. Puis la voix a pris sa place dans ma façon de bosser, et j'ai compris autre chose. À chaque fois que l'appli cassait et que je devais revenir au tout-clavier, je le sentais immédiatement. C'était plus raide, plus étroit, plus fatigant. Comme si je faisais passer mes idées dans un conduit trop étroit pour elles.
C'était ça, le vrai signal.
L'IA a rendu ce goulot impossible à ignorer
Avant l'IA, taper était déjà une contrainte. Depuis qu'une bonne partie du travail consiste à dire à une machine ce qu'on attend d'elle, cette contrainte saute aux yeux. On passe sa journée à demander, préciser, corriger, cadrer, résumer, reformuler. Or tout ça se dit, la plupart du temps, bien plus vite que ça ne s'écrit.
Je me suis retrouvé plus d'une fois dans une situation absurde : le modèle mettait dix secondes à répondre, et moi dix minutes à formuler proprement ma demande. À ce stade, le problème n'est plus seulement la vitesse d'inférence. Le problème, c'est l'entrée. Si la machine sait résumer, traduire, restructurer ou expliquer presque instantanément, il faut aussi regarder le temps qu'on met à lui donner de quoi travailler.
Le clavier masque très bien son propre coût
Le clavier a un avantage trompeur : il rend sa lenteur peu spectaculaire. On ne se dit pas "je suis bloqué". On perd juste du temps par petites tranches. On retouche une phrase. On remet la ponctuation. On change l'attaque. On atténue un ton. On efface un bout. On recommence. Pris séparément, aucun de ces gestes n'a l'air dramatique. Additionnés sur une journée, ils engloutissent une quantité étonnante d'énergie.
Pour moi, c'est ça, la vraie taxe du clavier : pas seulement écrire des mots, mais faire passer la pensée par les doigts, en file indienne, tout en la corrigeant avant même qu'elle soit sortie.
Ce n'est pas uniquement une question de vitesse de frappe. C'est une question d'ordre mental. Quand on tape, on a tendance à penser, formuler, corriger et lisser en même temps. Le geste donne l'illusion d'être naturel parce qu'on le pratique depuis des années. En réalité, il mélange plusieurs tâches et les empile dans le même goulot.
La voix ne fait pas qu'accélérer, elle remet les choses dans le bon ordre
C'est pour ça que la voix m'intéresse, même quand l'argument du "trois fois plus rapide" est un peu trop brandi comme un slogan. Parler ne sert pas seulement à aller plus vite. Ça change la séquence. Quand je parle, je sors d'abord l'idée, puis je nettoie. Quand je tape, je commence souvent à nettoyer avant même d'avoir fini de penser. Tant qu'on ne l'a pas vécu, ça paraît minime. En pratique, la différence est énorme.
Le premier jet arrive plus vite. La formulation respire mieux. Je me coupe moins toutes les trois secondes pour polir une phrase qui n'a même pas encore trouvé sa forme. Ça compte pour les prompts un peu longs, les brouillons, les notes de réunion, les explications internes, et tous ces moments où le vrai enjeu est simplement de sortir l'idée de la tête.
Une transcription brute ne suffit pas
Évidemment, la dictée seule ne règle pas tout. Si un outil me rend un texte impeccable sur le plan littéral, mais rempli d'hésitations, de tics de langage et de tournures inachevées, il me laisse encore tout le travail pénible derrière. Ce n'est pas parce qu'on a capturé la phrase qu'on a réglé le problème.
C'est précisément pour ça que MachinesFluent ne se limite pas à capter la voix le plus vite possible. L'enjeu, c'est de donner à la voix une vraie place dans un usage Windows sérieux : capturer, nettoyer, transformer, puis choisir intelligemment entre local et cloud selon ce qu'on est en train de faire. La promesse utile n'est pas "regardez comme ça transcrit vite". La promesse utile, c'est "vous pouvez penser à voix haute sans vous condamner à tout réparer à la main ensuite".
Mon point de vue
Oui, je pense vraiment que, dans beaucoup de travail avec l'IA, le clavier devient le goulot d'étranglement. Pas parce que le clavier va disparaître. Je m'en sers encore tous les jours, et je continuerai à m'en servir. Mais l'idée selon laquelle chaque intention, chaque consigne et chaque brouillon doit forcément passer par une saisie doigt par doigt commence à dater.
Les modèles ont accéléré. Maintenant, c'est à notre façon de leur parler de rattraper le retard.
Essayer la voix comme couche d'entrée
Si cet argument vous parle, la question suivante est la qualité de sortie : De la dictée à un texte vraiment exploitable. Pour le versant confidentialité et local, lire aussi Le local change la nature du risque.
Télécharger MachinesFluent pour essayer un workflow vocal Windows pensé pour capturer, nettoyer et traiter avec l'IA au lieu de tout faire passer doigt par doigt.
