Le paradoxe du cloud gratuit
Vous avez un cabinet d'avocats. Vous construisez un agent pour analyser les contrats. Vous l'hébergez sur Claude API. Zéro infrastructure à gérer. Zéro coût initial. Zéro stress. Pendant six mois, c'est magique.
Puis arrive le mois sept. Anthropic révise ses prix. Vous aviez 5 millions de tokens par jour, à 0,01 USD par k-token. Maintenant c'est 0,08 USD. Votre facturation explose d'un facteur 8.
Ou bien : vous écrivez une clause commerciale délicate, et Claude refuse. Un filtre de sécurité s'interpose entre vous et votre travail. Vous n'avez aucun recours. Ce n'est pas votre infrastructure.
Ou bien. Pire. Un associé rentre des données confidentielles. Anthropic (malgré ses promesses) les log quelque part. Un jour, une brèche. Vos stratégies commerciales sont vendues au pire enchérisseur.
Ce n'est pas de la paranoïa. C'est du vécu. Quand vous ne possédez pas l'infrastructure, vous ne possédez rien. Pas même vos données.
Trois exemples réels de dépendance technologique
Les tarifs d'OpenAI, 2023-2025. OpenAI a lancé GPT-4 à un tarif concurrentiel. Puis : hausse des inputs, hausse des outputs, modèles qui disparaissent, nouvelles features qui coûtent plus cher. Les startups qui avaient construit tout leur modèle économique sur GPT-4 à 0,03 USD se sont retrouvées à 0,30 USD.
La censure algorithme de Content Moderation. En 2024, OpenAI a renforcé ses filtres. Les recherches juridiques, les études sur les drogues, l'analyse de documents créatifs sensibles. Tout ça devient impossible via l'API. Vous ne pouvez rien y faire.
Google et les données d'entraînement. Google a annoncé que les données envoyées à ses LLM pouvaient potentiellement alimenter son entraînement. Vous avez une stratégie client qui vaut des millions. Vous la rentrez dans Gemini. En 2027, Gemini la synthétise dans une réponse vendue à votre concurrent.
Le modèle souverain : LiteLLM + Infomaniak/Hetzner
Imaginez une autre architecture. Un orchestrateur local : LiteLLM, reverse proxy open-source qui tourne sur votre serveur. C'est lui qui décide de rerouter les appels vers Claude via l'API, avec des couches de contrôle entre.
Des modèles alternatifs en fallback : Llama 3.1 qui tourne localement, un petit modèle fine-tuné sur vos données.
Résultat :
- Si Anthropic change ses tarifs, vous avez déjà switché 20 % de vos requêtes vers Llama.
- Si Claude refuse un appel pour « raisons de sécurité », votre Llama prend le relais.
- Vos données métier confidentielles ne quittent jamais votre serveur.
C'est le modèle qu'on appelle le Cowork Souverain chez Galaad. Un lieu où l'IA vous appartient vraiment.
Comment structurer ça : l'exemple du cabinet d'avocats
50 avocats. Un agent qui analyse les contrats.
- Entrée : l'avocat charge son contrat dans une interface web self-hosted.
- Pré-traitement : fonction Python locale anonymise les noms de clients, supprime les données sensibles.
- Orchestration : LiteLLM décide. 80 % des contrats standard → Llama local (200 ms, zéro coût). 20 % des cas complexes → Claude via API.
- Réponse : l'avocat a son rapport. Jamais le contrat brut n'a quitté votre réseau.
Coût : Infomaniak ~50 €/mois, GPU Llama ~200 €/mois, API Claude limitée ~100 €/mois. Total 350 €/mois pour 50 utilisateurs. Comparé à ChatGPT Teams (30 USD × 50 = 1500 USD/mois), économie + souveraineté.
Pourquoi la souveraineté IA n'est pas du luxe
Prenez un musée. Son avenir, c'est la médiation numérique. Si le musée fait tourner ses agents sur ChatGPT, ses données (descriptions des œuvres, récits des conservateurs) s'échappent. Elles finissent dans les datasets d'entraînement.
Si le musée héberge lui-même avec LiteLLM + Llama, ses connaissances lui appartiennent. Elles s'enrichissent année après année. Elles deviennent un actif compétitif.
Article 51 de la loi de santé 2019. En France, l'Article 51 définit le dispositif médical numérique. Une IA d'aide au diagnostic ou au monitoring doit héberger les données en France. Si vous construisez un agent pour un EHPAD et que vous le mettez sur AWS U.S, c'est illégal. CNIL + SecNumCloud + Infomaniak = la seule voie possible.
Ce que Galaad offre : Cowork Souverain
On construit :
- Un orchestrateur LiteLLM sur infrastructure française
- Claude via API (pour ce qui demande vraiment de l'intelligence), Llama 3.1 open-source localement (pour le reste)
- Des garanties de rétention données
- Une formation à maintenir ça vous-même (« nous donner les moyens de nous passer de nous »)
Plus cher au démarrage (5-10k € setup). Moins cher à la fin. Et surtout : c'est vous qui gouvernez.
