Il y a un secret gênant dans les opérations enterprise : l'employé le plus coûteux de votre entreprise est peut-être celui qui copie des données de PDF vers des feuilles de calcul.
Nous le voyons partout. Sinistres d'assurance. Documents d'expédition. Conformité réglementaire. Bons de commande. Les documents arrivent dans dix-sept formats différents, et quelqu'un doit lire chacun d'entre eux et saisir les chiffres dans SAP.
Nous avons construit un système qui lit plus vite que n'importe quel humain et ne transpose jamais un chiffre.
L'Ampleur du Problème
L'un de nos clients — une société de logistique qui traite 8 000 expéditions par jour — avait une équipe de 23 personnes qui ne faisait rien d'autre que de la saisie de données documentaires. Connaissements, déclarations douanières, listes de colisage, factures. Chaque expédition générait 4 à 7 documents, chaque document comportait 15 à 30 champs nécessitant une extraction.
Environ 50 000 pages par jour, 250 000 points de données, tous saisis manuellement. Taux d'erreur : 3,1 %. Coût par document : environ 2 EUR.
Ce Que Nous Avons Construit
Le module de document intelligence de Cognity gère l'ensemble du pipeline :
1. Acquisition
Les documents arrivent par e-mail, SFTP, upload API ou scan aux stations de réception. Nous normalisons tout dans un format commun quelle que soit la source. Notes manuscrites, fax (oui, des fax), reçus d'imprimante thermique — le système gère tout.
2. Classification
Avant l'extraction, le système identifie ce qu'il regarde. Est-ce un connaissement ou une facture commerciale ? Une déclaration douanière ou une liste de colisage ? Précision de la classification : 99,7 %.
Cette étape compte car les templates d'extraction sont spécifiques à chaque document. Un champ intitulé "poids" signifie des choses différentes sur des documents différents — poids brut, poids net, poids volumétrique. Le contexte détermine l'interprétation.
3. Extraction
Nous utilisons une combinaison d'analyse de mise en page et de modèles de langage :
- Documents structurés (formulaires, tableaux) : Extraction sensible à la mise en page utilisant la modélisation des relations spatiales
- Documents semi-structurés (factures, BdC) : Template matching avec fallback vers l'extraction basée sur LLM
- Documents non structurés (e-mails, notes) : Extraction NLP complète avec reconnaissance d'entités
4. Validation
Chaque champ extrait passe par une validation avec des règles métier. Ce poids est-il cohérent pour ce code marchandise ? Cette paire expéditeur-destinataire est-elle connue ? Le total correspond-il aux lignes ?
Les anomalies sont signalées pour révision humaine — mais uniquement les anomalies. Les humains gèrent désormais les exceptions, pas le traitement de routine.
Les Résultats
Après le déploiement dans les trois principaux centres de traitement :
- Vitesse de traitement : 50 000 pages/jour avec 4 opérateurs de révision (contre 23 personnes à temps plein)
- Précision : 99,2 % de bout en bout (contre 96,9 % en manuel)
- Temps de traitement : Moyenne de 1,3 seconde par document (contre 4,2 minutes en manuel)
- Coût par document : 0,08 EUR (contre 2,00 EUR)
Les 19 membres du personnel qui faisaient de la saisie de données ont été réaffectés à la gestion des exceptions, au service client et à des rôles d'amélioration des processus. Personne n'a été licencié — ils ont été réaffectés à des postes qui nécessitent véritablement un jugement humain.
Décisions Techniques Qui Ont Compté
Déploiement on-premise. Ces documents contiennent des données commerciales sensibles — prix, volumes, relations clients. Le traitement cloud était hors de question. Nous avons déployé Cognity on-premise avec des noeuds GPU pour l'inférence.
Seuils de confiance plutôt qu'objectifs de précision. Au lieu d'optimiser pour la précision maximale, nous avons optimisé pour une confiance calibrée. Quand le système dit qu'il est sûr à 98 %, il a raison 98 % du temps. Cela permet aux opérateurs de faire confiance aux scores de confiance et de concentrer leur temps de révision là où cela compte.
Boucles de rétroaction. Chaque correction d'un opérateur alimente le modèle. Le système a démarré à 94 % de précision. Six mois plus tard, il est à 99,2 %. Les opérateurs entraînent littéralement leur remplaçant — sauf qu'ils ne sont pas remplacés, ils sont promus à des rôles de supervision.
La Vérité Qui Dérange
La plupart des entreprises savent qu'elles ont un problème de traitement documentaire. Elles le savent depuis des années. La raison pour laquelle elles ne l'ont pas résolu n'est pas la technologie — c'est organisationnel. Déployer une IA documentaire signifie changer les flux de travail, redéfinir les rôles et faire confiance à un système pour effectuer un travail que les humains ont toujours fait.
La technologie est prête. La question est de savoir si votre organisation est prête à l'utiliser.
Nous pouvons vous aider sur les deux fronts.