Pas de boîte noire. On dit ce qu'on fait, on fait ce qu'on dit
et pourquoi ça marche!
L'IA n'est pas de la magie. C'est de l'algèbre linéaire, des probabilités,des calculs tensoriels, de l'optimisation et beaucoup d'ingénierie.
Chez Cybelia Cloud, nous travaillons au niveau du modèle. choix d'architecture, fonction de perte, régularisation, validation croisée.
Nous accompagnons les entreprises qui ont des projets sérieux à la frontière des mathématiques et de l'informatique, et qui cherchent un interlocuteur capable de tenir une conversation technique.
Quatre axes techniques. Une seule exigence : la rigueur.
Du signal brut au modèle en production — nous couvrons l'intégralité de la chaîne.
Vision par ordinateur
CNN, convolutions, pooling, détection d'objets (YOLO, R-CNN), segmentation sémantique. De l'image brute au vecteur de features.
OCR & Reconnaissance
Pipeline Tesseract, prétraitement OpenCV, hOCR, post-correction NLP. Extraction structurée depuis documents scannés, factures, formulaires.
NLP & Voix
STT sur Android avec Sherpa-onnx. Acoustic model, language model, MFCC, VAD. WER comme métrique de référence.
Machine Learning
Modèles supervisés et non supervisés, feature engineering, GridSearchCV, validation croisée, métriques F1/AUC/mAP. PyTorch, TensorFlow, scikit-learn.
OCR sur documents administratifs et factures
Des problèmes réels. Des solutions qui tournent.
1. Prétraitement OpenCV
deskew, binarisation adaptative (Otsu), débruitage (filtre médian, morphologie).
2. Segmentation des zones
détection de blocs texte, tableaux, champs via analyse de contours.
3. Reconnaissance Tesseract (LSTM)
config psm 6, entraînement fin sur corpus métier.
4. Post-correction NLP
détection d'erreurs par dictionnaire de domaine, correction par distance de Levenshtein.
5. Structuration JSON
mapping champs → schéma cible, validation par règles métier.
Résultat : taux de reconnaissance > 92% sur corpus de test, temps de traitement < 800ms par page.
Détection d'objets et classification par CNN
Problème : identifier et localiser des éléments spécifiques dans un flux vidéo ou des images industrielles.
Architecture :
- Backbone CNN — couches convolutives (3×3, stride 1),
batch normalization, ReLU, max pooling.
- Transfer learning depuis ResNet-50 pré-entraîné ImageNet —
fine-tuning des dernières couches sur dataset métier.
- Tête de détection — régression de bounding boxes +
classification multiclasse (Softmax).
- Loss combinée : BCE pour classification + L1/IoU pour localisation.
Entraînement : PyTorch, Adam (lr=1e-4),
scheduler cosine annealing, data augmentation (flip, crop, jitter).
mAP@0.5 : 87.3% sur jeu de validation.
Modèle prédictif sur données métier
Problème : anticiper un événement métier
(défaillance,churn, anomalie) à partir de données historiques hétérogènes.
Méthodologie :
- Exploration et nettoyage — valeurs manquantes (imputation KNN),
outliers (IQR), encodage catégoriel (target encoding).
- Feature engineering — fenêtres temporelles glissantes,
agrégats statistiques, features dérivées.
- Sélection de modèle — Random Forest, XGBoost,
LightGBM comparés en cross-validation stratifiée (k=5).
- Optimisation des hyperparamètres — Optuna / GridSearchCV.
- Interprétabilité — SHAP values pour explicabilité métier.
Métriques : F1-score 0.89, AUC-ROC 0.94 sur données de test.
Des outils open source, éprouvés, documentés et maintenables
Pas de frameworks propriétaires opaques. Chaque brique est auditée, comprise et maîtrisée.
Vision & Image
OpenCV · Pillow · scikit-image · Tesseract 5 · PyTorch · torchvision · ONNX Runtime
Audio & NLP
Vosk · Sherpa-onnx · WebRTC VAD · NLTK · spaCy · HuggingFace Transformers · Kaldi
ML & Data
scikit-learn · XGBoost · LightGBM · Optuna · SHAP · Pandas · NumPy · Matplotlib
De la problématique au modèle en production — sans détour
Cadrage scientifique
On commence par comprendre le problème réel, pas la solution imaginée. Définition formelle de la tâche, des entrées/sorties, des métriques de succès.
Données & exploration
Audit de la donnée disponible — volume, qualité, biais, distribution. On ne promet rien avant d'avoir vu les données.
Expérimentation & baseline
Mise en place d'un modèle baseline simple, puis itérations contrôlées avec suivi des métriques. Reproductibilité garantie.
Déploiement & intégration
Export ONNX, API REST ou intégration native (Android JNI, Python module). Documentation technique livrée avec le modèle
Vous avez un problème difficile à résoudre correctement.
DSI & Directions techniques
Vous avez un projet IA en cours ou en réflexion et vous cherchez un regard externe rigoureux pour le cadrer, l'évaluer ou le dérisquer.
Startups deeptech
deeptechVous avez une idée forte mais manquez de ressources en ML/vision/NLP pour passer du POC au produit.
Porteurs de projets R&D
Vous travaillez sur un sujet aux frontières de l'IA et des mathématiques et vous avez besoin d'un partenaire technique, pas d'un prestataire généraliste.
Vous avez un problème difficile. On aime ça.
Décrivez votre projet en quelques lignes — on vous répond avec une analyse technique, pas un devis commercial.