IA · Machine Learning · Vision · NLP · Mathématiques appliquées

Cybélia  R&D 


Nous attaquons les problèmes difficiles. 

Ceux qui nécessitent les mathématiques.


✓ Reconnaissance d'image et OCR 

✓ traitement du langage LLM

✓  modèles prédictifs

✓ IA Privé et intégrée à votre SI



Nous concevons, entraînons et déployons des systèmes d'intelligence

artificielle sur des cas réels, avec une rigueur scientifique assumée.

Contactez-nous

Notre philosophie

Pas de boîte noire. On dit ce qu'on fait, on fait ce qu'on dit

et pourquoi ça marche!


L'IA n'est pas de la magie. C'est de l'algèbre linéaire, des probabilités,des calculs tensoriels,  de l'optimisation et beaucoup d'ingénierie. 

Chez Cybelia Cloud, nous travaillons au niveau du  modèle. choix d'architecture, fonction de perte, régularisation, validation croisée. 

Nous accompagnons les entreprises qui ont des projets sérieux à la frontière  des mathématiques et de l'informatique, et qui cherchent un interlocuteur capable de tenir une conversation technique.

Domaines de recherche

Quatre axes techniques. Une seule exigence : la rigueur.

Du signal brut au modèle en production — nous couvrons l'intégralité de la chaîne.

Vision par ordinateur

CNN, convolutions, pooling, détection d'objets (YOLO, R-CNN), segmentation sémantique. De l'image brute au vecteur de features.

OCR & Reconnaissance

Pipeline Tesseract, prétraitement OpenCV, hOCR, post-correction NLP. Extraction structurée depuis documents scannés, factures, formulaires.

NLP & Voix

STT sur Android avec Sherpa-onnx. Acoustic model, language model, MFCC, VAD. WER comme métrique de référence.

Machine Learning

Modèles supervisés et non supervisés, feature engineering, GridSearchCV, validation croisée, métriques F1/AUC/mAP. PyTorch, TensorFlow, scikit-learn.

Cas d'application

OCR sur documents administratifs et factures

Des problèmes réels. Des solutions qui tournent.

1. Prétraitement OpenCV

deskew, binarisation adaptative (Otsu), débruitage (filtre médian, morphologie).

2. Segmentation des zones

détection de blocs texte, tableaux, champs via analyse de contours.

3. Reconnaissance Tesseract  (LSTM)

config psm 6, entraînement fin sur corpus métier.

4. Post-correction NLP

détection d'erreurs par dictionnaire de domaine, correction par distance de Levenshtein.

5. Structuration JSON

mapping champs → schéma cible, validation par règles métier.

Résultat : taux de reconnaissance > 92% sur corpus de test, temps de traitement < 800ms par page.

Détection d'objets et classification par CNN

Problème : identifier et localiser des éléments spécifiques dans un flux vidéo ou des images industrielles.

Architecture :

- Backbone CNN — couches convolutives (3×3, stride 1),

  batch normalization, ReLU, max pooling.

- Transfer learning depuis ResNet-50 pré-entraîné ImageNet —

  fine-tuning des dernières couches sur dataset métier.

- Tête de détection — régression de bounding boxes +

  classification multiclasse (Softmax).

- Loss combinée : BCE pour classification + L1/IoU pour localisation.


Entraînement : PyTorch, Adam (lr=1e-4),

scheduler cosine annealing, data augmentation (flip, crop, jitter).

mAP@0.5 : 87.3% sur jeu de validation.

Modèle prédictif sur données métier

Problème : anticiper un événement métier

(défaillance,churn, anomalie) à partir de données historiques hétérogènes.


Méthodologie :

- Exploration et nettoyage — valeurs manquantes (imputation KNN),

  outliers (IQR), encodage catégoriel (target encoding).

- Feature engineering — fenêtres temporelles glissantes,

  agrégats statistiques, features dérivées.

- Sélection de modèle — Random Forest, XGBoost,

  LightGBM comparés en cross-validation stratifiée (k=5).

- Optimisation des hyperparamètres — Optuna / GridSearchCV.

- Interprétabilité — SHAP values pour explicabilité métier.


Métriques : F1-score 0.89, AUC-ROC 0.94 sur données de test.

Stack & outils

Des outils open source, éprouvés, documentés et maintenables

Pas de frameworks propriétaires opaques. Chaque brique est auditée, comprise et maîtrisée.

Vision & Image

OpenCV · Pillow · scikit-image · Tesseract 5 · PyTorch · torchvision · ONNX Runtime

Audio & NLP

Vosk · Sherpa-onnx · WebRTC VAD · NLTK · spaCy · HuggingFace Transformers · Kaldi

ML & Data

scikit-learn · XGBoost · LightGBM · Optuna · SHAP · Pandas · NumPy · Matplotlib


Notre méthode

De la problématique au modèle en production — sans détour


Cadrage scientifique

On commence par comprendre le problème réel, pas la solution imaginée. Définition formelle de la tâche, des entrées/sorties, des métriques de succès.

Données & exploration

Audit de la donnée disponible — volume, qualité, biais, distribution. On ne promet rien avant d'avoir vu les données.

Expérimentation & baseline

Mise en place d'un modèle baseline simple, puis itérations contrôlées avec suivi des métriques. Reproductibilité garantie.

Déploiement & intégration

Export ONNX, API REST ou intégration native (Android JNI, Python module). Documentation technique livrée avec le modèle

À qui s'adresse cette offre ?

Vous avez un problème difficile à résoudre correctement.

DSI & Directions techniques

Vous avez un projet IA en cours ou en réflexion et vous cherchez un regard externe rigoureux pour le cadrer, l'évaluer ou le dérisquer.

Startups deeptech

deeptechVous avez une idée forte mais manquez de ressources en ML/vision/NLP pour passer du POC au produit.

Porteurs de projets R&D

Vous travaillez sur un sujet aux frontières de l'IA et des mathématiques et vous avez besoin d'un partenaire technique, pas d'un prestataire généraliste.

Vous avez un problème difficile. On aime ça.​ 

Décrivez votre projet en quelques lignes — on vous répond avec une analyse technique, pas un devis commercial.