IA · Machine Learning · Visión · NLP · Matemáticas aplicadas

Cybélia  I+D 


Atacamos los problemas difíciles. 

Los que requieren matemáticas.


✓ Visión por ordenador · Reconocimiento de imagen · OCR

✓ Procesamiento del lenguaje · LLM · NLP · RAG

✓ Modelos predictivos · Series temporales · Detección de anomalías

✓ IA privada · On-premise · Integrada en su SI

Diseñamos, entrenamos y desplegamos sistemas de inteligencia

artificial sobre casos reales, con un rigor científico asumido.


Contáctenos

Nuestra filosofía

Decimos lo que hacemos, hacemos lo que decimos

y por qué funciona.


La IA no es magia. Es álgebra lineal, probabilidades, cálculo tensorial,  optimización y mucha ingeniería. 

En Cybelia Cloud trabajamos al nivel del modelo: elección de arquitectura, función de pérdida, regularización, validación cruzada. 

Acompañamos a las empresas con proyectos serios en la frontera entre las matemáticas y la informática, que buscan un interlocutor capaz de mantener una conversación técnica.

Áreas de investigación

Cuatro ejes técnicos. Una única exigencia: el rigor.

De la señal bruta al modelo en producción — cubrimos toda la cadena.

Visión por ordenador

CNN, convoluciones, pooling, detección de objetos (YOLO, R-CNN), segmentación semántica. De la imagen bruta al vector de features.

OCR y Reconocimiento

Pipeline Tesseract, preprocesamiento OpenCV, hOCR, post-corrección NLP. Extracción estructurada desde documentos escaneados, facturas y formularios.

NLP y Voz

STT en Android con Sherpa-onnx. Modelo acústico, modelo de lenguaje, MFCC, VAD. WER como métrica de referencia.

Machine Learning

Modelos supervisados y no supervisados, feature engineering, GridSearchCV, validación cruzada, métricas F1/AUC/mAP. PyTorch, TensorFlow, scikit-learn.

Casos de aplicación

OCR sobre documentos administrativos y facturas

Problemas reales. Soluciones que funcionan.

1. Preprocesamiento OpenCV

deskew, binarización adaptativa (Otsu), eliminación de ruido (filtro mediano, morfología).

2. Segmentación de zonas

detección de bloques de texto, tablas y campos mediante análisis de contornos.

3. Reconocimiento Tesseract (LSTM)

config psm 6, ajuste fino sobre corpus de negocio.

4. Post-corrección NLP

detección de errores mediante diccionario de dominio, corrección por distancia de Levenshtein.

5. Estructuración JSON

mapeo de campos → esquema objetivo, validación por reglas de negocio.

Resultado: tasa de reconocimiento > 92% sobre el corpus de prueba, tiempo de procesamiento < 800 ms por página.

Detección de objetos y clasificación con CNN

Problema: identificar y localizar elementos específicos en un flujo de vídeo o en imágenes industriales.

Arquitectura:

- Backbone CNN — capas convolucionales (3×3, stride 1),

  batch normalization, ReLU, max pooling.

- Transfer learning desde ResNet-50 preentrenado en ImageNet —

  ajuste fino de las últimas capas sobre el dataset de negocio.

- Cabeza de detección — regresión de bounding boxes +

  clasificación multiclase (Softmax).

- Loss combinada: BCE para clasificación + L1/IoU para localización.


Entrenamiento: PyTorch, Adam (lr=1e-4),

scheduler cosine annealing, data augmentation (flip, crop, jitter).

mAP@0.5: 87,3% en el conjunto de validación.

Modelo predictivo sobre datos de negocio

Problema: anticipar un evento de negocio

(fallo, churn, anomalía) a partir de datos históricos heterogéneos.


Metodología:

- Exploración y limpieza — valores ausentes (imputación KNN),

  outliers (IQR), codificación categórica (target encoding).

- Feature engineering — ventanas temporales deslizantes,

  agregados estadísticos, características derivadas.

- Selección de modelo — Random Forest, XGBoost,

  LightGBM comparados con validación cruzada estratificada (k=5).

- Optimización de hiperparámetros — Optuna / GridSearchCV.

- Interpretabilidad — valores SHAP para explicabilidad de negocio.


Métricas: F1-score 0,89, AUC-ROC 0,94 sobre datos de prueba.

Stack y herramientas

Herramientas open source, probadas, documentadas y mantenibles

Sin frameworks propietarios opacos. Cada pieza se audita, se entiende y se domina.

Visión e Imagen

OpenCV · Pillow · scikit-image · Tesseract 5 · PyTorch · torchvision · ONNX Runtime

Audio y NLP

Vosk · Sherpa-onnx · WebRTC VAD · NLTK · spaCy · HuggingFace Transformers · Kaldi

ML y Data

scikit-learn · XGBoost · LightGBM · Optuna · SHAP · Pandas · NumPy · Matplotlib


Nuestro método

Del problema al modelo en producción — sin rodeos


Encuadre científico

Empezamos por entender el problema real, no la solución imaginada. Definición formal de la tarea, entradas/salidas y métricas de éxito.

Datos y exploración

Auditoría de los datos disponibles — volumen, calidad, sesgos, distribución. No prometemos nada antes de haber visto los datos.

Experimentación y baseline

Implementación de un modelo baseline sencillo, después iteraciones controladas con seguimiento de métricas. Reproducibilidad garantizada.

Despliegue e integración

Exportación ONNX, API REST o integración nativa (Android JNI, módulo Python). Documentación técnica entregada con el modelo.

¿A quién va dirigido?

Tiene un problema difícil que quiere resolver correctamente.

CIO y Direcciones técnicas

Tiene un proyecto de IA en marcha o en estudio y busca una mirada externa rigurosa para encuadrarlo, evaluarlo o reducir su riesgo.

Startups deeptech

Tiene una idea sólida pero le faltan recursos en ML/visión/NLP para pasar del POC al producto.

Responsables de proyectos I+D

Trabaja sobre un tema en la frontera entre IA y matemáticas y necesita un socio técnico, no un proveedor generalista.

Usted tiene un problema difícil. Nos encanta.​ 

Describa su proyecto en unas pocas líneas — le responderemos con un análisis técnico, no con un presupuesto comercial.