Las matemáticas del Machine Learning: por qué importan

En los últimos tiempos, la inteligencia artificial parece haberse convertido en un terreno de juego para quienes saben usar un par de herramientas low-code y escribir prompts a ChatGPT. Y no nos malinterpretes: estas herramientas tienen un valor inmenso. Pero reducir el campo del Machine Learning a “usar ChatGPT, Make y un par de plantillas” es como decir que quien usa una calculadora científica ya domina la física cuántica.

Desde The Black Box Lab, queremos reivindicar una realidad: la IA tiene un corazón profundamente matemático y estadístico. Y comprender este corazón no es solo una cuestión académica: es esencial para crear modelos robustos, entender sus límites y, sobre todo, saber cuándo y por qué fallan.

¿Qué hay realmente detrás del Machine Learning?

Detrás de cada modelo que “aprende” hay ecuaciones, matrices, funciones de pérdida, derivadas parciales, álgebra lineal, optimización… El núcleo de cualquier algoritmo de Machine Learning está formado por tres pilares fundamentales:

Álgebra lineal: vectores, matrices y operaciones entre ellos. Así se representan los datos y se transforman en el espacio.
Cálculo diferencial: se utiliza para minimizar funciones de error a través de métodos como gradient descent (descenso del gradiente).
Estadística y probabilidad: para inferir patrones, gestionar incertidumbre y tomar decisiones basadas en los datos.

Un ejemplo sencillo: regresión lineal

Imagina que queremos predecir cuánto va a ganar un freelance en función de las horas que trabaja. Queremos ajustar una línea recta que aproxime esa relación. Esa línea tendrá la forma:

y = mx + b

Donde:

x son las horas trabajadas,
y es el ingreso,
m es la pendiente (cuánto aumenta el ingreso por cada hora extra trabajada),
b es la constante (cuánto se gana aunque no se trabaje ninguna hora, quizá por contratos fijos, etc.).

Para encontrar m y b, necesitamos minimizar el error entre las predicciones del modelo (ŷ) y los valores reales (y). Ese error se mide con una función matemática llamada función de pérdida. Una muy común es el error cuadrático medio (MSE):

MSE = (1/n) ∑ (yᵢ – ŷᵢ)²

Aquí entra el cálculo diferencial: para minimizar esa función de pérdida, usamos derivadas parciales y el famoso descenso del gradiente, que nos permite ajustar los parámetros poco a poco hasta que el error sea lo más pequeño posible.

Este modelo es simple, pero nos sirve como base para entender conceptos que luego escalan hacia modelos más complejos y sofisticados, por ejemplo:

1. Regresión logística

Aunque se llama regresión, no predice valores continuos, sino probabilidades. Se utiliza, por ejemplo, para clasificar si un e-mail es spam o no. Su fórmula es parecida a la de la regresión lineal, pero se aplica una función sigmoide que transforma la salida en un valor entre 0 y 1:

P(y=1|x) = 1 / (1 + e^-(wx + b))

Matemáticamente, se entrena también con descenso del gradiente, pero utilizando funciones de pérdida como la entropía cruzada, más adecuada para clasificaciones binarias.

2. Redes neuronales artificiales

Inspiradas en el cerebro humano, están formadas por capas de «neuronas» conectadas entre sí. Cada conexión tiene un peso y las neuronas aplican funciones de activación no lineales (como ReLU, tan(x), o sigmoide).

La salida de cada neurona se calcula así:

a = f(wx + b)

Donde:

w son los pesos,
x es la entrada,
b es el sesgo,
f es la función de activación.

El entrenamiento se hace mediante backpropagation, una técnica que aplica la regla de la cadena del cálculo diferencial para propagar el error desde la salida hasta las primeras capas, ajustando todos los pesos de forma eficiente.

3. Árboles de decisión y random forests

Un modelo completamente distinto: aquí no hay ecuaciones, sino decisiones condicionales encadenadas.

Un árbol de decisión divide los datos según condiciones (por ejemplo: «¿el ingreso es mayor de 2.000 €?») hasta llegar a una predicción. La construcción del árbol se basa en medidas estadísticas como la ganancia de información o el índice de Gini, que buscan minimizar la impureza de los nodos.

Una random forest entrena muchos árboles distintos con subconjuntos aleatorios de datos y luego promedia los resultados, mejorando la precisión y reduciendo el sobreajuste.

4. SVM (máquinas de vectores soporte)

Buscan el hiperplano que mejor separa dos clases en un espacio de características. Matemáticamente, consiste en resolver un problema de optimización cuadrática con restricciones:

minimizar ||w||² sujeto a que yᵢ(w·xᵢ + b) ≥ 1

Esta formulación busca el margen máximo entre clases. Si los datos no son linealmente separables, se aplican funciones kernel para proyectarlos a un espacio de mayor dimensión donde sí lo sean. Aquí hay bastante magia matemática detrás, sobre todo en álgebra lineal y teoría de optimización.

5. K-means (clustering)

Técnica no supervisada que agrupa datos similares entre sí. Parte de una idea sencilla: coloca k centroides aleatorios, asigna cada punto al centro más cercano, actualiza los centros y repite hasta estabilizar.

Su objetivo es minimizar la suma de distancias al cuadrado entre los puntos y su centro:

J = ∑ ∑ ||xᵢ – μⱼ||²

Es un algoritmo de optimización, aunque no garantiza un mínimo global. Y sí, aquí también hay álgebra lineal y geometría en juego.

¿Y todo esto para qué?

Comprender las matemáticas te permite:

Diagnosticar por qué un modelo no aprende.
Elegir el modelo más adecuado según el problema.
Entender si los datos son suficientes o están sesgados.
Saber si los resultados son fiables… o puro bullshit envuelto en IA.

Másteres exprés: cuidado con el envoltorio

Estamos asistiendo a una avalancha de cursos y másteres que prometen convertirte en experto en IA en tres meses, sin una pizca de matemáticas. Muchos de ellos enseñan a arrastrar bloques o escribir prompts, lo cual está bien para empezar, pero no es IA. Es usar una interfaz. Saber conducir no te convierte en mecánico. Ni mucho menos en diseñador de coches autónomos.

Si queremos construir soluciones inteligentes reales, con impacto y capacidad de adaptarse a situaciones complejas, necesitamos mirar más allá de la caja de herramientas y sumergirnos en el conocimiento que las hace posibles.

En definitiva, el Machine Learning es una revolución, sí. Pero una revolución basada en matemáticas. Si de verdad quieres crear soluciones inteligentes, entender cómo funcionan los modelos y diferenciarte en un mundo lleno de usuarios de plantilla, tu mejor aliado será el conocimiento matemático.

Y en eso, estamos aquí para ayudarte.

The Black Box Lab

Las matemáticas del Machine Learning: más allá de los prompts y los flujos automáticos