Fundamentos Matemáticos para la Ciencia de Datos
- apuntiturull
- 1 may
- 9 Min. de lectura
La inteligencia artificial está transformando industrias, automatizando tareas y desbloqueando conocimientos que antes estaban fuera de alcance. En esencia, la IA busca simular la inteligencia humana, permitiendo que las máquinas aprendan, razonen y tomen decisiones. Sin embargo, detrás de estos sistemas inteligentes existe un pilar fundamental: las matemáticas. Desde el desarrollo de algoritmos de aprendizaje automático hasta la optimización de modelos de toma de decisiones, las matemáticas son la base de todas las tecnologías de IA. Ya sea para comprender patrones en los datos o para crear modelos que predigan resultados futuros, las matemáticas impulsan todo el proceso de la IA.
Sin un dominio sólido de los conceptos matemáticos clave, es prácticamente imposible desenvolverse en la complejidad de la inteligencia artificial. En esta publicación, te ofreceremos una visión general de los principios matemáticos más importantes para dominar la IA y la Ciencia de Datos. Al enfocarte en estos conceptos fundamentales, construirás una base sólida que hará que aprender técnicas avanzadas sea mucho más intuitivo y manejable.
Álgebra Básica
El álgebra básica constituye la base de muchos conceptos matemáticos utilizados en Ciencia de Datos e Inteligencia Artificial. Implica comprender operaciones fundamentales, así como trabajar con exponentes, radicales, sumatorias y factoriales. Estas habilidades son esenciales porque sustentan operaciones más complejas como la manipulación de matrices, las ecuaciones lineales y los problemas de optimización, todos ellos fundamentales para los algoritmos de IA.
Suma, Resta, Multiplicación, División
Estas son operaciones aritméticas fundamentales necesarias para el manejo de datos y cálculos básicos.
Ejemplo: Calcular el promedio (media) de un conjunto de datos implica sumar los valores y dividir entre el número total de elementos. Para el conjunto [2, 4, 6], la media se calcula así:
Media = (2 + 4 + 6) / 3 = 12 / 3 = 4
Exponentes y Radicales
Estas operaciones se utilizan frecuentemente en algoritmos que implican cálculos de distancia o modelos de crecimiento.
Ejemplo: Al trabajar con procesamiento de lenguaje natural (NLP) en IA, una tarea común es representar las palabras como vectores, un concepto conocido como word embeddings. Estos vectores nos permiten medir la similitud semántica o la distancia entre palabras, lo cual es fundamental para tareas como clasificación de texto, análisis de sentimiento o agrupamiento de palabras (clustering).
Distancia= √((x2 - x1)² + (y2 - y1)²), donde:
Donde
x1, y1 son las coordenadas de la primera palabra en el espacio vectorial.
x2, y2 son las coordenadas de la segunda palabra en el espacio vectorial.
Tomemos los vectores de palabras para “king” y “queen” como vectores 2D simplificados:
king = (0.5, 1.2)
queen = (0.7, 1.0)
Para calcular la distancia euclidiana entre “king” y “queen”:
Distancia = √((0.7 - 0.5)² + (1.0 - 1.2 )²) = 0.28
Esta distancia proporciona una medida de cuán “cercanas” o “similares” son las palabras king y queen en el espacio vectorial. Las distancias más pequeñas indican una mayor similitud semántica entre las palabras.

Sumatorias (∑)
La notación de sumatoria es esencial para representar la suma de una serie de términos, especialmente en problemas de optimización y medidas estadísticas.
Ejemplo: Al calcular la función de costo de un modelo de aprendizaje automático (como la regresión lineal), se utiliza la sumatoria para agregar los errores de todos los puntos de datos. Por ejemplo, la suma de los errores cuadrados (SSE, por sus siglas en inglés) se expresa como:
SSE = Σ (yi - ŷi)²
donde yᵢ es el valor real y ŷᵢ es el valor predicho por el modelo.
Factoriales (!)
Los factoriales desempeñan un papel importante en la probabilidad, especialmente al trabajar con permutaciones y combinaciones. En el contexto de la inteligencia artificial, los factoriales se utilizan en modelos probabilísticos como el clasificador de Naive Bayes, ampliamente usado en tareas de clasificación de texto como el filtrado de spam, el análisis de sentimientos y la categorización de temas.
La ecuación clave del clasificador Naive Bayes es:
P(A|B) = (P(B|A) * P(A)) / P(B)
Donde:
P(A|B) se refiere a la probabilidad de que A sea verdadero dado que B lo es.
P(B|A) se refiere a la probabilidad de que B sea verdadero dado que A lo es.
P(A) y P(B) se refieren a las probabilidades de que A y B sean verdaderos, respectivamente.
Por ejemplo, supongamos que tenemos dos clases: caminantes y conductores. Queremos predecir si una persona caminará o conducirá en función de su edad y salario.
Por ejemplo, se proporciona un nuevo punto de datos (edad y salario).

Ahora tenemos 20 caminantes, 10 conductores y en total 30 observaciones.
P(caminantes) = “probabilidad previa” = probabilidad de que el nuevo punto de datos sea caminante = 20/30
P(conductores) = “probabilidad previa” = probabilidad de que el nuevo punto de datos sea conductor = 10/30
P(X) = “verosimilitud marginal” = probabilidad de que el nuevo punto de datos esté dentro del círculo = 4/30
P(conductores|X) = (3/10 * 10/30) / (4/30) = 0.75
P(caminantes|X) = (1/20 * 20/30) / (4/30) = 0.25
Esto significa que, dado que el punto de datos está dentro del círculo, hay un 75% de probabilidad de que la persona sea conductora.
Notación Científica
Esta permite representar números muy grandes o muy pequeños, algo común en IA al trabajar con grandes volúmenes de datos o probabilidades diminutas.
Ejemplo: Una probabilidad de 1.5 x 10⁻¹⁰ puede aparecer en un modelo de aprendizaje automático al calcular la probabilidad de eventos poco frecuentes.
Un ejemplo del mundo real donde el álgebra se utiliza intensamente en IA es en los modelos de regresión lineal, que predicen un resultado en función de datos de entrada. La regresión lineal utiliza una ecuación algebraica para describir la relación entre una o varias variables independientes y la variable dependiente:
y = mx + b
Donde:
y es el resultado predicho,
m es la pendiente (peso),
x son los datos de entrada (característica),
b es la ordenada al origen (sesgo).
Supongamos que tenemos un modelo lineal que predice el salario en función de los años de experiencia en un determinado sector. Sabemos que por cada año adicional de experiencia, el salario aumenta en $5,000. Además, el salario base (con 0 años de experiencia) comienza en $40,000. Entonces, la ecuación para predecir el salario sería:
Salary = 5000 * Years of Experience + 40000

Entonces, si alguien tiene 5 años de experiencia, su salario predicho sería:
Salary = 5000 * 5 + 40000 = 65000
La pendiente m = 5000 representa el aumento de salario por cada año de experiencia, y la ordenada al origen b = 40000 corresponde al salario base.
En este caso, el álgebra te ayuda a calcular la línea de mejor ajuste minimizando la suma de los errores cuadrados, como se mostró anteriormente en la fórmula de SSE.
Cálculo
El cálculo es una rama fundamental de las matemáticas que desempeña un papel crucial en la Ciencia de Datos y la Inteligencia Artificial. Proporciona las herramientas necesarias para comprender y modelar cambios, tasas de cambio y acumulación de cantidades, conceptos esenciales para analizar sistemas dinámicos. El cálculo abarca temas como la derivación, la integración y las series, todos ellos utilizados en diversos algoritmos de IA. Desde la optimización de modelos mediante descenso por gradiente hasta la interpretación de patrones complejos con integrales, el cálculo es la columna vertebral matemática de muchas operaciones avanzadas en aprendizaje automático, redes neuronales y modelado de datos.
Series
Una serie es la suma de los términos de una secuencia de números. En matemáticas, las series suelen presentarse como sumas infinitas, donde los términos se añaden indefinidamente. Uno de los tipos más comunes es la serie geométrica, definida como:
S = a + ar + ar^2 + ar^3 + ... + ar^n = Σ ar^n
Donde:
a es el primer término,
r es la razón común,
n es el índice de la sumatoria.
La serie de Fourier también se utiliza ampliamente para el análisis de señales, especialmente en el reconocimiento de voz y el procesamiento de imágenes. Esta permite descomponer señales periódicas complejas en componentes sinusoidales más simples.
Una serie temporal (time series) representa una secuencia de puntos de datos recopilados o registrados en intervalos sucesivos de tiempo.
Ejemplo

Derivadas
La derivada representa la tasa de cambio de una función con respecto a una de sus variables. Es un concepto fundamental en cálculo y se expresa como:
f'(x) = d/dx f(x)
Las derivadas son fundamentales para minimizar la función de pérdida en los modelos de aprendizaje automático, especialmente a través de algoritmos como el descenso por gradiente. En el entrenamiento de redes neuronales, el objetivo es reducir la diferencia entre los valores predichos y los valores reales, lo que requiere ajustar parámetros del modelo como los pesos y los sesgos. Al calcular la derivada de la función de pérdida con respecto a cada parámetro, podemos medir cómo afectan pequeños cambios en estos parámetros al error general. El descenso por gradiente aprovecha esta información actualizando los parámetros en la dirección opuesta al gradiente (la dirección de mayor aumento del error), reduciendo así el error de forma iterativa. Cuando se trabaja con múltiples variables, las derivadas parciales ayudan a calcular cómo contribuye cada parámetro a la pérdida. Este proceso, conocido como retropropagación en el contexto de redes neuronales, garantiza que el modelo converja hacia el conjunto óptimo de parámetros, minimizando eficazmente la pérdida.
Ejemplo:
Consideremos un modelo simple de regresión lineal: y = mx + b. La función de costo para este modelo es el error cuadrático medio (MSE):
MSE = (1/n) * Σ (y_i - (mx_i + b))^2
Para actualizar m y b, calculamos las derivadas parciales del MSE con respecto a m y b:
∂MSE/∂m y ∂MSE/∂b.
Estas derivadas parciales nos indican cómo ajustar m y b para reducir el error.
Supongamos un conjunto de datos sencillo donde queremos predecir la relación entre el número de horas de estudio (entrada, x) y los resultados en una prueba (salida, y). El conjunto de datos es el siguiente:
x = [1, 2, 3]
y = [2, 4, 5]
Queremos ajustar una recta y = mx + b, donde m es la pendiente y b la ordenada al origen. Inicialmente, asumimos m = 0 y b = 0.
Paso 1: Calcular el Mean Squared Error (MSE)
MSE = (1/n) * Σ (y_i - (mx_i + b))^2
Para nuestro conjunto de datos (n = 3), con valores iniciales de m = 0 y b = 0:
MSE = (1/3) [(2 - (0 × 1 + 0))^2 + (4 - (0 × 2 + 0))^2 + (5 - (0 × 3 + 0))^2]MSE = (1/3) [4 + 16 + 25] = (1/3) × 45 = 15
Raso 2: Calcular las Derivadas Parciales
A continuación, calculamos las derivadas parciales del MSE con respecto a m y b para determinar cómo debemos ajustar estos parámetros.
Derivada parcial con respecto a m:
∂MSE/∂m = (2/n) Σ -x_i(y_i - (mx_i + b))
Con los valores iniciales de m = 0 y b = 0, la derivada parcial se convierte en:
∂MSE/∂m = (2/3) [ -1(2 - 0) + -2(4 - 0) + -3(5 - 0) ] ∂MSE/∂m = (2/3) × (-25) = -16.67
Derivada parcial con respecto a b:
∂MSE/∂b = (2/n) Σ -(y_i - (mx_i + b))
Con m = 0 y b = 0:
∂MSE/∂b = (2/3) [ -(2 - 0) + -(4 - 0) + -(5 - 0) ] ∂MSE/∂b = (2/3) × (-11) = -7.33
Paso 3: Actualizar los Parametros
Ahora que tenemos los gradientes, podemos actualizar m y b utilizando el descenso por gradiente. Supongamos una tasa de aprendizaje de 0.01:
Nuevo m:
m_new = m_old - α × ∂MSE/∂m m_new = 0 - 0.01 × (-16.67) = 0.1667
Nuevo b:
b_new = b_old - α × ∂MSE/∂b b_new = 0 - 0.01 × (-7.33) = 0.0733
Step 4: Recalcular el MSE con los Parámetros Actualizados
Con los parámetros actualizados m = 0.1667 y b = 0.0733, podemos recalcular el MSE y repetir el proceso hasta que el error se minimice.

Integrales
Una integral calcula el área bajo una curva y representa el proceso inverso a la derivación. La integral más común es la integral definida, que se expresa como:
∫[a,b] f(x) dx
Donde:
f(x) es la función a integrar,
a y b son los límites de integración,
dx representa un cambio infinitesimal en x.
Por ejemplo, ∫[0,3] x^2 dx ∫[0,3] x² dx equivale al área bajo la curva x² en el intervalo [0,3].

En visión por computador, las integrales se utilizan en algoritmos como las redes neuronales convolucionales (CNN), donde se emplea una operación similar a la integral llamada convolución para procesar datos de imagen, filtrando características clave en el proceso.
La convolución es una operación matemática que combina dos funciones para producir una tercera función. En el contexto de la IA, la convolución se utiliza ampliamente en las Redes Neuronales Convolucionales (CNN) para el procesamiento de imágenes. El proceso consiste en deslizar un filtro (kernel) sobre la imagen de entrada, realizando una multiplicación elemento a elemento y sumando los resultados.
En términos de integrales, la convolución puede expresarse como:
(f *g)(t) = ∫ f(τ)g(t - τ) dτ
Donde f y g son dos funciones, y * denota la operación de convolución. En procesamiento de imágenes, esta operación ayuda a extraer características como bordes o texturas de una imagen.
Ejemplo:
En una convolución 1D aplicada a una señal, el kernel se desliza sobre la señal de entrada, realizando la operación de convolución para crear una señal transformada.

En la convolución 2D (utilizada en las CNN), un filtro se desliza sobre una imagen aplicando la operación de convolución para generar un mapa de características (feature map).

Conclusiones
Aunque los conceptos matemáticos tratados aquí constituyen la base de la Inteligencia Artificial y la Ciencia de Datos, no son en absoluto exhaustivos. Sin embargo, representan las herramientas más críticas que todo profesional de la IA debería comprender de forma intuitiva. Dominar estos fundamentos te permite abordar temas más complejos, ya sea desarrollando modelos de aprendizaje automático, analizando datos o construyendo redes neuronales. El camino de la IA está profundamente arraigado en las matemáticas, y contar con una base sólida te permitirá explorar nuevos horizontes con confianza. A medida que avances en tu aprendizaje, te encontrarás con temas más avanzados, pero estos principios fundamentales seguirán siendo esenciales.