Matemàtiques fonamentals per a la ciència de dades
- apuntiturull
- May 1
- 9 min de lectura
La intel·ligència artificial està transformant indústries, automatitzant tasques i desbloquejant coneixements que abans estaven fora de l'abast. En essència, la IA pretén simular la intel·ligència humana, permetent que les màquines aprenguin, raonin i prenguin decisions. Tanmateix, darrere d'aquests sistemes intel·ligents hi ha una peça fonamental: les matemàtiques. Des del desenvolupament d'algoritmes d'aprenentatge automàtic fins a l'optimització de models de presa de decisions, les matemàtiques serveixen com a base per a totes les tecnologies d'IA. Tant si es tracta de comprendre patrons en dades com de crear models que prediuen resultats futurs, les matemàtiques impulsen tot el procés d'IA.
Sense una comprensió sòlida dels conceptes matemàtics clau, és gairebé impossible navegar per la complexitat de la IA. En aquesta publicació, oferirem una visió general dels principis matemàtics més importants necessaris per dominar la IA i la ciència de dades. Centrant-vos en aquests conceptes bàsics, construireu una base sòlida que farà que l'aprenentatge de tècniques avançades sigui significativament més intuïtiu i manejable.
Àlgebra bàsica
L'àlgebra bàsica constitueix la base de molts conceptes matemàtics utilitzats en la ciència de dades i la IA. Implica la comprensió de les operacions bàsiques, així com el treball amb exponents, radicals, sumes i factorials. Aquestes habilitats són essencials perquè sustenten operacions més complexes com ara manipulacions de matrius, equacions lineals i problemes d'optimització, tots els quals són crucials per als algoritmes d'IA.
Suma, resta, multiplicació, divisió
Aquestes són operacions aritmètiques fonamentals necessàries per al maneig de dades i els càlculs bàsics.
Exemple: Calcular la mitjana (mitjana) d'un conjunt de dades implica sumar els valors i dividir-los pel nombre total d'entrades. Per a un conjunt de dades [2, 4, 6], la mitjana es calcula com:
Mitjana = (2 + 4 + 6) / 3 = 12 / 3 = 4
Exponents i radicals
Aquestes operacions s'utilitzen habitualment en algoritmes que impliquen càlculs de distància o models de creixement.
Exemple: Quan es treballa amb processament del llenguatge natural (PLN) en IA, una tasca habitual és representar paraules com a vectors, un concepte conegut com a incrustacions de paraules. Aquests vectors ens permeten mesurar la similitud semàntica o la distància entre paraules, cosa que és crucial per a tasques com la classificació de text, l'anàlisi de sentiments o l'agrupació de paraules.
Distància = √((x2 - x1)² + (y2 - y1)²), on:
x1, y1 són les coordenades de la primera paraula a l'espai vectorial.
x2, y2 són les coordenades de la segona paraula a l'espai vectorial.
Prenguem els vectors de paraules per a "rei" i "reina" com a vectors 2D simplificats:
rei = (0,5, 1,2)
reina = (0,7, 1,0)
Per calcular la distància euclidiana entre el "rei" i la "reina":
Distància = √((0,7 - 0,5)² + (1,0 - 1,2)²) = 0,28
Aquesta distància proporciona una mesura de com de "properes" o "similars" són les paraules rei i reina en l'espai vectorial. Distàncies més petites indiquen una major similitud semàntica entre les paraules.

Sumes (∑)
La notació de suma és essencial per representar la suma d'una sèrie de termes, particularment en problemes d'optimització i mesures estadístiques.
Exemple: Quan es calcula la funció de cost per a un model d'aprenentatge automàtic (com ara la regressió lineal), s'utilitza la suma per agregar els errors de tots els punts de dades. Per exemple, la suma d'errors al quadrat (SSE) s'escriu com:
SSE = Σ (yi - ŷi)²
Factorials (!)
Els factorials tenen un paper important en la probabilitat, sobretot quan es tracta de permutacions i combinacions. En el context de la IA, els factorials s'utilitzen en models probabilístics com el classificador Naive Bayes, que s'utilitza àmpliament en tasques de classificació de text com ara el filtratge de correu brossa, l'anàlisi de sentiments i la categorització de temes.
L'equació clau per al classificador Naive Bayes és:
P(A|B) = (P(B|A) * P(A)) / P(B)
On:
P(A|B) fa referència a la probabilitat que A sigui certa donat que B és certa.
P(B|A) fa referència a la probabilitat que B sigui certa atès que A és certa.
P(A) i P(B) es refereixen a les probabilitats que A i B siguin certes, respectivament.
Per exemple, suposem que tenim dues classes: passejades i conduïdes. Volem predir si una persona caminarà o conduirà en funció de la seva edat i salari.

Per exemple, es proporciona una nova dada (edat i salari).

# caminants = 20, # conductors = 10. # total = 30
P(caminants) = "probabilitat a priori" = probabilitat que el nou punt de dades sigui el caminant = 20/30
P(impulsors) = "probabilitat prèvia" = probabilitat que el nou punt de dades sigui el impulsor = 10/30
P(X) = "probabilitat marginal" = probabilitat que un nou punt de dades entri al cercle = 4/30
P(conductors|X) = 3/10 * 10/30 / 4/30 = 0,75
P(caminants|X) = 1/20 * 20/30 / 4/30 = 0,25
Això significa que, atès que el punt de dades es troba dins del cercle, hi ha un 75% de probabilitats que la persona sigui conductor.
Notació científica
Això permet la representació de nombres molt grans o molt petits, que són habituals en IA quan es treballa amb conjunts de dades grans o probabilitats minúscules.
Exemple: Una probabilitat d'1,5 x 10^-10 pot aparèixer en un model d'aprenentatge automàtic quan es calcula la probabilitat d'esdeveniments rars.
Un exemple del món real on l'àlgebra s'utilitza molt en la IA són els models de regressió lineal, que prediuen un resultat basat en les dades d'entrada. La regressió lineal utilitza una equació algebraica per descriure la relació entre la variable o variables independents i la variable dependent:
y = mx + b
On:
• y és la sortida prevista,
• m és el pendent (pes),
• x són les dades d'entrada (característica),
• b és la intersecció amb l'eix y (biaix).
Diguem que tenim un model lineal que prediu el salari en funció de l'experiència per a una determinada indústria. Sabem que per cada any addicional d'experiència, el salari augmenta en 5.000 $. A més, el salari base (amb 0 anys d'experiència) comença a 40.000 $. L'equació per predir el salari seria així:
Salari = 5000 * Anys d'experiència + 40000

Així doncs, si algú té 5 anys d'experiència, el seu salari previst seria:
Salari = 5000 * 5 + 40000 = 65000
El pendent m = 5000, que representa l'augment salarial per any d'experiència, i la intersecció amb b = 40000, que és el salari base.
En aquest cas, l'àlgebra us ajuda a calcular la recta de millor ajust minimitzant la suma dels errors al quadrat, tal com es mostra a la fórmula SSE anterior.
Càlcul
El càlcul és una àrea fonamental de les matemàtiques que juga un paper fonamental en la ciència de dades i la IA. Proporciona les eines per entendre i modelar els canvis, les taxes de canvi i l'acumulació de quantitats, conceptes que són essencials per analitzar sistemes dinàmics. El càlcul cobreix temes com la diferenciació, la integració i les sèries, tots els quals s'utilitzen en diversos algoritmes d'IA. Des de l'optimització de models mitjançant el descens de gradient fins a la interpretació de patrons de dades complexos amb integrals, el càlcul és l'eix vertebrador matemàtic de moltes operacions avançades en l'aprenentatge automàtic, les xarxes neuronals i el modelatge de dades.
Sèrie
Una sèrie és la suma dels termes d'una seqüència de nombres. En matemàtiques, les sèries sovint apareixen com a sumes infinites, on els termes s'afegeixen indefinidament. Un dels tipus més comuns de sèries és una sèrie geomètrica, definida com:
S = a + ar + ar^2 + ar^3 + ... + ar^n = Σ ar^n
On:
- a és el primer terme,
- r és la raó comuna,
- n és l'índex de suma.
La sèrie de Fourier també s'utilitza àmpliament per analitzar senyals, particularment en el reconeixement de la parla i el processament d'imatges. Ajuda a descompondre senyals periòdics complexos en components sinusoïdals més simples.
Una sèrie temporal representa una seqüència de dades recollides o registrades en intervals de temps successius.
Exemple:

Derivats
La derivada representa la taxa de canvi d'una funció respecte a una de les seves variables. És fonamental en càlcul i s'escriu com:
f'(x) = d/dx f(x)
Les derivades són fonamentals per minimitzar la funció de pèrdua en models d'aprenentatge automàtic, particularment mitjançant algoritmes com el descens de gradient. En l'entrenament de xarxes neuronals, l'objectiu és reduir la diferència entre els valors predits i els reals, una tasca que requereix ajustar paràmetres del model com ara pesos i biaixos. Calculant la derivada de la funció de pèrdua respecte a cada paràmetre, podem mesurar com petits canvis en aquests paràmetres afecten l'error global. El descens de gradient aprofita aquesta informació actualitzant els paràmetres en la direcció oposada al gradient (l'ascens més pronunciat de l'error), reduint així l'error iterativament. Quan es tracta de múltiples variables, les derivades parcials ajuden a calcular com cada paràmetre contribueix a la pèrdua. Aquest procés, sovint anomenat retropropagació en el context de les xarxes neuronals, garanteix que el model convergeixi cap al conjunt òptim de paràmetres, minimitzant eficaçment la pèrdua.
Exemple:
Considerem un model de regressió lineal simple: y = mx + b . La funció de cost per a aquest model és l'error quadràtic mitjà (MSE):
MSE = (1/n) * Σ (y_i - (mx_i + b))^2
Per actualitzar m i b, calculem les derivades parcials de l'EQM respecte a m i b:
∂MSE/∂m i ∂MSE/∂b .
Aquestes derivades parcials ens indiquen com ajustar m i b per reduir l'error.
Considerem un conjunt de dades simple on volem predir la relació entre el nombre d'hores estudiades (entrada, x) i les puntuacions de les proves (sortida, y). Suposem que el conjunt de dades és el següent:
x = [1, 2, 3]
y = [2, 4, 5]
Volem ajustar una recta y = mx + b, on m és el pendent i b és la intersecció. Inicialment, suposem que els paràmetres són m = 0 i b = 0.
Pas 1: Calcula l'error quadràtic mitjà (MSE)
L'error quadràtic mitjà (MSE) es calcula de la manera següent:
MSE = (1/n) * Σ (y_i - (mx_i + b))^2
Per al nostre conjunt de dades (n = 3), amb estimacions inicials per a m i b:
MSE = (1/3) [(2 - (0 × 1 + 0))^2 + (4 - (0 × 2 + 0))^2 + (5 - (0 × 3 + 0))^2] MSE = (1/3) [4 + 16 + 25] = (1/3) × 45 = 15
Pas 2: Calculeu les derivades parcials
A continuació, calculem les derivades parcials de l'EQM respecte a m i b per trobar com hem d'ajustar aquests paràmetres.
Derivada parcial respecte a m:
∂MSE/∂m = (2/n) Σ -x_i(y_i - (mx_i + b))
Amb els valors inicials de m = 0 i b = 0, la derivada parcial esdevé:
∂MSE/∂m = (2/3) [ -1(2 - 0) + -2(4 - 0) + -3(5 - 0) ] ∂MSE/∂m = (2/3) × (-25) = -16,67
Derivada parcial respecte a b:
∂MSE/∂b = (2/n) Σ -(y_i - (mx_i + b))
Amb m = 0 i b = 0:
∂MSE/∂b = (2/3) [ -(2 - 0) + -(4 - 0) + -(5 - 0) ] ∂MSE/∂b = (2/3) × (-11) = -7,33
Pas 3: Actualitzar els paràmetres
Ara que tenim els gradients, podem actualitzar m i b utilitzant el descens de gradient. Suposem una taxa d'aprenentatge de 0,01:
Nova m:
m_nou = m_antic - α × ∂MSE/∂m m_nou = 0 - 0,01 × (-16,67) = 0,1667
Nova b:
b_nou = b_antic - α × ∂MSE/∂b b_nou = 0 - 0,01 × (-7,33) = 0,0733
Pas 4: Recalcular MSE amb paràmetres actualitzats
Amb els paràmetres actualitzats m = 0,1667 i b = 0,0733, podem recalcular l'MSE i repetir el procés fins que l'error es minimitzi.

Integrals
Una integral calcula l'àrea sota una corba i és el procés invers de la diferenciació. La integral més comuna és la integral definida, que es defineix com:
∫[a,b] f(x) dx
On: f(x) és la funció que s'ha d'integrar, a i b són els límits d'integració, dx representa un canvi infinitament petit en x.
Per exemple, ∫[0,3] x^2 dx és igual a l'àrea sota la corba x^2 en l'interval [0,3]

En visió per computador, les integrals s'utilitzen en algoritmes com les xarxes neuronals convolucionals (CNN), on s'utilitza una operació similar a una integral anomenada convolució per processar dades d'imatge, filtrant les característiques clau del procés.
La convolució és una operació matemàtica que combina dues funcions per produir una tercera funció. En el context de la IA, la convolució s'utilitza àmpliament en xarxes neuronals convolucionals (CNN) per al processament d'imatges. El procés implica lliscar un filtre (nucli) sobre la imatge d'entrada, realitzar una multiplicació element per element i sumar els resultats.
En termes d'integrals, la convolució es pot escriure com:
(f *g)(t) = ∫ f(τ)g(t - τ) dτ
On f i g són dues funcions, i denota convolució. En el processament d'imatges, aquesta operació ajuda a extreure característiques com ara vores o textures d'una imatge.
Exemple:
En una convolució 1D aplicada a un senyal, el nucli es llisca sobre el senyal d'entrada, realitzant l'operació de convolució per crear un senyal transformat.

En la convolució 2D (utilitzada a les CNN), un filtre es llisca sobre una imatge, aplicant l'operació de convolució per produir un mapa de característiques.

Conclusions
Tot i que els conceptes matemàtics que es tracten aquí formen la columna vertebral de la IA i la ciència de dades, no són en absolut exhaustius. Tanmateix, representen les eines més importants que tot professional de la IA hauria d'entendre intuïtivament. Dominar aquests fonaments et permet comprendre temes més complexos, ja sigui desenvolupar models d'aprenentatge automàtic, analitzar dades o construir xarxes neuronals. El viatge de la IA està profundament arrelat en les matemàtiques, i tenir una base sòlida et permet explorar nous horitzons amb confiança. A mesura que continuïs aprenent, trobaràs temes més avançats, però aquests principis bàsics sempre seran essencials.