Fundamentos de Estad´ıstica descriptiva
CONCEPTOS GENERALESLlamaremospoblaci´on estad´ısticaal conjunto de referencia sobre el cual van a recaer las obser-vaciones. Se llama individuo a cada uno de los elementos que componen la poblaci´on y muestra
a un subconjunto de individuos de la poblaci´on. Se suelen tomar muestras cuando es dif´ıcil o costosa la observaci´on de todos los elementos de la poblaci´on. Decimos que realizamos un censo
cuando se observa a la poblaci´on completa.
Toda poblaci´on viene definida por un conjunto delimitado y bien definido de caracteres, es decir una cualidad o propiedad inherente en el individuo. A los posibles aspectos de un car´acter se les denominanmodalidades, que deben ser exhaustivas e incompatibles. Los caracteres pueden ser clasificados en caracterescualitativos, en las se recogen modalidades que no son n´umeros (color del pelo, por ejemplo) y caracteres cuantitativos, en las que todas las modalidades son n´umeros (por ejemplo, el peso o la estatura).
Una variable estad´ıstica es un conjunto de n´umeros que representan a un car´acter (o m´as) cuantitativo. ´Estas pueden ser discretas o continuas, seg´un que las modalidades sean n´umeros naturales o intervalos de IR, respectivamente.
Se considera una poblaci´on formada por N individuos, descrita por un car´acter que posee k modalidadesx1, x2, . . . , xk, pero donde cada uno de ellos puede aparecer repetido m´as de una vez.
Se denomina frecuencia absoluta,ni, asociada a la modalidadxi al n´umero de elementos de la
poblaci´on que poseen dicha modalidad. De esta forma, la suma de todas las frecuencias absolutas debe ser el n´umero de elementos de la poblaci´on, es decirPki=1ni =N.
La frecuencia relativa, fi, asociada a una modalidad xi es la proporci´on de individuos de la
poblaci´on que presenta la modalidad xi, por tanto es el cociente entre la frecuencia absoluta de
xi y el n´umero de elementos de la poblaci´on: fi = nNi. Se satisface entonces que Pki=1fi = 1.
La frecuencia acumulada absoluta, Ni (respect. relativa, Fi) asociada a la modalidad xi es
la suma de las frecuencias absolutas (respect. relativas) de las modalidades x1, x2, . . . , xi−1, xi.
Con estas definiciones, se tiene que la frecuencia acumulada absoluta de la ´ultima modalidad xk
coincide con el n´umero de elementos de la poblaci´on y la frecuencia acumulada relativa coincide con 1. Con estos datos se construye una llamada tabla estad´ıstica de frecuencias en la que se recogen las modalidades de un car´acter y sus respectivas frecuencias:
modalidad frec. abs. frec. rel. frec. abs. acum. frec. acum. rel.
xi ni fi Ni Fi x1 n1 f1 = nN1 N1 =n1 F1 =f1 x2 n2 f2 = nN2 N2 =n1+n2 F2 =f1+f2 .. . ... ... ... ... xk nk fk = nNk Nk=N Fk = 1
En relaci´on a las observaciones realizadas en una muestra o poblaci´on se nos pueden presentar los siguientes casos:
1. Que se hayan hecho pocas observaciones y, por tanto, la variable estad´ıstica tome pocos valores.
2. Que se hayan hecho muchas observaciones y, sin embargo, la variable estad´ıstica tome muy pocos valores distintos, incidiendo de una manera considerable el estudio de las repeticiones de cada valor.
3. Que se hayan hechos muchas observaciones y la variable estad´ıstica tome muchos valores distintos.
Los dos primeros casos caer´an dentro del estudio de una variable estad´ıstica discreta, mientras que en el caso tercero, trataremos de agrupar los valores de la variable estad´ıstica en intervalos adecuadamente elegidos para no perder mucha informaci´on, lo cual va a suponer una simplificaci´on en nuestro trabajo.
A la diferencia entre el extremo superior y el extremo inferior de cada intervalo la llamare-mos amplitud del intervalo. Por comodidad, los intervalos de amplitud constante son los m´as aconsejables, salvo que las condiciones espec´ıficas del problema no lo aconsejen. Los intervalos de clase suelen ser semiabiertos y se tomar´an tantos intervalos solapados como sean necesarios para recubrir todo el recorrido de la variable.
Definimos la marca de clase como el punto medio de cada intervalo. Es, en definitiva, el valor que nos representa la informaci´on que contiene un intervalo.
Tabla de frecuencias de una variable agrupada en intervalos intervalos marcas de clase ni fi Ni Fi
(a0, a1] x1 n1 f1 N1 F1 (a1, a2] x2 n2 f2 N2 F2 .. . ... ... ... ... ... (ak−1, ak] xk nk fk Nk Fk REPRESENTACIONES GR ´AFICAS
Para representar por medio de un gr´afico los datos observados en una poblaci´on, deben tenerse en cuenta los siguientes puntos:
• Las gr´aficas deben explicarse por s´ı mismas.Los t´ıtulos de pie deben dar informaci´on sobre los sujetos a estudio y la materia objeto de experimentaci´on, qu´e observaciones se han efectuado y las restricciones que se han impuesto.
• Se deber´an indicar las unidades de escala de los ejes.
• Deber´an dar una visi´on general del conjunto de datos.
• No deber´an abarcar mucha informaci´on en un mismo gr´afico.
Entre los tipos de gr´aficas que representan variables cualitativas est´an los diagramas desectores
y los diagramas de rect´angulos.
Para las variables cuantitativas, debido a a que las modalidades son n´umeros, las representa-ciones se realizan sobre los ejes de coordenadas, aunque puede resultar necesario que se tomen distintas escalas. Los m´as representativos son los diagramas de barras, para variables discretas, que consisten en trazar para cada valor del car´acter, barras verticales de longitud la frecuencia absoluta o relativa asociada a cada valor.
Para variables continuas, el m´as utilizado es el histograma que es similar al diagrama de barras,pero como las modalidades son intervalos, se representan rect´angulos cuyas ´areas son pro-porcionales (o igual) a la frecuencia absoluta o relativa de cada clase. Cuando la amplitud de clase es la misma para cada intervalo, es frecuente tomar rect´angulos cuya altura coincide con la frecuencia absoluta o relativa. Uniendo los puntos medios del lado superior de cada rect´angulo, se obtienen los llamadospol´ıgonos de frecuencia.
MEDIDAS DE POSICI ´ON
A veces es conveniente reducir la informaci´on obtenida a un solo valor o a un n´umero peque˜no de valores para facilitar la comparaci´on entre las distintas muestras o poblaciones. Estos valores, que de alguna forma centralizan la informaci´on reciben el nombre de medidas de posici´on, de tendencia central o de posici´on central.
Media: SeaXuna variable estad´ıstica que toma valores distintos{x1, x2, . . . , xk}con
frecuen-cias absolutas {n1, n2, . . . , nk} siendo Pni=1ni = N. Se define la media como la suma ponderada
de los valores de la variable por sus frecuencias relativas:
X = k X i=1 xifi = k X i=1 xini N
Para calcular la media de una variable continua, se realiza la suma ponderada de las marcas de clase por la frecuencia relativa asociada a cada clase.
Mediana: es el valor de la variable que deja a su derecha y a su izquierda el cincuenta por
ciento de la poblaci´on. Se denota porMe(X). Si, debido al tama˜no de la poblaci´on, N, se tienen
las observaciones sin agrupar en una tabla de frecuencias, la mediana ser´a:
• para N impar, la modalidad que se encuentra en la mitad del conjunto de datos ordenados
• siN es par, el punto medio de los dos valores centrales.
Cuando los datos est´an organizados en una tabla de frecuencias, se divide el n´umero de ob-servacionesN entre 2 y si N/2 no se encuentra en la tabla de frecuencias absolutas acumuladas, estar´a comprendido entre dos n´umeros de la citada tabla, con lo cual la mediana ser´a aquel valor de la variable que corresponde al mayor; si el valor N/2 est´a en la columnas de las Ni es que
coincide con la frecuencia absoluta acumulada para alg´un valorxj, en este caso, se toma el punto
medio del intervalo, es decirMe =
xj +xj+1
2 .
Para variables estad´ısticas continuas, se divide el n´umero de observaciones N entre 2 y siN/2 no se encuentra en la tabla de frecuencias absolutas acumuladas estar´a comprendido entre dos valores Nj y Nj+1 de la citada tabla, que corresponder´an a las frecuencias absolutas acumuladas de dos intervalos [aj−1, aj) y [aj, aj+1) respectivamente, con lo cual la mediana se va a encontrar en el intervalo [aj, aj+1), al que se denominaintervalo mediano. Es frecuente tomar como mediana la marca de clase del intervalo mediano.
Si el valor N/2 est´a en la columnas de las Ni es que coincide con la frecuencia absoluta
acumulada de un cierto intervalo de clase [aj, aj+1) y, por tanto, la mediana ser´a el extremo superior del mismo.
Moda: es el valor de la variable que tiene m´axima frecuencia. La moda no tiene por qu´e ser ´unica. Cuando la variable es continua, hablaremos de intervalo modal. Se denota por Md o
Mod(X).
Cuartiles: se definen los cuartiles como tres valores de la variable que dividen las
obser-vaciones en cuatro partes iguales. El primer cuartil es el valor que deja la cuarta parte de las observaciones menores o iguales a ´el y las tres cuartas partes superiores a ´el. Para su c´alculo se hace el mismo razonamiento que en el c´alculo de la mediana, pero considerandoN/4. El segundo cuartil es la mediana y el tercer cuartil es el valor que deja las tres cuartas partes de las obser-vaciones menores o iguales a ´el y la cuarta parte superior a ´el. Para su c´alculo se hace el mismo razonamiento que en el c´alculo de la mediana, pero considerando 3N/4.
Deciles: se define el decil K-´esimocomo el valor de la variable que deja inferiores o iguales a ´el las K/10 partes de las observaciones. Los denotamos por Dk.
Centiles o percentiles: se define el percentil K-´esimo como el valor de la variable que deja inferiores o iguales a ´el las K/100 partes de las observaciones. Los denotamos por Pk.
MEDIDAS DE DISPERSI ´ON
La media aritm´etica se emplea como valor representativo de la poblaci´on, sin embargo, seg´un la dispersi´on de los datos, la representa mejor o peor. Si las modalidades de la variable est´an todas pr´oximas a la media (y, por tanto, pr´oximas entre s´ı) ´esta nos dar´a una idea bastante aproximada de los valores que toma la variable, mientras que si los datos est´an muy dispersos (o con que haya uno solo que se aleje de todos los dem´as), la media no ser´a un buen representante del colectivo de modalidades.
El problema que se plantea es encontrar una medida de la dispersi´on de los datos respecto de la media. SeaX una variable estad´ıstica que toma valores distintos {x1, x2, . . . , xk} con frecuencias
absolutas {n1, n2, . . . , nk}. Se puede pensar en definir la dispersi´on de cada modalidad respecto
de la media y sumar: k X i=1 (xi−X)ni = (x1−X)n1+ (x2−X)n2+· · ·+ (xk−X)nk=nX −nX = 0 ´
Esto ocurre porque las desviaciones por exceso y por defecto respecto de la media se van com-pensando unas con otras al sumar. Para evitar ´esto, se pueden elevar al cuadrado las desviaciones (de esta forma se consigue que todas sean positivas) y se promedia con el tama˜no de la poblaci´on.
Varianza: σX2 = Pk i=1(xi−X)2ni N = Pk i=1x2ini N −X 2
Desviaci´on t´ıpica: es la ra´ız cuadrada positiva de la varianza de la variable. Se designa por σX.
Coeficiente de variaci´on: es el cociente entre la desviaci´on t´ıpica y la media. CV(X) = σX
X
La media, como promedio de un conjunto de datos, tiene la misma unidad de medida que ´estos. La varianza estar´a expresada en las unidades de los datos al cuadrado, mientras que
las desviaci´on t´ıpica tiene las mismas unidades que los datos y la media. Cuando se trata de comparar la dispersi´on de variables expresadas en distintas medidas se puede utilizar el coeficiente de variaci´on, que se suele expresar en %, ya que no tiene unidades.
Para la comparaci´on de las modalidades de dos variables distintas se utiliza lavariable tipifi-cadaque mide la desviaci´on de la variable respecto de la media en t´erminos de la desviaci´on t´ıpica. Dada una variable estad´ısticaXque toma valores{x1, x2, . . . , xk}com mediaXy desviaci´on t´ıpica
σ, se define la variable tipificada
Z = X−X σX
Rango intercuart´ılico: es la diferencia entre el cuartil de tercer orden y el de primer orden: R=Q3−Q1
Momentos centrales (respecto de la media): Se define el momento central de orden r
por µr = k X i=1 (xi−X)rfi
Obs´ervese que µ0 = 1, µ1 = 0 y µ2 coincide con la varianza.
Momentos no centrales (respecto al origen): Se define el momento no central de orden
r por mr = k X i=1 xrifi
Obs´ervese que m0 = 1, m1 =X y quem2 =σX2 +X
2 .
MEDIDAS DE ASIMETR´IA Y APUNTAMIENTO
Diremos que una distribuci´on de frecuencias essim´etricacuando valores de la variable equidis-tantes de un valor m´aximo central tienen las mismas frecuencias. Es importante destacar en este caso X = Me = Md. Se denominan distribuciones asim´etricas a aquellas distribuciones que no
son sim´etricas. La asimetr´ıa puede presentarse a la derecha o a la izquierda.
Coeficiente de asimetr´ıa de Pearson
AP =
X−Md
σX
Si AP >0, la distribuci´on es asim´etrica a la derecha y si AP <0 es asim´etrica a la izquierda.
Coeficiente de asimetr´ıa de Fisher
AF =γ1 = µ3 σ3
X
Si AF >0, la distribuci´on es asim´etrica a la derecha y si AF <0 es asim´etrica a la izquierda.
Coeficiente de apuntamiento o curtosis:
γ2 = µ4 σ4
X
Este coeficiente indica cu´al es el apuntamiento de forma de la distribuci´on, compar´andola con la campana de Gauss (distribuci´on normal). Si γ2 > 3, tiene m´as apuntamiento que la normal (leptoc´urtica). Si γ2 = 3, tiene igual apuntamiento que la normal (mesoc´urtica). Si γ2 <3, tiene menos apuntamiento que la normal (platic´urtica).
VARIABLES ESTAD´ISTICAS BIDIMENSIONALES
En esta secci´on se considerar´an aquellas situaciones en las que se realiza la observaci´on si-mult´anea de dos caracteres en el individuo, obteni´endose, por tanto, pares de resultados. Por ejem-plo, observar en una persona su peso y su edad. Los dos caracteres observados no tienen por qu´e ser de la misma clase. As´ı, se pueden presentar dos caracteres cualitativos, dos cuantitativos o uno cualitativo y otro cuantitativo. En el caso de dos caracteres cuantitativos las variables que repre-sentan sus valores pueden ser ambas discretas, ambas continuas o una discreta y otra continua.
Se considera una poblaci´on conN individuos descrita por dos caracteres:
• X con modalidades {x1, x2, . . . , xk}
• Y con modalidades {y1, y2, . . . , yp}
En estos casos, las modalidades son pares (xi, yj) para i∈ {1,2, . . . , k}, j ∈ {1,2, . . . , p}.
Se define lafrecuencia absolutaasociada al par (xi, yj), nij,como el n´umero de elementos de la
poblaci´on que tienen la modalidad xi de X e yj de Y. Las frecuencias relativas se definen como
en el caso de una sola variablefij = nNij.
Las tablas estad´ısticas correspondientes a una variable bidimensional son de la forma
X\Y y1 y2 · · · yp x1 n11 n12 · · · n1p x2 n21 n22 · · · n2p .. . ... ... ... ... xk nk1 nk2 · · · nkp Distribuciones marginales
La distribuci´on marginal de X viene dada por {xi, ni.}ki=1 siendo ni. el n´umero total de
indi-viduos que poseen la modalidad xi deX, independientemente de la modalidad de Y que posean,
a la que se denominafrecuencia marginal absoluta asociada a la modalidad xi deX.Es decir,
ni. = p X
j=1 nij
Se define la frecuencia relativa marginal como el cociente fi. =
ni.
N
An´alogamente, se define la distribuci´on marginal deY con las frecuencias marginales absolutas n.j y la relativas f.j.
Para las distribuciones marginales se puede determinar (como ya se vi´o en el ep´ıgrafe anterior de variables estad´ısticas unidimensionales) cualquier medida de centralizaci´on y dispersi´on. Por ejemplo, se definen las medias marginales como
X = k,p X i,j=1 xifij = k X i=1 xifi. Y = k,p X i,j=1 yjfij = p X j=1 yjf.j
y las varianzas marginales por
σX2 = k,p X i,j=1 (xi−X)2fij = k X i=1 (xi−X)2fi. σY2 = k,p X i,j=1 (yj −Y)2fij = p X j=1 (yj −Y)2f.j Distribuciones condicionadas
La distribuci´on de X cuando Y =yj, que se denota por X|Y =yj, viene dada por {xi, nji}ki=1 siendonji el n´umero de individuos que poseen la modalidadxi deX e yj deY, es decir, la misma
nij. Se construyen tablas de la forma
X nji x1 n1j x2 n2j .. . ... xk nkj
La frecuencia relativa de xi condicionada a que Y = yj es la proporci´on de individuos que
presentan la modalidad xi, entre los que presentan la modalidad yj deY, NO sobre el total de la
poblaci´on (´esta ser´ıa la frecuencia relativa marginal de xi). Por tanto,
fij = nij n.j
Obs´ervese que si nos fijamos en la tabla de frecuencias correspondiente a la variable unidi-mensional de X|Y = yj, para calcular las frecuencias relativas en dicha tabla, se hace lo
ha-bitual: dividir cada frecuencia absoluta entre la suma de todas ellas, que en este caso ser´ıa n1j+n2j+· · ·+nkj =n.j
An´alogamente, se construyen las tablas correspondientes a las distribuciones de la variable Y condicionadas a alg´un valor de X, Y|X =xi.
Como tablas estad´ısticas de variables unidimensionales que son, se les pueden calcular cualquiera de las medidas ya conocidas. As´ı, se definen las medias condicionadas por
Xj = k X
i=1 xifij
es decir que es la media de la distribuci´on X|Y = yj (luego se pueden definir p medias
condi-cionadas). An´alogamente, se definen k medias condicionadas, para cada valor de X: Yi =
p X
j=1 yjfji
Se definen las varianzas condicionadas como las varianzas de las variables condicionadas: σX2j = k X i=1 (xi−Xj)2f j i σ2Yi = p X j=1 (yj −Yi)2fji
ASOCIACI ´ON ESTAD´ISTICA DE DOS VARIABLES
Una de las aspiraciones de la Ciencia ha sido establecer relaciones entre diferentes variables, para, por ejemplo poder predecir el valor de una de ellas, conociendo el valor de la otra. A veces estas relaciones son deterministas (por ejemplo, se puede determinar con exactitud el tiempo que emplear´a un m´ovil en recorrer cierta distancia si se sabe la velocidad que lleva) pero en multitud de ocasiones las magnitudes no guardan una relaci´on causal a pesar de que guardan una fuerte conexi´on. Por ejemplo, el coeficiente de inteligencia, medido con los tests adecuados, se relaciona fuertemente con el rendimiento escolar en Matem´aticas. Una parte importante de la Estad´ıstica es el an´alisis de la relaci´on que puede establecerse entre distintas variables, seg´un un conjunto de datos observados. Los distintos grados de asociaci´on pueden ir desde la total independencia hasta una relaci´on tan estrecha que se pueda considerar determinista.
Independencia estad´ıstica
Decimos que una variable X es estad´ısticamente independiente del car´acter Y cuando la fre-cuencia relativa dexi no depende del valor yj, que condiciona. Es lo mismo que decir quefij =fi.
para todo i, j. En este caso, la frecuencia relativa conjunta se puede expresar como el producto de las marginales.
Se puede definir el concepto an´alogo de ser Y independiente de X, pero se deduce de forma inmediata que son conceptos equivalentes.
Dependencia funcional
Se dice que X depende funcionalmente de Y si para cada modalidadyj deY existe una ´unica
modalidadxi deX. Si se mira la tabla correspondiente a la variable bidimensional, lo que ocurre es
que en cada columna s´olo hay un valor no nulo paraX. ´Esto siempre se da cuando ambas variables est´an relacionadas por una expresi´on matem´atica y, por tanto, existe una relaci´on determinista entre ellas.
Covarianza
Parece intuitivo pensar que para cuantificar el tipo de asociaci´on estad´ıstica entre dos variables a partir de los datos observados en una poblaci´on, ser´a necesario comparar la variaci´on conjunta de las dos. ´Esto supone tener en cuenta los valores que toman cada una de ellas individuo a individuo de la poblaci´on estudiada.
Cuando seg´un los datos registrados, se observa que el crecimiento en los valores de una variable
parece favorecer el crecimiento de la otra (por ejemplo, un coeficiente intelectual alto suele llevar a un rendimiento alto en Matem´aticas, aunque no se excluye que una persona de coeficiente intelectual mayor que otra tenga un rendimiento m´as bajo en Matem´aticas), se habla de asociaci´on
positiva. Mientras que en caso contrario, es decir, si el crecimiento de una variable conduce a una disminuci´on de la otra (por ejemplo, a mayor n´umero de depredadores en un ecosistema, menor n´umero de presas) se habla de asociaci´on negativa.
Para cuantificar la variaci´on conjunta de dos variables, lo que podr´ıa denominarsecovariaci´on, se mide la desviaci´on respecto de la media que ambas variables presentan en cada individuo de la poblaci´on. De esta forma, para variables asociadas positivamente, cuando una variable presente un valor ”grande” (esto quiere decir un valor alejado de la media), la otra tender´a a tomar un valor grande, mientras que si la asociaci´on es negativa, ocurrir´a al rev´es. As´ı, una estimaci´on de la asociaci´on entre variables la proporciona la covarianza:
σXY = k X i=1 p X j=1 (xi−X)(yj −Y)fij = k X i=1 p X j=1 xiyjfij −X Y
Obs´ervese que si las variables est´an asociadas positivamente las diferencias (xi−X) e (yj−Y)
tender´an a tener con frecuencia el mismo signo, mientras que si est´an asociadas de manera negativa, las diferencias ser´an con frecuencia de signo contrario, dando lugar a un valor negativo de la covarianza. Por tanto, el signo de la covarianza puede darnos una idea de la asociaci´on entre variables.
REGRESI ´ON Y CORRELACI ´ON
Se considera una poblaci´on de N individuos en la cual se estudian dos caracteres cuantita-tivos X e Y. Supongamos que se observa en cada individuo de la poblaci´on ambas variables, obteni´endose pares de valores {(xi, yi)}Ni=1. Si el tama˜no de la poblaci´on fuera elevado y las modalidades de ambas variables se repitieran, se organizar´ıan los datos en una tabla bidimen-sional de frecuencias, considerando entonces pares{(xi, yj)}k,pi,j=1 con frecuencias relativas asociadas
{fij}k,pi,j=1. En cualquier caso, si se representa en unos ejes cartesianos los valores que toma la variable, se obtiene lo que se conoce comonube de puntos o diagrama de dispersi´on.
El problema general de regresi´on se plantea en el intento de ajustar una funci´on de ecuaci´on conocida a la nube en cuesti´on, con el inter´es de poder obtener una ”estimaci´on” aproximada de una de las variables a partir de la otra.
Naturalmente que entre todas las funciones que se pueden elegir para ajustarlas a la nube de puntos hemos de seleccionar la ´optima, esto es, la que mejor encaje sobre los puntos que tenemos, para lo cual recurriremos al m´etodo de los m´ınimos cuadrados. La funci´on que pretendemos obtener ser´a una l´ınea que llamaremos l´ınea de regresi´on, cuya ecuaci´on puede ser una recta, una funci´on exponencial, una par´abola, una funci´on c´ubica o polin´omica de cualquier grado, una hip´erbola, etc. La regresi´on adoptar´a un nombre distinto, dependiendo de la funci´on elegida para el ajuste.
Regresi´on lineal m´ınimo cuadr´atica
En el supuesto de que sea una recta la funci´on que se quiera ajustar a la nube de puntos, estaremos ante un problema deregresi´on lineal y distinguiremos entre
1. Recta de regresi´on de Y sobre X 2. Recta de regresi´on de X sobreY
Si se pretende hacer una estimaci´on de los valores que toma Y, sabiendo el valor que toma X, entonces, la ecuaci´on de la recta ser´a y = a+bx y lo que se tiene que hacer es estimar los par´ametros a y b, partiendo de los datos observados. Por simplicidad, se considera una variable bidimensional (X, Y) que al valor observado xi le corresponde un valor observadoyi. Llamaremos
valor te´oricoyi∗ al que le corresponder´ıa en la recta como funci´on, es decira+bxi =yi∗. El m´etodo
de los m´ınimos cuadrados consiste en tomar las distancias al cuadrado (para que no se puedan contrarrestar los signos positivos y negativos) entre los valores te´oricos y los observados y hacer m´ınima su suma. Hemos de hacer, por tanto, m´ınima la expresi´on
F(a, b) =
N X
i=1
(yi−(a+bxi))2
Para ello hay que derivar la funci´on F respecto de las variables a y b e igualar a cero. De esta forma se obtiene el siguiente sistema de dos ecuaciones, cuyas inc´ognitas son a y b:
N X i=1 yi = aN +b N X i=1 xi N X i=1 xiyi = a N X i=1 xi+b N X i=1 x2i
que al resolverse proporciona los valores buscados, que son a=Y − σXY σ2 X X b= σXY σ2 X
Se obtiene por tanto,la recta
y−Y = σXY σ2
X
(x−X)
a la que se denomina recta de regresi´on de Y sobre X ajustada mediante el m´etodo de m´ınimos cuadrados y se representa porRY|X.
An´alogamente, se puede calcular por el mismo m´etodo, la recta de regresi´on de X|Y que permite hacer una estimaci´on del valor que tomaX, sabiendo el valor de Y. Se designa porRX|Y
y es
x−X = σXY σ2
Y
(y−Y)
Ajustes que se reducen al caso lineal
• Supongamos que por la forma de la nube de puntos, se piensa que la l´ınea que mejor encaja es una funci´on polin´omica de la forma y = a+bxn. Nuestro objetivo es, de nuevo, estimar los
par´ametros a y b. Para ello, podemos ajustar una recta de regresi´on de Y sobre Xn, es decir, se calculan los correspondientes coeficientes a y b , utilizando como datos los pares de valores
{(xn i, yi)}.
• En determinados experimentos, en su mayor´ıa biol´ogicos, la dependencia entre las variables X e Y es de forma exponencial. En este caso interesa ajustar a la nube de puntos la funci´on y= K1AK2x, donde A nos viene dado (en particular, puede ser el n´umero e), y los par´ametros a estimar ser´ıanK1 y K2. Si se toman logaritmos neperianos se obtiene
De esta forma, llamandoy0 = Lny, α= LnK1 y β=K2LnA se tiene
y0 =α+βx
con lo que el problema se nos ha convertido en uno de regresi´on lineal, puesto que la funci´on y0 =α+βxes una recta. Procediendo como ya se ha descrito con las parejas de valores{(xi,Lnyi)}
se obtienen α y β. Por ´ultimo s´olo resta deshacer el cambio, de manera que K1 = eα y K2 =
β LnA.
• Puede ocurrir que en lugar de fijar la base de la funci´on exponencial, sea necesario buscarla para que el ajuste sea bueno. Es decir, si se pretende ajustar una funci´on de la forma y = Kax, donde lo que se pretende encontrar son los valores de K y a apropiados, tambi´en podemos
aprovechar el caso lineal. Tomando logaritmos neperianos, Lny= LnK+xLna
Por tanto, si se calcula la recta de regresi´on de Y0 = Lny sobre X, con los pares de valores
{(xi,Lnyi)}, llam´emosle y=α+βx, entonces, deshaciendo el cambio anterior, se obtiene
K = eα y a= eβ
• Si nos interesa ajustar una funci´on del tipoy =K1xK2, introducimos logaritmos neperianos en ambos miembros
Lny = LnK1+K2Lnx⇔y0 =α+βx0
Se ajusta una recta de regresi´onY0|X0 con los pares de valores{(Lnxi,Lnyi)}y se deshace despu´es
el cambio, de manera que
K1 = eα y K2 =β.
• Para ajustes hiperb´olicos, esto es, la l´ınea de regresi´on es una hip´erbola de ecuaci´on y = 1
a+bx, se ajusta un rectay
0 =α+βx para los pares de valores {(x
i, yi0 = 1 yi ), de forma que a=α y b =β. Correlaci´on
Una vez resuelto el problema de c´omo ajustar una curva a la nube de puntos, se pretende ahora determinar con qu´e precisi´on se describe la relaci´on entre las dos variables y qu´e tipo de curva es la m´as adecuada. As´ı como la teor´ıa de la regresi´on estudia la posible predicci´on de los valores de una variable a partir de otra, la correlaci´on estudia el tipo de dependencia que existe entre ambas variables.
Se considera una variable bidimensional (X, Y) que al valor observado xi le corresponde un
valor observado yi. Para cada i, llamaremos valor te´orico yi∗ al que le corresponder´ıa a xi en la
funci´on que ajustamos, es decir f(xi) =yi∗. Recordemos que el m´etodo de los m´ınimos cuadrados
se basa en buscar los par´ametros necesarios para minimizar el valor de
N X
i=1
(yi−yi∗)
Por tanto, si se ajustan dos curvas de regresi´on distintas, y=f(x) e y =g(x) a una misma nube de puntos, la curva que mejor describa la relaci´on entre ambas variables ser´a aqu´ella para la que el valor de N X i=1 (yi−y∗i) 2
sea m´as peque˜no. Se denominavarianza residual a
Vr = N X i=1 (yi−yi∗) 2 N
Por tanto, a menor varianza residual, mejor es el ajuste. Obs´ervese que la varianza residual es cero, cuando cada yi =y∗i, es decir, el ajuste es perfecto, ya que todos los puntos se encuentran
sobre la curva de regresi´on.
Seg´un acab´amos de ver, la varianza residual se emplea para comparar dos curvas de regresi´on. Vamos ahora a dar una medida que nos permita conocer la bondad de una recta de regresi´on.
Para el caso en que el ajuste sea lineal, se define el coeficiente de correlaci´on lineal como ρ= σXY
σXσY
La relaci´on entre la varianza residual para rectas de regresi´on y este coeficiente viene dada por Vr=σY2(1−ρ 2) por tanto 0≤ρ2 = 1− Vr σ2 Y ≤1
Obs´ervese que cuando ρ2 = 1, es decir para valores extremosρ=±1, se tiene que la varianza residual es cero, por tanto el ajuste es perfecto. En tal caso, se dice que X e Y est´an correladas de forma exacta.
Cuandoρ2 = 0, la varianza residual toma el mayor valor posible y se dice que las variables X eY est´anincorreladas.
Cuanto m´as cercano est´e ρ a 1 o −1 (ρ2 cercano a 1), mejor es el ajuste lineal.
Para ajustes no lineales, se puede considerar el coeficiente de determinaci´on, definido como R2 = 1− Vr
σ2
Y
≤1
Cu´anto m´as pr´oximo a 1 est´e el coeficiente de determinaci´on, mejor es el ajuste, puesto que para ajustes perfectos (varianza residual cero) el coeficiente de determinaci´on vale 1.
Para ciertos modelos de curvas de regresi´on, entre las que se incluyen las de tipo polin´omico, se puede demostrar que el coeficiente de determinaci´on es un n´umero comprendido entre 0 y 1. De hecho, obs´ervese que por la propia definici´on, el coeficiente de determinaci´on para una recta de regresi´on coincide con el cuadrado del coeficiente de correlaci´on lineal, es decir,