Fundamentos de Estadística descriptiva

(1)

Fundamentos de Estad´ıstica descriptiva

CONCEPTOS GENERALES

Llamaremospoblaci´on estad´ısticaal conjunto de referencia sobre el cual van a recaer las obser-vaciones. Se llama individuo a cada uno de los elementos que componen la poblaci´on y muestra

a un subconjunto de individuos de la población. Se suelen tomar muestras cuando es dif´ıcil o costosa la observación de todos los elementos de la población. Decimos que realizamos un censo

cuando se observa a la poblaci´on completa.

Toda población viene definida por un conjunto delimitado y bien definido de caracteres, es decir una cualidad o propiedad inherente en el individuo. A los posibles aspectos de un carácter se les denominanmodalidades, que deben ser exhaustivas e incompatibles. Los caracteres pueden ser clasificados en caracterescualitativos, en las se recogen modalidades que no son números (color del pelo, por ejemplo) y caracteres cuantitativos, en las que todas las modalidades son números (por ejemplo, el peso o la estatura).

Una variable estad´ıstica es un conjunto de números que representan a un carácter (o más) cuantitativo. Éstas pueden ser discretas o continuas, según que las modalidades sean números naturales o intervalos de IR, respectivamente.

Se considera una población formada por N individuos, descrita por un carácter que posee k modalidadesx1, x2, . . . , xk, pero donde cada uno de ellos puede aparecer repetido más de una vez.

Se denomina frecuencia absoluta,ni, asociada a la modalidadxi al n´umero de elementos de la

población que poseen dicha modalidad. De esta forma, la suma de todas las frecuencias absolutas debe ser el número de elementos de la población, es decirPk_i₌₁ni =N.

La frecuencia relativa, fi, asociada a una modalidad xi es la proporci´on de individuos de la

poblaci´on que presenta la modalidad xi, por tanto es el cociente entre la frecuencia absoluta de

xi y el n´umero de elementos de la poblaci´on: fi = n_Ni. Se satisface entonces que Pki=1fi = 1.

La frecuencia acumulada absoluta, Ni (respect. relativa, Fi) asociada a la modalidad xi es

la suma de las frecuencias absolutas (respect. relativas) de las modalidades x1, x2, . . . , xi−1, xi.

Con estas definiciones, se tiene que la frecuencia acumulada absoluta de la ´ultima modalidad xk

coincide con el número de elementos de la población y la frecuencia acumulada relativa coincide con 1. Con estos datos se construye una llamada tabla estad´ıstica de frecuencias en la que se recogen las modalidades de un carácter y sus respectivas frecuencias:

modalidad frec. abs. frec. rel. frec. abs. acum. frec. acum. rel.

xi ni fi Ni Fi x1 n1 f1 = n_N1 N1 =n1 F1 =f1 x2 n2 f2 = n_N2 N2 =n1+n2 F2 =f1+f2 .. . ... ... ... ... xk nk fk = n_Nk Nk=N Fk = 1

En relaci´on a las observaciones realizadas en una muestra o poblaci´on se nos pueden presentar los siguientes casos:

1. Que se hayan hecho pocas observaciones y, por tanto, la variable estad´ıstica tome pocos valores.

(2)

2. Que se hayan hecho muchas observaciones y, sin embargo, la variable estad´ıstica tome muy pocos valores distintos, incidiendo de una manera considerable el estudio de las repeticiones de cada valor.

3. Que se hayan hechos muchas observaciones y la variable estad´ıstica tome muchos valores distintos.

Los dos primeros casos caerán dentro del estudio de una variable estad´ıstica discreta, mientras que en el caso tercero, trataremos de agrupar los valores de la variable estad´ıstica en intervalos adecuadamente elegidos para no perder mucha información, lo cual va a suponer una simplificación en nuestro trabajo.

A la diferencia entre el extremo superior y el extremo inferior de cada intervalo la llamare-mos amplitud del intervalo. Por comodidad, los intervalos de amplitud constante son los m´as aconsejables, salvo que las condiciones espec´ıficas del problema no lo aconsejen. Los intervalos de clase suelen ser semiabiertos y se tomar´an tantos intervalos solapados como sean necesarios para recubrir todo el recorrido de la variable.

Definimos la marca de clase como el punto medio de cada intervalo. Es, en definitiva, el valor que nos representa la informaci´on que contiene un intervalo.

Tabla de frecuencias de una variable agrupada en intervalos intervalos marcas de clase ni fi Ni Fi

(a0, a1] x1 n1 f1 N1 F1 (a1, a2] x2 n2 f2 N2 F2 .. . ... ... ... ... ... (ak−1, ak] xk nk fk Nk Fk REPRESENTACIONES GR ´AFICAS

Para representar por medio de un gr´afico los datos observados en una poblaci´on, deben tenerse en cuenta los siguientes puntos:

• Las gráficas deben explicarse por s´ı mismas.Los t´ıtulos de pie deben dar información sobre los sujetos a estudio y la materia objeto de experimentación, qué observaciones se han efectuado y las restricciones que se han impuesto.

• Se deber´an indicar las unidades de escala de los ejes.

• Deber´an dar una visi´on general del conjunto de datos.

• No deberán abarcar mucha información en un mismo gráfico.

Entre los tipos de gr´aficas que representan variables cualitativas est´an los diagramas desectores

y los diagramas de rect´angulos.

Para las variables cuantitativas, debido a a que las modalidades son números, las representa-ciones se realizan sobre los ejes de coordenadas, aunque puede resultar necesario que se tomen distintas escalas. Los más representativos son los diagramas de barras, para variables discretas, que consisten en trazar para cada valor del carácter, barras verticales de longitud la frecuencia absoluta o relativa asociada a cada valor.

(3)

Para variables continuas, el más utilizado es el histograma que es similar al diagrama de barras,pero como las modalidades son intervalos, se representan rectángulos cuyas áreas son pro-porcionales (o igual) a la frecuencia absoluta o relativa de cada clase. Cuando la amplitud de clase es la misma para cada intervalo, es frecuente tomar rectángulos cuya altura coincide con la frecuencia absoluta o relativa. Uniendo los puntos medios del lado superior de cada rectángulo, se obtienen los llamadospol´ıgonos de frecuencia.

MEDIDAS DE POSICI ´ON

A veces es conveniente reducir la información obtenida a un solo valor o a un número pequeño de valores para facilitar la comparación entre las distintas muestras o poblaciones. Estos valores, que de alguna forma centralizan la información reciben el nombre de medidas de posición, de tendencia central o de posición central.

Media: SeaXuna variable estad´ıstica que toma valores distintos{x1, x2, . . . , xk}con

frecuen-cias absolutas {n1, n2, . . . , nk} siendo Pni=1ni = N. Se define la media como la suma ponderada

de los valores de la variable por sus frecuencias relativas:

X = k X i=1 xifi = k X i=1 xini N

Para calcular la media de una variable continua, se realiza la suma ponderada de las marcas de clase por la frecuencia relativa asociada a cada clase.

Mediana: es el valor de la variable que deja a su derecha y a su izquierda el cincuenta por

ciento de la población. Se denota porMe(X). Si, debido al tamaño de la población, N, se tienen

las observaciones sin agrupar en una tabla de frecuencias, la mediana ser´a:

• para N impar, la modalidad que se encuentra en la mitad del conjunto de datos ordenados

• siN es par, el punto medio de los dos valores centrales.

Cuando los datos están organizados en una tabla de frecuencias, se divide el número de ob-servacionesN entre 2 y si N/2 no se encuentra en la tabla de frecuencias absolutas acumuladas, estará comprendido entre dos números de la citada tabla, con lo cual la mediana será aquel valor de la variable que corresponde al mayor; si el valor N/2 está en la columnas de las Ni es que

coincide con la frecuencia absoluta acumulada para alg´un valorxj, en este caso, se toma el punto

medio del intervalo, es decirMe =

xj +xj+1

2 .

Para variables estad´ısticas continuas, se divide el número de observaciones N entre 2 y siN/2 no se encuentra en la tabla de frecuencias absolutas acumuladas estará comprendido entre dos valores Nj y Nj+1 de la citada tabla, que corresponderán a las frecuencias absolutas acumuladas de dos intervalos [aj−1, aj) y [aj, aj+1) respectivamente, con lo cual la mediana se va a encontrar en el intervalo [aj, aj+1), al que se denominaintervalo mediano. Es frecuente tomar como mediana la marca de clase del intervalo mediano.

Si el valor N/2 est´a en la columnas de las Ni es que coincide con la frecuencia absoluta

acumulada de un cierto intervalo de clase [aj, aj+1) y, por tanto, la mediana ser´a el extremo superior del mismo.

(4)

Moda: es el valor de la variable que tiene máxima frecuencia. La moda no tiene por qué ser única. Cuando la variable es continua, hablaremos de intervalo modal. Se denota por Md o

Mod(X).

Cuartiles: se definen los cuartiles como tres valores de la variable que dividen las

obser-vaciones en cuatro partes iguales. El primer cuartil es el valor que deja la cuarta parte de las observaciones menores o iguales a él y las tres cuartas partes superiores a él. Para su cálculo se hace el mismo razonamiento que en el cálculo de la mediana, pero considerandoN/4. El segundo cuartil es la mediana y el tercer cuartil es el valor que deja las tres cuartas partes de las obser-vaciones menores o iguales a él y la cuarta parte superior a él. Para su cálculo se hace el mismo razonamiento que en el cálculo de la mediana, pero considerando 3N/4.

Deciles: se define el decil K-´esimocomo el valor de la variable que deja inferiores o iguales a ´el las K/10 partes de las observaciones. Los denotamos por Dk.

Centiles o percentiles: se define el percentil K-´esimo como el valor de la variable que deja inferiores o iguales a ´el las K/100 partes de las observaciones. Los denotamos por Pk.

MEDIDAS DE DISPERSI ´ON

La media aritmética se emplea como valor representativo de la población, sin embargo, según la dispersión de los datos, la representa mejor o peor. Si las modalidades de la variable están todas próximas a la media (y, por tanto, próximas entre s´ı) ésta nos dará una idea bastante aproximada de los valores que toma la variable, mientras que si los datos están muy dispersos (o con que haya uno solo que se aleje de todos los demás), la media no será un buen representante del colectivo de modalidades.

El problema que se plantea es encontrar una medida de la dispersi´on de los datos respecto de la media. SeaX una variable estad´ıstica que toma valores distintos {x1, x2, . . . , xk} con frecuencias

absolutas {n1, n2, . . . , nk}. Se puede pensar en definir la dispersi´on de cada modalidad respecto

de la media y sumar: k X i=1 (xi−X)ni = (x1−X)n1+ (x2−X)n2+· · ·+ (xk−X)nk=nX −nX = 0 ´

Esto ocurre porque las desviaciones por exceso y por defecto respecto de la media se van com-pensando unas con otras al sumar. Para evitar ésto, se pueden elevar al cuadrado las desviaciones (de esta forma se consigue que todas sean positivas) y se promedia con el tamaño de la población.

Varianza: σ_X2 = Pk i=1(xi−X)2ni N = Pk i=1x2ini N −X 2

Desviaci´on t´ıpica: es la ra´ız cuadrada positiva de la varianza de la variable. Se designa por σX.

Coeficiente de variaci´on: es el cociente entre la desviaci´on t´ıpica y la media. CV(X) = σX

X

La media, como promedio de un conjunto de datos, tiene la misma unidad de medida que ´estos. La varianza estar´a expresada en las unidades de los datos al cuadrado, mientras que

(5)

las desviación t´ıpica tiene las mismas unidades que los datos y la media. Cuando se trata de comparar la dispersión de variables expresadas en distintas medidas se puede utilizar el coeficiente de variación, que se suele expresar en %, ya que no tiene unidades.

Para la comparación de las modalidades de dos variables distintas se utiliza lavariable tipifi-cadaque mide la desviación de la variable respecto de la media en términos de la desviación t´ıpica. Dada una variable estad´ısticaXque toma valores{x1, x2, . . . , xk}com mediaXy desviación t´ıpica

σ, se define la variable tipificada

Z = X−X σX

Rango intercuart´ılico: es la diferencia entre el cuartil de tercer orden y el de primer orden: R=Q3−Q1

Momentos centrales (respecto de la media): Se define el momento central de orden r

por µr = k X i=1 (xi−X)rfi

Obs´ervese que µ0 = 1, µ1 = 0 y µ2 coincide con la varianza.

Momentos no centrales (respecto al origen): Se define el momento no central de orden

r por mr = k X i=1 xr_ifi

Obs´ervese que m0 = 1, m1 =X y quem2 =σX2 +X

2 .

MEDIDAS DE ASIMETR´IA Y APUNTAMIENTO

Diremos que una distribución de frecuencias essimétricacuando valores de la variable equidis-tantes de un valor máximo central tienen las mismas frecuencias. Es importante destacar en este caso X = Me = Md. Se denominan distribuciones asimétricas a aquellas distribuciones que no

son sim´etricas. La asimetr´ıa puede presentarse a la derecha o a la izquierda.

Coeficiente de asimetr´ıa de Pearson

AP =

X−Md

σX

Si AP >0, la distribución es asimétrica a la derecha y si AP <0 es asimétrica a la izquierda.

Coeficiente de asimetr´ıa de Fisher

AF =γ1 = µ3 σ3

X

Si AF >0, la distribución es asimétrica a la derecha y si AF <0 es asimétrica a la izquierda.

(6)

Coeficiente de apuntamiento o curtosis:

γ2 = µ4 σ4

X

Este coeficiente indica cuál es el apuntamiento de forma de la distribución, comparándola con la campana de Gauss (distribución normal). Si γ2 > 3, tiene más apuntamiento que la normal (leptocúrtica). Si γ2 = 3, tiene igual apuntamiento que la normal (mesocúrtica). Si γ2 <3, tiene menos apuntamiento que la normal (platicúrtica).

VARIABLES ESTAD´ISTICAS BIDIMENSIONALES

En esta sección se considerarán aquellas situaciones en las que se realiza la observación si-multánea de dos caracteres en el individuo, obteniéndose, por tanto, pares de resultados. Por ejem-plo, observar en una persona su peso y su edad. Los dos caracteres observados no tienen por qué ser de la misma clase. As´ı, se pueden presentar dos caracteres cualitativos, dos cuantitativos o uno cualitativo y otro cuantitativo. En el caso de dos caracteres cuantitativos las variables que repre-sentan sus valores pueden ser ambas discretas, ambas continuas o una discreta y otra continua.

Se considera una poblaci´on conN individuos descrita por dos caracteres:

• X con modalidades {x1, x2, . . . , xk}

• Y con modalidades {y1, y2, . . . , yp}

En estos casos, las modalidades son pares (xi, yj) para i∈ {1,2, . . . , k}, j ∈ {1,2, . . . , p}.

Se define lafrecuencia absolutaasociada al par (xi, yj), nij,como el n´umero de elementos de la

poblaci´on que tienen la modalidad xi de X e yj de Y. Las frecuencias relativas se definen como

en el caso de una sola variablefij = n_Nij.

Las tablas estad´ısticas correspondientes a una variable bidimensional son de la forma

X\Y y1 y2 · · · yp x1 n11 n12 · · · n1p x2 n21 n22 · · · n2p .. . ... ... ... ... xk nk1 nk2 · · · nkp Distribuciones marginales

La distribuci´on marginal de X viene dada por {xi, ni.}ki=1 siendo ni. el n´umero total de

indi-viduos que poseen la modalidad xi deX, independientemente de la modalidad de Y que posean,

a la que se denominafrecuencia marginal absoluta asociada a la modalidad xi deX.Es decir,

ni. = p X

j=1 nij

Se define la frecuencia relativa marginal como el cociente fi. =

ni.

N

An´alogamente, se define la distribuci´on marginal deY con las frecuencias marginales absolutas n.j y la relativas f.j.

(7)

Para las distribuciones marginales se puede determinar (como ya se vió en el ep´ıgrafe anterior de variables estad´ısticas unidimensionales) cualquier medida de centralización y dispersión. Por ejemplo, se definen las medias marginales como

X = k,p X i,j=1 xifij = k X i=1 xifi. Y = k,p X i,j=1 yjfij = p X j=1 yjf.j

y las varianzas marginales por

σ_X2 = k,p X i,j=1 (xi−X)2fij = k X i=1 (xi−X)2fi. σ_Y2 = k,p X i,j=1 (yj −Y)2fij = p X j=1 (yj −Y)2f.j Distribuciones condicionadas

La distribuci´on de X cuando Y =yj, que se denota por X|Y =yj, viene dada por {xi, nji}ki=1 siendonj_i el n´umero de individuos que poseen la modalidadxi deX e yj deY, es decir, la misma

nij. Se construyen tablas de la forma

X nj_i x1 n1j x2 n2j .. . ... xk nkj

La frecuencia relativa de xi condicionada a que Y = yj es la proporci´on de individuos que

presentan la modalidad xi, entre los que presentan la modalidad yj deY, NO sobre el total de la

poblaci´on (´esta ser´ıa la frecuencia relativa marginal de xi). Por tanto,

f_ij = nij n.j

Obs´ervese que si nos fijamos en la tabla de frecuencias correspondiente a la variable unidi-mensional de X|Y = yj, para calcular las frecuencias relativas en dicha tabla, se hace lo

ha-bitual: dividir cada frecuencia absoluta entre la suma de todas ellas, que en este caso ser´ıa n1j+n2j+· · ·+nkj =n.j

An´alogamente, se construyen las tablas correspondientes a las distribuciones de la variable Y condicionadas a alg´un valor de X, Y|X =xi.

Como tablas estad´ısticas de variables unidimensionales que son, se les pueden calcular cualquiera de las medidas ya conocidas. As´ı, se definen las medias condicionadas por

Xj = k X

i=1 xifij

(8)

es decir que es la media de la distribuci´on X|Y = yj (luego se pueden definir p medias

condi-cionadas). An´alogamente, se definen k medias condicionadas, para cada valor de X: Yi =

p X

j=1 yjfji

Se definen las varianzas condicionadas como las varianzas de las variables condicionadas: σ_X2_j = k X i=1 (xi−Xj)2f j i σ2Yi = p X j=1 (yj −Yi)2fji

ASOCIACI ´ON ESTAD´ISTICA DE DOS VARIABLES

Una de las aspiraciones de la Ciencia ha sido establecer relaciones entre diferentes variables, para, por ejemplo poder predecir el valor de una de ellas, conociendo el valor de la otra. A veces estas relaciones son deterministas (por ejemplo, se puede determinar con exactitud el tiempo que empleará un móvil en recorrer cierta distancia si se sabe la velocidad que lleva) pero en multitud de ocasiones las magnitudes no guardan una relación causal a pesar de que guardan una fuerte conexión. Por ejemplo, el coeficiente de inteligencia, medido con los tests adecuados, se relaciona fuertemente con el rendimiento escolar en Matemáticas. Una parte importante de la Estad´ıstica es el análisis de la relación que puede establecerse entre distintas variables, según un conjunto de datos observados. Los distintos grados de asociación pueden ir desde la total independencia hasta una relación tan estrecha que se pueda considerar determinista.

Independencia estad´ıstica

Decimos que una variable X es estad´ısticamente independiente del car´acter Y cuando la fre-cuencia relativa dexi no depende del valor yj, que condiciona. Es lo mismo que decir quefij =fi.

para todo i, j. En este caso, la frecuencia relativa conjunta se puede expresar como el producto de las marginales.

Se puede definir el concepto an´alogo de ser Y independiente de X, pero se deduce de forma inmediata que son conceptos equivalentes.

Dependencia funcional

Se dice que X depende funcionalmente de Y si para cada modalidadyj deY existe una ´unica

modalidadxi deX. Si se mira la tabla correspondiente a la variable bidimensional, lo que ocurre es

que en cada columna sólo hay un valor no nulo paraX. Ésto siempre se da cuando ambas variables están relacionadas por una expresión matemática y, por tanto, existe una relación determinista entre ellas.

Covarianza

Parece intuitivo pensar que para cuantificar el tipo de asociación estad´ıstica entre dos variables a partir de los datos observados en una población, será necesario comparar la variación conjunta de las dos. Ésto supone tener en cuenta los valores que toman cada una de ellas individuo a individuo de la población estudiada.

Cuando seg´un los datos registrados, se observa que el crecimiento en los valores de una variable

parece favorecer el crecimiento de la otra (por ejemplo, un coeficiente intelectual alto suele llevar a un rendimiento alto en Matemáticas, aunque no se excluye que una persona de coeficiente intelectual mayor que otra tenga un rendimiento más bajo en Matemáticas), se habla de asociación

(9)

positiva. Mientras que en caso contrario, es decir, si el crecimiento de una variable conduce a una disminución de la otra (por ejemplo, a mayor número de depredadores en un ecosistema, menor número de presas) se habla de asociación negativa.

Para cuantificar la variación conjunta de dos variables, lo que podr´ıa denominarsecovariación, se mide la desviación respecto de la media que ambas variables presentan en cada individuo de la población. De esta forma, para variables asociadas positivamente, cuando una variable presente un valor ”grande” (esto quiere decir un valor alejado de la media), la otra tenderá a tomar un valor grande, mientras que si la asociación es negativa, ocurrirá al revés. As´ı, una estimación de la asociación entre variables la proporciona la covarianza:

σXY = k X i=1 p X j=1 (xi−X)(yj −Y)fij = k X i=1 p X j=1 xiyjfij −X Y

Obs´ervese que si las variables est´an asociadas positivamente las diferencias (xi−X) e (yj−Y)

tenderán a tener con frecuencia el mismo signo, mientras que si están asociadas de manera negativa, las diferencias serán con frecuencia de signo contrario, dando lugar a un valor negativo de la covarianza. Por tanto, el signo de la covarianza puede darnos una idea de la asociación entre variables.

REGRESI ´ON Y CORRELACI ´ON

Se considera una población de N individuos en la cual se estudian dos caracteres cuantita-tivos X e Y. Supongamos que se observa en cada individuo de la población ambas variables, obteniéndose pares de valores {(xi, yi)}Ni=1. Si el tamaño de la población fuera elevado y las modalidades de ambas variables se repitieran, se organizar´ıan los datos en una tabla bidimen-sional de frecuencias, considerando entonces pares{(xi, yj)}k,pi,j=1 con frecuencias relativas asociadas

{fij}k,pi,j=1. En cualquier caso, si se representa en unos ejes cartesianos los valores que toma la variable, se obtiene lo que se conoce comonube de puntos o diagrama de dispersi´on.

El problema general de regresión se plantea en el intento de ajustar una función de ecuación conocida a la nube en cuestión, con el interés de poder obtener una ”estimación” aproximada de una de las variables a partir de la otra.

Naturalmente que entre todas las funciones que se pueden elegir para ajustarlas a la nube de puntos hemos de seleccionar la óptima, esto es, la que mejor encaje sobre los puntos que tenemos, para lo cual recurriremos al método de los m´ınimos cuadrados. La función que pretendemos obtener será una l´ınea que llamaremos l´ınea de regresión, cuya ecuación puede ser una recta, una función exponencial, una parábola, una función cúbica o polinómica de cualquier grado, una hipérbola, etc. La regresión adoptará un nombre distinto, dependiendo de la función elegida para el ajuste.

Regresi´on lineal m´ınimo cuadr´atica

En el supuesto de que sea una recta la funci´on que se quiera ajustar a la nube de puntos, estaremos ante un problema deregresi´on lineal y distinguiremos entre

1. Recta de regresi´on de Y sobre X 2. Recta de regresi´on de X sobreY

(10)

Si se pretende hacer una estimación de los valores que toma Y, sabiendo el valor que toma X, entonces, la ecuación de la recta será y = a+bx y lo que se tiene que hacer es estimar los parámetros a y b, partiendo de los datos observados. Por simplicidad, se considera una variable bidimensional (X, Y) que al valor observado xi le corresponde un valor observadoyi. Llamaremos

valor teóricoy_i∗ al que le corresponder´ıa en la recta como función, es decira+bxi =yi∗. El método

de los m´ınimos cuadrados consiste en tomar las distancias al cuadrado (para que no se puedan contrarrestar los signos positivos y negativos) entre los valores te´oricos y los observados y hacer m´ınima su suma. Hemos de hacer, por tanto, m´ınima la expresi´on

F(a, b) =

N X

i=1

(yi−(a+bxi))2

Para ello hay que derivar la funci´on F respecto de las variables a y b e igualar a cero. De esta forma se obtiene el siguiente sistema de dos ecuaciones, cuyas inc´ognitas son a y b:

N X i=1 yi = aN +b N X i=1 xi N X i=1 xiyi = a N X i=1 xi+b N X i=1 x2_i           

que al resolverse proporciona los valores buscados, que son a=Y − σXY σ2 X X b= σXY σ2 X

Se obtiene por tanto,la recta

y−Y = σXY σ2

X

(x−X)

a la que se denomina recta de regresi´on de Y sobre X ajustada mediante el m´etodo de m´ınimos cuadrados y se representa porRY|X.

Análogamente, se puede calcular por el mismo método, la recta de regresión de X|Y que permite hacer una estimación del valor que tomaX, sabiendo el valor de Y. Se designa porRX|Y

y es

x−X = σXY σ2

Y

(y−Y)

Ajustes que se reducen al caso lineal

• Supongamos que por la forma de la nube de puntos, se piensa que la l´ınea que mejor encaja es una funci´on polin´omica de la forma y = a+bxn_{. Nuestro objetivo es, de nuevo, estimar los}

par´ametros a y b. Para ello, podemos ajustar una recta de regresi´on de Y sobre Xn, es decir, se calculan los correspondientes coeficientes a y b , utilizando como datos los pares de valores

{(xn i, yi)}.

• En determinados experimentos, en su mayor´ıa biológicos, la dependencia entre las variables X e Y es de forma exponencial. En este caso interesa ajustar a la nube de puntos la función y= K1AK2x, donde A nos viene dado (en particular, puede ser el número e), y los parámetros a estimar ser´ıanK1 y K2. Si se toman logaritmos neperianos se obtiene

(11)

De esta forma, llamandoy0 = Lny, α= LnK1 y β=K2LnA se tiene

y0 =α+βx

con lo que el problema se nos ha convertido en uno de regresi´on lineal, puesto que la funci´on y0 =α+βxes una recta. Procediendo como ya se ha descrito con las parejas de valores{(xi,Lnyi)}

se obtienen α y β. Por ´ultimo s´olo resta deshacer el cambio, de manera que K1 = eα y K2 =

β LnA.

• Puede ocurrir que en lugar de fijar la base de la funci´on exponencial, sea necesario buscarla para que el ajuste sea bueno. Es decir, si se pretende ajustar una funci´on de la forma y = Kax_{, donde lo que se pretende encontrar son los valores de} _K _y _a _{apropiados, tambi´}_{en podemos}

aprovechar el caso lineal. Tomando logaritmos neperianos, Lny= LnK+xLna

Por tanto, si se calcula la recta de regresi´on de Y0 = Lny sobre X, con los pares de valores

{(xi,Lnyi)}, llam´emosle y=α+βx, entonces, deshaciendo el cambio anterior, se obtiene

K = eα y a= eβ

• Si nos interesa ajustar una funci´on del tipoy =K1xK2, introducimos logaritmos neperianos en ambos miembros

Lny = LnK1+K2Lnx⇔y0 =α+βx0

Se ajusta una recta de regresi´onY0|X0 con los pares de valores{(Lnxi,Lnyi)}y se deshace despu´es

el cambio, de manera que

K1 = eα y K2 =β.

• Para ajustes hiperbólicos, esto es, la l´ınea de regresión es una hipérbola de ecuación y = 1

a+bx, se ajusta un rectay

0 ₌_α₊_βx _{para los pares de valores} _{₍_x

i, yi0 = 1 yi ), de forma que a=α y b =β. Correlaci´on

Una vez resuelto el problema de cómo ajustar una curva a la nube de puntos, se pretende ahora determinar con qué precisión se describe la relación entre las dos variables y qué tipo de curva es la más adecuada. As´ı como la teor´ıa de la regresión estudia la posible predicción de los valores de una variable a partir de otra, la correlación estudia el tipo de dependencia que existe entre ambas variables.

Se considera una variable bidimensional (X, Y) que al valor observado xi le corresponde un

valor observado yi. Para cada i, llamaremos valor te´orico yi∗ al que le corresponder´ıa a xi en la

funci´on que ajustamos, es decir f(xi) =yi∗. Recordemos que el m´etodo de los m´ınimos cuadrados

se basa en buscar los par´ametros necesarios para minimizar el valor de

N X

i=1

(yi−yi∗)

(12)

Por tanto, si se ajustan dos curvas de regresión distintas, y=f(x) e y =g(x) a una misma nube de puntos, la curva que mejor describa la relación entre ambas variables será aquélla para la que el valor de N X i=1 (yi−y∗i) 2

sea m´as peque˜no. Se denominavarianza residual a

Vr = N X i=1 (yi−yi∗) 2 N

Por tanto, a menor varianza residual, mejor es el ajuste. Obs´ervese que la varianza residual es cero, cuando cada yi =y∗i, es decir, el ajuste es perfecto, ya que todos los puntos se encuentran

sobre la curva de regresi´on.

Según acabámos de ver, la varianza residual se emplea para comparar dos curvas de regresión. Vamos ahora a dar una medida que nos permita conocer la bondad de una recta de regresión.

Para el caso en que el ajuste sea lineal, se define el coeficiente de correlaci´on lineal como ρ= σXY

σXσY

La relaci´on entre la varianza residual para rectas de regresi´on y este coeficiente viene dada por Vr=σY2(1−ρ 2₎ por tanto 0≤ρ2 = 1− Vr σ2 Y ≤1

Obs´ervese que cuando ρ2 _{= 1, es decir para valores extremos}_ρ₌_±_{1, se tiene que la varianza} residual es cero, por tanto el ajuste es perfecto. En tal caso, se dice que X e Y est´an correladas de forma exacta.

Cuandoρ2 _{= 0, la varianza residual toma el mayor valor posible y se dice que las variables} _X eY est´anincorreladas.

Cuanto m´as cercano est´e ρ a 1 o −1 (ρ2 cercano a 1), mejor es el ajuste lineal.

Para ajustes no lineales, se puede considerar el coeficiente de determinaci´on, definido como R2 = 1− Vr

σ2

Y

≤1

Cuánto más próximo a 1 esté el coeficiente de determinación, mejor es el ajuste, puesto que para ajustes perfectos (varianza residual cero) el coeficiente de determinación vale 1.

Para ciertos modelos de curvas de regresión, entre las que se incluyen las de tipo polinómico, se puede demostrar que el coeficiente de determinación es un número comprendido entre 0 y 1. De hecho, obsérvese que por la propia definición, el coeficiente de determinación para una recta de regresión coincide con el cuadrado del coeficiente de correlación lineal, es decir,