1
Fundamentos te ´oricos
La regresi ´on simple tiene por objeto la construcci ´on de un modelo funcional y = f (x) que explique lo mejor posible la relaci ´on entre dos variables Y (variable dependiente) y X (variable independiente) medidas en una misma muestra.
Ya vimos que, dependiendo de la forma de esta funci ´on, existen muchos tipos de regresi ´on simple. Entre los m ´as habituales est ´an:
Modelo Ecuaci ´on gen ´erica
Lineal y = a + bx
Parab ´olico y = a + bx + cx2
Polin ´omico de grado n y = a0+a1x + · · · + anxn
Potencial y = axb
Exponencial y = ea+bx
Logar´ıtmico y = a + b log x
Inverso y = a + b/x
Curva S y = ea+b/x
La elecci ´on de un tipo de modelo u otro suele hacerse seg ´un la forma de la nube de puntos del diagrama de dispersi ´on. A veces estar ´a claro qu ´e tipo de modelo se debe construir, tal y como ocurre en los diagramas de dispersi ´on de la figura5.1. Pero otras veces no estar ´a tan claro, y en estas ocasiones, lo normal es ajustar los dos o tres modelos que nos parezcan m ´as convincentes, para luego quedarnos con el que mejor explique la relaci ´on entre Y y X, mirando el coeficiente de determinaci´on1 de cada
modelo.
Ya vimos en la pr ´actica sobre regresi ´on lineal simple, c ´omo construir rectas de regresi ´on. En el caso de que optemos por ajustar un modelo no lineal, la construcci ´on del mismo puede realizarse siguiendo los mismos pasos que en el caso lineal. B ´asicamente se trata de determinar los par ´ametros del modelo que minimizan la suma de los cuadrados de los residuos en Y. En los modelos multiplicativo y exponen- cial, el sistema aplica transformaciones logar´ıtmicas a las variables y despu ´es ajusta un modelo lineal a los datos transformados. En el modelo rec´ıproco, el sistema sustituye la variable dependiente por su rec´ıproco antes de estimar la ecuaci ´on de regresi ´on.
Sin relaci ´on
X
Y
(a) Sin relaci ´on.
Relaci ´on lineal
X
Y
(b) Relaci ´on lineal.
Relaci ´on parab ´olica
X
Y
(c) Relaci ´on polin´omica.
Relaci ´on exponencial
X
Y
(d) Relaci ´on exponencial.
Relaci ´on logar´ımica
X
Y
(e) Relaci ´on logar´ıtmica.
Relaci ´on inversa
X
Y
(f) Relaci ´on inversa. Figura 5.1– Diagramas de dispersi ´on correspondientes a distintos tipos de relaciones entre variables.
2
Ejercicios resueltos
El procedimiento m ´as sencillo para construir un modelo no lineal, siempre que sea posible, es transformar las variables para convertirlo en un modelo lineal. En el caso de los modelos de regresi ´on simple m ´as comunes las transformaciones que convierten cada modelo en un modelo lineal aparecen en la tabla siguiente:
Modelo Modelo no lineal Modelo lineal Transformaci ´on
Potencial y = axb log(y) = log(a) + b log(x) Se toma el logaritmo de ambas
variables
Exponencial y = ea+bx log(y) = a + bx Se toma el logaritmo de la varia-
ble dependiente
Logar´ıtmico y = a + b log x y = a + b log x Se toma el logaritmo de la varia- ble independiente
Inverso y = a + b/x y = a + b1x Se toma el inverso de la variable independiente
Curva S y = ea+b/x log(y) = a + b1
x Se toma el logaritmo de la varia-
ble dependiente y el inverso de la independiente
1. En un experimento se ha medido el n ´umero de bacterias por unidad de volumen en un cultivo, cada hora transcurrida, obteniendo los siguientes resultados:
Horas 0 1 2 3 4 5 6 7 8
NoBacterias 25 28 47 65 86 121 190 290 362
Se pide:
a) Crear un conjunto de datos con las variables horas y bacterias e introducir estos datos.
b) Dibujar el diagrama de dispersi ´on correspondiente. En vista del diagrama, ¿qu ´e tipo de mo- delo crees que explicar ´a mejor la relaci ´on entre el n ´umero de bacterias y el tiempo transcurri- do?
1) Seleccionar el men ´u Teaching Gr´aficos Diagrama de dispersi´on.
2) En el cuadro de di´alogo que aparece, seleccionar la variable bacterias en el campo Variable Y y la variable horas en el campo Variable X, y hacer clic en el bot ´on Enviar.
c) Calcular los modelos exponencial y cuadr ´atico de las bacterias sobre las horas. ¿Qu ´e tipo de modelo es el mejor?
Para el modelo exponencial:
1) Seleccionar el men ´u Teaching Regresi´on Regresi´on no lineal.
2) En el cuadro de di´alogo que aparece, seleccionar la variable bacterias en el campo Variable dependiente y la variable horas en el campo Variable independiente.
3) En la solapa de Modelo de regresi ´on seleccionar el modelo Exponencial.
4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot ´on Enviar.
Para el modelo cuadr´atico repetir los pasos pero seleccionando como modelo el Cuadr ´atico. El modelo mejor ser´a aquel que tenga un coeficiente de determinaci ´on mayor.
1) Seleccionar el men ´u Teaching Gr´aficos Diagrama de dispersi´on.
2) En el cuadro de di´alogo que aparece, seleccionar la variable bacterias en el campo Variable Y y la variable horas en el campo Variable X.
3) En la solapa L´ınea de ajusteseleccionar la opci ´on Exponencial y hacer clic sobre el bot ´on Enviar.
e) Seg ´un el modelo anterior, ¿cu ´antas bacterias habr ´a al cabo de 3 horas y media del inicio del cultivo? ¿Y al cabo de 10 horas? ¿Son fiables estas predicciones?
1) Seleccionar el men ´u Teaching Regresi´on Predicciones.
2) En el cuadro de di´alogo que aparece seleccionar el modelo de regresi ´on exponencial construido antes.
3) Introducir los valores 3,5, 10 en el campo Predicciones para y hacer clic sobre el bot ´on Enviar.
4) Como se trata de un modelo exponencial, las predicciones obtenidas corresponden al logaritmo de bacterias. Para obtener la predicci ´on de bacterias basta con aplicar la funci ´on exponencial a los valores obtenidos.
f) Dar una predicci ´on lo m ´as fiable posible del tiempo que tendr´ıa que transcurrir para que en el cultivo hubiese 100 bacterias.
Para construir el modelo logar´ıtmico:
1) Seleccionar el men ´u Teaching Regresi´on Regresi´on no lineal.
2) En el cuadro de di´alogo que aparece, seleccionar la variable horas en el campo Variable dependiente y la variable bacterias en el campo Variable independiente.
3) Seleccionar como modelo el Logar´ıtmico.
4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot ´on Enviar.
Para hacer la predicci ´on:
1) Seleccionar el men ´u Teaching Regresi´on Predicciones.
2) En el cuadro de di´alogo que aparece seleccionar el modelo de regresi ´on logar´ıtmico construido antes.
3) Introducir el valor 100 en el campo Predicciones para y hacer clic sobre el bot ´on Enviar. 2. El conjunto de datos dieta del paquete rk.Teaching contiene los datos de un estudio llevado a cabo
por un centro diet ´etico para probar una nueva dieta de adelgazamiento. Para cada individuo se ha medido el n ´umero de d´ıas que lleva con la dieta, el n ´umero de kilos perdidos desde entonces y si realiz ´o o no un programa de ejercicios. Se pide:
a) Cargar el conjunto de datos dieta desde el paquete rk.Teaching.
b) Dibujar el diagrama de dispersi ´on. Seg ´un la nube de puntos, ¿qu ´e tipo de modelo explicar´ıa mejor la relaci ´on entre los kilos perdidos y los d´ıas de dieta?
1) Seleccionar el men ´u Teaching Gr´aficos Diagrama de dispersi´on.
2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable Y, la variable dias en el campo Variable X, y hacer clic en el bot ´on Enviar.
c) Construir el modelo de regresi ´on que mejor explique la relaci ´on entre los kilos perdidos y los d´ıas de dieta.
1) Seleccionar el men ´u Teaching Regresi´on Comparaci´on de modelos.
2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la variable dias en el campo Variable independiente.
3) En la solapa Modelos de regresi´onseleccionar todos los modelos y hacer clic sobre el bot ´on Enviar.
4) El mejor modelo aparece en primer lugar y es el que tenga el coeficiente de determina- ci ´on mayor.
d) Dibujar el modelo del apartado anterior.
1) Seleccionar el men ´u Teaching Gr´aficos Diagrama de Dispersi´on.
2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable Y y la variable dias en el campo Variable X.
3) En la solapa L´ınea de ajusteseleccionar la opci ´on correspondiente al mejor modelo y hacer clic sobre el bot ´on Enviar.
e) Construir el modelo de regresi ´on que mejor explique la relaci ´on entre los kilos perdidos y los d´ıas de dieta para los que no hacen ejercicio.
Para ver qu´e modelo es mejor:
1) Seleccionar el men ´u Teaching Regresi´on Comparaci´on de modelos.
2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la variable dias en el campo Variable independiente.
3) Seleccionar la opci ´on Filtro e introducir la condici ´on ejercicio=="no" en el campo Condici ´on de selecci ´on.
4) En la solapa Modelos de regresi´onseleccionar todos los modelos y hacer clic sobre el bot ´on Enviar.
5) El mejor modelo aparece en primer lugar y es el que tenga el coeficiente de determina- ci ´on mayor.
Para construir el modelo:
1) Seleccionar el men ´u Teaching Regresi´on Regresi´on no lineal.
2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la variable dias en el campo Variable independiente.
3) Seleccionar la opci ´on Filtro e introducir la condici ´on ejercicio=="no" en el campo Condici ´on de selecci ´on.
4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot ´on Enviar.
f) Construir el modelo de regresi ´on que mejor explique la relaci ´on entre los kilos perdidos y los d´ıas de dieta para los que si hacen ejercicio.
Para ver qu´e modelo es mejor:
1) Seleccionar el men ´u Teaching Regresi´on Comparaci´on de modelos.
2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la variable dias en el campo Variable independiente.
3) Seleccionar la opci ´on Filtro e introducir la condici ´on ejercicio=="si" en el campo Condici ´on de selecci ´on.
4) En la solapa Modelos de regresi´onseleccionar todos los modelos y hacer clic sobre el bot ´on Enviar.
5) El mejor modelo aparece en primer lugar y es el que tenga el coeficiente de determina- ci ´on mayor.
Para construir el modelo:
1) Seleccionar el men ´u Teaching Regresi´on Regresi´on no lineal.
2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la variable dias en el campo Variable independiente.
3) Seleccionar la opci ´on Filtro e introducir la condici ´on ejercicio=="si" en el campo Condici ´on de selecci ´on.
4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot ´on Enviar.
g) Utilizar el modelo construido para predecir el n ´umero de kilos perdidos tras 40 y 500 d´ıas de dieta, tanto para los que hacen ejercicio como para los que no. ¿Son fiables estas prediccio- nes?
1) Seleccionar el men ´u Teaching Regresi´on Predicciones.
2) En el cuadro de di´alogo que aparece seleccionar el modelo de regresi ´on construido antes para los que no hacen ejercicio.
3) Introducir los valores 40, 500 en el campo Predicciones para y hacer clic sobre el bot ´on Enviar.
Repetir los pasos anteriores seleccionando el modelo de regresi ´on construido antes para los que si hacen ejercicio.
3
Ejercicios propuestos
1. La concentraci ´on de un f ´armaco en sangre, C en mg/dl, es funci´on del tiempo, t en horas, y viene dada por la siguiente tabla:
t 2 3 4 5 6 7 8
C 25 36 48 64 86 114 168 Se pide:
a) Seg ´un el modelo exponencial, ¿qu ´e concentraci ´on de f ´armaco habr´ıa a las 4,8 horas? ¿Es fiable la predicci ´on? Justificar adecuadamente la respuesta.
b) Seg ´un el modelo logar´ıtmico, ¿qu ´e tiempo debe pasar para que la concentraci ´on sea de 100 mg/dl?
2. El fichero naciones.txt contiene informaci ´on sobre el desarrollo de distintos pa´ıses (tasa de fertili- dad, tasa de uso de anticonceptivos, tasa de mortalidad infantil, producto interior bruto per c ´apita y continente). Se pide:
a) Importar el fichero naciones.txt en un conjunto de datos.
b) Construir el mejor modelo de regresi ´on de la tasa de fertilidad sobre el producto interior bruto. ¿C ´omo explicar´ıas esta relaci ´on?
c) Dibujar el modelo del apartado anterior.
d) ¿Qu ´e tasa de fertilidad le corresponde a una mujer que viva en un pa´ıs con un producto interior bruto per c ´apita de 10000 $? ¿Y si la mujer vive en Europa?
Probabilidad
1
Fundamentos te ´oricos
1.1
Introducci ´on
La estad´ıstica descriptiva permite describir el comportamiento y las relaciones entre las variables en la muestra, pero no permite sacar conclusiones sobre el resto de la poblaci ´on.
Ha llegado el momento de dar el salto de la muestra a la poblaci ´on y pasar de la estad´ıstica descriptiva a la inferencia estad´ıstica, y el puente que lo permite es lateor´ıa de la probabilidad.
Hay que tener en cuenta que el conocimiento que se puede obtener de la poblaci ´on a partir de la muestra es limitado, pero resulta evidente que la aproximaci ´on a la realidad de la poblaci ´on ser ´a mejor cuanto m ´as representativa sea la muestra de ´esta. Y recordemos que para que la muestra sea representativa de la poblaci ´on deben utilizarse t ´ecnicas de muestreo aleatorio, es decir, en la que los individuos se seleccionen alazar.
La teor´ıa de la probabilidad precisamente se encarga de controlar ese azar para saber hasta qu ´e punto son fiables y extrapolables al resto de la poblaci ´on las conclusiones obtenidas a partir de una muestra.
1.2
Experimentos y sucesos aleatorios
El estudio de una caracter´ıstica en una poblaci ´on se realiza a trav ´es de experimentos aleatorios.
Definici ´on 6.1 — Experimento aleatorio. Un experimento aleatorio es aquel en el que se conoce cu´al es el conjunto de resultados posibles antes de su realizaci ´on pero se desconoce cu´al ser´a el resultado concreto del mismo.
Un ejemplo sencillo de experimentos aleatorios son los juegos de azar. Por ejemplo, el lanzamiento de un dado es un experimento aleatorio ya que:
– Se conoce el conjunto posibles de resultados {1, 2, 3, 4, 5, 6}.
– Antes de lanzar el dado, es imposible predecir con absoluta certeza el valor que saldr ´a.
Otro ejemplo de experimento aleatorio ser´ıa la selecci ´on de un individuo de una poblaci ´on al azar y la determinaci ´on de su grupo sangu´ıneo.
En general, la obtenci ´on de cualquier muestra mediante procedimientos aleatorios ser ´a un experi- mento aleatorio.
Definici ´on 6.2 — Espacio muestral. Al conjunto E de todos los posibles resultados de un experimento aleatorio se le llama espacio muestral.
Algunos ejemplos de espacios muestrales son: Lanzamiento de una moneda: E = {c, x}. Lanzamiento de un dado: E = {1, 2, 3, 4, 5, 6}.
Grupo sangu´ıneo de un individuo seleccionado al azar: E = {A, B, AB, 0}. Estatura de un individuo seleccionado al azar: R+.
En los experimentos donde se miden m ´as de una variable, la construcci ´on del espacio muestral puede complicarse. En tales casos, es recomendable utilizar un diagrama de ´arbol de manera que cada nivel del ´arbol es una variable observada y cada rama un posible valor.
Por ejemplo, si el experimento consiste en observar el sexo y el grupo sangu´ıneo de una persona, el espacio muestral podr´ıa construirse mediante el siguiente ´arbol:
Sexo Grupo E Mujer A (Mujer,A) B (Mujer,B) AB (Mujer,AB) 0 (Mujer,0) Hombre A (Hombre,A) B (Hombre,B) AB (Hombre,AB) 0 (Hombre,0)
En RKWard los espacios muestrales se representan mediante conjuntos de datos con las variables que se midan en el experimento, indicando en cada fila un resultado posible. Por ejemplo, el conjunto de datos correspondiente al espacio muestral del experimento anterior se muestra en la figura6.1.
Figura 6.1– Conjunto de datos correspondiente al espacio muestral del experimento consistente en sacar un individuo al azar de una poblaci ´on y medir su sexo y su grupo sangu´ıneo.
Definici ´on 6.3 — Suceso aleatorio. Un suceso aleatorio es cualquier subconjunto del espacio muestral E de un experimento aleatorio.
Existen distintos tipos de sucesos:
Suceso imposible: Es el subconjunto vac´ıo∅. El suceso nunca ocurre.
Sucesos elementales: Son los subconjuntos formados por un solo elemento. Sucesos compuestos: Son los subconjuntos formados por dos o m ´as elementos.
Suceso seguro: Es el propio espacio muestral. El suceso seguro siempre ocurre.
Definici ´on 6.4 — Espacio de sucesos. Dado un espacio muestral E de un experimento aleatorio, el conjunto formado por todos los posibles sucesos de E se llama espacio de sucesos de E y se denota P(E).
Ejemplo 6.1 Dado el espacio muestral E = {a, b, c}, se tiene
P(E) = {∅, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, {a, b, c}}
Puesto que los sucesos son conjuntos, tiene sentido definir operaciones entre sucesos a partir de la teor´ıa de conjuntos.
Definici ´on 6.5 — Suceso uni ´on. Dados dos sucesos A, B ∈ P(E), se llama suceso uni´on de A y B, y se
denota A ∪ B, al suceso formado por los elementos de A junto a los elementos de B, es decir, A ∪ B = {x | x ∈ A o x ∈ B}.
E A
A ∪ B B
El suceso uni ´on A ∪ B ocurre siempre que ocurre A o B.
Ejemplo 6.2 Sea E = {1, 2, 3, 4, 5, 6}, el conjunto de los n ´umeros de un dado, y A = {2, 4, 6} y
B = {1, 2, 3, 4}. Entonces A ∪ B = {1, 2, 3, 4, 6}.
Definici ´on 6.6 — Suceso intersecci ´on. Dados dos sucesos A, B ∈ P(E), se llama suceso intersecci´on de A y B, y se denota A ∩ B, al suceso formado por los elementos comunes de A y B, es decir,
A ∩ B = {x | x ∈ A y x ∈ B}. E
A A ∩ B
B
El suceso intersecci ´on A ∩ B ocurre siempre que ocurren A y B.
Ejemplo 6.3 Sea E = {1, 2, 3, 4, 5, 6}, el conjunto de los n ´umeros de un dado, y A = {2, 4, 6} y
B = {1, 2, 3, 4}. Entonces A ∩ B = {2, 4}.
Diremos que dos sucesos son incompatibles si su intersecci ´on es vac´ıa. Por ejemplo A = {2, 4, 6} y C = {1, 3} son incompatibles.
Definici ´on 6.7 — Suceso contrario. Dado un conjunto A ∈ P(E), se llama suceso contrario o com- plementario de A, y se denota ¯A, al suceso formado por los elementos de E que no pertenecen a A, es decir,
¯
A = {x | x < A}. E
A A¯
Ejemplo 6.4 Sea E = {1, 2, 3, 4, 5, 6}, el conjunto de los n ´umeros de un dado, y A = {2, 4, 6}. Entonces
A = {1, 3, 5}.
Definici ´on 6.8 — Suceso diferencia. Dados dos sucesos A, B ∈ P(E), se llama suceso diferencia de A
y B, y se denota A − B, al suceso formado por los elementos de A que no pertenecen a B, es decir, A − B = {x | x ∈ A y x < B}.
E A
A − B B
El suceso diferencia A − B ocurre siempre que ocurre A pero no ocurre B, y tambi´en puede expre- sarse como A ∩ ¯B.
Ejemplo 6.5 Sea E = {1, 2, 3, 4, 5, 6}, el conjunto de los n ´umeros de un dado, y A = {2, 4, 6} y
B = {1, 2, 3, 4}. Entonces A − B = {6} y B − A = {1, 3}.
Dados los sucesos A, B, C ∈ P(E), se cumplen las siguientes propiedades: 1. A ∪ A = A, A ∩ A = A (idempotencia). 2. A ∪ B = B ∪ A, A ∩ B = B ∩ A (conmutativa). 3. (A ∪ B) ∪ C = A ∪ (B ∪ C), (A ∩ B) ∩ C = A ∩ (B ∩ C) (asociativa). 4. (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C), (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C) (distributiva). 5. A ∪ ∅ = A, A ∩ E = A (elemento neutro). 6. A ∪ E = E, A ∩ ∅ = ∅ (elemento absorbente).
7. A ∪ ¯A = E, A ∩ ¯A = ∅ (elemento sim´etrico complementario). 8. ¯¯A = A (doble contrario).
9. A ∪ B = ¯A ∩ ¯B, A ∩ B = ¯A ∪ ¯B (leyes de Morgan). 10. A ∩ B ⊆ A ∪ B.
1.3
Definici ´on de probabilidad
En todo experimento aleatorio existe incertidumbre sobre el resultado de la realizaci ´on del experi- mento. La probabilidad trata de cuantificar el grado de incertidumbre asociada a cada suceso de un experimento aleatorio. A lo largo de la historia se han utilizado distintas definiciones del concepto de probabilidad. A continuaci ´on se presentan las m ´as comunes.
Definici ´on 6.9 — Probabilidad cl ´asica de Laplace. Para un experimento aleatorio donde todos los elementos del espacio muestral E son equiprobables, se define la probabilidad de un suceso A ⊆ E como el cociente entre el n ´umero de elementos de A y el n ´umero de elementos de E:
P(A) = |A| |E| =
nocasos favorables a A
nocasos posibles
Ejemplo 6.6 Si se considera el espacio muestral correspondiente al lanzamiento de un dado E =
{1, 2, 3, 4, 5, 6}, y el suceso correspondiente a sacar un n ´umero par A = {2, 4, 6}, seg ´un la regla de Laplace, la probabilidad de sacar par al tirar un dado es
P(A) = |A| |E| =
3 6 =0,5, es decir, un 50 %.
Esta definici ´on es ampliamente utilizada, aunque tiene importantes restricciones:
– No puede utilizarse con espacios muestrales infinitos, o de los que no se conoce el n ´umero de casos posibles.
– Es necesario que todos los elementos del espacio muestral tengan la misma probabilidad de ocurrir (equiprobabilidad).
Estas restricciones suelen cumplirse en los experimentos relacionados con los juegos de azar (lanzamiento de dados, monedas, etc.) pero es raro que ocurran en los experimentos de las ciencias de la salud. Por ejemplo, los grupos sanguineos de una poblaci ´on humana no suelen ser equiprobables