Regresi ´on no lineal - Bioestadística aplicada

1 Fundamentos te ´oricos

La regresi ón simple tiene por objeto la construcci ón de un modelo funcional y = f (x) que explique lo mejor posible la relaci ón entre dos variables Y (variable dependiente) y X (variable independiente) medidas en una misma muestra.

Ya vimos que, dependiendo de la forma de esta funci ón, existen muchos tipos de regresi ón simple. Entre los m ás habituales est án:

Modelo Ecuaci ´on gen ´erica

Lineal y = a + bx

Parab ´olico y = a + bx + cx2

Polin ´omico de grado n y = a0+a1x + · · · + anxn

Potencial y = axb

Exponencial y = ea+bx

Logar´ıtmico y = a + b log x

Inverso y = a + b/x

Curva S y = ea+b/x

La elecci ón de un tipo de modelo u otro suele hacerse seg ún la forma de la nube de puntos del diagrama de dispersi ón. A veces estar á claro qu é tipo de modelo se debe construir, tal y como ocurre en los diagramas de dispersi ón de la figura5.1. Pero otras veces no estar á tan claro, y en estas ocasiones, lo normal es ajustar los dos o tres modelos que nos parezcan m ás convincentes, para luego quedarnos con el que mejor explique la relaci ón entre Y y X, mirando el coeficiente de determinación1 _{de cada}

modelo.

Ya vimos en la pr áctica sobre regresi ón lineal simple, c ómo construir rectas de regresi ón. En el caso de que optemos por ajustar un modelo no lineal, la construcci ón del mismo puede realizarse siguiendo los mismos pasos que en el caso lineal. B ásicamente se trata de determinar los par ámetros del modelo que minimizan la suma de los cuadrados de los residuos en Y. En los modelos multiplicativo y exponencial, el sistema aplica transformaciones logar´ıtmicas a las variables y despu és ajusta un modelo lineal a los datos transformados. En el modelo rec´ıproco, el sistema sustituye la variable dependiente por su rec´ıproco antes de estimar la ecuaci ón de regresi ón.

Sin relaci ´on

(a) Sin relaci ´on.

Relaci ´on lineal

(b) Relaci ´on lineal.

Relaci ´on parab ´olica

Relaci ´on exponencial

(d) Relaci ´on exponencial.

Relaci ´on logar´ımica

(e) Relaci ´on logar´ıtmica.

Relaci ´on inversa

(f) Relaci ´on inversa. Figura 5.1– Diagramas de dispersi ´on correspondientes a distintos tipos de relaciones entre variables.

2 Ejercicios resueltos

El procedimiento m ás sencillo para construir un modelo no lineal, siempre que sea posible, es transformar las variables para convertirlo en un modelo lineal. En el caso de los modelos de regresi ón simple m ás comunes las transformaciones que convierten cada modelo en un modelo lineal aparecen en la tabla siguiente:

Modelo Modelo no lineal Modelo lineal Transformaci ´on

Potencial y = axb _{log(y) = log(a) + b log(x)} _{Se toma el logaritmo de ambas}

variables

Exponencial y = ea+bx _{log(y) = a + bx} _{Se toma el logaritmo de la varia-}

ble dependiente

Logar´ıtmico y = a + b log x y = a + b log x Se toma el logaritmo de la variable independiente

Inverso y = a + b/x y = a + b1_x Se toma el inverso de la variable independiente

Curva S y = ea+b/x _{log(y) = a + b}1

x Se toma el logaritmo de la varia-

ble dependiente y el inverso de la independiente

1. En un experimento se ha medido el n ´umero de bacterias por unidad de volumen en un cultivo, cada hora transcurrida, obteniendo los siguientes resultados:

Horas 0 1 2 3 4 5 6 7 8

No_Bacterias ₂₅ ₂₈ ₄₇ ₆₅ ₈₆ ₁₂₁ ₁₉₀ ₂₉₀ ₃₆₂

Se pide:

a) Crear un conjunto de datos con las variables horas y bacterias e introducir estos datos.

b) Dibujar el diagrama de dispersi ón correspondiente. En vista del diagrama, ¿qu é tipo de modelo crees que explicar á mejor la relaci ón entre el n úmero de bacterias y el tiempo transcurri- do?

1) Seleccionar el men ú Teaching Gráficos Diagrama de dispersión.

2) En el cuadro de di´alogo que aparece, seleccionar la variable bacterias en el campo Variable Y y la variable horas en el campo Variable X, y hacer clic en el bot ´on Enviar.

c) Calcular los modelos exponencial y cuadr ´atico de las bacterias sobre las horas. ¿Qu ´e tipo de modelo es el mejor?

Para el modelo exponencial:

1) Seleccionar el men ú Teaching Regresión Regresión no lineal.

2) En el cuadro de di´alogo que aparece, seleccionar la variable bacterias en el campo Variable dependiente y la variable horas en el campo Variable independiente.

3) En la solapa de Modelo de regresi ´on seleccionar el modelo Exponencial.

4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot ´on Enviar.

Para el modelo cuadrático repetir los pasos pero seleccionando como modelo el Cuadr ático. El modelo mejor será aquel que tenga un coeficiente de determinaci ón mayor.

1) Seleccionar el men ú Teaching Gráficos Diagrama de dispersión.

2) En el cuadro de di´alogo que aparece, seleccionar la variable bacterias en el campo Variable Y y la variable horas en el campo Variable X.

3) En la solapa L´ınea de ajusteseleccionar la opci ´on Exponencial y hacer clic sobre el bot ´on Enviar.

e) Seg ún el modelo anterior, ¿cu ántas bacterias habr á al cabo de 3 horas y media del inicio del cultivo? ¿Y al cabo de 10 horas? ¿Son fiables estas predicciones?

1) Seleccionar el men ´u Teaching Regresi´on Predicciones.

2) En el cuadro de di´alogo que aparece seleccionar el modelo de regresi ´on exponencial construido antes.

3) Introducir los valores 3,5, 10 en el campo Predicciones para y hacer clic sobre el bot ´on Enviar.

4) Como se trata de un modelo exponencial, las predicciones obtenidas corresponden al logaritmo de bacterias. Para obtener la predicci ´on de bacterias basta con aplicar la funci ´on exponencial a los valores obtenidos.

f) Dar una predicci ´on lo m ´as fiable posible del tiempo que tendr´ıa que transcurrir para que en el cultivo hubiese 100 bacterias.

Para construir el modelo logar´ıtmico:

1) Seleccionar el men ú Teaching Regresión Regresión no lineal.

2) En el cuadro de di´alogo que aparece, seleccionar la variable horas en el campo Variable dependiente y la variable bacterias en el campo Variable independiente.

3) Seleccionar como modelo el Logar´ıtmico.

4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot ´on Enviar.

Para hacer la predicci ´on:

1) Seleccionar el men ´u Teaching Regresi´on Predicciones.

2) En el cuadro de di´alogo que aparece seleccionar el modelo de regresi ´on logar´ıtmico construido antes.

3) Introducir el valor 100 en el campo Predicciones para y hacer clic sobre el bot ´on Enviar. 2. El conjunto de datos dieta del paquete rk.Teaching contiene los datos de un estudio llevado a cabo

por un centro diet ético para probar una nueva dieta de adelgazamiento. Para cada individuo se ha medido el n úmero de d´ıas que lleva con la dieta, el n úmero de kilos perdidos desde entonces y si realiz ó o no un programa de ejercicios. Se pide:

a) Cargar el conjunto de datos dieta desde el paquete rk.Teaching.

b) Dibujar el diagrama de dispersi ón. Seg ún la nube de puntos, ¿qu é tipo de modelo explicar´ıa mejor la relaci ón entre los kilos perdidos y los d´ıas de dieta?

1) Seleccionar el men ú Teaching Gráficos Diagrama de dispersión.

2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable Y, la variable dias en el campo Variable X, y hacer clic en el bot ´on Enviar.

c) Construir el modelo de regresi ´on que mejor explique la relaci ´on entre los kilos perdidos y los d´ıas de dieta.

1) Seleccionar el men ú Teaching Regresión Comparación de modelos.

2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la variable dias en el campo Variable independiente.

3) En la solapa Modelos de regresi´onseleccionar todos los modelos y hacer clic sobre el bot ´on Enviar.

4) El mejor modelo aparece en primer lugar y es el que tenga el coeficiente de determinaci ´on mayor.

d) Dibujar el modelo del apartado anterior.

1) Seleccionar el men ú Teaching Gráficos Diagrama de Dispersión.

2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable Y y la variable dias en el campo Variable X.

3) En la solapa L´ınea de ajusteseleccionar la opci ´on correspondiente al mejor modelo y hacer clic sobre el bot ´on Enviar.

e) Construir el modelo de regresi ´on que mejor explique la relaci ´on entre los kilos perdidos y los d´ıas de dieta para los que no hacen ejercicio.

Para ver qu´e modelo es mejor:

1) Seleccionar el men ú Teaching Regresión Comparación de modelos.

2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la variable dias en el campo Variable independiente.

3) Seleccionar la opci ón Filtro e introducir la condici ón ejercicio=="no" en el campo Condici ón de selecci ón.

4) En la solapa Modelos de regresi´onseleccionar todos los modelos y hacer clic sobre el bot ´on Enviar.

5) El mejor modelo aparece en primer lugar y es el que tenga el coeficiente de determinaci ´on mayor.

Para construir el modelo:

1) Seleccionar el men ú Teaching Regresión Regresión no lineal.

2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la variable dias en el campo Variable independiente.

3) Seleccionar la opci ón Filtro e introducir la condici ón ejercicio=="no" en el campo Condici ón de selecci ón.

4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot ´on Enviar.

f) Construir el modelo de regresi ´on que mejor explique la relaci ´on entre los kilos perdidos y los d´ıas de dieta para los que si hacen ejercicio.

Para ver qu´e modelo es mejor:

1) Seleccionar el men ú Teaching Regresión Comparación de modelos.

2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la variable dias en el campo Variable independiente.

3) Seleccionar la opci ón Filtro e introducir la condici ón ejercicio=="si" en el campo Condici ón de selecci ón.

4) En la solapa Modelos de regresi´onseleccionar todos los modelos y hacer clic sobre el bot ´on Enviar.

5) El mejor modelo aparece en primer lugar y es el que tenga el coeficiente de determinaci ´on mayor.

Para construir el modelo:

1) Seleccionar el men ú Teaching Regresión Regresión no lineal.

2) En el cuadro de di´alogo que aparece, seleccionar la variable kilos en el campo Variable dependiente y la variable dias en el campo Variable independiente.

3) Seleccionar la opci ón Filtro e introducir la condici ón ejercicio=="si" en el campo Condici ón de selecci ón.

4) Seleccionar Guardar modelo e introducir un nombre para el modelo y hacer clic sobre el bot ´on Enviar.

g) Utilizar el modelo construido para predecir el n ´umero de kilos perdidos tras 40 y 500 d´ıas de dieta, tanto para los que hacen ejercicio como para los que no. ¿Son fiables estas predicciones?

1) Seleccionar el men ´u Teaching Regresi´on Predicciones.

2) En el cuadro de di´alogo que aparece seleccionar el modelo de regresi ´on construido antes para los que no hacen ejercicio.

3) Introducir los valores 40, 500 en el campo Predicciones para y hacer clic sobre el bot ´on Enviar.

Repetir los pasos anteriores seleccionando el modelo de regresi ´on construido antes para los que si hacen ejercicio.

3 Ejercicios propuestos

1. La concentraci ón de un f ármaco en sangre, C en mg/dl, es función del tiempo, t en horas, y viene dada por la siguiente tabla:

t 2 3 4 5 6 7 8

C 25 36 48 64 86 114 168 Se pide:

a) Seg ún el modelo exponencial, ¿qu é concentraci ón de f ármaco habr´ıa a las 4,8 horas? ¿Es fiable la predicci ón? Justificar adecuadamente la respuesta.

b) Seg ún el modelo logar´ıtmico, ¿qu é tiempo debe pasar para que la concentraci ón sea de 100 mg/dl?

2. El fichero naciones.txt contiene informaci ´on sobre el desarrollo de distintos pa´ıses (tasa de fertilidad, tasa de uso de anticonceptivos, tasa de mortalidad infantil, producto interior bruto per c ´apita y continente). Se pide:

a) Importar el fichero naciones.txt en un conjunto de datos.

b) Construir el mejor modelo de regresi ón de la tasa de fertilidad sobre el producto interior bruto. ¿C ómo explicar´ıas esta relaci ón?

c) Dibujar el modelo del apartado anterior.

d) ¿Qu ´e tasa de fertilidad le corresponde a una mujer que viva en un pa´ıs con un producto interior bruto per c ´apita de 10000 $? ¿Y si la mujer vive en Europa?

Probabilidad

1 Fundamentos te ´oricos

1.1 Introducci ´on

La estad´ıstica descriptiva permite describir el comportamiento y las relaciones entre las variables en la muestra, pero no permite sacar conclusiones sobre el resto de la poblaci ´on.

Ha llegado el momento de dar el salto de la muestra a la poblaci ´on y pasar de la estad´ıstica descriptiva a la inferencia estad´ıstica, y el puente que lo permite es lateor´ıa de la probabilidad.

Hay que tener en cuenta que el conocimiento que se puede obtener de la poblaci ón a partir de la muestra es limitado, pero resulta evidente que la aproximaci ón a la realidad de la poblaci ón ser á mejor cuanto m ás representativa sea la muestra de ésta. Y recordemos que para que la muestra sea representativa de la poblaci ón deben utilizarse t écnicas de muestreo aleatorio, es decir, en la que los individuos se seleccionen alazar.

La teor´ıa de la probabilidad precisamente se encarga de controlar ese azar para saber hasta qu ´e punto son fiables y extrapolables al resto de la poblaci ´on las conclusiones obtenidas a partir de una muestra.

1.2 Experimentos y sucesos aleatorios

El estudio de una caracter´ıstica en una poblaci ´on se realiza a trav ´es de experimentos aleatorios.

Definici ón 6.1 — Experimento aleatorio. Un experimento aleatorio es aquel en el que se conoce cuál es el conjunto de resultados posibles antes de su realizaci ón pero se desconoce cuál será el resultado concreto del mismo.

Un ejemplo sencillo de experimentos aleatorios son los juegos de azar. Por ejemplo, el lanzamiento de un dado es un experimento aleatorio ya que:

– Se conoce el conjunto posibles de resultados {1, 2, 3, 4, 5, 6}.

– Antes de lanzar el dado, es imposible predecir con absoluta certeza el valor que saldr ´a.

Otro ejemplo de experimento aleatorio ser´ıa la selecci ón de un individuo de una poblaci ón al azar y la determinaci ón de su grupo sangu´ıneo.

En general, la obtenci ´on de cualquier muestra mediante procedimientos aleatorios ser ´a un experimento aleatorio.

Definici ´on 6.2 — Espacio muestral. Al conjunto E de todos los posibles resultados de un experimento aleatorio se le llama espacio muestral.

Algunos ejemplos de espacios muestrales son: Lanzamiento de una moneda: E = {c, x}. Lanzamiento de un dado: E = {1, 2, 3, 4, 5, 6}.

Grupo sangu´ıneo de un individuo seleccionado al azar: E = {A, B, AB, 0}. Estatura de un individuo seleccionado al azar: R+_.

En los experimentos donde se miden m ás de una variable, la construcci ón del espacio muestral puede complicarse. En tales casos, es recomendable utilizar un diagrama de árbol de manera que cada nivel del árbol es una variable observada y cada rama un posible valor.

Por ejemplo, si el experimento consiste en observar el sexo y el grupo sangu´ıneo de una persona, el espacio muestral podr´ıa construirse mediante el siguiente ´arbol:

Sexo Grupo E Mujer A (Mujer,A) B (Mujer,B) AB (Mujer,AB) 0 (Mujer,0) Hombre A (Hombre,A) B (Hombre,B) AB (Hombre,AB) 0 (Hombre,0)

En RKWard los espacios muestrales se representan mediante conjuntos de datos con las variables que se midan en el experimento, indicando en cada fila un resultado posible. Por ejemplo, el conjunto de datos correspondiente al espacio muestral del experimento anterior se muestra en la figura6.1.

Figura 6.1– Conjunto de datos correspondiente al espacio muestral del experimento consistente en sacar un individuo al azar de una poblaci ´on y medir su sexo y su grupo sangu´ıneo.

Definici ´on 6.3 — Suceso aleatorio. Un suceso aleatorio es cualquier subconjunto del espacio muestral E de un experimento aleatorio.

Existen distintos tipos de sucesos:

Suceso imposible: Es el subconjunto vac´ıo∅. El suceso nunca ocurre.

Sucesos elementales: Son los subconjuntos formados por un solo elemento. Sucesos compuestos: Son los subconjuntos formados por dos o m ´as elementos.

Suceso seguro: Es el propio espacio muestral. El suceso seguro siempre ocurre.

Definici ´on 6.4 — Espacio de sucesos. Dado un espacio muestral E de un experimento aleatorio, el conjunto formado por todos los posibles sucesos de E se llama espacio de sucesos de E y se denota P(E).

Ejemplo 6.1 Dado el espacio muestral E = {a, b, c}, se tiene

P(E) = {∅, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, {a, b, c}}

Puesto que los sucesos son conjuntos, tiene sentido definir operaciones entre sucesos a partir de la teor´ıa de conjuntos.

Definici ón 6.5 — Suceso uni ón. _{Dados dos sucesos A, B ∈ P(E), se llama suceso unión de A y B, y se}

denota A ∪ B, al suceso formado por los elementos de A junto a los elementos de B, es decir, A ∪ B = {x | x ∈ A o x ∈ B}.

E A

A ∪ B B

El suceso uni ´on A ∪ B ocurre siempre que ocurre A o B.

Ejemplo 6.2 Sea E = {1, 2, 3, 4, 5, 6}, el conjunto de los n ´umeros de un dado, y A = {2, 4, 6} y

B = {1, 2, 3, 4}. Entonces A ∪ B = {1, 2, 3, 4, 6}.

Definici ón 6.6 — Suceso intersecci ón. Dados dos sucesos A, B ∈ P(E), se llama suceso intersección de A y B, y se denota A ∩ B, al suceso formado por los elementos comunes de A y B, es decir,

A ∩ B = {x | x ∈ A y x ∈ B}. E

A A ∩ B

El suceso intersecci ´on A ∩ B ocurre siempre que ocurren A y B.

Ejemplo 6.3 Sea E = {1, 2, 3, 4, 5, 6}, el conjunto de los n ´umeros de un dado, y A = {2, 4, 6} y

B = {1, 2, 3, 4}. Entonces A ∩ B = {2, 4}.

Diremos que dos sucesos son incompatibles si su intersecci ´on es vac´ıa. Por ejemplo A = {2, 4, 6} y C = {1, 3} son incompatibles.

Definici ´on 6.7 — Suceso contrario. Dado un conjunto A ∈ P(E), se llama suceso contrario o complementario de A, y se denota ¯A, al suceso formado por los elementos de E que no pertenecen a A, es decir,

A = {x | x < A}. E

A A¯

Ejemplo 6.4 Sea E = {1, 2, 3, 4, 5, 6}, el conjunto de los n ´umeros de un dado, y A = {2, 4, 6}. Entonces

A = {1, 3, 5}.

Definici ´on 6.8 — Suceso diferencia. _{Dados dos sucesos A, B ∈ P(E), se llama suceso diferencia de A}

y B, y se denota A − B, al suceso formado por los elementos de A que no pertenecen a B, es decir, A − B = {x | x ∈ A y x < B}.

E A

A − B B

El suceso diferencia A − B ocurre siempre que ocurre A pero no ocurre B, y tambi´en puede expre- sarse como A ∩ ¯B.

Ejemplo 6.5 Sea E = {1, 2, 3, 4, 5, 6}, el conjunto de los n ´umeros de un dado, y A = {2, 4, 6} y

B = {1, 2, 3, 4}. Entonces A − B = {6} y B − A = {1, 3}.

Dados los sucesos A, B, C ∈ P(E), se cumplen las siguientes propiedades: 1. A ∪ A = A, A ∩ A = A (idempotencia). 2. A ∪ B = B ∪ A, A ∩ B = B ∩ A (conmutativa). 3. (A ∪ B) ∪ C = A ∪ (B ∪ C), (A ∩ B) ∩ C = A ∩ (B ∩ C) (asociativa). 4. (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C), (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C) (distributiva). 5. A ∪ ∅ = A, A ∩ E = A (elemento neutro). 6. A ∪ E = E, A ∩ ∅ = ∅ (elemento absorbente).

7. A ∪ ¯A = E, A ∩ ¯A = ∅ (elemento sim´etrico complementario). 8. ¯¯A = A (doble contrario).

9. A ∪ B = ¯A ∩ ¯B, A ∩ B = ¯A ∪ ¯B (leyes de Morgan). 10. A ∩ B ⊆ A ∪ B.

1.3 Definici ´on de probabilidad

En todo experimento aleatorio existe incertidumbre sobre el resultado de la realizaci ón del experimento. La probabilidad trata de cuantificar el grado de incertidumbre asociada a cada suceso de un experimento aleatorio. A lo largo de la historia se han utilizado distintas definiciones del concepto de probabilidad. A continuaci ón se presentan las m ás comunes.

Definici ón 6.9 — Probabilidad cl ásica de Laplace. Para un experimento aleatorio donde todos los elementos del espacio muestral E son equiprobables, se define la probabilidad de un suceso A ⊆ E como el cociente entre el n úmero de elementos de A y el n úmero de elementos de E:

P(A) = |A| |E| =

no_{casos favorables a A}

nocasos posibles

Ejemplo 6.6 Si se considera el espacio muestral correspondiente al lanzamiento de un dado E =

{1, 2, 3, 4, 5, 6}, y el suceso correspondiente a sacar un n ´umero par A = {2, 4, 6}, seg ´un la regla de Laplace, la probabilidad de sacar par al tirar un dado es

P(A) = |A| |E| =

3 6 =0,5, es decir, un 50 %.

Esta definici ´on es ampliamente utilizada, aunque tiene importantes restricciones:

– No puede utilizarse con espacios muestrales infinitos, o de los que no se conoce el n ´umero de casos posibles.

– Es necesario que todos los elementos del espacio muestral tengan la misma probabilidad de ocurrir (equiprobabilidad).

Estas restricciones suelen cumplirse en los experimentos relacionados con los juegos de azar (lanzamiento de dados, monedas, etc.) pero es raro que ocurran en los experimentos de las ciencias de la salud. Por ejemplo, los grupos sanguineos de una poblaci ´on humana no suelen ser equiprobables

In document Bioestadística aplicada (página 57-81)