• No se han encontrado resultados

Estadística. Introducción

N/A
N/A
Protected

Academic year: 2021

Share "Estadística. Introducción"

Copied!
39
0
0

Texto completo

(1)

Estadística

Introducción

¿Qué es la estadística?

Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha experimentado un gran desarrollo a lo largo de los últimos años.

¿En qué áreas se aplica la estadística?

Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología,

Educación, Psicología, Administración, Economía, Medicina, Ciencias Políticas, entre otras.

Ejemplos de su aplicación son:

1) En Administración de Empresas: la estadística se utiliza para evaluar un producto antes de comercializarlo.

2) En Economía: para medir la evolución de los precios mediante números índice o para estudiar los hábitos de los consumidores a través de encuestas de presupuestos familiares.

(2)

2

Estadística

Introducción

Ejemplos de su aplicación son:

3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una votación mediante sondeos y así orientar las estrategias de los candidatos.

4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de actualidad.

5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del comportamiento humano (por ejemplo los test que se aplican a los candidatos para un cargo en una empresa).

6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado de salud de la población.

En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones entre variables y hacer predicciones sobre ellas.

(3)

Estadística

Introducción

Etapas de un estudio estadístico

Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado método científico cuyas etapas son:

1) Planteamiento del problema: consiste en definir el objetivo de la investigación y precisar el universo o población.

2) Recogida de la información: consiste en recolectar los datos necesarios relacionados al problema de investigación.

3) Análisis descriptivo: consiste en resumir los datos disponibles para extraer la información relevante en el estudio.

4) Inferencia estadística: consiste en suponer un modelo para toda la población partiendo de los datos analizados para obtener conclusiones generales.

5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos han permitido interpretar los datos y llegar a conclusiones sobre la población

(4)

4

Estadística

Introducción

Esquema de las etapas de un estudio estadístico

AREA DE INTERES

DATOS

Tema de Investigación -Antecedentes Previos -Objetivos -Preguntas de Investigación -Posibles Hipótesis -Unidad de Análisis -Población -Variables ORGANIZAR Y RESUMIR ESTADÍSTICA DESCRIPTIVA

(Tablas, Gráficos, Medidas

Descriptivas, etc.) INTERPRETACIÓN INFERENCIA ESTADÍSTICA ¿Población o Muestra? CONCLUSIONES Población Muestra Probabilidad INFORMACIÓN

(5)

Estadística

Introducción

Ejemplos de algunos problemas a estudiar

1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de la persona empleada.

2) Se quiere determinar el perfil de los trabajadores en términos de condiciones económicas y sociales en diferentes comunidades.

3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a vestuario, alimentación, ocio y vivienda.

4) Se quiere determinar las tallas estándar en vestuario para mujeres españolas.

5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de distintas empresas del país.

6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad. 7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una Universidad, y si éste tiene alguna relación con su edad u otras características.

(6)

6

VARIABLE: es lo que se va a medir y representa una característica de la UNIDAD DE ANÁLISIS. • ¿QUIÉNES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Análisis de una

Población o una Muestra

POBLACIÓN : Es el total de unidades de análisis que son tema de estudio.

Muestra: 60 trabajadores de empresas de comunicación Unidad de análisis: Trabajador de empresa de comunicación Variables: sexo, edad, salario, Nº de horas de trabajo, etc.

Población:

Las personas que trabajan en empresas de

comunicación

Estadística

MUESTRA: Es un conjunto de unidades de análisis provenientes de una población.

Muestra

(7)

7

TIPOS DE VARIABLES

Variables Cuantitativas

Variable

:

corresponde a la característica de la Unidad de Análisis

Intervalo

DISCRETA

Variables Cualitativas

CONTINUA

Toma valores enteros

Ejemplos

:

Número de Hijos

,

Número de

empleados de una empresa

,

Número de

asignaturas aprobadas en un semestre

, etc.

Toma cualquier valor dentro de un intervalo

Ejemplos

:

Peso; Estatura; Temperatura, etc.

ORDINAL NOMINAL

Característica o cualidad

cuyas categorías no tienen

un orden preestablecido.

Ejemplos

:

Sexo, Deporte

Favorito

, etc.

Característica o cualidad cuyas

categorías tienen un orden

preestablecido.

Ejemplos

: Calificación (S, N, A);

Grado de Interés por un tema, etc.

Estadística

(8)

8

Frecuencia

: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se

presenta una característica.

DISCRETA CONTINUA

ORDINAL NOMINAL

TIPO FRECUENCIA

Frecuencia Absoluta

(F)

Frecuencia Relativa

(f)

Frecuencia Absoluta

Acumulada (FAA)

Frecuencia Relativa

Acumulada (fra)

DISCRETA CONTINUA NOMINAL

ORDINAL

Variable

Cuantitativa CualitativaVariable CuantitativaVariable

Variable Cualitativa

(9)

Variables

- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal)

- Nº de Empleados: se refiere al número de empleados en las líneas de producción. (cuantitativa discreta) - Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las áreas de

producción. (cuantitativa continua)

- Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos estándares (Muy Bien, Bien, Regular, Mal). (cualitativa ordinal)

Industria nº Tipo Nº Empleados Superficie Calificación

1 A 100 1000,6 Muy Bien 2 B 150 1200,4 Bien . . . . . . . . . . . . . . . 299 D 250 800,3 Mal 300 C 300 4000,2 Regular

Problema de Investigación: Se quiere establecer el perfil de las industrias de conserva en función de algunas características.

Unidad de Análisis: Industria de Conserva

Población: Industrias de Conservas del país

Datos

EJEMPLO

(10)

10 EJEMPLO TABLAS DE FRECUENCIA Tipo de Industria Frecuencia Absoluta (Fj) Frecuencia Relativa (fj) Porcentaje (%) A B C D Total 300 1 100 Calificación Frec. Absoluta (Fj) Frec.Relativa (fj) o % Frec. Absol. Acum. (FAAj) Frec. Relat. Acum. (fraj) o % Muy Bien Bien Regular Mal 300 1 (o 100) Total 300 1 (o 100) Numero de Empleados Frec. Absoluta (Fj) Frec.Relativa (fj) o % Frec. Absol. Acum. (FAAj) Frec. Relat. Acum. (fraj) o % <100 [100-150[ . . [950-1000] 300 1 (o 100%) Total 300 1 (o 100%) Superficie (mt2) Frec. Absoluta (Fj) Frec.Relativa (fj) o % Frec. Absol. Acum. (FAAj) Frec. Relat. Acum. (fraj) o % <200 [200-400[ . . [50000-5200] 300 1 (o 100%) Total 300 1 (o 100%)

(1)

(2)

(3)

(4)

Problema de Investigación: Se quiere establecer el perfil de las industrias de conserva en función de algunas características.

Unidad de Análisis: Industria de Conserva Población: Industrias de Conservas del país

(11)

Elementos de una tabla de frecuencia cuando la variable es continua (x)

Intervalo

Centro

de clase Amplitud F f FAA fra

I1 c1 a1 I2 c2 a2 . . Ik ck ak

n

1

Total

n

1

[LI1 ; LS1 [ [LI2 ; LS2 [ [LIk ; LSk] aj = (LSj – LIj)) cj = (LIj) + LSj )/2

Estadística

(12)

12

Ejercicio: confección de una tabla de frecuencia para una variable continua

10,5 10,7 9,5 10,5 11,8 11,2 12,0 10,3 13,5 12,3 10,6 9,8 10,7 11,5 11,1 10,6 9,3 12,9 10,4 7,5 10,2 8,7 10,9 9,9 11,7 10,3 10,6 10,5 11,9 11,0 13,9 10,6 10,0 10,8 10,6 - 7,3 8,0 8,5 12,5 9,7 -

Los datos corresponden a la edad de los hijos de los trabajadores de una empresa

7,3 9,7 10,4 10,6 11,1 12,3 7,5 9,8 10,5 10,6 11,2 12,5 8,0 9,9 10,5 10,7 11,5 12,9 8,5 10,0 10,5 10,7 11,7 13,5 8,7 10,2 10,6 10,8 11,8 13,9 9,3 10,3 10,6 10,9 11,9 - 9,5 10,3 10,6 11,0 12,0 -

Datos ordenados de menor a mayor

1) Construya un Diagrama de Tallo y Hoja 2) ¿Cuál es la variable?; ¿Cuál es la Unidad de

análisis?; ¿Cuánto vale n?; ¿Cuál es el rango de la variable?.

3) Sobre una Tabla de frecuencia: ¿Cuántos intervalos podría construir?; ¿Cuál es la amplitud de cada intervalo?; ¿Cuántas medidas de frecuencia puede obtener para cada intervalo?.

4) Construir tabla de frecuenciapara la variable: Intervalos, centro de clase, amplitud, frecuencias.

Realice la siguiente actividad

Diagrama de Tallo y Hoja: permite organizar los datos de una variable medida sobre un conjunto de individuos. Su utilidad viene dada cuando no contamos con herramientas automáticas para ordenar los datos.

(13)

TIPOS DE GRÁFICOS

1. Gráfico de Sectores Circulares (de

Torta)

Distribución de las unidades de análisis de acuerdo a variable 1 A 20% D 10% C 40% B 30%

Distribución de las unidades de análisis de acuerdo a variable 1

B 30% C 40% D 10% A 20%

Distribución de las unidades de análisis de acuerdo a variable 1

B 30% C 40% D 10% A 20%

Estadística

(14)

14

TIPOS DE GRÁFICOS

2. Gráfico de Barras

Numero de unidades de análisis

de acuerdo a variable 1 0 100 200 300 400 500 A B C D variable 1

Porcentaje de unidad de análisis de acuerdo a

variable 1 0 20 40 60 80 100 A B C D va ri a b le 1 % unidad de análisis

-Este tipo de gráfico se utiliza generalmente para

representar la frecuencia de las categorías de una

variable cualitativa.

-Cuando una variable es cuantitativa se puede utilizar este tipo de gráfico sólo si la variable se ha transformada en categorías.

-Hay distintas versiones de estos gráficos (por ejemplo en Excel), y en algunos casos son muy útiles para describir el comportamiento de una variable en distintos grupos.

Proporción de unidad de análisis de acuerdo a

variable 1 0 0,2 0,4 0,6 0,8 1 A B C D va ri a b le 1

Proporción de unidad de análisis

(15)

Histograma

- Permite la representación de

la

frecuencia

de una

variable

Cuantitativa

.

- El

eje

x

se refiere a la

variable.

- El

eje

y

se refiere a la

frecuencia (Nº , %).

- Cada

barra

representa la

frecuencia de la variable en la

población en estudio (o la

muestra).

-El

histograma

se

puede

construir desde los datos de la

tabla de frecuencia de la

variable en estudio.

TIPOS DE GRÁFICOS

3. Histograma

14 13 12 11 10 9 8 7 15 10 5 0 edad F re c u e n c ia Nº edad Histograma

Distribución de los hijos de trabajadores de la empresa de acuerdo a edad

Ejemplo

En el gráfico se puede observar el número de hijos , de menor edad (7-8 años), las de mayor edad (13-14 años); y además que la mayoría de hijos de los trabajadores están entre los 10 y 12

años.

(16)

16

TIPOS DE GRÁFICOS

5. Polígono de Frecuencia

edad 14 13 12 11 10 9 8 7 15 10 5 0 edad F re c u e n c ia Nº

Distribución de los hijos de trabajadores de la empresa de acuerdo a edad

-Esta representación se basa en

el Histograma.

-Sólo es útil para variables

cuantitativas

.

-El

eje x

se refiere a la

variable.

- El

eje

y

se refiere a la

frecuencia (Nº , %).

-Los puntos que permiten la

unión de las líneas representa

el

centro de clase

(o marca de

clase)

.

(17)

TIPOS DE GRÁFICOS

5. Diagrama de Caja

- Permite identificar gráficamente la

mediana, los cuartiles 1 y 3

(percentiles 25 y 75), mínimo y

máximo de una variable.

- Sólo

es

útil

para

variables

cuantitativas

.

-El

eje x

permite identificar la

poblacion en estudio.

- El

eje

y

representa los valores de la

variable en estudio.

Estadística

1473 584 N = Hombres Mujeres E d ad 100 90 80 70 60 50 40 30 20 10 0

Edad de las personas que se realizaron angioplastía entre 1980 y 2000

(18)

18

TIPOS DE GRÁFICOS

6. Otros

Número de alumnos matriculados en la Carrera A según año de ingreso

0 20 40 60 80 100 1998 1999 2000 2001 2002 2003 año de ingreso N º d e a lu m n o s

Número de alumnos matriculados en la Carrera B según año de ingreso

0 20 40 60 80 100 1998 1999 2000 2001 2002 2003 año de ingreso N º d e a lu m n o s

Número de alumnos matriculados en las Carreras según año de ingreso

0 50 100 150 200 1998 1999 2000 2001 2002 2003 año ingreso N º d e a lu m n o s Carrera B Carrera A

año de ingreso Carrera A Carrera B

1998 60 80 1999 55 70 2000 80 50 2001 40 60 2002 68 50 2003 70 75 Nº de alumnos

Estadística

(19)

OBSERVACIONES

* El Tipo de Gráfico seleccionado va a depender de la variable en estudio.

* El Gráfico debe contener un Título General y la identificación de cada

eje (variable en estudio y frecuencia).

* En ocasiones resulta más ilustrativo un gráfico que una tabla de

frecuencia.

* Al igual que las tablas, los gráficos deben ser auto-explicativos.

Variables Cuantitativas

variable

x

x

i

valor

de

la

variable

en

el

individuo

i

n

i

1

,...,

nc

c

c

c

n i

1

n i i n n i i

cx

cx

c

x

cx

1 1 1

b

x

a

b

ax

b

ax

b

ax

n i i n n i i

  1 1 1

)

(

)

(

)

(

2 2 1 1 2 n n i i

x

x

x

2 1 2 1

)

(

)

(

n n i i

x

x

x

)

(

)

(

)

(

1 1 1 n n n i i i

y

x

y

x

y

x

)

(

)

(

)

(

1 1 1 n n n i i i

y

x

y

x

y

x

variable

y

valor

de

la

variable

en

el

individuo

i

i

y

NOTACION

constantes

:

,

,

b

c

a

Estadística

(20)

20

MEDIDAS DE TENDENCIA CENTRAL

-

Media Aritmética (Promedio)

-

Mediana

-

Moda

n

x

x

n i i

1

Media Aritmética o Promedio

Mediana

) ( E

M

x

k 2 MEx(k) x(k1)

x

1

x

2

x

n

x

Datos Cuantitativos

x

) 1 (

x

) 2 (

x

) (n

x

Datos Cuantitativos ordenados de menor a mayor

Si n es par Si n es impar

centro

del

dato

) (k

x

repite"

se

más

que

dato

el

"

M

o

Moda

Datos Cualitativos y Cuantitativos

Estadística

(21)

Percentiles, Deciles o Cuartiles

-

Percentil (ejemplo: 25, 50, 75)

-

Decil (ejemplo: 4, 5, 8)

-

Cuartil (ejemplo: 1, 2, 3)

El Decil va de 1 a 10

El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos

Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32. Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.

Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n datos están ordenados de Menor a Mayor

Estadística

El Percentil va de 1 a 100

El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20. Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.

El Cuartil va de 1 a 4

El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos

(22)

22

MEDIDAS DE DISPERSIÓN

-

Rango

-

Varianza

-

Desviación Estándar

Rango

Varianza

x

1

x

2

x

n

x

Datos Cuantitativos

Coeficiente de Variación

Comparación entre Variables

Se refiere al comportamiento de las variables cuantitativas en un grupo. Por ejemplo: Si se tiene un conjunto de personas a las que

se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál presenta mayor variación?

)

min(

)

max(

x

i

x

i

R

Desviación Típica o Estándar

2 1 2 1 1 2 2 1 2 2

1

)

(

1

)

(

x

x

n

n

x

n

x

n

x

x

s

n i i n i n i i i n i i

    2

s

s

x

s

cv

Estadística

(23)

Estadística

Otras medidas o Coeficientes

-

Asimetría

-

Kurtosis o Apuntamiento

Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias es la simetría y el apuntamiento o kurtosis.

Coeficiente de Asimetría

3 1 3

)

(

s

n

x

x

CA

n i i

Si CA=0 si la distribución es simétrica alrededor de la media. Si CA<0 si la distribución es asimétrica a la izquierda

Si CA>0 si la distribución es asimétrica a la derecha

Coeficiente de Apuntamiento 4 1 4

)

(

s

n

x

x

CAp

n i i

- Si CAp=0 la distribución se dice normal (similar a la distribución normal de Gauss) y recibe el nombre de mesocúrtica.

- Si CAp>0, la distribución es más puntiaguda que la anterior y se llama leptocúrtica, (mayor concentración de los datos en torno a la media). - Si CAp<0 la distribución es más plana y se llama platicúrtica.

(24)

24

Estadística

Otras medidas o Coeficientes

-

Asimetría

-

Kurtosis o Apuntamiento

Ejemplos Histogramas con distinta asimetría y apuntamiento

V2 7,0 6,0 5,0 4,0 3,0 2,0 1,0 14 12 10 8 6 4 2 0 Desv. típ. = 1,67 Media = 3,9 N = 30,00 V4 2,0 1,0 0,0 -1,0 30 20 10 0 Desv. típ. = ,64 Media = 0,0 N = 30,00 V5 9,0 8,0 7,0 6,0 5,0 4,0 3,0 2,0 1,0 6 5 4 3 2 1 0 Desv. típ. = 2,42 Media = 5,2 N = 28,00

(25)

Estadística

Otras medidas o Coeficientes

-

Asimetría

-

Kurtosis o Apuntamiento

Ejemplos

Media 3,9 Mediana 4 Moda 4 Desviación estándar 1,67 Varianza de la muestra 2,78 kurtosis -0,43 Coeficiente de asimetría -0,02 Rango 6 Mínimo 1 Máximo 7 Cuenta 30 V1 9,0 8,0 7,0 6,0 5,0 4,0 3,0 2,0 1,0 16 14 12 10 8 6 4 2 0 Desv. típ. = 1,77 Media = 5,4 N = 66,00 1 4 4 1 4 4 1 4 5 2 4 5 2 4 6 2 4 6 2 4 6 3 4 6 3 4 7 4 4 7

(26)

26

Estadística

Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento

para datos Agrupados (tabla de frecuencias)

Intervalo

Centro

de clase Amplitud F f FAA fra

I1 c1 a1 I2 c2 a2 . . Ik ck ak n 1 Total n 1 f1 f2 fk n1 n2 nk

Tabla de frecuencia (para variable cuantitativa)

   

1) La Media para datos agrupados es igual a la suma de los productos de las marcas de clase por sus frecuencias relativas, de la forma:

k j j j c c

x

c

f

Media

1

Sea cj la marca de clase (o centro de clase) y fj la frecuencia relativa de la clase j, donde j=1, 2,…, k.

2) La Desviación típica para datos agrupados esta dada por:

k j j c j c

c

x

f

s

1 2

)

(

3) El Coeficiente de Asimetría para datos agrupados esta dado por:

3 1 3

)

(

c k j j c j c

s

f

x

c

CA

4) El Coeficiente de apuntamiento para datos agrupados esta dada por:

4 1 4

)

(

c k j j c j c

s

f

x

c

CAp

(27)

Estadística

Descripción de 2 variables cualitativas

Distribución conjunta

Tabla 1 Actividad

Transporte Estudia Pensionado Trabaja

Autobus 5 7 0 Bicicleta 3 3 2 Caminar 2 5 2 Coche 5 4 5 Metro 6 7 4 Transporte % Autobus 12 20,0 Bicicleta 8 13,3 Caminar 9 15,0 Coche 14 23,3 Metro 17 28,3 TOTAL 60 100 Actividad % Estudia 21 35,0 Pensionado 26 43,3 Trabaja 13 21,7 TOTAL 60 100 Problema

Interesa estudiar cual es el principal medio de transporte preferido por un grupo de personas a la hora de dirigirse al centro comercial.

Para esto se consultó a cada persona sobre la actividad a la que se dedicaba y el medio de transporte preferido.

(28)

28

Estadística

Descripción de 2 variables cualitativas

Distribución conjunta

Nº de personas

Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)

Tabla 2 Actividad

Transporte Estudia Pensionado Trabaja TOTAL

Autobus 5 7 0 12 Bicicleta 3 3 2 8 Caminar 2 5 2 9 Coche 5 4 5 14 Metro 6 7 4 17 TOTAL 21 26 13 60

(29)

Estadística

Descripción de 2 variables cualitativas

Distribución conjunta

Nº de personas y % respecto de tipo de Transporte

Tabla 3 Actividad

Transporte Estudia Pensionado Trabaja TOTAL

Autobus 5 7 0 12 % 41,7 58,3 0 100 Bicicleta 3 3 2 8 % 37,5 37,5 25 100 Caminar 2 5 2 9 % 22,2 55,6 22,2 100 Coche 5 4 5 14 % 35,7 28,6 35,7 100 Metro 6 7 4 17 % 35,3 41,2 23,5 100 TOTAL 21 26 13 60 % 35 43,3 21,7 100

(30)

30

Estadística

Descripción de 2 variables cualitativas

Distribución conjunta

Nº de personas y % respecto de tipo de Actividad

Tabla 4 Actividad

Transporte Estudia Pensionado Trabaja TOTAL

Autobus 5 7 0 12 % 23,8 26,9 0 20 Bicicleta 3 3 2 8 % 14,3 11,5 15,4 13,3 Caminar 2 5 2 9 % 9,5 19,2 15,4 15 Coche 5 4 5 14 % 23,8 15,4 38,5 23,3 Metro 6 7 4 17 % 28,6 26,9 30,8 28,3 TOTAL 21 26 13 60 % 100 100 100 100

(31)

MEDIDAS DE ASOCIACIÓN LINEAL

-

Covarianza

-

Correlación

x

1

x

2

x

n

x

Datos Cuantitativos

Covarianza:

Recordemos que:

Hasta ahora hemos estudiado las

medidas tendencia

central

(Media, Mediana, Moda)

y dispersión

(Varianza y Desviación Estándar) para

una

Variable

Cuantitativa

(x).

Es una medida de Variabilidad Conjunta entre dos variables (x1, x2) o bien (x , y)

x

y

) 1 (

x

y(1) ) 2 (

x

y(2)

) (n

x

y(n)

Si Cov(x,y) es positiva: la asociación entre x e y es directamente proporcional, es decir que cuando x aumenta y también aumenta; y viceversa.

Si Cov(x,y) es negativa: la asociación entre x e y es inversamente proporcional, es decir que cuando x aumenta y disminuye; y viceversa.

Si Cov(x,y) es cero: no existe asociación entre x e y.

n i i i

x

)(

y

y

)

x

(

n

)

y

,

x

cov(

1

1

Estadística

(32)

32

MEDIDAS DE ASOCIACIÓN LINEAL

-

Covarianza

-

Correlación

Datos Cuantitativos

Coeficiente de Correlación de Pearson (

r

):

Mide el grado de Asociación Lineal

entre dos variables Cuantitativas

Se refiere al grado de asociación entre

dos

variables (

x

1

,

x

2

) o bien (

x

,

y

)

x

y

) 1 (

x

y(1) ) 2 (

x

y(2)

) (n

x

y(n)

Si r es positivo: la asociación entre x e y es directamente proporcional, es decir que cuando x aumenta y también aumenta; y viceversa. Si r=1: la asociación lineal es perfecta.

Si r es negativo: la asociación entre x e y es inversamente proporcional, es decir que cuando x aumenta y disminuye; y viceversa. Si r=-1: la asociación lineal es perfecta.

Si r es cero: no existe asociación entre x e y.

Correlación

:

1

1

r

y x

s

s

)

y

,

x

cov(

r

y x n i i i

s

s

)

n

(

y

x

n

y

x

r

1

1

Estadística

(33)

r

=1

r

=-1

EJEMPLO : Representación gráfica de las variables x e y Estadística

(34)

34

Objetivo 2

Estudiar si los valores de una

variable pueden ser utilizados para

predecir el valor de la otra

REGRESION LINEAL SIMPLE

Datos Cuantitativos

Determinar si existe relación

entre las variables x e y:

Coeficiente de Correlación

Objetivo 1

Determinar si dos variables están

asociadas y en qué sentido se da

la asociación.

Estudiar la dependencia de una

variable respecto de la otra:

Modelo de Regresión

Términos

Variable Respuesta (=variable dependiente)

Variable Explicativa (=variable Independiente)

Relación Lineal (modelo lineal)

Parámetros (intercepto y pendiente)

Intercepto (respuesta media)

Pendiente (efecto de la variable explicativa sobre la respuesta)

Error (residuo)

x

y

) 1 (

x

y(1) ) 2 (

x

y(2)

) (n

x

y(n) Estadística

(35)

REGRESION LINEAL SIMPLE

Datos Cuantitativos

Notación

Variable Respuesta

: y

Variable Explicativa:

x

Modelo de Regresión Lineal Simple

:

y

i

=

+

x

i

+e

i

Intercepto

:

Pendiente

:

Error

: e

x

y

) 1 (

x

y(1) ) 2 (

x

y(2)

) (n

x

y(n)

Modelo Estimado

(recta de regresión)

bx

a

y

ˆ

x

b

y

a

2 1 1 2 1 1 1

     n i i n i n i i n i i n i

x

x

n

y

x

xy

n

b

Método de Estimación: Mínimos Cuadrados

i i i

y

y

e

ˆ

Residuos o Errores Estadística

(36)

36

REGRESION LINEAL SIMPLE

DATOS

MODELO DE REGRESIÓN LINEAL SIMPLE

y

i

=

+

x

i

+e

i

x

y

) 1 (

x

y(1) ) 2 (

x

y(2)

) (n

x

y(n)

MODELO ESTIMADO

bx

a

y

ˆ

x

b

y

a

2 1 1 2 1 1 1

     n i i n i n i i n i i n i

x

x

n

y

x

xy

n

b

ESTIMADORES

i i i

y

y

e

ˆ

ERRORES

Estadística

(37)

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple

Problema 1

: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos

interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.

niño edad (meses) talla (cm)

i xi yi 1 3 55 2 6 68 3 5 64 4 5 66 5 3 62 6 4 65 7 9 74 8 8 75 9 9 73 10 7 69 11 6 73 12 5 68 13 8 73 14 6 71 y=talla / x=edad / n=14

956

14 1

i i

y

y

68

,

3

s

y

5

,

6

84

14 1

i i

x

x

6

s

x

2

07

,

9

)

,

cov(

x

y

r

xy

0

,

88

5863

14 1

i i i

y

x

556

14 1 2

i i

x

Estadística

(38)

38

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple

Problema 1

: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos

interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.

Modelo Estimado

bx

a

y

ˆ

44

,

2

b

a

53

,

64

x

y

ˆ

53

,

64

2

,

44

Interpretación de los resultados

- Existe asociación o dependencia entre la Talla del niño y la edad (

r

=0,88); a

medida que la edad aumenta la talla aumenta.

- Desde los resultados del modelo de regresión lineal simple, se tiene que la talla

media de un niño es de

53,64 cm

. Cuando la edad del niño (meses) aumenta en

una unidad la talla se incrementa en

2,44 cm

.

(39)

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple

Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.

De acuerdo al coeficiente de

determinación, el modelo ajustado

a los datos es adecuado (R

2

cercano a 1)

Bondad de Ajuste del Modelo

R2 = 0,77

niño edad (meses) talla (cm) Talla estimada error

i xi yi yˆi ei 1 3 55 61,0 -6,0 2 6 68 68,3 -0,3 3 5 64 65,8 -1,8 4 5 66 65,8 0,2 5 3 62 61,0 1,0 6 4 65 63,4 1,6 7 9 74 75,6 -1,6 8 8 75 73,2 1,8 9 9 73 75,6 -2,6 10 7 69 70,7 -1,7 11 6 73 68,3 4,7 12 5 68 65,8 2,2 13 8 73 73,2 -0,2 14 6 71 68,3 2,7 86 , 402 ) ( 14 1 2  

i i i y y 7 , 92 ) ˆ ( 14 1 2 14 1 2

     i i i i i y e y Estadística

Referencias

Documento similar