Estadística
Introducción
¿Qué es la estadística?Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha experimentado un gran desarrollo a lo largo de los últimos años.
¿En qué áreas se aplica la estadística?
Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología, Educación, Psicología, Administración, Economía, Medicina, Ciencias Políticas, entre otras.
Ejemplos de su aplicación son:
1) En Administración de Empresas: la estadística se utiliza para evaluar un producto antes de comercializarlo.
2
Estadística
Introducción
Ejemplos de su aplicación son:
3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una votación mediante sondeos y así orientar las estrategias de los candidatos.
4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de actualidad.
5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del comportamiento humano (por ejemplo los test que se aplican a los candidatos para un cargo en una empresa).
6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado de salud de la población.
Estadística
Introducción
Etapas de un estudio estadístico
Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado método científico cuyas etapas son:
1) Planteamiento del problema: consiste en definir el objetivo de la investigación y precisar el universo o población.
2) Recogida de la información: consiste en recolectar los datos necesarios relacionados al problema de investigación.
3) Análisis descriptivo: consiste en resumir los datos disponibles para extraer la información relevante en el estudio.
4) Inferencia estadística: consiste en suponer un modelo para toda la población partiendo de los datos analizados para obtener conclusiones generales.
4
Estadística
Introducción
Esquema de las etapas de un estudio estadístico
AREA DE INTERES
DATOSDATOSTema de Investigación Tema de Investigación
-Antecedentes Previos Antecedentes Previos -ObjetivosObjetivos
-Preguntas de InvestigaciónPreguntas de Investigación -Posibles HipótesisPosibles Hipótesis
-Unidad de AnálisisUnidad de Análisis -PoblaciónPoblación
-VariablesVariables
ORGANIZAR Y RESUMIR ORGANIZAR Y RESUMIR
ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA DESCRIPTIVA
(Tablas, Gráficos, Medidas Descriptivas, etc.)
INTERPRETACIÓN
INFERENCIA ESTADÍSTICA INFERENCIA ESTADÍSTICA
¿Población o Muestra? ¿Población o Muestra?
CONCLUSIONES Población
Población
Muestra
Muestra
Probabilidad
Estadística
Introducción
Ejemplos de algunos problemas a estudiar
1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de la persona empleada.
2) Se quiere determinar el perfil de los trabajadores en términos de condiciones económicas y sociales en diferentes comunidades.
3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a vestuario, alimentación, ocio y vivienda.
4) Se quiere determinar las tallas estándar en vestuario para mujeres españolas.
5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de distintas empresas del país.
6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad.
6
•
VARIABLE:
VARIABLE: es lo que se va a medir y representa una característica de la es lo que se va a medir y representa una característica de la UNIDAD DE UNIDAD DE ANÁLISISANÁLISIS..
• ¿QUIÉNES VAN A SER MEDIDOS?: ¿QUIÉNES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Análisis de una Los sujetos u objetos o Unidades de Análisis de una Población o una Muestra
Población o una Muestra
• POBLACIÓN :POBLACIÓN : Es el total de unidades de análisis que son tema de estudio. Es el total de unidades de análisis que son tema de estudio.
Muestra: 60 trabajadores de empresas de comunicación Unidad de análisis: Trabajador de empresa de comunicación
Variables: sexo, edad, salario, Nº de horas de trabajo, etc.
Población:
Población:
“
“
Las personas que Las personas que trabajantrabajan en empresas de en empresas de comunicación
comunicación
”
”
Estadística
• MUESTRA: MUESTRA: Es un conjunto de unidades de análisis provenientes de una población.Es un conjunto de unidades de análisis provenientes de una población.
Muestra
Muestra
7
TIPOS DE VARIABLES
TIPOS DE VARIABLES
Variables Cuantitativas
Variables Cuantitativas
Variable
Variable:
:
corresponde a la característica de la Unidad de Análisis
corresponde a la característica de la Unidad de Análisis
Intervalo Intervalo
DISCRETA DISCRETA
Variables
Variables
Cualitativas
Cualitativas
CONTINUA CONTINUA
Toma valores enteros
Toma valores enteros
Ejemplos
Ejemplos
:
:
Número de Hijos
Número de Hijos
,
,
Número de
Número de
empleados de una empresa
empleados de una empresa
,
,
Número de
Número de
asignaturas aprobadas en un semestre
asignaturas aprobadas en un semestre
, etc.
, etc.
Toma cualquier valor dentro de un intervalo
Toma cualquier valor dentro de un intervalo
Ejemplos
Ejemplos
:
:
Peso; Estatura; Temperatura, etc.
Peso; Estatura; Temperatura, etc.
ORDINAL ORDINAL NOMINAL
NOMINAL
Característica o cualidad
Característica o cualidad
cuyas categorías no tienen
cuyas categorías no tienen
un orden preestablecido.
un orden preestablecido.
Ejemplos
Ejemplos
:
:
Sexo, Deporte
Sexo, Deporte
Favorito
Favorito
, etc.
, etc.
Característica o cualidad cuyas
Característica o cualidad cuyas
categorías tienen un orden
categorías tienen un orden
preestablecido.
preestablecido.
Ejemplos
Ejemplos
: Calificación (S, N, A);
: Calificación (S, N, A);
Grado de Interés por un tema, etc.
Grado de Interés por un tema, etc.
8
Frecuencia
Frecuencia: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se
: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se
presenta una característica.
presenta una característica.
DISCRETA DISCRETA CONTINUA CONTINUA
ORDINAL ORDINAL NOMINAL NOMINAL
TIPO FRECUENCIA
TIPO FRECUENCIA
Frecuencia Absoluta
Frecuencia Absoluta
(F)
(F)
Frecuencia Relativa
Frecuencia Relativa
(f)
(f)
Frecuencia Absoluta
Frecuencia Absoluta
Acumulada (FAA)
Acumulada (FAA)
Frecuencia Relativa
Frecuencia Relativa
Acumulada (fra)
Acumulada (fra)
DISCRETA DISCRETA
CONTINUA CONTINUA NOMINAL
NOMINAL ORDINAL ORDINAL
Variable
Variable
Cuantitativa
Cuantitativa CualitativaCualitativaVariable Variable CuantitativaCuantitativaVariable Variable
Variable
Variable
Cualitativa
Variables
Variables
- Tipo de Industria- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (: se clasifica en industria tipo A, B, C o D. (cualitativa nominalcualitativa nominal)) -
- Nº de EmpleadosNº de Empleados: se refiere al número de empleados en las líneas de producción. (: se refiere al número de empleados en las líneas de producción. (cuantitativa cuantitativa discreta
discreta)) -
- SuperficieSuperficie: se refiere a los : se refiere a los metros cuadradosmetros cuadrados ( (unidad de medidaunidad de medida) disponibles para las áreas de ) disponibles para las áreas de producción. (
producción. (cuantitativa continuacuantitativa continua)) -
- CalificaciónCalificación: calificación realizada por una institución pública sobre cumplimiento de ciertos : calificación realizada por una institución pública sobre cumplimiento de ciertos
estándares (Muy Bien, Bien, Regular, Mal). (
estándares (Muy Bien, Bien, Regular, Mal). (cualitativa ordinalcualitativa ordinal))
Industria nº Tipo Nº Empleados Superficie Calificación
1 A 100 1000,6 Muy Bien
2 B 150 1200,4 Bien
. . .
. . .
. . .
. . .
. . .
299 D 250 800,3 Mal
300 C 300 4000,2 Regular
Problema de Investigación
Problema de Investigación: Se quiere establecer el perfil de las industrias : Se quiere establecer el perfil de las industrias de conserva en función de algunas características.
de conserva en función de algunas características. Unidad de Análisis
Unidad de Análisis: Industria de Conserva: Industria de Conserva
Población
Población: Industrias de Conservas del país: Industrias de Conservas del país
Datos Datos
EJEMPLO
EJEMPLO
10 EJEMPLO EJEMPLO TABLAS DE TABLAS DE FRECUENCIA FRECUENCIA Tipo de Industria Frecuencia Absoluta (Fj)
Frecuencia Relativa (fj)
Porcentaje (%) A B C D
Total 300 1 100
Calificación
Frec. Absoluta (Fj)
Frec.Relativa
(fj) o %
Frec. Absol. Acum. (FAAj)
Frec. Relat. Acum. (fraj) o %
Muy Bien Bien Regular
Mal 300 1 (o 100)
Total 300 1 (o 100)
Numero de Empleados
Frec. Absoluta (Fj)
Frec.Relativa
(fj) o %
Frec. Absol. Acum. (FAAj)
Frec. Relat. Acum. (fraj) o %
<100 [100-150[
. .
[950-1000] 300 1 (o 100%)
Total 300 1 (o 100%) Superficie
(mt2) AbsolutaFrec. (F j)
Frec.Relativa
(fj) o %
Frec. Absol. Acum. (FAAj)
Frec. Relat. Acum. (fraj) o %
<200 [200-400[
. .
[50000-5200] 300 1 (o 100%)
Total 300 1 (o 100%)
(1)
(1)
(2)
(2)
(3)
(3)
(4)
(4)
Problema de Investigación
Problema de Investigación: Se quiere establecer el perfil de las industrias de conserva en : Se quiere establecer el perfil de las industrias de conserva en función de algunas características.
función de algunas características.
Unidad de Análisis
Unidad de Análisis: Industria de Conserva: Industria de Conserva
Población
Población: Industrias de Conservas del país: Industrias de Conservas del país
Elementos de una tabla de frecuencia cuando la variable es continua (x) Elementos de una tabla de frecuencia cuando la variable es continua (x)
Intervalo de clase Amplitud Centro F f FAA fra
I1 c1 a1
I2 c2 a2
. .
Ik ck ak
n
1
Total
n
1
[LI1 ; LS1 [ [LI2 ; LS2 [
[LIk ; LSk]
aj = (LSj – LIj)) cj = (LIj) + LSj )/2
12
Ejercicio: confección de una tabla de frecuencia para una variable
Ejercicio: confección de una tabla de frecuencia para una variable
continua
continua
10,5 10,7 9,5 10,5 11,8 11,2 12,0 10,3 13,5 12,3 10,6 9,8 10,7 11,5 11,1 10,6 9,3 12,9 10,4 7,5 10,2 8,7 10,9 9,9 11,7 10,3 10,6 10,5 11,9 11,0 13,9 10,6 10,0 10,8 10,6 -
7,3 8,0 8,5 12,5 9,7 -
Los datos corresponden a la edad de
Los datos corresponden a la edad de
los hijos de los trabajadores de una
los hijos de los trabajadores de una
empresa
empresa
7,3 9,7 10,4 10,6 11,1 12,3 7,5 9,8 10,5 10,6 11,2 12,5 8,0 9,9 10,5 10,7 11,5 12,9 8,5 10,0 10,5 10,7 11,7 13,5 8,7 10,2 10,6 10,8 11,8 13,9 9,3 10,3 10,6 10,9 11,9 - 9,5 10,3 10,6 11,0 12,0 -
Datos ordenados de menor a mayor
Datos ordenados de menor a mayor
1)
1) Construya un Diagrama de Tallo y HojaConstruya un Diagrama de Tallo y Hoja
2)
2) ¿Cuál es la variable?; ¿Cuál es la Unidad de ¿Cuál es la variable?; ¿Cuál es la Unidad de análisis?; ¿Cuánto vale n?; ¿Cuál es el rango análisis?; ¿Cuánto vale n?; ¿Cuál es el rango de la variable?.
de la variable?.
3)
3) Sobre una Tabla de frecuenciaSobre una Tabla de frecuencia: ¿Cuántos : ¿Cuántos intervalos podría construir?; ¿Cuál es la intervalos podría construir?; ¿Cuál es la amplitud de cada intervalo?; ¿Cuántas amplitud de cada intervalo?; ¿Cuántas medidas de frecuencia puede obtener para medidas de frecuencia puede obtener para cada intervalo?.
cada intervalo?.
4)
4) Construir tabla de frecuenciaConstruir tabla de frecuenciapara la para la variable
variable: Intervalos, centro de clase, : Intervalos, centro de clase, amplitud, frecuencias.
amplitud, frecuencias.
Realice la siguiente actividad
Realice la siguiente actividad
Diagrama de Tallo y Hoja: permite organizar los datos de una variable medida sobre un conjunto de individuos. Su utilidad viene dada cuando no contamos con herramientas automáticas para ordenar los datos.
TIPOS DE
TIPOS DE
GRÁFICOS
GRÁFICOS
1. Gráfico de Sectores Circulares (de
1. Gráfico de Sectores Circulares (de
Torta)
Torta)
Distribución de las unidades de análisis de acuerdo a variable 1
A 20% D
10%
C 40%
B 30%
Distribución de las unidades de análisis de acuerdo a variable 1
B 30% C
40% D 10% A
20%
Distribución de las unidades de análisis de acuerdo a variable 1
B 30% C
40%
D
14
TIPOS DE
TIPOS DE
GRÁFICOS
GRÁFICOS
2. Gráfico de Barras
2. Gráfico de Barras
Numero de unidades de análisis
de acuerdo a variable 1
0 100 200 300 400 500
A B C D
variable 1
N
º
Porcentaje de unidad de análisis de acuerdo a
variable 1
0 20 40 60 80 100
A B C D
va
ria
b
le
1
% unidad de análisis
-Este tipo de gráfico se utiliza generalmente para Este tipo de gráfico se utiliza generalmente para representar la frecuencia
representar la frecuencia de las categorías de una de las categorías de una
variable cualitativa
variable cualitativa. .
-Cuando una variable es cuantitativa se puede utilizar Cuando una variable es cuantitativa se puede utilizar este tipo de gráfico sólo si la variable se ha este tipo de gráfico sólo si la variable se ha transformada en categorías.
transformada en categorías.
-Hay distintas versiones de estos gráficos (por ejemplo Hay distintas versiones de estos gráficos (por ejemplo en Excel), y en algunos casos son muy útiles para en Excel), y en algunos casos son muy útiles para describir el comportamiento de una variable en distintos describir el comportamiento de una variable en distintos grupos.
grupos.
Proporción de unidad de análisis de acuerdo a
variable 1
0 0,2 0,4 0,6 0,8 1 A
B C D
va
ria
b
le
1
Proporción de unidad de análisis
Histograma
Histograma
- Permite la representación de
- Permite la representación de
la
la
frecuencia
frecuencia
de una
de una
variable
variable
Cuantitativa
Cuantitativa
.
.
-
El
El
eje
eje
x
x
se refiere a la
se refiere a la
variable.
variable.
-
El
El
eje
eje
y
y
se refiere a la
se refiere a la
frecuencia (Nº , %).
frecuencia (Nº , %).
-
Cada
Cada
barra
barra
representa la
representa la
frecuencia de la variable en la
frecuencia de la variable en la
población en estudio (o la
población en estudio (o la
muestra).
muestra).
-
El histograma se puede
El histograma se puede
construir desde los datos de la
construir desde los datos de la
tabla de frecuencia de la
tabla de frecuencia de la
variable en estudio.
variable en estudio.
TIPOS DE
TIPOS DE
GRÁFICOS
GRÁFICOS
3. Histograma
3. Histograma
14 13 12 11 10 9 8 7 15 10 5 0 edad F re cu en ci a N º N º edad edad Histograma HistogramaDistribución de los hijos de trabajadores Distribución de los hijos de trabajadores
de la empresa de acuerdo a edad de la empresa de acuerdo a edad
Ejemplo
Ejemplo
En el gráfico se puede observar el
En el gráfico se puede observar el número de número de hijos
hijos , de menor edad (7-8 años), las de mayor , de menor edad (7-8 años), las de mayor edad (13-14 años); y además que la mayoría de
edad (13-14 años); y además que la mayoría de
hijos de los trabajadores están entre los 10 y 12
hijos de los trabajadores están entre los 10 y 12
años.
años.
16
TIPOS DE
TIPOS DE
GRÁFICOS
GRÁFICOS
5. Polígono de Frecuencia
5. Polígono de Frecuencia
edad edad
14 13 12 11 10 9 8 7 15
10
5
0
edad
F
re
cu
en
ci
a
N
º
N
º
Distribución de los hijos de trabajadores Distribución de los hijos de trabajadores
de la empresa
de la empresa de acuerdo a edadde acuerdo a edad
-Esta representación se basa en
Esta representación se basa en
el Histograma.
el Histograma.
-
Sólo es útil para variables
Sólo es útil para variables
cuantitativas
cuantitativas
.
.
-
El
El
eje x
eje x
se refiere a la
se refiere a la
variable.
variable.
-
El
El
eje
eje
y
y
se refiere a la
se refiere a la
frecuencia (Nº , %).
frecuencia (Nº , %).
-
Los puntos que permiten la
Los puntos que permiten la
unión de las líneas representa
unión de las líneas representa
el
el
centro de clase
centro de clase
(o marca de
(o marca de
clase)
clase)
.
.
TIPOS DE
TIPOS DE
GRÁFICOS
GRÁFICOS
5. Diagrama de Caja
5. Diagrama de Caja
-
Permite identificar gráficamente la
Permite identificar gráficamente la
mediana, los cuartiles 1 y 3
mediana, los cuartiles 1 y 3
(percentiles 25 y 75), mínimo y
(percentiles 25 y 75), mínimo y
máximo de una variable.
máximo de una variable.
-
Sólo es útil para variables
Sólo es útil para variables
cuantitativas
cuantitativas
.
.
-
El
El
eje x
eje x
permite identificar la
permite identificar la
poblacion en estudio.
poblacion en estudio.
-
El
El
eje
eje
y
y
representa los valores de la
representa los valores de la
variable en estudio.
variable en estudio.
Estadística
1473 584
N =
Hombres Mujeres
E
da
d
100
90
80
70
60
50
40
30
20
10 0
Edad de las personas que se realizaron Edad de las personas que se realizaron
18
TIPOS DE
TIPOS DE
GRÁFICOS
GRÁFICOS
6. Otros
6. Otros
Número de alumnos matriculados en la Carrera A según año de ingreso
0 20 40 60 80 100
1998 1999 2000 2001 2002 2003
año de ingreso
N
º
d
e
a
lu
m
n
o
s
Número de alumnos matriculados en la Carrera B según año de ingreso
0 20 40 60 80 100
1998 1999 2000 2001 2002 2003
año de ingreso
N
º
d
e
a
lu
m
n
o
s
Número de alumnos matriculados en las Carreras según año de ingreso
0 50 100 150 200
1998 1999 2000 2001 2002 2003
año ingreso
N
º
d
e
a
lu
m
no
s
Carrera B Carrera A
año de ingreso Carrera A Carrera B
1998 60 80
1999 55 70
2000 80 50
2001 40 60
2002 68 50
2003 70 75
Nº de alumnos
OBSERVACIONES
OBSERVACIONES
* El Tipo de Gráfico seleccionado va a depender de la variable en estudio.
* El Tipo de Gráfico seleccionado va a depender de la variable en estudio.
* El Gráfico debe contener un Título General y la identificación de cada eje
* El Gráfico debe contener un Título General y la identificación de cada eje
(variable en estudio y frecuencia).
(variable en estudio y frecuencia).
* En ocasiones resulta más ilustrativo un gráfico que una tabla de
* En ocasiones resulta más ilustrativo un gráfico que una tabla de
frecuencia.
frecuencia.
* Al igual que las tablas, los gráficos deben ser auto-explicativos.
* Al igual que las tablas, los gráficos deben ser auto-explicativos.
Variables Cuantitativas
variable
x
x
i
valor
de
la
variable
en
el
individuo
i
n
i
1
,...,
nc
c
c
c
n i
1
n i i n n i ix
c
cx
cx
cx
1 1 1
b
x
a
b
ax
b
ax
b
ax
n i i n n i i
1 1 1
)
(
)
(
)
(
2 2 1 1 2 n n i ix
x
x
2 1 2 1)
(
)
(
n ni i
x
x
x
)
(
)
(
)
(
1 11 n n
n
i i i
y
x
y
x
y
x
)
(
)
(
)
(
1 11 n n
n
i i i
y
x
y
x
y
x
variable
y
valor
de
la
variable
en
el
individuo
i
i
y
NOTACION
NOTACION
constantes
:
,
,
b
c
a
20
MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRAL
-
Media Aritmética (Promedio)
Media Aritmética (Promedio)
-
Mediana
Mediana
-
Moda
Moda
n
x
x
n i i
1Media Aritmética o Promedio
Media Aritmética o Promedio
Mediana
Mediana
) ( E
M
x
k2
ME x(k) x(k1)
x
1
x
2
x
n
x
Datos Cuantitativos Datos Cuantitativos
x
) 1 (
x
) 2 (
x
) (nx
Datos Cuantitativos ordenados de menor a mayor Datos Cuantitativos ordenados de menor a mayor
Si
Si nn es par es par Si
Si n n es impares impar
centro
del
dato
) (k
x
repite"
se
más
que
dato
el
"
M
o
Moda
Moda
DatosDatos
Cualitativos y Cuantitativos Cualitativos y Cuantitativos
21
Percentiles, Deciles o Cuartiles
Percentiles, Deciles o Cuartiles
-
Percentil (ejemplo: 25, 50, 75)
Percentil (ejemplo: 25, 50, 75)
-
Decil (ejemplo: 4, 5, 8)
Decil (ejemplo: 4, 5, 8)
-
Cuartil (ejemplo: 1, 2, 3)
Cuartil (ejemplo: 1, 2, 3)
El Decil va de 1 a 10
El Decil va de 1 a 10
El Decil 4 (4/10)
El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos: es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34. Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los
n
n datos están ordenados de datos están ordenados de MenorMenor a a MayorMayor
Estadística
El Percentil va de 1 a 100
El Percentil va de 1 a 100
El percentil 25 (25/100)
El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos: es el valor de la variable que reúne al menos el 25% de los datos Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22. Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Cuartil va de 1 a 4
El Cuartil va de 1 a 4
El Cuartil 3 (3/4)
El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos: es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
22
MEDIDAS DE DISPERSIÓN
MEDIDAS DE DISPERSIÓN
-
Rango
Rango
-
Varianza
Varianza
-
Desviación Estándar
Desviación Estándar
Rango
Rango
Varianza
Varianza
x
1x
2x
nx
Datos Cuantitativos Datos CuantitativosCoeficiente de Variación
Coeficiente de Variación
Comparación entre Variables
Comparación entre Variables
Se refiere al comportamiento de las variables cuantitativas en Se refiere al comportamiento de las variables cuantitativas en un grupo.
un grupo. Por ejemplo: Si se tiene un conjunto de personas a las Por ejemplo: Si se tiene un conjunto de personas a las que se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál
que se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál
presenta mayor variación?
presenta mayor variación?
)
min(
)
max(
x
ix
iR
Desviación Típica o Estándar
Desviación Típica o Estándar
Estadística
Otras medidas o Coeficientes
Otras medidas o Coeficientes
-
Asimetría
Asimetría
-
Kurtosis o Apuntamiento
Kurtosis o Apuntamiento
Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias es la simetría y el apuntamiento o kurtosis.
Coeficiente de Asimetría 1 3 3
)
(
s
n
x
x
CA
n
i i
Si CA=0 si la distribución es simétrica alrededor de la media. Si CA<0 si la distribución es asimétrica a la izquierda
Si CA>0 si la distribución es asimétrica a la derecha
Coeficiente de Apuntamiento
4 1
4
)
(
s
n
x
x
CAp
n
i i
- Si CAp=0 la distribución se dice normal (similar a la distribución normal de Gauss) y recibe el nombre de mesocúrtica.
24
Estadística
Otras medidas o Coeficientes
Otras medidas o Coeficientes
-
Asimetría
Asimetría
-
Kurtosis o Apuntamiento
Kurtosis o Apuntamiento
Ejemplos Histogramas con distinta asimetría y apuntamiento
V2
7,0 6,0 5,0 4,0 3,0 2,0 1,0 14 12 10 8 6 4 2 0
Desv. típ. = 1,67 Media = 3,9 N = 30,00
V4
2,0 1,0 0,0 -1,0 30
20
10
0
Desv. típ. = ,64 Media = 0,0 N = 30,00
V5
9,0 8,0 7,0 6,0 5,0 4,0 3,0 2,0 1,0 6
5
4
3
2
1
0
Estadística
Otras medidas o Coeficientes
Otras medidas o Coeficientes
-
Asimetría
Asimetría
-
Kurtosis o Apuntamiento
Kurtosis o Apuntamiento
Ejemplos
Media 3,9
Mediana 4
Moda 4
Desviación estándar 1,67
Varianza de la muestra 2,78
kurtosis -0,43
Coeficiente de asimetría -0,02
Rango 6
Mínimo 1
Máximo 7
Cuenta 30
V1
9,0 8,0 7,0 6,0 5,0 4,0 3,0 2,0 1,0 16
14
12
10
8
6
4
2
0
Desv. típ. = 1,77 Media = 5,4 N = 66,00
1 4 4
1 4 4
1 4 5
2 4 5
2 4 6
2 4 6
2 4 6
3 4 6
3 4 7
4 4 7
26
Estadística
Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento
Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento
para datos Agrupados (tabla de frecuencias)
para datos Agrupados (tabla de frecuencias)
Intervalo
Centro
de clase Amplitud F f FAA fra I1 c1 a1
I2 c2 a2
. .
Ik ck ak n 1
Total n 1
f1 f2 fk n1 n2 nk
Tabla de frecuencia (para variable cuantitativa) Tabla de frecuencia (para variable cuantitativa)
1) La Media para datos agrupados es igual a la suma de los productos de las marcas de clase por sus frecuencias relativas, de la forma:
k j j j cc
x
c
f
Media
1
Sea cj la marca de clase (o centro de clase) y fj la
frecuencia relativa de la clase j, donde j=1, 2,…, k.
2) La La Desviación típicaDesviación típica para datos para datos
agrupados esta dada por:
agrupados esta dada por:
k j j c jc
c
x
f
s
1
2
)
(
3) El El Coeficiente de AsimetríaCoeficiente de Asimetría para para datos agrupados esta dado por:
datos agrupados esta dado por:
3 1 3
)
(
c k j j c j cs
f
x
c
CA
4) El El Coeficiente de apuntamientoCoeficiente de apuntamiento para para
datos agrupados esta dada por:
datos agrupados esta dada por:
Estadística
Descripción de 2 variables cualitativas
Descripción de 2 variables cualitativas
Distribución conjunta Distribución conjunta
Tabla 1 Actividad
Transporte Estudia Pensionado Trabaja
Autobus 5 7 0
Bicicleta 3 3 2
Caminar 2 5 2
Coche 5 4 5
Metro 6 7 4
Transporte Nº % Autobus 12 20,0
Bicicleta 8 13,3
Caminar 9 15,0
Coche 14 23,3
Metro 17 28,3
TOTAL 60 100
Actividad Nº %
Estudia 21 35,0
Pensionado 26 43,3
Trabaja 13 21,7
TOTAL 60 100
Problema
Interesa estudiar cual es el principal medio de transporte preferido por un grupo de personas a la hora de dirigirse al centro comercial.
Para esto se consultó a cada
Para esto se consultó a cada
persona sobre la actividad a
persona sobre la actividad a
la que se dedicaba y el medio
la que se dedicaba y el medio
de transporte preferido.
28
Estadística
Descripción de 2 variables cualitativas
Descripción de 2 variables cualitativas
Distribución conjunta Distribución conjunta
Nº de personas Nº de personas
Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)
Tabla 2 Actividad
Transporte Estudia Pensionado Trabaja TOTAL
Autobus 5 7 0 12
Bicicleta 3 3 2 8
Caminar 2 5 2 9
Coche 5 4 5 14
Metro 6 7 4 17
Estadística
Descripción de 2 variables cualitativas
Descripción de 2 variables cualitativas
Distribución conjunta Distribución conjunta
Nº de personas y % respecto de tipo de Transporte
Nº de personas y % respecto de tipo de Transporte
Tabla 3 Actividad
Transporte Estudia Pensionado Trabaja TOTAL
Autobus 5 7 0 12
% 41,7 58,3 0 100
Bicicleta 3 3 2 8
% 37,5 37,5 25 100
Caminar 2 5 2 9
% 22,2 55,6 22,2 100
Coche 5 4 5 14
% 35,7 28,6 35,7 100
Metro 6 7 4 17
% 35,3 41,2 23,5 100
TOTAL 21 26 13 60
30
Estadística
Descripción de 2 variables cualitativas
Descripción de 2 variables cualitativas
Distribución conjunta Distribución conjunta
Nº de personas y % respecto de tipo de Actividad Nº de personas y % respecto de tipo de Actividad
Tabla 4 Actividad
Transporte Estudia Pensionado Trabaja TOTAL
Autobus 5 7 0 12
% 23,8 26,9 0 20
Bicicleta 3 3 2 8
% 14,3 11,5 15,4 13,3
Caminar 2 5 2 9
% 9,5 19,2 15,4 15
Coche 5 4 5 14
% 23,8 15,4 38,5 23,3
Metro 6 7 4 17
% 28,6 26,9 30,8 28,3
TOTAL 21 26 13 60
MEDIDAS DE ASOCIACIÓN LINEAL
MEDIDAS DE ASOCIACIÓN LINEAL
-
Covarianza
Covarianza
-
Correlación
Correlación
x
1
x
2
x
n
x
Datos Datos Cuantitativos Cuantitativos
Covarianza:
Covarianza:
Recordemos que:
Recordemos que:
Hasta ahora hemos estudiado las
Hasta ahora hemos estudiado las
medidas tendencia
medidas tendencia
central
central
(Media, Mediana, Moda)
(Media, Mediana, Moda)
y dispersión
y dispersión
(Varianza y Desviación Estándar) para
(Varianza y Desviación Estándar) para
una
una
Variable Cuantitativa
Variable Cuantitativa
(x).
(x).
Es una medida de Variabilidad Conjunta entre
Es una medida de Variabilidad Conjunta entre dosdos variables ( variables (xx11,, x x22) o bien () o bien (xx , , yy))
x
y
) 1 (
x
y
(1)) 2 (
x
y
(2)
) (n
x
y
(n)Si Cov(x,y) es positiva
Si Cov(x,y) es positiva: : la asociación entre la asociación entre x x e e yy es directamente proporcional, es directamente proporcional, es decir que cuando
es decir que cuando x x aumenta aumenta yy también aumenta; y viceversa. también aumenta; y viceversa. Si Cov(x,y) es negativa
Si Cov(x,y) es negativa: : la asociación entre la asociación entre x x e e y y es inversamente es inversamente proporcional, es decir que cuando
proporcional, es decir que cuando xx aumenta aumenta yy disminuye; y viceversa. disminuye; y viceversa. Si Cov(x,y) es cero
Si Cov(x,y) es cero: : no existe asociación entreno existe asociación entre x x e e yy..
ni i i
)
y
y
)(
x
x
(
n
)
y
,
x
cov(
1
1
32
MEDIDAS DE ASOCIACIÓN LINEAL
MEDIDAS DE ASOCIACIÓN LINEAL
-
Covarianza
Covarianza
-
Correlación
Correlación
Datos Datos Cuantitativos Cuantitativos
Coeficiente de Correlación de Pearson (
Coeficiente de Correlación de Pearson (
r
r
):
):
Mide el grado de Asociación Lineal
Mide el grado de Asociación Lineal
entre dos variables Cuantitativas
entre dos variables Cuantitativas
Se refiere al grado de asociación entre
Se refiere al grado de asociación entre
dos
dos
variables (
variables (
x
x
11,
,
x
x
22) o bien (
) o bien (
x
x
,
,
y
y
)
)
x
y
) 1 (
x
y
(1)) 2 (
x
y
(2)
) (n
x
y
(n) cuando Si cuando Si r es positivor es positivox x aumenta aumenta : : la asociación entre la asociación entre yy también aumenta; y viceversa. también aumenta; y viceversa. x x e e yy es directamente proporcional, es decir que es directamente proporcional, es decir que Si Si r=1r=1: : la asociación lineal es la asociación lineal es perfecta.perfecta.
Si
Si r es negativor es negativo: : la asociación entre la asociación entre x x e e y y es inversamente proporcional, es decir es inversamente proporcional, es decir que cuando
que cuando xx aumenta aumenta yy disminuye; y viceversa. disminuye; y viceversa. Si Si r=-1r=-1: : la asociación lineal es la asociación lineal es perfecta.
perfecta.
Si
Si r es ceror es cero: : no existe asociación entreno existe asociación entre x x e e yy..
Correlación
Correlación
:
:
1
1
r
y x
s
s
)
y
,
x
cov(
r
y x n
i i i
s
s
)
n
(
y
x
n
y
x
r
1
1
r
=1
r
=-1
EJEMPLO : Representación gráfica de las variables x e y EJEMPLO : Representación gráfica de las variables x e y
34
Objetivo 2
Estudiar si los valores de una
variable pueden ser utilizados para
predecir el valor de la otra
REGRESION LINEAL SIMPLE
REGRESION LINEAL SIMPLE
Datos Cuantitativos Datos Cuantitativos
Determinar si existe relación
entre las variables x e y:
Coeficiente de Correlación
Objetivo 1
Determinar si dos variables están
Determinar si dos variables están
asociadas y en qué sentido se da
asociadas y en qué sentido se da
la asociación
la asociación
.
.
Estudiar la dependencia de una
variable respecto de la otra:
Modelo de Regresión
Modelo de Regresión
Términos
Variable Respuesta (=variable dependiente) Variable Explicativa (=variable Independiente)
Relación Lineal (modelo lineal) Parámetros (intercepto y pendiente)
Intercepto (respuesta media)
Pendiente (efecto de la variable explicativa sobre la respuesta) Error (residuo)
x
y
) 1 (
x
y
(1)) 2 (
x
y
(2)
) (n
x
y
(n)REGRESION LINEAL SIMPLE
REGRESION LINEAL SIMPLE
Datos Cuantitativos Datos Cuantitativos
Notación
Variable Respuesta: y
Variable Explicativa: x
Modelo de Regresión Lineal Simple
:
y
i=
+
x
i+e
iIntercepto:
Pendiente:
Error: e
x
y
) 1 (
x
y
(1)) 2 (
x
y
(2)
) (n
x
y
(n)Modelo Estimado
(recta de regresión)
bx
a
y
ˆ
x
b
y
a
2 1 1 2 1 1 1
n i i n i n i i n i i n ix
x
n
y
x
xy
n
b
Método de Estimación:
Mínimos Cuadrados
Mínimos Cuadrados
i i
i
y
y
e
ˆ
Residuos o Errores
36
REGRESION LINEAL SIMPLE
REGRESION LINEAL SIMPLE
DATOS
DATOS
MODELO DE REGRESIÓN LINEAL SIMPLE
y
i=
+
x
i+e
ix
y
) 1 (
x
y
(1)) 2 (
x
y
(2)
) (n
x
y
(n)MODELO ESTIMADO
bx
a
y
ˆ
x
b
y
a
2 1 1 2 1 1 1
n i i n i n i i n i i n ix
x
n
y
x
xy
n
b
ESTIMADORES
i ii
y
y
e
ˆ
ERRORES
REGRESION LINEAL SIMPLE
REGRESION LINEAL SIMPLE
EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple
Problema 1
: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
niño edad (meses) talla (cm)
i xi yi
1 3 55
2 6 68
3 5 64
4 5 66
5 3 62
6 4 65
7 9 74
8 8 75
9 9 73
10 7 69
11 6 73
12 5 68
13 8 73
14 6 71
y=talla / x=edad / n=14
956
14
1
i i
y
y
68
,
3
s
y
5
,
6
84
14
1
i i
x
x
6
s
x
2
07
,
9
)
,
cov(
x
y
r
xy
0
,
88
5863
14
1
i i i
y
x
556
14
1
2
i i
x
38
REGRESION LINEAL SIMPLE
REGRESION LINEAL SIMPLE
EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple
Problema 1
: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
M o d e lo E s tim a d o
bx
a
y
ˆ
44
,
2
b
a
53
,
64
x
y
ˆ
53
,
64
2
,
44
Interpretación de los resultados
- Existe asociación o dependencia entre la Talla del niño y la edad (
r
=0,88); a
medida que la edad aumenta la talla aumenta.
- Desde los resultados del modelo de regresión lineal simple, se tiene que la talla
media de un niño es de
53,64 cm
. Cuando la edad del niño (meses) aumenta en
una unidad la talla se incrementa en
2,44 cm
.
REGRESION LINEAL SIMPLE
REGRESION LINEAL SIMPLE
EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
De acuerdo al coeficiente de
determinación, el modelo ajustado
a los datos es adecuado (R
2cercano a 1)
Bondad de Ajuste del Modelo
R2 = 0,77
niño edad (meses) talla (cm) Talla estimada error
i xi yi yˆi ei
1 3 55 61,0 -6,0
2 6 68 68,3 -0,3
3 5 64 65,8 -1,8
4 5 66 65,8 0,2
5 3 62 61,0 1,0
6 4 65 63,4 1,6
7 9 74 75,6 -1,6
8 8 75 73,2 1,8
9 9 73 75,6 -2,6
10 7 69 70,7 -1,7
11 6 73 68,3 4,7
12 5 68 65,8 2,2
13 8 73 73,2 -0,2
14 6 71 68,3 2,7
86
,
402
)
(
14
1
2
i i i
y
y
7
,
92
)
ˆ
(
141 2 14
1
2
i i i i i