MÉTODOS DE INVESTIGACIÓN BASADOS EN EL
MÉTODOS DE INVESTIGACIÓN BASADOS EN EL
ANÁLISIS DE VARIABLES.
ANÁLISIS DE VARIABLES.
ESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA DESCRIPTIVA
METODOLOGÍA DE INVESTIGACIÓN
METODOLOGÍA DE INVESTIGACIÓN
YUDY HUACANI SUCASACA
Medición de variables
Medición de variables
Variable: cualidad o característica de un objeto (o evento) que contenga, al
menos, dos atributos en los que pueda clasificarse un objeto o evento
Medición de una variable: asignar valores o categorías a las distintas
características que conforman el objeto de estudio
Requisitos básicos:
Exhaustividad: Exhaustividad: debe comprender el mayor número de atributos
posible. Toda observación debe ser clasificada
Exclusividad: Exclusividad: los distintos atributos de la variable deben ser
mutuamente excluyentes. Una observación solo puede clasificarse en términos de un solo atributo
Precisión: Precisión: realizar el mayor número de distinciones posibles. Las
Tipología según el nivel de medición
Tipología según el nivel de medición
Variables Nominales:
Variables Nominales:
Ejemplos: sexo, nacionalidad, estado ocupacional, grupo
sanguíneo, partido político, estado civil, religión, plan social al que
pertenece, localidad donde reside, etc.
No se puede establecer ningún tipo de relación
Tipología según el nivel de medición
Tipología según el nivel de medición
Variables Ordinales:
Variables Ordinales:
Ejemplos: estrato social, orden de mérito, nivel educativo, opinión
acerca de un hecho/situación/gobierno
Los atributos, además de poseer las características mencionadas,
tienen la propiedad de poder establecer un orden
No puede conocerse la magnitud de la diferencia entre un atributo
y otro
Son variables no métricas o cualitativas
Tipología según el nivel de medición
Tipología según el nivel de medición
Variables Cuantitativas o métricas:
Variables Cuantitativas o métricas:
Variables de intervalo:
Variables de intervalo:
Además de establecer un orden, la diferencia entre dos atributos puede
cuantificarse
La distancia que separa a personas de 15 y 16 años, es la misma que la
existente entre personas de 72 y 73 años
Permite realizar la mayoría de las operaciones aritméticas
Ejemplos: temperatura en ºC
Tipología según el nivel de medición
Tipología según el nivel de medición
Variables Cuantitativas o métricas:
Variables Cuantitativas o métricas:
Variables de razón:
Variables de razón:
Además de las características de las variables de intervalo, se suma la
posibilidad de contar con un cero absoluto
El cero absoluto indica ausencia de la característica
Permite cálculo de proporciones
Permite realizar cualquier operación aritmética
Ejemplos: ingreso, altura, peso, número de habitantes, todas las variables
Tipología según el nivel de medición
Tipología según el nivel de medición
Variables Cuantitativas o métricas:
Variables Cuantitativas o métricas:
Variables discretas:
Variables discretas:
Entre dos valores dados, no existen valores intermedios
Ejemplos: número de hijos, número de elementos vendidos, número de
beneficiarios de un plan
Variables continuas:
Variables continuas:
Entre dos valores dados, existen valores intermedios
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
La organización de los datos
La organización de los datos
Distribución de frecuencias
Distribución de frecuencias
Distribución porcentual
Distribución porcentual
Distribución acumulada
Distribución acumulada
Proporciones
Proporciones
Razones
Razones
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
Cúantos jóvenes de 15 a 29 años del total del país están en
Cúantos jóvenes de 15 a 29 años del total del país están en
hogares en situación de pobreza?
hogares en situación de pobreza?
Indicador: hogares por debajo de la línea de Pobreza
Fuente: EPH
Variable : lphogD85 (hogar bajo la línea de pobreza)
Valores : 1 SI (hogar pobre)
N
número de casos
suma de las respectivas frecuencias de cada
dato (
N=ΣX
i).
frecuencia total
Tabla de distribución de frecuencias
Tabla de distribución de frecuencias
Frecuencias
Estadísticos
LPHOGD85
Válidos 23523661 N
Perdid
os 0
Valores /
Categorías
frecuencias absolutas
frecuencias absolutas
:
:
(
f
i.)
representan el número de veces
que aparece cada valor de la
variable
Tabla de distribución de frecuencias
Tabla de distribución de frecuencias
LPHOGD85
Frecuencia Porcentaje
Porcentaje válido
Porcentaje acumulado
1 7389959 31,4 31,4 31,4
2 16133702 68,6 68,6 100,0 Válidos
Total 23523661 100,0 100,0
frecuencias relativas
frecuencias relativas
: (f
r)
Representan la relación entre la
frecuencia absoluta y el tamaño de la
muestra. (porcentajes y proporciones)
Tabla de distribución de frecuencias
Tabla de distribución de frecuencias
LPHOGD85
Frecuencia Porcentaje
Porcentaje válido
Porcentaje acumulado
1 7389959 31,4 31,4 31,4
2 16133702 68,6 68,6 100,0 Válidos
frecuencia relativa acumulada
frecuencia relativa acumulada
:
relación
entre la frecuencia
absoluta
acumulada
dividido por el tamaño de la
muestra (N)
.
Tabla de distribución de frecuencias
Tabla de distribución de frecuencias
LPHOGD85
Frecuencia Porcentaje
Porcentaje válido
Porcentaje acumulado
1 7389959 31,4 31,4 31,4
2 16133702 68,6 68,6 100,0 Válidos
Otras medidas resumen
Otras medidas resumen
LPHOGD85Frecuencia Porcentaje
Porcentaje válido
Porcentaje acumulado
1 7389959 31,4 31,4 31,4
2 16133702 68,6 68,6 100,0 Válidos
Total 23523661 100,0 100,0
Proporciones:
Proporciones: es el cociente entre la frecuencia absoluta del
valor y el N
fi Valor (1) 7389959
N 23523661
La proporción de jóvenes póbres es de 0,31
Razones:
Razones: es el cociente entre la frecuencia absoluta de un valor y la
frecuencia absoluta del otro
fi Valor 2 16133702
fi Valor 1 7389959 2,18
GRÁFICOS ESTADÍSTICOS
GRÁFICOS ESTADÍSTICOS
Diagrama de barras:
Diagrama de barras:
Se utilizan rect
á
ngulos separados, que tienen
como base a cada uno de los datos y como altura la frecuencia absoluta
o relativa de ese dato.
LPHOGD85
Casos ponderados por PONDIH
LPHOGD85 2 1 F re cu e n ci a 20000000 10000000 0 LPHOGD85
Casos ponderados por PONDIH
Gráfica de Torta
Gráfica de Torta
:
:
Se forma al dividir
un círculo en sectores de manera que:
a) cada sector equivale al porcentaje
correspondiente al dato o grupo que
representa; y b) la unión de los
sectores forma el círculo y la suma de
sus porcentajes es 100.
GRÁFICOS ESTADÍSTICOS
GRÁFICOS ESTADÍSTICOS
LPHOGD85
Casos ponderados por PONDIH
2
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
INFORMACIÓN RESUMEN DE VARIABLES
ALEATORIAS
Formas más compactas para caracterizar las
distribuciones
TENDENCIA CENTRAL
HETEROGENEIDAD O DESVÍO
Medidas de tendencia central
Refiere a los valores de las variables que suelen estar en el centro de la distribución.
Posición donde se centra una distribución en una escala de valores
TEMPORARY .
SELECT IF (h12>25 AND h12<45) . FREQUENCIES
VARIABLES=cdea /STATISTICS=MODE /BARCHART FREQ /ORDER ANALYSIS .
Medidas de tendencia central
Medidas de tendencia central
Variable nominal
Statistics PEA 5907235 0 1,00 Valid Missing N Mode PEA4699861 79,6 79,6 79,6
1207374 20,4 20,4 100,0
5907235 100,0 100,0
Activo Inactivo Total Valid Frequency Percent Valid Percent Cumulativ e Percent PEA
Cases weighted by PONDERA
PEA Inactivo Activo F re qu en cy 5000000 4000000 3000000 2000000 1000000 0
Moda
Moda
Mediana
Mediana
Es el punto o valor numérico que deja por debajo (y por
encima) a la mitad de las puntuaciones de la de la
distribución
La mediana se calcula en primer lugar ordenando los datos y
luego:
- Si el número de datos es impar, la mediana es el dato central
- Si el número de datos es par, la mediana se considera como el promedio
de los dos datos centrales
Medidas de tendencia central
Mediana
Mediana
Medidas de tendencia central
Medidas de tendencia central
800 150 150 900 680 40 510 120 480 850
800 500 450 700 760 200 2440 120 480 250
1000 900 800 980 800 300 1200 160 300 200
960 300 800 800 500 280 320 540 280 900
1000 330 600 1500 500 960 650 570 500 580
150 500 700 1100 400 1150 600 300 600 1200
1000 300 20 750 600 300 300 550 500 400
550 350 300 640 120 100 650 150 800 300
550 700 400 360 250 600 1000 400 380 200
250 1800 400 72 160 90 150 220 450 1000
20 150 250 300 400 500 600 700 800 1000
40 150 250 300 400 500 600 700 850 1000
72 150 280 300 400 500 600 750 900 1000
90 160 280 320 450 510 600 760 900 1100
100 160 300 330 450 540 600 800 900 1150
120 200 300 350 480 550 640 800 960 1200
120 200 300 360 480 550 650 800 960 1200
120 200 300 380 500 550 650 800 980 1500
150 220 300 400 500 570 680 800 1000 1800
Medidas de tendencia central
Medidas de tendencia central
VARIABLE CUANTITATIVA
edad
Frecuencia Porcentaje
Porcentaje válido
Porcentaje acumulado
15 439878 7,1 7,1 7,1
16 427380 6,9 6,9 14,0
17 412200 6,7 6,7 20,6
18 419529 6,8 6,8 27,4
19 415349 6,7 6,7 34,1
20 399023 6,4 6,4 40,6
21 428206 6,9 6,9 47,5
22 378808 6,1 6,1 53,6
23 461983 7,5 7,5 61,0
24 408871 6,6 6,6 67,6
25 415516 6,7 6,7 74,3
26 430316 6,9 6,9 81,3
27 407540 6,6 6,6 87,9
28 385408 6,2 6,2 94,1
29 367549 5,9 5,9 100,0
Válidos
Total 6197556 100,0 100,0
Estadísticos
edad
Válidos 6197556
N
Perdidos 0
Media 21,89
Mediana 22,00
Moda 23
Mediana
Medidas de tendencia central
Medidas de tendencia central
Media
Media
La MEDIA ARITMÉTICA O PROMEDIO es una medida estadística de tendencia central. De una cantidad finita de números, es igual a la suma de todos ellos dividida entre el número de sumandos.
También la media aritmética puede ser denominada como
Propiedades de la media
La media es sensible al valor exacto de todos los datos en la distribución La suma de las desviaciones con respecto a la media es cero
La media es muy sensible a los datos extremos
NOTA: NOTA:
Medidas de posición no centrales
Medidas de posición no centrales
Percentiles/cuartiles/deciles/n tiles
Percentiles/cuartiles/deciles/n tiles
800 150 150 900 680 40 510 120 480 850
800 500 450 700 760 200 2440 120 480 250
1000 900 800 980 800 300 1200 160 300 200
960 300 800 800 500 280 320 540 280 900
1000 330 600 1500 500 960 650 570 500 580
150 500 700 1100 400 1150 600 300 600 1200
1000 300 20 750 600 300 300 550 500 400
550 350 300 640 120 100 650 150 800 300
550 700 400 360 250 600 1000 400 380 200
Medidas de posición no centrales
Medidas de posición no centrales
Percentiles/cuartiles/deciles/n tiles
Percentiles/cuartiles/deciles/n tiles
20 150 250 300 400 500 600 700 800 1000
40 150 250 300 400 500 600 700 850 1000
72 150 280 300 400 500 600 750 900 1000
90 160 280 320 450 510 600 760 900 1100
100 160 300 330 450 540 600 800 900 1150
120 200 300 350 480 550 640 800 960 1200
120 200 300 360 480 550 650 800 960 1200
120 200 300 380 500 550 650 800 980 1500
150 220 300 400 500 570 680 800 1000 1800
150 250 300 400 500 580 700 800 1000 2440
Percentil 1
Percentil 99
2° Cuartil
Percentil 50
5° decil
1° Cuartil 3° Cuartil
Medidas de posición. Ejemplo. Ingreso
Medidas de posición. Ejemplo. Ingreso
horario
• Las distribuciones del ingreso de dos provincias con el mismo ingreso medio
por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variación de ingresos entre familias.
• Estamos interesados en la dispersión o variabilidad de los ingresos, además
de estarlo en sus centros
.
Distribución con baja dispersión
Distribución con alta dispersiónMedidas de Dispersión
Medidas de Dispersión
Medidas de Dispersión
Los datos también se deben caracterizar en términos de
su dispersión o variabilidad.
Las medidas de variabilidad cuantifican la extensión de la
dispersión
Medidas de dispersión / desviación
Medidas de dispersión / desviación
respecto a la media
respecto a la media
Miden el grado de cercanía o lejanía de las puntuaciones respecto a la media Permiten describir el grado de homogeneidad / heterogeneidad de la
distribución de una variable
Máximo y Mínimo Rango
Amplitud Intercuartílica Varianza
Desvío típico
Medidas de dispersión / desviación
Medidas de dispersión / desviación
respecto a la media
respecto a la media
Mínimo Máximo rango o recorrido y amplitud intercuartílica
Mínimo Máximo rango o recorrido y amplitud intercuartílica
20 150 250 300 400 500 600 700 800 1000
40 150 250 300 400 500 600 700 850 1000
72 150 280 300 400 500 600 750 900 1000
90 160 280 320 450 510 600 760 900 1100
100 160 300 330 450 540 600 800 900 1150
120 200 300 350 480 550 640 800 960 1200
120 200 300 360 480 550 650 800 960 1200
120 200 300 380 500 550 650 800 980 1500
150 220 300 400 500 570 680 800 1000 1800
150 250 300 400 500 580 700 800 1000 2440
Mínimo
Mínimo
Máximo
Máximo
Máximo - Mínimo
2240 - 20 = 22202220 rango o recorrido
rango o recorrido
Distancia entre el máximo valor y el mínimo valor que puede asumir la variable
Amplitud intercuartílica
Amplitud intercuartílica
Distancia entre el valor del primer cuartil y el valor del tercero
3°cuartil - 1°cuartil
Medidas de dispersión / desviación
Medidas de dispersión / desviación
respecto a la media
respecto a la media
Varianza y desvío típico
Varianza y desvío típico
La desviación estándar (o desviación típica) y la varianza son medidas de dispersión para variables de razón y de intervalo. Son medidas que informan acerca del promedio de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades de medida que la variable de origen. Ambas medidas están estrechamente relacionadas ya que se define una a partir de la otra.
100 120 120
120 1100
20 150 200 1150
40 150 200 1000 1200 2440
72 150 200 560 33512 760 1000 1200
90 150 220 500 600 620,5926 650 800 1000 1500
150 250 500 600 680 800 900 1800
160 400 850 900
160 500 900
500 960 400 960 980 1000 1000 N: 54
Medidas de dispersión / desviación
Medidas de dispersión / desviación
respecto a la media
respecto a la media
Varianza y desvío típico
Varianza y desvío típico
(Xi – u)2
Expresión de la varianza:
(Xi – u)2
(Xi – u)2
(Xi – u)2
(Xi – u)2
X
Expresión de la desviación estándar:
Informe
P21 Monto de ingreso de la ocupación principal percibido en ese mes
628,94 8931 723,011 522745,3 2 20000 450,00 98,879 6,526 441,68 6705 477,588 228089,9 2 6600 300,00 25,366 3,743 548,64 15636 636,363 404957,8 2 20000 400,00 100,206 6,301 CH04 Sexo
1 Varón 2 Mujer Total
Media N Des v. típ. Varianza Mínimo Máximo Mediana Curtosis Asimetría
Medidas de dispersión / desviación
Medidas de dispersión / desviación
respecto a la media
respecto a la media
Es de particular utilidad comparar la variabilidad de 2 o mas conjuntos de
datos con medias diferentes.
El coeficiente de variabilidad es una medida relativa que se expresa en
porcentaje en vez de en términos de las unidades de los datos.
Es una forma de estandarizar el desvío
Indica la relación entre el desvío y la media
Medidas de dispersión / desviación respecto
Medidas de dispersión / desviación respecto
a la media
a la media
Coeficiente de variabilidad
Coeficiente de variabilidad
Coeficiente de variabilidad
Medidas de dispersión / desviación
Medidas de dispersión / desviación
respecto a la media
respecto a la media
S
X
Si se multiplica por 100 se obtiene el grado de variabilidad
Si se multiplica por 100 se obtiene el grado de variabilidad
respecto de la media
respecto de la media
Estadísticos edad 6197556 0 ,002 4,297 18,465 14 15 29 Válidos Perdidos N
Error típ. de la media Desv. típ. Varianza Rango Mínimo Máximo Estadísticos edad
Válidos 6197556
N
Perdidos 0
Media 21,89
Mediana 22,00
Moda 23
4,3 / 21,9= 0,19
Existe una variabillidad de + -
Existe una variabillidad de + -
19% respecto de la media
19% respecto de la media
Informe
P21 Monto de ingreso de la ocupación principal percibido en ese mes
628,94 8931 723,011 522745,3 2 20000 450,00 98,879 6,526 441,68 6705 477,588 228089,9 2 6600 300,00 25,366 3,743 548,64 15636 636,363 404957,8 2 20000 400,00 100,206 6,301 CH04 Sexo
1 Varón 2 Mujer Total
Media N Des v. típ. Varianza Mínimo Máx imo Mediana Curtosis Asimetría
CV= S/X
CV= S/X
M= 477,6 / 441,7
M= 477,6 / 441,7
V= 723 / 688,9
V= 723 / 688,9
1,05
1,05
1,08
1,08
Medidas de dispersión / desviación
Medidas de dispersión / desviación
respecto a la media
Una tercera característica de un conjunto de datos es la forma,
es decir, la manera en que están distribuidas las observaciones.
La distribución de los datos puede ser o no
simétrica
. Si la
distribución de los datos no es simétrica, se llama
asimétrica o
sesgada
.
Para describir la forma se puede comparar la media y la
mediana.
También puede observarse a través del coeficiente de asimetría
Mide el grado de Simetría / Asimetría de la distribución
La Forma de la distribución
Mdn
Media
Si es + indicará muchos casos en los valores más bajos y pocos
en los más altos
positivamente asimétrica .
Media > Mediana:
Positivos o con sesgamiento a la derecha
La Forma de la distribución
La Forma de la distribución
Mdn
Mdn
Media
Media
Si es - indicará muchos casos en los valores más altos y pocos en los
más bajos
negativamente asimétrica.
Media < Mediana:
Negativos o con sesgaminto a la izquierda.
La Forma de la distribución
Mdn = Media
Mdn = Media
En la distribución Normal es 0
Simétrica
Media = Mediana:
Simétricos o con sesgamiento cero.
La Forma de la distribución
.
La Forma de la distribución
La Forma de la distribución
El coeficiente de
kurtosis
kurtosis
mide el grado de apuntamiento de la
curva
mesocúrtica
leptocúrtica
(menor dispersión)
Platicúrtica
(mayor dispersión)
Si es + indicará un grado de apilamiento mayor que en la normal leptocúrtica
(menor dispersión)
Mide el grado de apuntamiento de la curva
En la distribución Normal es 0 mesocúrtica
Si es – indicará que es más aplanada que la normal platicúrtica
(mayor
dispersión)
El coeficiente de
kurtosis
kurtosis
La Forma de la distribución
UN TIPO PARTICULAR DE
DISTRIBUCIÓN PARA VARIABLES
ALEATORIAS MÉTRICAS
LA CURVA NORMAL
SUS PROPIEDADES
ESTADÍSTICA DESCRIPTIVA – LA
ESTADÍSTICA DESCRIPTIVA – LA
DISTRIBUCIÓN NORMAL
DISTRIBUCIÓN NORMAL
Es un tipo particular de distribución de frecuencias.
En los casos en que los valores que asume una variable depende de múltiples factores sin que ninguno de ellos sesgue la distribución, es de esperar que los valores se distribuyan homogéneamente alrededor de la media la mediana y la moda.
Estas variables aleatorias presentan una distribución que es aproximadamente simétrica y cuya gráfica tiene forma de campana (mesocúrtica).
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
La distribución normal queda definida por dos parámetros:
El área total bajo la curva es igual a 100 % o 1.
El área bajo la curva comprendido entre los valores situados a una desviaciones estándar de la media es aproximadamente igual al 68%.
El área bajo la curva comprendido entre los valores situados a dos desviaciones estándar de la media es aproximadamente igual al 95%.
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
σ =1 σ= -1
σ = -3
σ =-2
2,14 2,14
σ =2
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
σ =1 σ= -1
σ = -3
σ =-2
2,14
σ =2
σ =3
Se puede determinar el área entre dos ordenadas cuales quiera a través del calculo de las unidades de desviación en que se encuentra una porción de la población y su correspondencia en la tabla de áreas bajo la curva normal
Z = X – X
S
Refiere al número de unidades de desviación típica que un individuo o caso queda por encima o por debajo de la media de su grupo
Puntuaciones Z
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
X= 143
2,14
2,14
Z = X – X
S
168
S= 12
Se requiere conocer la porción de población que gana hasta $143
a) Cálculo de Z
Z= (143 – 168) / 12 Z= -2,08
c) 0,5 – 0,4812 = 0,0188 aprox 1,9%
b) Correspondencia en la tabla De áreas bajo la curva normal
TIPO DE ANÁLISIS QUE PERMITE UNA TABLA DE
CONTINGENCIA
ANÁLISIS DE PERFILES O CARACTERÍSTICAS POBLACIONALES
ANÁLISIS DESCRIPTIVO DE GRUPOS O SEGMENTOS DE POBLACIÓN
Análisis de tablas de contingencia
Componentes Tabla de una contingencia
Componentes Tabla de una contingencia
Pobres
Pobres
No pobres
No pobres
Total
Total
Aprobaron
Aprobaron
40
No
No
aprobaron
aprobaron
60
Total
Total
70
30
100
N: total poblacional o
N: total poblacional o
muestral
muestral
Marginales
Marginales
(de fila) (de fila)Marginales
Marginales
(de columna) (de columna) Celdas condicionales Celdas condicionalesAnálisis bivariados Tablas de
Análisis bivariados Tablas de
contingencia
contingencia
Función descriptiva
Rendimiento educativo/cond. Socioec.Pobres
Pobres
No pobres
No pobres
Total
Total
15 25 40
55 5 60
Total
Total
70 30 100Aprobaron Aprobaron 100 100 37,5 62,5 % fila
% fila 91,6 8,4
%Col %Col %Col 21,4 78,6 70 100 40 60 100 100 100 30 83,3 16,7 No aprobaron No aprobaron % fila
% del total
% del total 15
TIPO DE ANÁLISIS QUE PERMITE UNA TABLA DE
CONTINGENCIA
ANÁLISIS DE ASOCIACIÓN
Análisis de tablas de contingencia
Análisis bivariados Tablas de
Análisis bivariados Tablas de
contingencia
contingencia
Existe una relación entre los logros educativos de los alumnos y su contexto sociofamiliar.
hipótesis
Variables:
aprobó
Situación de
pobreza
Si
no
Si
no
categorías
v. Nominal dicotómica
v. Nominal dicotómica
Análisis bivariados Tablas de
Análisis bivariados Tablas de
contingencia
contingencia
Hipótesis
Análisis bivariados Tablas de
Análisis bivariados Tablas de
contingencia
contingencia
H1:
H1:
Los niños que no hayan aprobado el exámen se
Los niños que no hayan aprobado el exámen se
encontrarán mayoritariamente en situación de pobreza
encontrarán mayoritariamente en situación de pobreza
No Pobres
No Pobres
Pobres
Pobres
Total
Total
Aprobaron
Aprobaron
XX
x
No
No
aprobaron
aprobaron
XX
XXXXXXXX
Total
Total
Hipótesis rinconal
Análisis bivariados Tablas de
Análisis bivariados Tablas de
contingencia
contingencia
H2:
H2:
Los niños que no hayan aprobado el exámen se
Los niños que no hayan aprobado el exámen se
encontrarán mayoritariamente en situación de pobreza
encontrarán mayoritariamente en situación de pobreza
Mientras que los que lo han aprobado se encontrarán en
Mientras que los que lo han aprobado se encontrarán en
hogares por encima de la línea de pobreza
hogares por encima de la línea de pobreza
No Pobres
No Pobres
Pobres
Pobres
Total
Total
Aprobaron
Aprobaron
XXXXXXXX XX
No
No
Aprobaron
Aprobaron
XX
XXXXXXXX
Total
Análisis bivariados Tablas de
Análisis bivariados Tablas de
contingencia
contingencia
La idea de asociación / relación entre variables
La idea de asociación / relación entre variables
se define por lo general en oposición al de
se define por lo general en oposición al de
independencia
estadística
y
se
evalúa
independencia
estadística
y
se
evalúa
examinando el sentido y la fuerza de las
examinando el sentido y la fuerza de las
regularidades empíricas
regularidades empíricas
Análisis bivariados Tablas de
Análisis bivariados Tablas de
contingencia
contingencia
Pobres
Pobres
No pobres
No pobres
Total
Total
Aprobaron
Aprobaron
25 25 50No aprobaron
No aprobaron
25 25 50Total
Total
50 50 100Si conozco la distribución esperada bajo el supuesto de independencia estadística
Si conozco la distribución esperada bajo el supuesto de independencia estadística
lo puedo contrastar con la distribución real y ver si las diferencias son
lo puedo contrastar con la distribución real y ver si las diferencias son
estadísticamente significativas
estadísticamente significativas
XXX
XXX
XXX
XXX
XXX
Análisis bivariados Tablas de
Análisis bivariados Tablas de
contingencia
contingencia
Pobres
Pobres
No pobres
No pobres
Total
Total
Aprobaron
Aprobaron
(Y1)
(Y1)
(40 * 70) / 100 28
(40 * 30) / 100 12 40
No aprobaron
No aprobaron
(Y2)
(Y2)
(60 * 70) / 100 42
(60 * 30) / 100 18
60
Total
Total
70 30 100“
“Las variables X e Y (Las variables X e Y (situación de pobrezasituación de pobreza y y aprobación del exámen aprobación del exámen ) son ) son estadísticamente independientes si el porcentaje
estadísticamente independientes si el porcentaje o número de o número de de observaciones de observaciones que poseen el atributo Y1 (
que poseen el atributo Y1 ( no no aaprobóprobó) es el mismo entre X1 () es el mismo entre X1 (pobrespobres) que entre ) que entre
X2 (
Análisis bivariados Tablas de
Análisis bivariados Tablas de
contingencia
contingencia
Pobres
Pobres
No pobres
No pobres
Total
Total
Aprobaron
Aprobaron
(Y1)
(Y1)
28 15 12 25 40No aprobaron
No aprobaron
(Y2)
(Y2)
42 55 18 5 60Total
Total
70 30 100“
“Las variables X e Y (Las variables X e Y (situación de pobrezasituación de pobreza y y aprobación del exámen aprobación del exámen ) son ) son estadísticamente independientes si el porcentaje
estadísticamente independientes si el porcentaje o número de o número de de observaciones de observaciones que poseen el atributo Y1 (
que poseen el atributo Y1 ( no no aaprobóprobó) es el mismo entre X1 () es el mismo entre X1 (pobrespobres) que entre ) que entre
X2 (
Análisis bivariados Tablas de
Análisis bivariados Tablas de
contingencia
Para medir el grado de dependencia o asociación entre las variables X e Y se
Para medir el grado de dependencia o asociación entre las variables X e Y se
utillizan medidas de asociación
utillizan medidas de asociación
Si existe la relación ¿cúal es la fuerza y el sentido de dicha
Si existe la relación ¿cúal es la fuerza y el sentido de dicha
relación?
relación?
Existen diferentes medidas según las características de la tabla, el tipo de hipótesis y las
Existen diferentes medidas según las características de la tabla, el tipo de hipótesis y las
características de las variables
Coeficiente phi
Coeficiente phi
Medida de asociación para dos variables dicotómicas
Basada en el coeficiente ji cuadrado Asume valores entre 0 y 1
Coeficiente V de Cramer
Coeficiente V de Cramer
Extensión de PHI
Variables nominales de más de 2 categ Asume valores entre 0 y 1
Medidas de asociación para dos variables de
Medidas de asociación para dos variables de
escala nominal
escala nominal
Coeficientes Lambdas
Coeficientes Lambdas
Coeficiente Kappa
Coeficiente Kappa
Basada en reducción del error
Interpretación distinta de los anteriores Asume valores entre 0 y 1
Proporción en que se reduce el error al
predecir los valores de una variable a partir de los de la otra
Compara los valores de dos variables
nominales tales que sus valores pueden ser los mismos
Tablas cuadradas
Mide el grado de acuerdo entre las dos variables
Medidas de asociación
Medidas de asociación
Medidas de asociación para dos variables de escala
Medidas de asociación para dos variables de escala
ordinal
ordinal
Coeficiente Gamma
Coeficiente Gamma
Medida de asociación para dos variables cualitativas de escala ordinal Asume valores entre -1 y 1
Valores próximos a 1 : fuerte asociación positiva: a medida que aumentan los valores de una variable aumentan los de la otra
Valores próximos a -1 : fuerte asociación negativa: a medida que aumentan los valores de una variable disminuyen los de la otra
Medidas de asociación
Medidas de asociación
Medidas de asociación para dos variables de escala
Medidas de asociación para dos variables de escala
ordinal
ordinal
Coeficiente Tau-b de Kendall
Coeficiente Tau-b de Kendall
Extensión del GammaAsume valores entre -1 y 1
Alcanza valores extremos (-1 y 1) cuando la asociación es total
Alcanza valores extremos (-1 y 1) sólo cuando las dos variables tienen el mismo número de categorías (la tabla es cuadrada)
Coeficiente Tau-c de Kendall
Coeficiente Tau-c de Kendall
Medida de
asociación Tabla Escala deMedida Observaciones
Phi
V de Cramer
2 x 2
f x c
Nominales
Nominales
Medidas basadas en chi cuadrado.
Toman valores comprendidos entre 0 y 1. Evalúa hipótesis lineales (diagonal principal). Son útiles para estimar grados de asociación entre pares de variables, sobre un mismo
conjunto de individuos para n filas y columnas.
Lambda f x c Nominales Toma valores entre 0 y 1.
Disponen versión asimétrica.
Es fácil de interpretar en términos de la proporción que se reduce le error de
predicción del valor de una variable a partir de los valores de la otra (pero puede tomar valores muy bajos en tablas con asociación). Gamma
Tau b / c de
Kendall
f x c
f x c
Ordinales
Ordinales
Toma valores entre -1 y 1, pasando por 0. Gamma es más fácil de interpretar. Asume relaciones curvilineales.
Tau b sólo alcanza valores extremos cuando hay asociación total y f y c son iguales.
Tau c tiende a subestimar la relación.