ESTADISTICA
ESTADISTICA APLICADA
APLICADA A LA
A LA INVESTIGACION
INVESTIGACION CIENTIFICA
CIENTIFICA
La pres
La presente seente separaparatata dede
estadística aplicada a la investigación científica,
estadística aplicada a la investigación científica,
tiene por finalidadtiene por finalidad principal, la de proporcionar las herramientas estadísticas básicas a los estudiantes de principal, la de proporcionar las herramientas estadísticas básicas a los estudiantes de pre-gradgrado, de maeo, de maestría y de docstría y de doctoratorado, pardo, para que puea que puedan idedan identifintificar los escar los estadítadísticosticoss queque van avan a utilizar en su tesis en el análisis de los datos, en la prueba de hipótesis, en la elaboración y utilizar en su tesis en el análisis de los datos, en la prueba de hipótesis, en la elaboración y validación de
validación del instrumento que van a utilizar para recoger la informal instrumento que van a utilizar para recoger la informaciónción (si el caso lo requiere),(si el caso lo requiere), etc
etc.. AsiAsimismismo,mo, enen la ella elaboaboracracióión de tan de tablblas (sas (simpimples y cles y compompuesuestastas) y grá) y gráficoficos (lis (lineanealesles,, circulares, de barras, histogramas, etc). Todo lo mencionado se realizará mediante el uso del circulares, de barras, histogramas, etc). Todo lo mencionado se realizará mediante el uso del software estadístico SPSS-21
software estadístico SPSS-21
1.
1. LA E
LA ESTA
STADÍ
DÍST
STICA
ICA..
La Estadística es una ciencia que estudia los
La Estadística es una ciencia que estudia los
métodos
métodos
yyprocedimientos
procedimientos
para:para:recoger
recoger
,,organizar
organizar
,, yyresumir datos;
resumir datos;
paraparadetectar regularidades, patrones o tendencias
detectar regularidades, patrones o tendencias
en suen su comportamientocomportamiento
;;
paraparaanalizar
analizar
loslosdatos
datos
siempre y cuando lasiempre y cuando lavariabilidad e incertidumbre
variabilidad e incertidumbre
seasea una cauna causa intríusa intrínseca de nseca de los mismolos mismoss
,,
así como de realizar así como de realizarinferencias a
inferencias a
partir de ellos,partir de ellos, con la finalidad de ayudar acon la finalidad de ayudar a
tomar decisiones
tomar decisiones
y, en otros casos,y, en otros casos,formular predicciones.
formular predicciones.
Uno de susUno de sus
objetivos fundamentales
objetivos fundamentales
es utilizar es utilizar la informacla información suminiión suministrada porstrada por una parteuna parte de lade la
población
población
,, lllalamamadadamuestra
muestra
, para hacer , para hacerinferencias
inferencias
sobre elsobre eltotal
total
de de lala mimismsma,a, siemsiemprepre asocasociada a uiada a unana
probabilidad de error
probabilidad de error
..2.
2. CLASIFICAC
CLASIFICACIÓN DE
IÓN DE LA ESTA
LA ESTADÍSTICA.
DÍSTICA.
La
La Est
Estadí
adíst
stica
ica des
descr
cript
iptiva
iva::
LaLa estadística es deestadística es descriptiva, cuando lscriptiva, cuando los resultados dos resultados del análisisel análisis no preteno pretenden ir más alnden ir más allá del conlá del conjunto de dajunto de datos:tos: loslos descdescribe, anribe, analizaliza y represena y representata utilutilizanizandodo métodos nu
métodos numéricos y méricos y gráficosgráficos que resumque resumen y pen y presentan lresentan laa informacióninformación..
La
La Est
Estadí
adíst
stica
ica inf
infer
erenc
encial
ial::
La estadístiLa estadística es inferenca es inferencial cuando cial cuando el objetivel objetivoo del estudio del estudio eses derivar las conclderivar las conclusiones obtenidas a un conusiones obtenidas a un conjunto de datos más ampljunto de datos más amplio.io. Para ello se apoyPara ello se apoyaa en el
en el cálcálculculoo de prde probaobabibililidaddades y a pares y a partir de dtir de datatos muos muestestralraleses,, efeefectúctúaa estestimaimaciocionesnes,, tomtomaa decisiones,
decisiones, realizarealiza predicciones u predicciones u otras generalotras generalizaciones soizaciones sobre un conjunbre un conjunto mayor de dto mayor de datos.atos. La estadística inferencial está formada por la estadística paramétrica y la estadística no La estadística inferencial está formada por la estadística paramétrica y la estadística no paramétrica.
paramétrica.
3.
3. ELEMENTOS
ELEMENTOS DE LA
DE LA ESTADÍSTICA.
ESTADÍSTICA.
Se esta
Se estableblece ace a concontintinuauacióciónn algalgunaunas defis definicnicioniones de conces de concepeptostos básbásicoicoss y fundy fundameamentantalesles como son: eleme
como son: elemento,nto, poblaciónpoblación, muestra, variabl, muestra, variables, etc.,es, etc.,
Individuos o elementos:
Individuos o elementos:
persopersonas u nas u objeobjetostos (uni(unidad ddad de anae analisilisis),s), que cque contieontienen cnen ciertiertaa informacióninformación que se que se desea desea estudiar.estudiar.
Población:
Muestra:
Muestra:
es es unun subsubconconjunjuntoto de de unauna pobpoblalacióción.n. Una Una muemuestrstra a debdebe e ser serrepresentativa
representativa
; ; eses decidecir debr debee tenetenerr un nun número úmero óptióptimo de mo de las las unidunidades ades de ande análisálisis del is del estudestudio o io o de lade la investigación y,
investigación y,
representar las características de la población
representar las características de la población
en estudio.en estudio.Muestreo:
Muestreo:
es la reunión de datos que se desea estudiar, obtenidos de una proporciónes la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y representativa de la población.reducida y representativa de la población.
Valor:
Valor:
UnUn valorvalor es cada unes cada uno de los dio de los distintos resulstintos resultados que se tados que se pueden obpueden obtener en un tener en un estudioestudio estadístico. Siestadístico. Si utilizamos la utilizamos la escala visuaescala visual analógica (EVl analógica (EVA) para mediA) para medir el dolor r el dolor a cincoa cinco personas,
personas, podemos obtepodemos obtener diez valores posiblner diez valores posibles: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, es: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.10.
Dato:
Dato:
UnUn datodato es cades cada uno a uno de lode los vals valores qores que se ue se ha obha obtenitenido al do al realirealizar uzar un estun estudiodio estadístico.estadístico. Si utilSi utilizamos lizamos la escala escala EVA a EVA para para medir el medir el dolor dolor a cinco a cinco personas personas podemospodemos obtener cinco
obtener cinco datos posibles: datos posibles: 2, 2, 4, 4, 0, 0, 2, 2, 9.9.
4.
4. OBTENCION DE
OBTENCION DE UNA
UNA MUESTRA
MUESTRA
4.1.
4.1. Tama
Tamaño de la mue
ño de la muestra
stra
Una de las preocupaciones más comunes cuando se diseña un estudio estadístico Una de las preocupaciones más comunes cuando se diseña un estudio estadístico es saber cuántos elem
es saber cuántos elementos se debe incluir en la mueentos se debe incluir en la muestra.stra. El tamaño correcto de lEl tamaño correcto de laa muestra depende de tres factores:
muestra depende de tres factores: a)
a) El nEl nivivel del de coe confnfiaianznza dea deseseadado.o. b)
b) ElEl máximáximo mo errerror or pepermirmisibsible le por por el el invinvesestigtigadoador.r. c)
c) La vLa variariaciación eón en la n la pobpoblaclación ión que que se ese estustudidia.a. El gr
El gr ado ado de errde err or quor que ele el inveinvestigastigador puedor puede tode tolerar dlerar depenepende de lo cde de lo criticritico que seo que sea ela el estudio. Algunos estudios de investigación, por su naturaleza, requieren resultados estudio. Algunos estudios de investigación, por su naturaleza, requieren resultados exactos. Por el contrario, hay casos en que los errores grandes tienen consecuencias exactos. Por el contrario, hay casos en que los errores grandes tienen consecuencias menos graves.
menos graves. Para determi
Para determinar el nar el tamaño de tamaño de la muestra la muestra de un ede un estudio,studio, se considese consideran diferenran diferentestes aspectos, tales como: estimac
aspectos, tales como: estimación de medias,ión de medias, estimación de propoestimación de proporciones, estimación derciones, estimación de parámetros, etc. En nuestro caso vamos a
parámetros, etc. En nuestro caso vamos a considerar si la población es infinita o considerar si la población es infinita o finita.finita.
4.1.1
4.1.1.. Para poblac
Para poblaciones infini
iones infinitas
tas
Si
Si descodesconocenocemosmos la pobla poblaciólación,n, el tamañel tamaño de la muestro de la muestra se obtiea se obtiene a partine a partir de la formulr de la formulaa siguiente: siguiente: 2 2 2 2 Z Z p p qq n n d d
Donde: Donde: nn: : es el es el tamaño de tamaño de la muela muestra.stra.
Z
Z : Número de unidades de desvi: Número de unidades de desviaciónación estánestándar en la distribdar en la distribucióución normaln normal que producirá el nivel deseado de confianza (para una confianza del que producirá el nivel deseado de confianza (para una confianza del 95%,
Muestra:
Muestra:
es es unun subsubconconjunjuntoto de de unauna pobpoblalacióción.n. Una Una muemuestrstra a debdebe e ser serrepresentativa
representativa
; ; eses decidecir debr debee tenetenerr un nun número úmero óptióptimo de mo de las las unidunidades ades de ande análisálisis del is del estudestudio o io o de lade la investigación y,
investigación y,
representar las características de la población
representar las características de la población
en estudio.en estudio.Muestreo:
Muestreo:
es la reunión de datos que se desea estudiar, obtenidos de una proporciónes la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y representativa de la población.reducida y representativa de la población.
Valor:
Valor:
UnUn valorvalor es cada unes cada uno de los dio de los distintos resulstintos resultados que se tados que se pueden obpueden obtener en un tener en un estudioestudio estadístico. Siestadístico. Si utilizamos la utilizamos la escala visuaescala visual analógica (EVl analógica (EVA) para mediA) para medir el dolor r el dolor a cincoa cinco personas,
personas, podemos obtepodemos obtener diez valores posiblner diez valores posibles: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, es: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.10.
Dato:
Dato:
UnUn datodato es cades cada uno a uno de lode los vals valores qores que se ue se ha obha obtenitenido al do al realirealizar uzar un estun estudiodio estadístico.estadístico. Si utilSi utilizamos lizamos la escala escala EVA a EVA para para medir el medir el dolor dolor a cinco a cinco personas personas podemospodemos obtener cinco
obtener cinco datos posibles: datos posibles: 2, 2, 4, 4, 0, 0, 2, 2, 9.9.
4.
4. OBTENCION DE
OBTENCION DE UNA
UNA MUESTRA
MUESTRA
4.1.
4.1. Tama
Tamaño de la mue
ño de la muestra
stra
Una de las preocupaciones más comunes cuando se diseña un estudio estadístico Una de las preocupaciones más comunes cuando se diseña un estudio estadístico es saber cuántos elem
es saber cuántos elementos se debe incluir en la mueentos se debe incluir en la muestra.stra. El tamaño correcto de lEl tamaño correcto de laa muestra depende de tres factores:
muestra depende de tres factores: a)
a) El nEl nivivel del de coe confnfiaianznza dea deseseadado.o. b)
b) ElEl máximáximo mo errerror or pepermirmisibsible le por por el el invinvesestigtigadoador.r. c)
c) La vLa variariaciación eón en la n la pobpoblaclación ión que que se ese estustudidia.a. El gr
El gr ado ado de errde err or quor que ele el inveinvestigastigador puedor puede tode tolerar dlerar depenepende de lo cde de lo criticritico que seo que sea ela el estudio. Algunos estudios de investigación, por su naturaleza, requieren resultados estudio. Algunos estudios de investigación, por su naturaleza, requieren resultados exactos. Por el contrario, hay casos en que los errores grandes tienen consecuencias exactos. Por el contrario, hay casos en que los errores grandes tienen consecuencias menos graves.
menos graves. Para determi
Para determinar el nar el tamaño de tamaño de la muestra la muestra de un ede un estudio,studio, se considese consideran diferenran diferentestes aspectos, tales como: estimac
aspectos, tales como: estimación de medias,ión de medias, estimación de propoestimación de proporciones, estimación derciones, estimación de parámetros, etc. En nuestro caso vamos a
parámetros, etc. En nuestro caso vamos a considerar si la población es infinita o considerar si la población es infinita o finita.finita.
4.1.1
4.1.1.. Para poblac
Para poblaciones infini
iones infinitas
tas
Si
Si descodesconocenocemosmos la pobla poblaciólación,n, el tamañel tamaño de la muestro de la muestra se obtiea se obtiene a partine a partir de la formulr de la formulaa siguiente: siguiente: 2 2 2 2 Z Z p p qq n n d d
Donde: Donde: nn: : es el es el tamaño de tamaño de la muela muestra.stra.
Z
Z : Número de unidades de desvi: Número de unidades de desviaciónación estánestándar en la distribdar en la distribucióución normaln normal que producirá el nivel deseado de confianza (para una confianza del que producirá el nivel deseado de confianza (para una confianza del 95%,
p
p: : Proporción Proporción esperada esperada o estimada o estimada (cuando (cuando no se no se conoce,conoce, 50% 50% = 0,5).= 0,5).
q
q: Se : Se determina determina mediante:mediante: q q
11
pp (en es(en este cte caso aso 11 –– 0,5 0,5 = 0,= 0,5)5)..d
d : E: Ess elel lílímimitete acacepeptatablble de de ee errorror mr mueueststraral.l. CuCuanando do no no se se cocononoce ce esestete valor,
valor, se utiliza se utiliza valores devalores desde 0,01 sde 0,01 hasta 0,09.hasta 0,09.
Ejemplo
Ejemplo
: ¿A cuántas personas tendríamos que estudiar para conocer la prevalencia de: ¿A cuántas personas tendríamos que estudiar para conocer la prevalencia dediabetes?
diabetes?
1 1,, 9966 Z
Z
, para una confianza del 95%, para una confianza del 95% 0,0, 55 p
p
, proporción esperada (50%), proporción esperada (50%) 0, 0, 55 q q
, (, (11 –– 00,0,055)) 0, 0, 0055 dd
, (no se conoce su valor), (no se conoce su valor) 2 2 2 2 ((11, 9 6, 9 6) ) 00, 5 0 , 5, 5 0 , 5 3 38484 (0,05) (0,05) n n
4.1.1
4.1.1.. Para pobla
Para poblacion
ciones finitas
es finitas
Si conocemos
Si conocemos la poblaciónla población, el tamaño de l, el tamaño de la muestra se obtiea muestra se obtiene a partir ne a partir dede la formulala formula siguiente: siguiente: 2 2 2 2 22 ( ( 1)1) N N Z Z p p qq n n d d N N Z Z p p qq
DondeDonde N N :: es el númes el número total de ero total de la poblacióla población.n.
Ejemplo
Ejemplo
. ¿A cuánta. ¿A cuántas persos personas tennas tendría que edría que estudistudiar,ar, de una pobde una poblacilación de 800ón de 800habi
habitante
tantes,
s, para c
para conoc
onocer la prev
er la prevalen
alencia de d
cia de diabet
iabetes, con u
es, con un
n lími
límite
te de erro
de error mues
r muestral de
tral dell
5%?
5%?
8 80000 N N
1 1,, 9966 ZZ
, para una confianza del 95%, para una confianza del 95% 0,0, 55 p
p
, proporción esperada (5%), proporción esperada (5%) 0, 0, 55 q q
, , ((11 –– 00,5,5)) 0, 0, 0055 d d
2 2 2 2 22 80 800 (0 (11,96,96) ) 00,5 0,5,5 0,5 2 25959 ( 0 ( 0, 0 5, 0 5) ) ((8 08 00 0 11) ) ((11, 9 6, 9 6) ) 00, 0 5 0, 0 5 0, 5, 5 n n
4.2
4.2.. Sel
Selecc
ección
ión de la mu
de la muest
estra
ra
4.2.1. Muestreo probabilístico
4.2.1. Muestreo probabilístico
La muestra es
La muestra es probabilíprobabilística cuando cada unidad de stica cuando cada unidad de análisis de la población tieneanálisis de la población tiene la
puede medir
usando la teoría de la probabilidad; por tanto, pueden ser objetos de un análisis y tratamiento estadístico.Existen, al menos, cuatro métodos comúnmente más utilizados: muestreo aleatorio simple, muestreo aleatorio sistemático, muestreo aleatorio estratificado y muestreo aleatorio por conglomerado. Para nuestro caso solo nos interesa el muestreo aleatorio simple, que se puede realizar de dos formas:
a)
Usando una caja.
Se coloca cada unidad de análisis escrita en un papelito, luego se extraen sucesivamente, hasta completar el número requerido para la muestra.b)
Usando la tabla de números aleatorios
. Previamente, se enumeran todos los elementos de la población, con igual número de cifras que tiene el tamaño de la población (N). Luego se utiliza una tabla elaborada especialmente para estos propósitos.4.2.2. Muestreo no probabilístico
Las muestras se caracterizan por que no es posible determinar la
probabilidad de
inclusión
de cada unidad de análisis de la población, en la muestra extraída. Por esta razón, no hay formade medir el riesgo de llegar a conclusiones erróneas
a partir de estas muestras no probabilísticas. Dado que la confiabilidad de los resultados de estas muestras no puede medirse, las muestras no probabilísticas, no se prestan para el tratamiento y análisis estadístico. Los tipos más comunes de muestreo no probabilístico son: muestreo por conveniencia o de juicio y por voluntarios.5. ORGANIZACION DE LOS DATOS
5.1. Variables estadísticas
Cuando hablemos de variable haremos referencia a un símbolo ( X, Y, A, B,. . . ) que puede tomar cualquier valor de un conjunto determinado, que llamaremos dominio de la variable o rango. En función del tipo de dominio, las variables se clasifican en:
VARIABLES CUALITATIVAS.
Pueden ser de tipo
nominal
yordinal
.Son de tipo
nominal
cuando los valores (modalidades) son de tipo nominal. Por ejemplo, el grupo sanguíneo: A, B, AB, O.Son de tipo
ordinal
cuando son nominales pero, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos el grado de recuperación de un paciente al aplicarle un tratamiento, podemos tener como modalidades. Por ejemplo,grado de recuperación
de un paciente:
Nada, Poco, Moderado, Bueno, Muy Bueno.A veces se representan este tipo de variables en escalas numéricas, por ejemplo, cuando se establecen puntuaciones para establecer la intensidad del dolor en una escala de 0 a 10 (EVA). Sin embargo, es imposible realizar operaciones algebraicas
con estas cantidades.
¡Un dolor de intensidad 4 no es el doble que otro de
intensidad 2!.
VARIABLES CUANTITATIVAS O NUMÉRICAS
Son las que tienen por modalidades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos:
Discretas,
cuando no admiten valores intermedios entre dos valores cualesquiera. Un ejemplo es el número de hijos en una familia:Número de hijos posibles: 0, 1, 2, 3, 4, 5, . . .
Continuas,
cuando admiten valores intermedios entre dos valores cualesquiera. Por ejemplo, el peso (3,480 kg) de un niño al nacer.En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de amplitud 0,005. Por tanto cada una de las observaciones de X representa más bien un intervalo que un valor concreto.
5.2. Tablas estadísticas
Consideremos una población estadística de
N
individuos, establecida de acuerdo a una variableC
cuyas valores (modalidades) han sido agrupados en un númerok
de clases, que denotamos mediantec
1 ,c
2, . . . ,k
. Para cada una de las clasesc
i,1, 2, ...
i
k , se establecen las siguientes magnitudes:Frecuencia absoluta de la clase
c
i,
es el númeroF
i, de observaciones que presentan un valor perteneciente a esa clase.Frecuencia relativa de la clase
c
i,
es el cocientef
i, entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir f i F iN
Obsérvese que
f
i es el tanto por uno de observaciones que están en la clasec
i. multiplicado por 100% representa el porcentaje, de la población, que tiene esa clase.Frecuencia absoluta acumulada (
FA
i).
Se calcula sobre variables cuantitativas, y es el número de elementos de la población cuyo valor (modalidad) es inferior o equivalente al valorc
i: 1 1 2 ... i i j i FA F F F F j
Frecuencia relativa acumulada (
fA
i).
Se calcula sobre variables cuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a lac
i, es decir,1 1 2 1 2 ... ... i i i j i i F F F F fA f f f f j N N
Se llama distribución de frecuencias, al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadística nos permite representar en forma ordenada las distribuciones de frecuencias.
Las tablas suelen ser de dos tipos: tablas simples y compuestas (tablas de contingencia). Estas tablas se presentan con una numeración, un título y la fuente de origen.
Ejemplo 1.
A continuación se muestra una tabla simple de distribución de frecuencias y la forma de presentarla:
Tabla Nº 01:Resultados de la evaluación de la muestra
Frecuencia Porcentaje Porcentaje
acumulado
A Logro Previsto 4 11,4 11,4
B En Proceso 16 45,7 57,1
C EnInicio 15 42,9 100,0
Total 35 100,0
Fuente: Elaborada por el investigador
Ejemplo 2.
A continuación se muestra una tabla compuesta (de contingencia) de distribución de frecuencias:
Tabla Nº 02: Alteraciones de la lordosis lumbar por grupo etáreo
Alteraciones de la Lordosis Lumbar Total
Hipolordosis % Hiperlordosis % Recuento %
Grupo Etáreo
de 30 a 39 años 1 2,0 10 21,7 11 23,9
de 40 a 49 años 5 10,9 20 43,5 25 54,3
de 50 a 59 años 0 0,0 10 21,7 10 21,7
Total 6 13,0 40 87,0 46 100,0
Fuente: Elaboración propia
Nota:
en el caso que la tabla no ha sido elaborada por el investigador, se debe indicar su origen.5.3 Representaciones Gráficas
Hemos visto que las tablas estadísticas resumen los datos que disponemos de una población, de forma que ésta se puede analizar de una manera más sistemática y resumida posible. Sin embargo para presentar esta información y que resalten las características de la población se utilizan gráficos y diagramas.
Gráficos para variables cualitativas.
Los gráficos más usuales para representar variables de tipo nominal son los siguientes: graficas de barra simple y compuesta, grafico de sectores o circulares, histogramas, diagrama de Pareto, diagrama de cajas y bigotes, gráficos lineales, etc.Diagramas de barras:
En la siguiente figura se representa en el eje de ordenadas los valores (modalidades) y en la abscisa las frecuencias absolutas o las frecuencias relativas.Grafica Nº 01:
Ocupación de la muestraSi mediante el grafico se intenta comparar varias poblaciones entre sí, se utilizan las barras compuestas, como se muestra en la gráfica siguiente. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas.
Grafica Nº 02:
Distribución de la muestra por tallaDiagramas de sectores (también llamados tortas).
Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Este diagrama es conveniente cuando se quiere presentar los resultados en forma solo porcentual.Gráfico para variable continua
Histograma.
Se construye a partir de la tabla de distribución de frecuencias, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos, como se puede ver en la figura siguiente:Gráfico Nº 04: Pesos de la muestra
Diagrama de Pareto
El diagrama de Pareto consiste en clasificar los factores que intervienen en un proceso por su orden de importancia, para poder tratar cada uno de ellos de forma adecuada a su peso específico. En realidad, no deja de ser un histograma que ordena las clases de mayor a menor frecuencia, junto a un polígono de frecuencias acumulado.
ESTADISTICA DESCRIPTIVA
La
estadística descriptiva
es una parte de la estadística que se encarga de recolectar, ordenar, analizar y representar un conjunto de datos, con el fin de describir apropiadamente sus características principales e importantes. Este análisis es muy básico, pero nos permite tener un conocimiento claro, respecto a las características principales, que tiene una variable. En todo análisis estadístico es necesario comenzar utilizando la estadística descriptiva, para luego abordar el análisis desde la perspectiva de la estadística inferencial. Los estadísticos descriptivos principales son: las mediadas de tendencia central (media, mediana y moda), las medidas de posición (cuartiles, deciles y percentiles), medidas de variación o dispersión (desviación típica o estándar, varianza, coeficiente de variación) y las medidas de forma (asimetría y apuntamiento o curtosis).MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central son valores numéricos que representan la tendencia de todo el conjunto de datos estadísticos que se tiene. Las medidas de tendencia central más importantes son la media aritmética, la mediana y la moda.
1. La Media Aritmética.
X
La media aritmética es el estadígrafo de posición más importante ya que representa mejor al grupo de datos y es valor estadístico más fiable. Se le conoce además, como media y promedio. La media aritmética es el valor promedio de los valores observados de la variable.
2. La Mediana.
(Me)La mediana es el valor que divide a la muestra en dos partes iguales; es decir que cada parte equivale al 50% de la muestra.
El valor de la mediana es más recomendable que la media aritmética cuando existen valores extremos bastantes grandes o muy pequeños y, si se tiene datos cualitativos que se pueden ordenar de acuerdo a categorías.
Ejemplo:
Se tiene una muestra de 46 personas cuyas edades son las siguientes:
34 33 32 37 50 52 51 52 34 36 47 37 43 44 48 52 55 50 41 37 34 31 55 49 36 42 48 50 52 48 42 43 41 53 52 32 37 52 30 31 43 54 36 51 50 30
La media y la mediana de dicha muestra son:
Estadísticos Descriptivos N Válidos 46 Media 43,20 Mediana 43,00 Edad mínima 30 Edad máxima 55
La media aritmética (media o promedio) es de 43. Se interpreta que la
edad promedio
de la muestra es de 43 años. La mediana también es 43 y se interpretaque el 50% de la muestra
tienen edades menores o iguales a 43 años y el otro 50% tienen edades mayores
a 43 años.MEDIDAS DE VARIACIÓN O DE DISPERSIÓN
Si se quiere hacer una descripción más detallada de una muestra, es necesario identificar el grado de dispersión o concentración que tiene dicha muestra, en relación a un valor central. Para realizar un análisis más detallado se hace uso de otras medidas que permiten identificar otras características. Estas medidas son los estadígrafos de variación o de dispersión.
Por su naturaleza estas medidas se aplican únicamente a las variables cuantitativas. Una dispersión excesiva revela que la muestra es heterogénea; por el contrario una dispersión muy leve indica que la muestra es homogénea.
Las medidas de dispersión más utilizadas son: la desviación típica o estándar, la varianza y el coeficiente de variación.
1. Desviación Estándar o típica (DS)
La desviación estándar es la raíz cuadrada de la media de los cuadrados de las desviaciones con respecto a la media aritmética. Luego, si se tiene K observaciones, cuya media aritmética es X , su desviación estándar será:
La desviación estándar es una de las medidas de dispersión más confiables. Nos permite establecer la dispersión (alejamiento o acercamiento) de los datos respecto a la media. Esto permite establecer la homogeneidad o heterogeneidad de la muestra.
Ejemplo
:Se tiene una muestra de 70 personas cuyos pesos son los siguientes:
55 49 52 56 54 52 59 54 68 63 50 49 54 60 71 50 73 70 70 62 60 52 60 64 70 60 59 70 58 48 63 58 42 42 45 73 63 59 46 54 60 50 55 60 66 63 59 43 56 60 40 50 66 62 55 57 60 40 45 48 62 75 49 74 72 50 64 74 42 70
La desviación estándar o típica y la media de los pesos se muestran en la tabla siguiente:
Estadísticos Descriptivos Peso N Válidos 70 Perdidos 0 Media 57,77 Desviación típica 9,255 Mínimo 40 Máximo 75
n X K DS
2La desviación estándar o típica es de 9,255. Se interpreta que el peso promedio puede estar comprendido entre 57,77
±
9,255 kg. (48, 515 y 67, 025).2. Varianza (
S 2)
La
varianza
se define como la media de las diferencias cuadráticas de n puntuaciones con respecto a su media aritmética, es decir:El uso del coeficiente de variación para evaluar la imprecisión de un método de análisis
es común en el laboratorio.
Ejemplo:
Las ventas realizadas en 10 días de uno de los meses por tres vendedores de una compañía fueron las siguientes:
Ventas de Pedro: 5, 18, 8, 12, 17, 19, 25, 17, 17, 20 Ventas de Andrés: 5, 17, 17, 17, 17, 17, 17, 17, 17, 17 Venta de Carlos: 5, 6, 10, 20, 21, 20, 19, 18, 19, 20
Determina la media y la varianza para estos tres vendedores. De acuerdo al valor de la media, ¿Qué se puede decir de estos vendedores?.
De acuerdo al valor de la varianza, ¿Quién consideras que es más
consistente
en sus ventas?La relación de la varianza de los tres vendedores es: _______________________________ a) ¿Cuál de los tres tiene mayor varianza? _________________________________
b) ¿Qué podemos inferir de este resultado? ________________________________ c) Si tú fueras el gerente de ventas, ¿Qué medidas dictaminarías? ______________ ____________________________________________________________________
3. Coeficiente de Variación (CV)
El coeficiente de variación permite comparar la dispersión de dos o más distribuciones y de esa manera determinar la homogeneidad o heterogeneidad de las muestras que se analizan. Su valor se expresa en términos de porcentaje. El coeficiente de variación es el cociente entre la desviación estándar y la media aritmética multiplicado por 100%; es decir:
2 2 1 1 ( ) 1 n i i
S
x
x
n
% 100
X DS CVEjemplo:
Los estudios de bioequivalencia de los medicamentos A y B (
bioequivalencia se refiere a la velocidad y proporción en que el mismo principio activo de dos medicamentos «iguales» alcanza la circulación sistémica), indican que existe una diferencia 12% entre la variabilidad de ambos.MEDIDAS DE FORMA
La representación gráfica de la distribución de frecuencias toma diferentes formas, que nos permiten identificar y comparar, con mayor facilidad, los estadísticos o parámetros en forma visual.
Las formas en que se presentan las gráficas de una distribución de frecuencias se pueden generalizar en dos tipos: curvas simétricas y curvas asimétricas.
Curvas Simétricas
La curva simétrica es la representación gráfica de una distribución de frecuencias cuyo eje de simetría es la media x .
Las curvas simétricas se caracterizan por su
curtosis
, la cual es la forma de la puntiagudez que presenta la parte superior de la gráfica. Por su curtosis las curvas simétricas se clasifican en: platicúrtica, leptocúrtica y mesocúrtica.La p
laticúrtica
presenta una zona casi horizontal en su punto máximo, su puntiagudez es casi nula.La
leptocúrtica
presenta un pico muy agudo.La
mesocúrtica
es semejante a la curva normal de Gauss.Como podemos ver, las tres gráficas son simétricas con respecto a la media y tienen forma de campana.
Como ya se dijo, la curtosis es el grado de “puntiagudez” de la gráfica de una distribución de
µ µ µ
5% A
El valor de K define la curtosis de la gráfica, tal que:
Si = 0, la curva es mesocúrtica (curva normal).
Si > 0, la curva es leptocúrtica.
Si < 0, la curva es platicúrtica.
Curvas Asimétricas
Ya se mencionó que las medidas de dispersión, solamente
indican
lamagnitud
de las variaciones, pero no dan ningunainformación
acerca dela dirección
hacia la cual se dispersan.Las curvas asimétricas son las que nos indican hacia donde se inclina la dispersión de los datos. Estas gráficas se caracterizan por la posición que tiene las medidas de tendencia central. Podemos generalizar su presentación mediante las siguientes gráficas:
ACTIVIDAD DE REGULACIÓN
La primera curva es
simétrica y la media, la mediana y la moda coinciden en el centro. La segunda curva es asimétrica. En el centro se encuentra la moda a la izquierda la mediana y más a la izquierda la media, por lo que se le denominasesgada a la izquierda.
En la última curva la moda está en el centro, a la derecha la mediana y más a la derecha la media, por lo que se le denominasesgada a la derecha.
x Me Mo
Me Mo
ESTADISTICA INFERENCIAL
La
estadística inferencial
es una parte de la estadística que se encarga del estudio de cómoobtener conclusiones generales para toda la población, a partir del estudio de una
muestra, y el grado de fiabilidad o significación de los resultados obtenidos.
Es decir que
nunca nos ofrecerá unaseguridad absoluta
, sino una respuesta basada en laprobabilidad
. Además, es fundamental tener en cuenta quela estadística no decide; sólo ofrece
elementos para que el investigador decida.
ESTADISTICA PARAMETRICA Y NO PARAMETRICA
Estadística paramétrica
La
estadística paramétrica
es una rama de la estadística inferencial, que comprende los procedimientos estadísticos y de decisión que están basados en las distribuciones de los datos reales. Estas son determinadas usando un número finito de parámetros. Esto es, por ejemplo, si conocemos que la altura de las personas sigue una distribución normal, pero desconocemos cuál es la media y la desviación de dicha normal. La media y la desviación típica de la desviación normal son los dos parámetros que queremos estimar.La mayoría de procedimientos paramétricos, requiere conocer la forma de distribución para las mediciones resultantes de la población estudiada. Para la inferencia paramétrica es requerida como mínimo una escala de intervalo (variable cuantitativa), esto quiere decir que nuestros datos deben tener un orden y una numeración del intervalo. Es decir nuestros datos pueden estar categorizados en: menores de 20 años, de 20 a 40 años, de 40 a 60, de 60 a 80, etc, ya que hay números con los cuales realizar cálculos estadísticos. Sin embargo,
datos
categorizados (variables cualitativas)
en: niños, jóvenes, adultos y ancianosno pueden ser
interpretados mediante la estadística paramétrica
ya que no se puede hallar un parámetro numérico (como por ejemplo la media de la edad) cuando los datos no son numéricos.Parámetro
En estadística, un
parámetro
es un número que resume la ingente cantidad de datos que pueden derivarse del estudio de una variable. El cálculo de este número se realiza a través de estimaciones, utilizando para ello los estadígrafos (media, desviación estándar, etc) a partir de datos de una muestra de esa población.Los parámetros estadísticos son una consecuencia inevitable del propósito esencial que tiene la estadística: crear un modelo de la realidad.
El estudio de una gran cantidad de datos individuales de una población, puede ser engorroso por lo que se hace necesario realizar un resumen que permita tener una idea global de la población, compararla con otras, comprobar su ajuste a un modelo ideal, realizar estimaciones sobre datos desconocidos de la misma y, en definitiva, tomar decisiones. A estas tareas
Principales parámetros
En la estadística matemática e inferencial se utiliza el concepto de parámetro en su acepción matemática más pura, esto es, como variable que define una familia de objetos matemáticos en determinados modelos. Así se habla, por ejemplo, de una distribución normal de parámetros μ y σ como de una determinada familia de distribuciones con una distribución de probabilidad de expresión conocida, en la que tales parámetros definen aspectos concretos como la esperanza, la varianza, la curtosis, etc. Otro ejemplo el de la distribución de Poisson, determinada por un parámetro, λ; o la distribución binomial, determinada por dos parámetros, n y p. Desde el punto de vista de la estadística matemática, el hecho de que estas distribuciones describan situaciones reales y los citados parámetros signifiquen un resumen de determinado conjunto de datos es indiferente.
Los principales parámetros se agrupan en las siguientes categorías:
Medidas de posición.
Se trata de valores de la variable estadística que se caracterizan por la posición que ocupan dentro del rango de valores posibles de esta. Entre ellos se distinguen: Las medidas de tendencia central: media, mediana y moda.
Las medidas de posición no central: cuantiles (cuartiles, deciles y percentiles).
Medidas de dispersión.
Miden la heterogeneidad de los datos, lo separados que éstos están entre sí. Las principales son: el recorrido o rango, la desviación media, la varianza, la desviación típica o estándar. Las que expresan la dispersión en porcentaje, el coeficiente de variación, el coeficiente de apertura, los recorridos relativos y el índice de desviación respecto de la mediana.Medidas de forma.
Su valor informa sobre el aspecto que tiene la gráfica de su distribución. Entre ellas están los coeficientes de asimetría y los de curtosis.Otros parámetros.
Además, y con propósitos más específicos, existen otros parámetros de uso en situaciones muy concretas, como son las proporciones, los números índice, las tasas y el coeficiente de Gini.
Distribución Normal
En estadística y probabilidad se llama
distribución normal o distribución de Gauss
, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece aproximada en fenómenos reales. Su gráfica tiene una forma acampanada y es simétrica respecto de un parámetro estadístico. Esta curva se conoce como campana deGauss
. Algunas propiedades de la distribución normal son:1. Es simétrica respecto de su media μ.
3. Los puntos de inflexión de la curva se dan para x = μ – σ y x = μ + σ .
4. La distribución de probabilidad, alrededor de la media, cumple:
En el intervalo [ μ - σ , μ + σ ] se encuentra comprendida, aproximadamente, el 68,26% de
la distribución;
En el intervalo [ μ - 2σ , μ + 2σ ] se encuentra, aproximadamente, el 95,44% de la
distribución;
En el intervalo [ μ -3σ , μ + 3σ ] se encuentra comprendida, aproximadamente, el 99,74%
de la distribución. Estas propiedades son de gran utilidad para el establecimiento de
intervalos de confianza
.Distribución de probabilidad alrededor de la media en una distribución N( μ , σ )
La estadística paramétrica nos permite resolver tres tipos de problemas:
La estimación puntual
, en la que se pretende darle un valor al parámetro a estimar. La estimación por intervalos,
cuando se busca un intervalo de confianza.
El contraste de hipótesis
, cuando se busca contrastar información acerca del parámetro. Los principales estadísticos de prueba de la estadística paramétrica son: laT de Student, el
análisis de varianza (ANOVA) y la r de Pearson.
Para utilizar estos estadísticos, es indispensable que se cumpla con los siguientes requisitos:
a) Las variables
deben cuantitativas.
b) La distribución de los datos
deben seguir el modelo teórico de la distribución normal.
c) Las varianzas, de las variables,deben ser iguales
(homocedasticidad).Prueba de normalidad de una distribución
Para determinar si los datos obtenidos, de una variable cuantitativa (discreta o continua), tiene distribución normal se utilizan dos pruebas estadísticas: la prueba de kolmogorov-smirnov (k-s) en el caso que los datos superen los 30 casos y la de Shapiro-Wilk en el caso que los datos sean menor a 30 casos.
Prueba de Kolmogorov-Smirnov (K-S)
La prueba de Kolmogorov-Smirnov para una muestra es un procedimiento de "bondad de ajuste", que permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica. Es decir la prueba de Kolmogorov-Smirnov se utiliza para comprobar si los datos de una variable se distribuyen normalmente. Para realizar la prueba estadística de kolmogorov-Smirnov (K-S) se sigue el siguiente procedimiento:
a) Se plantean dos hipótesis: la hipótesis nula y la hipótesis alterna.
Ho:
La distribución de la variableNO
difiere de la distribución normal.H1:
La distribución de la variable difiere de la distribución normal.b) Se establece el nivel de significancia cuyo valor estándar es de α
5%
0,05 c) Se obtiene el resultados de la prueba K-S mediante el SPSS.d) Se compara el p valor calculado con el nivel de significancia: p y 0,05
e) Decisión y Conclusión: Si p valor calculado es menor que el nivel de significación 0,05 se rechaza la hipótesis nula y si el p valor es mayor se acepta la hipótesis nula. En el primer caso se concluye que la variable no tiene una dis tribución normal, en el segundo caso la variable s i tiene una dis tribución normal.
Nota
: Si p valor calculado es menor que el nivel de significación 0,05 la dis tribución no es normal, si es mayor que0.05
la dis tribución es normal.Ejemplo:
Se tiene una muestra de 70 personas cuyos pesos son los siguientes:
55 49 52 56 54 52 59 54 68 63 50 49 54 60 71 50 73 70 70 62 60 52 60 64 70 60 59 70 58 48 63 58 42 42 45 73 63 59 46 54 60 50 55 60 66 63 59 43 56 60 40 50 66 62
55 57 60 40 45 48 62 75 49 74 72 50 64 74 42 70
Determinar si la muestra tiene una distribución normal.
Solución
Utilizando la prueba de de Kolmogorov-Smirnov.
Ho:
La distribución de la variable pesoNO
difiere de la distribución normal.H1:
La distribución de la variable peso difiere de la distribución normal. b) Nivel de significancia: α
5%
0,05c) Resultados de la prueba K-S mediante el SPSS.
d) Comparando el p valor con el nivel de significancia: p
0,785
0,05e) Decisión y conclusión: Como el p valor calculado es mayor que el nivel de significación
se
acepta la hipótesis nula y se rechaza la alterna
; es decir variable peso s i tiene una distribución normal.ESTADISTICA NO PARAMETRICA
La
estadística no paramétrica
es una rama de la estadística que estudia las pruebas y modelos estadísticoscuya distribución no se ajusta a los llamados criterios paramétricos
. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando:Las variables
son cualitativas
(nominal u ordinal).Las variables
son cuantitativas,
perono tienen una distribución normal y/o sus varianzas
no son iguales (Homocedasticidad)
y los datosno superan, como mínimo, los 30 casos.
Las pruebas no paramétricas, son menos “potentes” que las pruebas paramétricas, pero reúnen las siguientes características:1. Son más fáciles de aplicar.
2. Son aplicables a los datos jerarquizados.
3. Se pueden usar cuando dos series de observaciones provienen de distintas poblaciones. 4. Son la única alternativa cuando el tamaño de muestra es pequeño.
Prueba de Kolmogorov-Smirnov para una muestra
Peso
Parámetros normalesa,b Media 57,77
Desviación típica 9,255 Diferencias más extremas Absoluta ,078 Positiva ,071 Negativa -,078 Z de Kolmogorov-Smirnov ,654
Sig. asintót. (bilateral) ,785
a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.
Las principales pruebas no paramétricas son las siguientes:
Chi cuadrado de Pearson
χ 2,
test exacto de Fisher, tau b de Kendall, coeficiente de correlación de Spearman, prueba
binomial, test de Mann-Whitney, prueba de McNemar, prueba de Kruskal-Wallis, test de
Wilcoxon, Q de Cochran y la prueba de Kolmogórov-Smirnov.
PRUEBA DE HIPOTESIS
Para realizar la prueba de hipótesis se realiza el siguiente procedimiento:
PRIMERO: Planteamiento de las hipótesis.
Se plantean la hipótesis nula (Ho) y la hipótesis alterna (Ha) (puede ser la hipótesis general o las especificas).
SEGUNDO: Nivel de significación.
El riesgo que se asume acerca de rechazar la hipótesis nula cuando en realidad debe aceptarse por ser verdadera. El nivel de significación se denota mediante la letra griega alfa α No hay un nivel de significación que se aplique a todos los estudios que implican muestreo. Sin embargo generalmente para la decisión se usa el nivel
0.05 (equivale a 5%), el nivel 0.01
(1%), el 0.10 (10%)
o cualquier otro nivel entre 0 y 1. El investigador debe decidir el nivel de significación antes de formular una regla de decisión y recopilar datos muéstrales.Error tipo 1
. Se llama así a la probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera.Error tipo 2.
Cuando la probabilidad de aceptar la hipótesis nula siendo en realidad falsaTERCERO: Determinación del estadístico de prueba.
Un valor, determinado a partir de la información muestral, que se utiliza para aceptar o rechazar la hipótesis nula.
CUARTO: Regla de decisión.
Es una regla simple la cual es una afirmación de las condiciones bajo las que se acepta o rechaza la hipótesis nula.
QUINTO: Toma de decisión
Es la toma de decisión si se debe aceptar o rechazar la hipótesis nula.
DETERMINACIÓN DEL ESTADÍSTICO DE PRUEBA.
La determinación del estadístico de prueba es la etapa donde se requiere un análisis minucioso de diferentes aspectos (tipos de variables, tipo de estudio, diseño, parámetros, distribución de la población a la que pertenece la muestra, tamaño de la muestra, objetivos del estudio, etc)
PRUEBAS NO PARAMETRICAS PRUEBAS PARAMETRICAS
Variable aleatoria
Variable fija NOMINAL
DICOTOMICA
NOMINAL
POLITOMICA ORDINAL CUANTITATIVAS
Estudio Transversal Muestras independientes Un grupo χ2 Bondad de ajuste Binomial χ2 Bondad de ajuste χ2 Bondad de ajuste T de Student
para una muestra
Dos grupos χ2 de homogeneidad. Corrección de Yates Test Exacto de Fisher χ2 de homogeneidad U de Mann-Withney T de Student para muestras independientes Más de dos grupos χ2 de homogeneidad χ2 de homogeneidad Kruskall-Wallis ANOVA con un factor Inter sujetos Estudio Longitudinal Muestras relacionadas
Dos medias Mc-Nemar Q de Cochran Wilcoxon
T de Student
para muestras
relacionadas Más de dos
medias Q de Cochran Q de Cochran Friedman
ANOVA para
medidas repetidas
La siguiente tabla muestra la descripción de cada uno de los estadísticos de prueba más utilizados
PRUEBAS NO PARAMETRICAS
Prueba
Una
muestra
Variables
Chi cuadrado de Pearson
Es una prueba de bondad de ajuste, de homogeneidad y de independencia, que permite averiguar si la distribución empírica de una variable categórica se ajusta o no (se parece o no) a una determinada distribución teórica (uniforme, binomial, multinomial, etc.).
VI:
Ordinal/Nominal/Intervalo
VD: Nominal
Test exacto de FisherEs una prueba similar a la de Chi cuadrado, que se utiliza cuando las variables son dicotómicas y además no se puede utilizar la prueba de
Chi-VI: Dicotómica
Binomial
Es una prueba de bondad de ajuste, que permite averiguar si una variable dicotómica sigue o no un determinado modelo de probabilidad. Permite contrastar la hipótesis de que la proporción observada de aciertos se ajusta a la proporción teórica de una distribución binomial (lo cual se traduce en la posibilidad de contrastar hipótesis sobre proporciones y sobre cuartiles).
VD: Nominal
Kolmogorov-Smirnov (K-S)
Es una prueba de bondad de ajuste, que sirve para contrastar la hipótesis nula de que la distribución de una variable se ajusta a una determinada distribución teórica de probabilidad que puede ser con tendencia a la normal, a la de Poisson o exponencial.
VD: Ordinal/Intervalo
PRUEBAS NO PARAMETRICAS
Prueba
Dos muestras relacionadas
Variables
Prueba de McNemar
Sirve para contrastar hipótesis sobre igualdad de proporciones.
Se usa cuando hay una situación en la que las medidas de cada sujeto se repiten, por lo que la respuesta de cada uno de ellos se obtiene dos veces:
una vez antes y otra después de que ocurra un
evento específico y las muestras son relacionadas
dependientes y además son dicotómicas.
VI: Dicotómica
VD: Nominal
Prueba de Wilcoxon
Permite contrastar la hipótesis de igualdad entre dos medianas poblacionales. Se utiliza cuando las muestras son relacionadas.
El contraste se basa en el comportamiento de las diferencias entre las puntuaciones de los elementos de cada par asociado, teniendo en cuenta no sólo el signo, sino también la magnitud de la diferencia.
Paralela a la prueba paramétrica de contraste t para muestras relacionadas.
VI: Dicotómica
VD: Ordinal/Intervalo
Prueba
K
muestras
relacionadas
Variables
Prueba de Cochran
Esta prueba se aplica cuando todas las
respuestas
son binarias
.La Q de Cochran prueba la hipótesis de que varias
variables dicotómicas
que están relacionadas entre sí, tienen el mismo promedio. Enobservaciones
múltiples las variables son medidas en el mismo
individuo o en individuos pareados (k muestras
relacionadas)
. Tiene la ventaja de examinar cambios en las variables categóricas.VI: Dicotómica
VD: Nominal
Prueba
Dos muestras independientes
Variables
Prueba U de Mann-Whitney
Es equivalente a la prueba de suma de rangos de Wilcoxon y a la prueba de dos grupos de Kruskal-Wallis. Es la alternativa no paramétrica a
la
comparación
de
dos
promedios
(grupos)
independientes
(cuando la variable de estudio es ordinal) a través de la t de Student.VI: Dicotómica
VD: Ordinal
Prueba de Kolmogorov-Smirnov
Sirve para contrastar la hipótesis de que dos muestras proceden de la misma población. Para ello, compara las funciones de distribución (funciones de probabilidad acumuladas) de ambas muestras.
VI: Dicotómica
VD: Ordinal/Intervalo
Prueba
K muestras independientes
Variables
Prueba H de Kruskal- Wallis
Es una extensión de la de U de Mann-Whitney y representa una excelente alternativa al ANOVA de un factor completamente aleatorizado. Se utiliza
para K
muestras independientes.
VI: Politómica
VD: Ordinal/Intervalo
PRUEBAS NO PARAMETRICAS
Prueba
Una
muestra
Variables
Rho de Spearman
Es una prueba de correlación (de asociación o interdependencia) entre dos variables cuantitativas- Es equivalente a la correlación de Pearson pero utilizado no en puntuaciones sino que éstos han sido convertidos a rangos. También se utiliza cuando las variables cuantitativas no tienen distribución normal; cuando una es cuantitativa (la independiente) y la otra ordinal (la dependiente).
VI: Numérica
VD: Numérica/ordinal
Tau b de Kendall
Es una prueba similar a la de Chi cuadrado, que se utiliza para establecer la correlación cuando las variables son
originalmente categóricas
. Y además, éstas variables categóricas deben tener la misma cantidad de categorías (tablas de 3x3, 4x4).VI: Ordinal VD: Ordinal
EJEMPLOS DE USO DE LAS PRINCIPALES PRUEBAS NO PARAMETRICAS
1. CHI CUADRADO DE PEARSON
2χ
Ejemplo 1
Hipótesis:
Las alteraciones de la Lordosis Lumbar tienen relación con la Lumbalgia Mecánica.Ambas variables, alteraciones de la Lordosis Lumbar y Lumbalgia Mecánica,
son
variables cualitativas.
Ho:
Las alteraciones de la Lordosis LumbarNO
tienen relación con la Lumbalgia Mecánica.Ha:
Las alteraciones de la Lordosis LumbarSI
tienen relación con la Lumbalgia Mecánica.Nivel de Significación
: α
5%
,Prueba Estadística:
Chi-cuadrado2 2
( i
i) c i O E E χContrastación
:Valor Chi Cuadrado de tabla χt 2 5,99
Valor Chi cuadrado calculado χc2
13,57Decisión:
Ho se rechaza.Conclusión:
Como el valor calculado ( χc2
13,57) es mayor que el valor de tabla2 5,99
t
χ
(cae en la zona de rechazo), podemos concluir que a un nivel de significación del 5% (0.001 < 0.05), se rechaza la hipótesis nula y acepta la hipótesis alterna:Ha: Las alteraciones de la Lordosis Lumbar
SI
tienen relación con la Lumbalgia Mecánica.Tabla de contingencia Alteraciones de la Lordosis Lumbar * Lumbalgia Mecánica
Lumbalgia Mecánica Total
Lumbalgia Aguda Lumbalgia Subaguda Lumbalgia Crónica Hipolordosis Lumbar Recuento 10 5 4 19 % del total 21,7% 10,9% 8,7% 41,3% Hiperlordosis Lumbar Recuento 3 4 20 28 % del total 6,5% 8,7% 43,5% 58,7% Total Recuento 12 10 24 46 % del total 28,3% 19,6% 52,2% 100,0%
Prueba de Chi-Cuadrado
Valor gl Sig. asintótica (bilateral)
Chi-cuadrado de Pearson
13,566
a 20,001
Asociación lineal por lineal 13,051 1 ,000 N de casos válidos 46
a. 1 casillas (16,7%)tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 3,72.
Nota importante:
El mensaje que viene en la tabla de la prueba estadística Chi-cuadrado es fundamental para determinar si se acepta o no la asociación entre las variables. El porcentaje mínimo debe ser del 25%. Si este porcentaje supera el 25% entonces no podríamos utilizar el Chi-cuadrado y se debe recategorizar los niveles de una de las variables para aplicar la prueba exacta de Fisher o buscar otro estadístico de prueba.Ejemplo 2
Hipótesis:
El número de caídas tiene relación con el grado de dependencia en las actividades diarias de un grupo de ancianos.Una variable es cuantitativa (la independiente) y la otra variable es categórica (la dependiente) por tanto, se puede usar la prueba estadística de Chi-cuadrado.
Ho:
El número de caídasNO
tiene relación significativa con el grado de dependencia en las actividades diarias de un grupo de ancianos.Ha:
El número de caídasSI
tiene relación significativa con el grado de dependencia en las actividades diarias de un grupo de ancianos.Nivel de Significación
: α
5%
,Prueba Estadística:
Chi-cuadrado2 2
( i
i) c i O E E χContrastación
:Valor Chi Cuadrado de tabla
2
12,59
t
χ
Valor Chi Cuadrado calculado
2
52,48
c
Tabla de contingencia Número de caídas * Grado de dependencia
Grado de dependencia Total
Grave Moderada Leve Independiente
Número de caídas 1 Recuento 0 0 5 8 13 Frec. esperada 2,7 2,3 5,0 3,1 13,0 2 Recuento 0 6 8 0 14 Frec. esperada 2,9 2,5 5,4 3,3 14,0 3 Recuento 7 0 0 0 7 Frec. esperada 1,4 1,2 2,7 1,6 7,0 Total Recuento 7 6 13 8 34 Frec. esperada 7,0 6,0 13,0 8,0 34,0
La tabla nos muestra que 11 casillas,
es decir el 91,7%,
tienen frecuencias esperadas menor a 5. Este porcentaje supera al mínimo aceptable (25%), entoncesNO
podemos utilizar el Chi-cuadrado y se debe utilizar otra prueba estadística. Como la variable independiente es cuantitativa y la dependiente categórica, entonces se debe utilizar el coeficiente de correlación de Spearman. Al calcular el coeficiente de Spearman, se tiene:Decisión:
Ho se rechaza.Pruebas de chi-cuadrado
Valor gl Sig. asintótica
(bilateral)
Chi-cuadrado de Pearson 52,480a 6 ,000
Razón de verosimilitudes 54,644 6 ,000
Asociación lineal por lineal 26,834 1 ,000
N de casos válidos 34
a.11 casillas (91,7%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 1,24.
Correlaciones Número de caídas Grado de dependencia Rho de Spearman Número de caídas Coeficiente de correlación 1,000 -,879** Sig. (bilateral) . 0,000 N 34 34 Grado de dependencia Coeficiente de correlación -,879** 1,000 Sig. (bilateral) ,000 . N 34 34
Conclusión:
Como el p valor es p
0,000menor que el nivel de significancia5% 0,05
α
podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: El número de caídasSI
tiene relación significativa con el grado de dependencia en las actividades diarias de un grupo de ancianos.2. TEST EXACTO DE FISHER
Ejemplo
Hipótesis:
El género tiene relación con la ansiedad en un grupo de personas. Ambas variables, el género y la ansiedad, son variables cualitativas.Ho:
El géneroNO
tiene relación significativa con la ansiedad en un grupo de personas.Ha:
El géneroSI
tiene relación significativa con la ansiedad en un grupo de personas.Nivel de Significación
: α
5%
,Prueba Estadística:
Chi-cuadrado2 2
( i
i) c i O E E χContrastación
:Tabla de contingencia Sexo * Niveles de Ansiedad
Niveles de Ansiedad Total
Leve Moderado Severo
Sexo
Hombres
Recuento 2 7 6 15
Frecuencia esperada 5,9 5,5 3,6 15,0
% dentro de Niveles de Ansiedad 15,4% 58,3% 75,0% 45,5%
Mujeres
Recuento 11 5 2 18
Frecuencia esperada 7,1 6,5 4,4 18,0
% dentro de Niveles de Ansiedad 84,6% 41,7% 25,0% 54,5%
Total
Recuento 13 12 8 33
Frecuencia esperada 13,0 12,0 8,0 33,0
% dentro de Niveles de Ansiedad 100,0% 100,0% 100,0% 100,0%
Pruebas de chi-cuadrado
Valor gl Sig. asintótica (bilateral)
Chi-cuadrado de Pearson 8,360a 2 0,015
Razón de verosimilitudes 9,014 2 ,011
Asociación lineal por lineal 7,602 1 ,006
N de casos válidos 33
a.2 casillas (33,3%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 3,64.
La tabla nos muestra que dos casilla , es decir el
33;3%,
que supera al mínimo aceptable (25%), entoncesNO
podemos utilizar el Chi-cuadrado y se debe recategorizar los niveles de una de las variables para aplicar laprueba exacta de Fisher
. Al recategorizar la variable ansiedad, en solo dos categorías (alta-baja) para poder utilizar el test exacto de Fisher, se tiene:Pruebas de chi-cuadrado
Valor gl Sig. asintótica
(bilateral) Sig. exacta (bilateral) Sig. exacta (unilateral) Chi-cuadrado de Pearson 5,241a 1 ,022
Corrección por continuidadb 3,762 1 ,052
Estadístico exacto de Fisher 0,037 0,025
N de casos válidos 33
a.0 casillas (0,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 7,27.
b. Calculado sólo para una tabla de 2x2.
Decisión:
Ho se rechaza.Conclusión:
Como el p valor es p
0,025menor que el nivel de significancia5% 0,05
α
podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna:Ha: El género
SI
tiene relación significativa con la ansiedad en un grupo de personas.Nota importante:
La prueba exacta de Fisher solo se utiliza cuando no se puede aplicar el Chi-cuadrado y además,las variables tienen que ser dicotómicas
(la tabla de contingencia debe ser cuadrada de 2x2.3. COEFICIENTE DE CORRELACIÓN DE SPEARMAN
Ejemplo
Se desea correlacionar el grado de Estrés Laboral (Bajo-Moderado-Alto) con los años de servicio, de un grupo de trabajadores de una determinada institución.
Como la variable años de servicio es la independiente y la variable estrés laboral es una variable categórica, se puede utilizar la prueba estadística de Spearman.
Hipótesis:
El número de caídas tiene relación con el grado de dependencia en las actividades diarias de un grupo de ancianos.Una variable es cuantitativa (la independiente) y la otra variable es categórica (la dependiente) por tanto, se puede usar la prueba estadística de Chi-cuadrado.
Ho: NO
existe correlación entre el tiempo de servicios y el grado de estrés laboral en los trabajadores de una determinada institución.Ha: Existe
correlación entre el tiempo de servicios y el grado de estrés laboral en los trabajadores de una determinada institución.Nivel de Significación
: α
5%
0,05
Prueba Estadística:
Rho de Spearman2 2 6 1 ( 1) i s d n n
r
Contrastación
: 0,412 sr
yp
0,002Decisión:
Ho se rechaza.Conclusión:
Como el p valor es p
0,002menor que el nivel de significancia5% 0,05
α
podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna:Ha:
Existe
correlación entre el tiempo de servicios y el grado de estrés laboral en los trabajadores de una determinada institución.Nota:
La correlación rho de Spearman esr
s
0, 412, por tanto se puede decir que la correlación entre los años de servicio y el estrés laboral esmoderada
.Correlaciones Tiempo de Servicio Estrés Laboral Rho de Spearman Tiempo de Servicio Coeficiente de correlación 1,000 0,412** Sig. (bilateral) . 0,002 N 54 54 Estrés Laboral Coeficiente de correlación ,412** 1,000 Sig. (bilateral) ,002 . N 54 54
4. TAU b DE KENDALL
Ejemplo:
Se desea saber si el nivel de educación (primaria-secundaria-superior) es un factor predictivo para la consistencia o adherencia (buena-regular-mala), a un determinado tratamiento por parte de un grupo de personas.
Las variables son
categóricas
y además susescalas son iguales (3x3),
entonces se debe utilizar el estadístico de prueba Tau b de Kendall.Hipótesis:
El nivel de educación es un factor predictivo para la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.Ho: NO
existe correlación entre el nivel de educación y la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.Ha:
Existe correlación entre el nivel de educación y la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.Nivel de Significación
: α
5%
0,05
Prueba Estadística:
Tau b de Kendall2 1 ( )( ) x x b C D C D E C D E
r
Contrastación
: 0,349 tr
yp
0,007 Correlaciones Grado de Estudios Adherencia al Tratamiento Tau_b de Kendall Grado de Estudios Coeficiente de correlación 1,000 0,349** Sig. (bilateral) . 0,007 N 50 50 Adherencia al Tratamiento Coeficiente de correlación ,349** 1,000 Sig. (bilateral) ,007 . N 50 50**. La correlación es significativa al ni vel 0,01 (bilateral).
Decisión:
Ho se rechaza.Conclusión:
Como el p valor es p
0,007menor que el nivel de significancia5% 0,05
α
podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna:Ha: