Separata Estadistica Curso Titulacion Mayo 2015

(1)

ESTADISTICA

ESTADISTICA APLICADA

APLICADA A LA

A LA INVESTIGACION

INVESTIGACION CIENTIFICA

CIENTIFICA

La pres

La presente seente separaparatata dede

estadística aplicada a la investigación científica,

tiene por finalidadtiene por finalidad principal, la de proporcionar las herramientas estadísticas básicas a los estudiantes de principal, la de proporcionar las herramientas estadísticas básicas a los estudiantes de pre-grad

grado, de maeo, de maestría y de docstría y de doctoratorado, pardo, para que puea que puedan idedan identifintificar los escar los estadítadísticosticoss queque van avan a utilizar en su tesis en el análisis de los datos, en la prueba de hipótesis, en la elaboración y utilizar en su tesis en el análisis de los datos, en la prueba de hipótesis, en la elaboración y validación de

validación del instrumento que van a utilizar para recoger la informal instrumento que van a utilizar para recoger la informaciónción (si el caso lo requiere),(si el caso lo requiere), etc

etc.. AsiAsimismismo,mo, enen la ella elaboaboracracióión de tan de tablblas (sas (simpimples y cles y compompuesuestastas) y grá) y gráficoficos (lis (lineanealesles,, circulares, de barras, histogramas, etc). Todo lo mencionado se realizará mediante el uso del circulares, de barras, histogramas, etc). Todo lo mencionado se realizará mediante el uso del software estadístico SPSS-21

software estadístico SPSS-21

1. 1. LA E

LA ESTA

STADÍ

DÍST

STICA

ICA..

La Estadística es una ciencia que estudia los

métodos

yy

procedimientos

para:para:

recoger

,,

organizar

,, yy

resumir datos;

parapara

detectar regularidades, patrones o tendencias

en suen su comportamiento

comportamiento

;;

parapara

analizar

loslos

datos

siempre y cuando lasiempre y cuando la

variabilidad e incertidumbre

sea

sea una cauna causa intríusa intrínseca de nseca de los mismolos mismoss

,,

así como de realizar así como de realizar

inferencias a

partir de ellos,partir de ellos, con la finalidad de ayudar a

con la finalidad de ayudar a

tomar decisiones

y, en otros casos,y, en otros casos,

formular predicciones.

Uno de sus

objetivos fundamentales

es utilizar es utilizar la informacla información suminiión suministrada porstrada por una parteuna parte de la

de la

población

,, lllalamamadada

muestra

, para hacer , para hacer

inferencias

sobre elsobre el

total

de de lala mimismsma,a, siem

siemprepre asocasociada a uiada a unana

probabilidad de error

..

2. 2. CLASIFICAC

CLASIFICACIÓN DE

IÓN DE LA ESTA

LA ESTADÍSTICA.

DÍSTICA.

La

La Est

Estadí

adíst

stica

ica des

descr

cript

iptiva

iva::

LaLa estadística es deestadística es descriptiva, cuando lscriptiva, cuando los resultados dos resultados del análisisel análisis no prete

no pretenden ir más alnden ir más allá del conlá del conjunto de dajunto de datos:tos: loslos descdescribe, anribe, analizaliza y represena y representata utilutilizanizandodo métodos nu

métodos numéricos y méricos y gráficosgráficos que resumque resumen y pen y presentan lresentan laa informacióninformación..

La

La Est

Estadí

adíst

stica

ica inf

infer

erenc

encial

ial::

La estadístiLa estadística es inferenca es inferencial cuando cial cuando el objetivel objetivoo del estudio del estudio eses derivar las concl

derivar las conclusiones obtenidas a un conusiones obtenidas a un conjunto de datos más ampljunto de datos más amplio.io. Para ello se apoyPara ello se apoyaa en el

en el cálcálculculoo de prde probaobabibililidaddades y a pares y a partir de dtir de datatos muos muestestralraleses,, efeefectúctúaa estestimaimaciocionesnes,, tomtomaa decisiones,

decisiones, realizarealiza predicciones u predicciones u otras generalotras generalizaciones soizaciones sobre un conjunbre un conjunto mayor de dto mayor de datos.atos. La estadística inferencial está formada por la estadística paramétrica y la estadística no La estadística inferencial está formada por la estadística paramétrica y la estadística no paramétrica.

paramétrica.

3. 3. ELEMENTOS

ELEMENTOS DE LA

DE LA ESTADÍSTICA.

ESTADÍSTICA.

Se esta

Se estableblece ace a concontintinuauacióciónn algalgunaunas defis definicnicioniones de conces de concepeptostos básbásicoicoss y fundy fundameamentantalesles como son: eleme

como son: elemento,nto, poblaciónpoblación, muestra, variabl, muestra, variables, etc.,es, etc.,

Individuos o elementos:

persopersonas u nas u objeobjetostos (uni(unidad ddad de anae analisilisis),s), que cque contieontienen cnen ciertiertaa información

información que se que se desea desea estudiar.estudiar.

Población:

(2)

Muestra:

es es unun subsubconconjunjuntoto de de unauna pobpoblalacióción.n. Una Una muemuestrstra a debdebe e ser ser

representativa

; ; eses deci

decir debr debee tenetenerr un nun número úmero óptióptimo de mo de las las unidunidades ades de ande análisálisis del is del estudestudio o io o de lade la investigación y,

investigación y,

representar las características de la población

en estudio.en estudio.

Muestreo:

es la reunión de datos que se desea estudiar, obtenidos de una proporciónes la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y representativa de la población.

reducida y representativa de la población.

Valor:

UnUn valorvalor es cada unes cada uno de los dio de los distintos resulstintos resultados que se tados que se pueden obpueden obtener en un tener en un estudioestudio estadístico. Si

estadístico. Si utilizamos la utilizamos la escala visuaescala visual analógica (EVl analógica (EVA) para mediA) para medir el dolor r el dolor a cincoa cinco personas,

personas, podemos obtepodemos obtener diez valores posiblner diez valores posibles: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, es: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.10.

Dato:

UnUn datodato es cades cada uno a uno de lode los vals valores qores que se ue se ha obha obtenitenido al do al realirealizar uzar un estun estudiodio estadístico.

estadístico. Si utilSi utilizamos lizamos la escala escala EVA a EVA para para medir el medir el dolor dolor a cinco a cinco personas personas podemospodemos obtener cinco

obtener cinco datos posibles: datos posibles: 2, 2, 4, 4, 0, 0, 2, 2, 9.9.

4. 4. OBTENCION DE

OBTENCION DE UNA

UNA MUESTRA

MUESTRA

4.1. 4.1. Tama

Tamaño de la mue

ño de la muestra

stra

Una de las preocupaciones más comunes cuando se diseña un estudio estadístico Una de las preocupaciones más comunes cuando se diseña un estudio estadístico es saber cuántos elem

es saber cuántos elementos se debe incluir en la mueentos se debe incluir en la muestra.stra. El tamaño correcto de lEl tamaño correcto de laa muestra depende de tres factores:

muestra depende de tres factores: a)

a) El nEl nivivel del de coe confnfiaianznza dea deseseadado.o. b)

b) ElEl máximáximo mo errerror or pepermirmisibsible le por por el el invinvesestigtigadoador.r. c)

c) La vLa variariaciación eón en la n la pobpoblaclación ión que que se ese estustudidia.a. El gr

El gr ado ado de errde err or quor que ele el inveinvestigastigador puedor puede tode tolerar dlerar depenepende de lo cde de lo criticritico que seo que sea ela el estudio. Algunos estudios de investigación, por su naturaleza, requieren resultados estudio. Algunos estudios de investigación, por su naturaleza, requieren resultados exactos. Por el contrario, hay casos en que los errores grandes tienen consecuencias exactos. Por el contrario, hay casos en que los errores grandes tienen consecuencias menos graves.

menos graves. Para determi

Para determinar el nar el tamaño de tamaño de la muestra la muestra de un ede un estudio,studio, se considese consideran diferenran diferentestes aspectos, tales como: estimac

aspectos, tales como: estimación de medias,ión de medias, estimación de propoestimación de proporciones, estimación derciones, estimación de parámetros, etc. En nuestro caso vamos a

parámetros, etc. En nuestro caso vamos a considerar si la población es infinita o considerar si la población es infinita o finita.finita.

4.1.1 4.1.1.. Para poblac

Para poblaciones infini

iones infinitas

tas

Si

Si descodesconocenocemosmos la pobla poblaciólación,n, el tamañel tamaño de la muestro de la muestra se obtiea se obtiene a partine a partir de la formulr de la formulaa siguiente: siguiente: 2 2 2 2 Z Z p p qq n n d d   



Donde: Donde: n

n: : es el es el tamaño de tamaño de la muela muestra.stra.

Z

Z : Número de unidades de desvi: Número de unidades de desviaciónación estánestándar en la distribdar en la distribucióución normaln normal que producirá el nivel deseado de confianza (para una confianza del que producirá el nivel deseado de confianza (para una confianza del 95%,

(3)

Muestra:

es es unun subsubconconjunjuntoto de de unauna pobpoblalacióción.n. Una Una muemuestrstra a debdebe e ser ser

representativa

; ; eses deci

decir debr debee tenetenerr un nun número úmero óptióptimo de mo de las las unidunidades ades de ande análisálisis del is del estudestudio o io o de lade la investigación y,

investigación y,

representar las características de la población

en estudio.en estudio.

Muestreo:

es la reunión de datos que se desea estudiar, obtenidos de una proporciónes la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y representativa de la población.

reducida y representativa de la población.

Valor:

UnUn valorvalor es cada unes cada uno de los dio de los distintos resulstintos resultados que se tados que se pueden obpueden obtener en un tener en un estudioestudio estadístico. Si

estadístico. Si utilizamos la utilizamos la escala visuaescala visual analógica (EVl analógica (EVA) para mediA) para medir el dolor r el dolor a cincoa cinco personas,

personas, podemos obtepodemos obtener diez valores posiblner diez valores posibles: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, es: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.10.

Dato:

UnUn datodato es cades cada uno a uno de lode los vals valores qores que se ue se ha obha obtenitenido al do al realirealizar uzar un estun estudiodio estadístico.

estadístico. Si utilSi utilizamos lizamos la escala escala EVA a EVA para para medir el medir el dolor dolor a cinco a cinco personas personas podemospodemos obtener cinco

obtener cinco datos posibles: datos posibles: 2, 2, 4, 4, 0, 0, 2, 2, 9.9.

4. 4. OBTENCION DE

OBTENCION DE UNA

UNA MUESTRA

MUESTRA

4.1. 4.1. Tama

Tamaño de la mue

ño de la muestra

stra

Una de las preocupaciones más comunes cuando se diseña un estudio estadístico Una de las preocupaciones más comunes cuando se diseña un estudio estadístico es saber cuántos elem

es saber cuántos elementos se debe incluir en la mueentos se debe incluir en la muestra.stra. El tamaño correcto de lEl tamaño correcto de laa muestra depende de tres factores:

muestra depende de tres factores: a)

a) El nEl nivivel del de coe confnfiaianznza dea deseseadado.o. b)

b) ElEl máximáximo mo errerror or pepermirmisibsible le por por el el invinvesestigtigadoador.r. c)

c) La vLa variariaciación eón en la n la pobpoblaclación ión que que se ese estustudidia.a. El gr

El gr ado ado de errde err or quor que ele el inveinvestigastigador puedor puede tode tolerar dlerar depenepende de lo cde de lo criticritico que seo que sea ela el estudio. Algunos estudios de investigación, por su naturaleza, requieren resultados estudio. Algunos estudios de investigación, por su naturaleza, requieren resultados exactos. Por el contrario, hay casos en que los errores grandes tienen consecuencias exactos. Por el contrario, hay casos en que los errores grandes tienen consecuencias menos graves.

menos graves. Para determi

Para determinar el nar el tamaño de tamaño de la muestra la muestra de un ede un estudio,studio, se considese consideran diferenran diferentestes aspectos, tales como: estimac

aspectos, tales como: estimación de medias,ión de medias, estimación de propoestimación de proporciones, estimación derciones, estimación de parámetros, etc. En nuestro caso vamos a

parámetros, etc. En nuestro caso vamos a considerar si la población es infinita o considerar si la población es infinita o finita.finita.

4.1.1 4.1.1.. Para poblac

Para poblaciones infini

iones infinitas

tas

Si

Si descodesconocenocemosmos la pobla poblaciólación,n, el tamañel tamaño de la muestro de la muestra se obtiea se obtiene a partine a partir de la formulr de la formulaa siguiente: siguiente: 2 2 2 2 Z Z p p qq n n d d   



Donde: Donde: n

n: : es el es el tamaño de tamaño de la muela muestra.stra.

Z

Z : Número de unidades de desvi: Número de unidades de desviaciónación estánestándar en la distribdar en la distribucióución normaln normal que producirá el nivel deseado de confianza (para una confianza del que producirá el nivel deseado de confianza (para una confianza del 95%,

(4)

p

p: : Proporción Proporción esperada esperada o estimada o estimada (cuando (cuando no se no se conoce,conoce, 50% 50% = 0,5).= 0,5).

q

q: Se : Se determina determina mediante:mediante: q q

 



11



pp (en es(en este cte caso aso 11 –– 0,5 0,5 = 0,= 0,5)5)..

d

d : E: Ess elel lílímimitete acacepeptatablble de de ee errorror mr mueueststraral.l. CuCuanando do no no se se cocononoce ce esestete valor,

valor, se utiliza se utiliza valores devalores desde 0,01 sde 0,01 hasta 0,09.hasta 0,09.

Ejemplo

: ¿A cuántas personas tendríamos que estudiar para conocer la prevalencia de: ¿A cuántas personas tendríamos que estudiar para conocer la prevalencia de

diabetes?

1 1,, 9966 Z

Z



, para una confianza del 95%, para una confianza del 95% 0,

0, 55 p

p



, proporción esperada (50%), proporción esperada (50%) 0, 0, 55 q q



, (, (11 –– 00,0,055)) 0, 0, 0055 d

d



, (no se conoce su valor), (no se conoce su valor) 2 2 2 2 ((11, 9 6, 9 6) ) 00, 5 0 , 5, 5 0 , 5 3 38484 (0,05) (0,05) n n







4.1.1 4.1.1.. Para pobla

Para poblacion

ciones finitas

es finitas

Si conocemos

Si conocemos la poblaciónla población, el tamaño de l, el tamaño de la muestra se obtiea muestra se obtiene a partir ne a partir dede la formulala formula siguiente: siguiente: 2 2 2 2 22 ( ( 1)1) N N Z Z p p qq n n d d N N Z Z p p qq          





 



Donde

Donde N N :: es el númes el número total de ero total de la poblacióla población.n.

Ejemplo

. ¿A cuánta. ¿A cuántas persos personas tennas tendría que edría que estudistudiar,ar, de una pobde una poblacilación de 800ón de 800

habi

habitante

tantes,

s, para c

para conoc

onocer la prev

er la prevalen

alencia de d

cia de diabet

iabetes, con u

es, con un

n lími

límite

te de erro

de error mues

r muestral de

tral dell

5%?

8 80000 N N



1 1,, 9966 Z

Z



, para una confianza del 95%, para una confianza del 95% 0,

0, 55 p

p



, proporción esperada (5%), proporción esperada (5%) 0, 0, 55 q q



, , ((11 –– 00,5,5)) 0, 0, 0055 d d



2 2 2 2 22 80 800 (0 (11,96,96) ) 00,5 0,5,5 0,5 2 25959 ( 0 ( 0, 0 5, 0 5) ) ((8 08 00 0 11) ) ((11, 9 6, 9 6) ) 00, 0 5 0, 0 5 0, 5, 5 n n          





 



4.2 4.2.. Sel

Selecc

ección

ión de la mu

de la muest

estra

ra

4.2.1. Muestreo probabilístico

La muestra es

La muestra es probabilíprobabilística cuando cada unidad de stica cuando cada unidad de análisis de la población tieneanálisis de la población tiene la

(5)

puede medir

usando la teoría de la probabilidad; por tanto, pueden ser objetos de un análisis y tratamiento estadístico.

Existen, al menos, cuatro métodos comúnmente más utilizados: muestreo aleatorio simple, muestreo aleatorio sistemático, muestreo aleatorio estratificado y muestreo aleatorio por conglomerado. Para nuestro caso solo nos interesa el muestreo aleatorio simple, que se puede realizar de dos formas:

a)

Usando una caja.

Se coloca cada unidad de análisis escrita en un papelito, luego se extraen sucesivamente, hasta completar el número requerido para la muestra.

b)

Usando la tabla de números aleatorios

. Previamente, se enumeran todos los elementos de la población, con igual número de cifras que tiene el tamaño de la población (N). Luego se utiliza una tabla elaborada especialmente para estos propósitos.

4.2.2. Muestreo no probabilístico

Las muestras se caracterizan por que no es posible determinar la

probabilidad de

inclusión

de cada unidad de análisis de la población, en la muestra extraída. Por esta razón, no hay forma

de medir el riesgo de llegar a conclusiones erróneas

a partir de estas muestras no probabilísticas. Dado que la confiabilidad de los resultados de estas muestras no puede medirse, las muestras no probabilísticas, no se prestan para el tratamiento y análisis estadístico. Los tipos más comunes de muestreo no probabilístico son: muestreo por conveniencia o de juicio y por voluntarios.

5. ORGANIZACION DE LOS DATOS

5.1. Variables estadísticas

Cuando hablemos de variable haremos referencia a un símbolo ( X, Y, A, B,. . . ) que puede tomar cualquier valor de un conjunto determinado, que llamaremos dominio de la variable o rango. En función del tipo de dominio, las variables se clasifican en:

VARIABLES CUALITATIVAS.

Pueden ser de tipo

nominal

y

ordinal

.

Son de tipo

nominal

cuando los valores (modalidades) son de tipo nominal. Por ejemplo, el grupo sanguíneo: A, B, AB, O.

Son de tipo

ordinal

cuando son nominales pero, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos el grado de recuperación de un paciente al aplicarle un tratamiento, podemos tener como modalidades. Por ejemplo,

grado de recuperación

de un paciente:

Nada, Poco, Moderado, Bueno, Muy Bueno.

A veces se representan este tipo de variables en escalas numéricas, por ejemplo, cuando se establecen puntuaciones para establecer la intensidad del dolor en una escala de 0 a 10 (EVA). Sin embargo, es imposible realizar operaciones algebraicas

(6)

con estas cantidades.

¡Un dolor de intensidad 4 no es el doble que otro de

intensidad 2!.

VARIABLES CUANTITATIVAS O NUMÉRICAS

Son las que tienen por modalidades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos:

Discretas,

cuando no admiten valores intermedios entre dos valores cualesquiera. Un ejemplo es el número de hijos en una familia:

Número de hijos posibles: 0, 1, 2, 3, 4, 5, . . .

Continuas,

cuando admiten valores intermedios entre dos valores cualesquiera. Por ejemplo, el peso (3,480 kg) de un niño al nacer.

En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de amplitud 0,005. Por tanto cada una de las observaciones de X representa más bien un intervalo que un valor concreto.

5.2. Tablas estadísticas

Consideremos una población estadística de

N

individuos, establecida de acuerdo a una variable

C

cuyas valores (modalidades) han sido agrupados en un número

k

de clases, que denotamos mediante

c

₁ ,

c

₂, . . . ,

k

. Para cada una de las clases

c

_i,

1, 2, ...

i



k , se establecen las siguientes magnitudes:

Frecuencia absoluta de la clase

c

_i

,

es el número

F

_i, de observaciones que presentan un valor perteneciente a esa clase.

Frecuencia relativa de la clase

c

_i

,

es el cociente

f

_i, entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir f _i F i

N



Obsérvese que

f

_i es el tanto por uno de observaciones que están en la clase

c

_i. multiplicado por 100% representa el porcentaje, de la población, que tiene esa clase.

Frecuencia absoluta acumulada (

FA

_i

).

Se calcula sobre variables cuantitativas, y es el número de elementos de la población cuyo valor (modalidad) es inferior o equivalente al valor

c

_i: 1 1 2 ... i i j i FA F F F F j 

    





Frecuencia relativa acumulada (

fA

_i

).

Se calcula sobre variables cuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a la

c

_i, es decir,

(7)

1 1 2 1 2 ... ... i i i j i i F F F F fA f f f f j N N _













Se llama distribución de frecuencias, al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadística nos permite representar en forma ordenada las distribuciones de frecuencias.

Las tablas suelen ser de dos tipos: tablas simples y compuestas (tablas de contingencia). Estas tablas se presentan con una numeración, un título y la fuente de origen.

Ejemplo 1.

A continuación se muestra una tabla simple de distribución de frecuencias y la forma de presentarla:

Tabla Nº 01:Resultados de la evaluación de la muestra

Frecuencia Porcentaje Porcentaje

acumulado

A Logro Previsto 4 11,4 11,4

B En Proceso 16 45,7 57,1

C EnInicio 15 42,9 100,0

Total 35 100,0

Fuente: Elaborada por el investigador

Ejemplo 2.

A continuación se muestra una tabla compuesta (de contingencia) de distribución de frecuencias:

Tabla Nº 02: Alteraciones de la lordosis lumbar por grupo etáreo

Alteraciones de la Lordosis Lumbar Total

Hipolordosis % Hiperlordosis % Recuento %

Grupo Etáreo

de 30 a 39 años 1 2,0 10 21,7 11 23,9

de 40 a 49 años 5 10,9 20 43,5 25 54,3

de 50 a 59 años 0 0,0 10 21,7 10 21,7

Total 6 13,0 40 87,0 46 100,0

Fuente: Elaboración propia

Nota:

en el caso que la tabla no ha sido elaborada por el investigador, se debe indicar su origen.

(8)

5.3 Representaciones Gráficas

Hemos visto que las tablas estadísticas resumen los datos que disponemos de una población, de forma que ésta se puede analizar de una manera más sistemática y resumida posible. Sin embargo para presentar esta información y que resalten las características de la población se utilizan gráficos y diagramas.

Gráficos para variables cualitativas.

Los gráficos más usuales para representar variables de tipo nominal son los siguientes: graficas de barra simple y compuesta, grafico de sectores o circulares, histogramas, diagrama de Pareto, diagrama de cajas y bigotes, gráficos lineales, etc.

Diagramas de barras:

En la siguiente figura se representa en el eje de ordenadas los valores (modalidades) y en la abscisa las frecuencias absolutas o las frecuencias relativas.

Grafica Nº 01:

Ocupación de la muestra

Si mediante el grafico se intenta comparar varias poblaciones entre sí, se utilizan las barras compuestas, como se muestra en la gráfica siguiente. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas.

(9)

Grafica Nº 02:

Distribución de la muestra por talla

Diagramas de sectores (también llamados tortas).

Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Este diagrama es conveniente cuando se quiere presentar los resultados en forma solo porcentual.

(10)

Gráfico para variable continua

Histograma.

Se construye a partir de la tabla de distribución de frecuencias, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos, como se puede ver en la figura siguiente:

Gráfico Nº 04: Pesos de la muestra

Diagrama de Pareto

El diagrama de Pareto consiste en clasificar los factores que intervienen en un proceso por su orden de importancia, para poder tratar cada uno de ellos de forma adecuada a su peso específico. En realidad, no deja de ser un histograma que ordena las clases de mayor a menor frecuencia, junto a un polígono de frecuencias acumulado.

(11)

ESTADISTICA DESCRIPTIVA

La

estadística descriptiva

es una parte de la estadística que se encarga de recolectar, ordenar, analizar y representar un conjunto de datos, con el fin de describir apropiadamente sus características principales e importantes. Este análisis es muy básico, pero nos permite tener un conocimiento claro, respecto a las características principales, que tiene una variable. En todo análisis estadístico es necesario comenzar utilizando la estadística descriptiva, para luego abordar el análisis desde la perspectiva de la estadística inferencial. Los estadísticos descriptivos principales son: las mediadas de tendencia central (media, mediana y moda), las medidas de posición (cuartiles, deciles y percentiles), medidas de variación o dispersión (desviación típica o estándar, varianza, coeficiente de variación) y las medidas de forma (asimetría y apuntamiento o curtosis).

MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central son valores numéricos que representan la tendencia de todo el conjunto de datos estadísticos que se tiene. Las medidas de tendencia central más importantes son la media aritmética, la mediana y la moda.

1. La Media Aritmética.

 

X

La media aritmética es el estadígrafo de posición más importante ya que representa mejor al grupo de datos y es valor estadístico más fiable. Se le conoce además, como media y promedio. La media aritmética es el valor promedio de los valores observados de la variable.

2. La Mediana.

(Me)

La mediana es el valor que divide a la muestra en dos partes iguales; es decir que cada parte equivale al 50% de la muestra.

El valor de la mediana es más recomendable que la media aritmética cuando existen valores extremos bastantes grandes o muy pequeños y, si se tiene datos cualitativos que se pueden ordenar de acuerdo a categorías.

Ejemplo:

Se tiene una muestra de 46 personas cuyas edades son las siguientes:

34 33 32 37 50 52 51 52 34 36 47 37 43 44 48 52 55 50 41 37 34 31 55 49 36 42 48 50 52 48 42 43 41 53 52 32 37 52 30 31 43 54 36 51 50 30

La media y la mediana de dicha muestra son:

Estadísticos Descriptivos N Válidos 46 Media 43,20 Mediana 43,00 Edad mínima 30 Edad máxima 55

La media aritmética (media o promedio) es de 43. Se interpreta que la

edad promedio

de la muestra es de 43 años. La mediana también es 43 y se interpreta

que el 50% de la muestra

tienen edades menores o iguales a 43 años y el otro 50% tienen edades mayores

a 43 años.

(12)

MEDIDAS DE VARIACIÓN O DE DISPERSIÓN

Si se quiere hacer una descripción más detallada de una muestra, es necesario identificar el grado de dispersión o concentración que tiene dicha muestra, en relación a un valor central. Para realizar un análisis más detallado se hace uso de otras medidas que permiten identificar otras características. Estas medidas son los estadígrafos de variación o de dispersión.

Por su naturaleza estas medidas se aplican únicamente a las variables cuantitativas. Una dispersión excesiva revela que la muestra es heterogénea; por el contrario una dispersión muy leve indica que la muestra es homogénea.

Las medidas de dispersión más utilizadas son: la desviación típica o estándar, la varianza y el coeficiente de variación.

1. Desviación Estándar o típica (DS)

La desviación estándar es la raíz cuadrada de la media de los cuadrados de las desviaciones con respecto a la media aritmética. Luego, si se tiene K observaciones, cuya media aritmética es X , su desviación estándar será:

La desviación estándar es una de las medidas de dispersión más confiables. Nos permite establecer la dispersión (alejamiento o acercamiento) de los datos respecto a la media. Esto permite establecer la homogeneidad o heterogeneidad de la muestra.

Ejemplo

:

Se tiene una muestra de 70 personas cuyos pesos son los siguientes:

55 49 52 56 54 52 59 54 68 63 50 49 54 60 71 50 73 70 70 62 60 52 60 64 70 60 59 70 58 48 63 58 42 42 45 73 63 59 46 54 60 50 55 60 66 63 59 43 56 60 40 50 66 62 55 57 60 40 45 48 62 75 49 74 72 50 64 74 42 70

La desviación estándar o típica y la media de los pesos se muestran en la tabla siguiente:

Estadísticos Descriptivos Peso N Válidos 70 Perdidos 0 Media 57,77 Desviación típica 9,255 Mínimo 40 Máximo 75





n X K DS







2

(13)

La desviación estándar o típica es de 9,255. Se interpreta que el peso promedio puede estar comprendido entre 57,77

±

9,255 kg. (48, 515 y 67, 025).

2. Varianza (

_S2

₎

La

varianza

se define como la media de las diferencias cuadráticas de n puntuaciones con respecto a su media aritmética, es decir:

El uso del coeficiente de variación para evaluar la imprecisión de un método de análisis

es común en el laboratorio.

Ejemplo:

Las ventas realizadas en 10 días de uno de los meses por tres vendedores de una compañía fueron las siguientes:

Ventas de Pedro: 5, 18, 8, 12, 17, 19, 25, 17, 17, 20 Ventas de Andrés: 5, 17, 17, 17, 17, 17, 17, 17, 17, 17 Venta de Carlos: 5, 6, 10, 20, 21, 20, 19, 18, 19, 20

Determina la media y la varianza para estos tres vendedores. De acuerdo al valor de la media, ¿Qué se puede decir de estos vendedores?.

De acuerdo al valor de la varianza, ¿Quién consideras que es más

consistente

en sus ventas?

La relación de la varianza de los tres vendedores es: _______________________________ a) ¿Cuál de los tres tiene mayor varianza? _________________________________

b) ¿Qué podemos inferir de este resultado? ________________________________ c) Si tú fueras el gerente de ventas, ¿Qué medidas dictaminarías? ______________ ____________________________________________________________________

3. Coeficiente de Variación (CV)

El coeficiente de variación permite comparar la dispersión de dos o más distribuciones y de esa manera determinar la homogeneidad o heterogeneidad de las muestras que se analizan. Su valor se expresa en términos de porcentaje. El coeficiente de variación es el cociente entre la desviación estándar y la media aritmética multiplicado por 100%; es decir:

2 2 1 1 ( ) 1 n i i

S

x

n

_







% 100





X DS CV

(14)

Ejemplo:

Los estudios de bioequivalencia de los medicamentos A y B (

bioequivalencia se refiere a la velocidad y proporción en que el mismo principio activo de dos medicamentos «iguales» alcanza la circulación sistémica), indican que existe una diferencia 12% entre la variabilidad de ambos.

MEDIDAS DE FORMA

La representación gráfica de la distribución de frecuencias toma diferentes formas, que nos permiten identificar y comparar, con mayor facilidad, los estadísticos o parámetros en forma visual.

Las formas en que se presentan las gráficas de una distribución de frecuencias se pueden generalizar en dos tipos: curvas simétricas y curvas asimétricas.

Curvas Simétricas

La curva simétrica es la representación gráfica de una distribución de frecuencias cuyo eje de simetría es la media x .

Las curvas simétricas se caracterizan por su

curtosis

, la cual es la forma de la puntiagudez que presenta la parte superior de la gráfica. Por su curtosis las curvas simétricas se clasifican en: platicúrtica, leptocúrtica y mesocúrtica.

La p

laticúrtica

presenta una zona casi horizontal en su punto máximo, su puntiagudez es casi nula.

La

leptocúrtica

presenta un pico muy agudo.

La

mesocúrtica

es semejante a la curva normal de Gauss.

Como podemos ver, las tres gráficas son simétricas con respecto a la media y tienen forma de campana.

Como ya se dijo, la curtosis es el grado de “puntiagudez” de la gráfica de una distribución de

µ µ µ

5% A

(15)

El valor de K define la curtosis de la gráfica, tal que:

 Si = 0, la curva es mesocúrtica (curva normal).

 Si > 0, la curva es leptocúrtica.

 Si < 0, la curva es platicúrtica.

Curvas Asimétricas

Ya se mencionó que las medidas de dispersión, solamente

indican

la

magnitud

de las variaciones, pero no dan ninguna

información

acerca de

la dirección

hacia la cual se dispersan.

Las curvas asimétricas son las que nos indican hacia donde se inclina la dispersión de los datos. Estas gráficas se caracterizan por la posición que tiene las medidas de tendencia central. Podemos generalizar su presentación mediante las siguientes gráficas:

ACTIVIDAD DE REGULACIÓN

La primera curva es

simétrica y la media, la mediana y la moda coinciden en el centro. La segunda curva es asimétrica. En el centro se encuentra la moda a la izquierda la mediana y más a la izquierda la media, por lo que se le denomina

sesgada a la izquierda.

En la última curva la moda está en el centro, a la derecha la mediana y más a la derecha la media, por lo que se le denomina

sesgada a la derecha.

x Me Mo

Me Mo

(16)

ESTADISTICA INFERENCIAL

La

estadística inferencial

es una parte de la estadística que se encarga del estudio de cómo

obtener conclusiones generales para toda la población, a partir del estudio de una

muestra, y el grado de fiabilidad o significación de los resultados obtenidos.

Es deci

r que

nunca nos ofrecerá una

seguridad absoluta

, sino una respuesta basada en la

probabilidad

. Además, es fundamental tener en cuenta que

la estadística no decide; sólo ofrece

elementos para que el investigador decida.

ESTADISTICA PARAMETRICA Y NO PARAMETRICA

Estadística paramétrica

La

estadística paramétrica

es una rama de la estadística inferencial, que comprende los procedimientos estadísticos y de decisión que están basados en las distribuciones de los datos reales. Estas son determinadas usando un número finito de parámetros. Esto es, por ejemplo, si conocemos que la altura de las personas sigue una distribución normal, pero desconocemos cuál es la media y la desviación de dicha normal. La media y la desviación típica de la desviación normal son los dos parámetros que queremos estimar.

La mayoría de procedimientos paramétricos, requiere conocer la forma de distribución para las mediciones resultantes de la población estudiada. Para la inferencia paramétrica es requerida como mínimo una escala de intervalo (variable cuantitativa), esto quiere decir que nuestros datos deben tener un orden y una numeración del intervalo. Es decir nuestros datos pueden estar categorizados en: menores de 20 años, de 20 a 40 años, de 40 a 60, de 60 a 80, etc, ya que hay números con los cuales realizar cálculos estadísticos. Sin embargo,

datos

categorizados (variables cualitativas)

en: niños, jóvenes, adultos y ancianos

no pueden ser

interpretados mediante la estadística paramétrica

ya que no se puede hallar un parámetro numérico (como por ejemplo la media de la edad) cuando los datos no son numéricos.

Parámetro

En estadística, un

parámetro

es un número que resume la ingente cantidad de datos que pueden derivarse del estudio de una variable. El cálculo de este número se realiza a través de estimaciones, utilizando para ello los estadígrafos (media, desviación estándar, etc) a partir de datos de una muestra de esa población.

Los parámetros estadísticos son una consecuencia inevitable del propósito esencial que tiene la estadística: crear un modelo de la realidad.

El estudio de una gran cantidad de datos individuales de una población, puede ser engorroso por lo que se hace necesario realizar un resumen que permita tener una idea global de la población, compararla con otras, comprobar su ajuste a un modelo ideal, realizar estimaciones sobre datos desconocidos de la misma y, en definitiva, tomar decisiones. A estas tareas

(17)

Principales parámetros

En la estadística matemática e inferencial se utiliza el concepto de parámetro en su acepción matemática más pura, esto es, como variable que define una familia de objetos matemáticos en determinados modelos. Así se habla, por ejemplo, de una distribución normal de parámetros μ y σ como de una determinada familia de distribuciones con una distribución de probabilidad de expresión conocida, en la que tales parámetros definen aspectos concretos como la esperanza, la varianza, la curtosis, etc. Otro ejemplo el de la distribución de Poisson, determinada por un parámetro, λ; o la distribución binomial, determinada por dos parámetros, n y p. Desde el punto de vista de la estadística matemática, el hecho de que estas distribuciones describan situaciones reales y los citados parámetros signifiquen un resumen de determinado conjunto de datos es indiferente.

Los principales parámetros se agrupan en las siguientes categorías:

Medidas de posición.

Se trata de valores de la variable estadística que se caracterizan por la posición que ocupan dentro del rango de valores posibles de esta. Entre ellos se distinguen:

 _{Las medidas de tendencia central: media, mediana y moda.}

 _{Las medidas de posición no central: cuantiles (cuartiles, deciles y percentiles).}

Medidas de dispersión.

Miden la heterogeneidad de los datos, lo separados que éstos están entre sí. Las principales son: el recorrido o rango, la desviación media, la varianza, la desviación típica o estándar. Las que expresan la dispersión en porcentaje, el coeficiente de variación, el coeficiente de apertura, los recorridos relativos y el índice de desviación respecto de la mediana.

Medidas de forma.

Su valor informa sobre el aspecto que tiene la gráfica de su distribución. Entre ellas están los coeficientes de asimetría y los de curtosis.

Otros parámetros.

Además, y con propósitos más específicos, existen otros parámetros de uso en situaciones muy concretas, como son las proporciones, los números índice, las tasas y el coeficiente de Gini.

Distribución Normal

En estadística y probabilidad se llama

distribución normal o distribución de Gauss

, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece aproximada en fenómenos reales. Su gráfica tiene una forma acampanada y es simétrica respecto de un parámetro estadístico. Esta curva se conoce como campana de

Gauss

. Algunas propiedades de la distribución normal son:

1. Es simétrica respecto de su media μ.

(18)

3. Los puntos de inflexión de la curva se dan para x = μ – σ y x = μ + σ .

4. La distribución de probabilidad, alrededor de la media, cumple:

 En el intervalo [ μ - σ , μ + σ ] se encuentra comprendida, aproximadamente, el 68,26% de

la distribución;

 En el intervalo [ μ - 2σ , μ + 2σ ] se encuentra, aproximadamente, el 95,44% de la

distribución;

 En el intervalo [ μ -3σ , μ + 3σ ] se encuentra comprendida, aproximadamente, el 99,74%

de la distribución. Estas propiedades son de gran utilidad para el establecimiento de

intervalos de confianza

.

Distribución de probabilidad alrededor de la media en una distribución N( μ , σ )

La estadística paramétrica nos permite resolver tres tipos de problemas:



La estimación puntual

, en la que se pretende darle un valor al parámetro a estimar. 

_{La estimación por intervalos,}

cuando se busca un intervalo de confianza.



El contraste de hipótesis

, cuando se busca contrastar información acerca del parámetro. Los principales estadísticos de prueba de la estadística paramétrica son: la

T de Student, el

análisis de varianza (ANOVA) y la r de Pearson.

Para utilizar estos estadísticos, es indispensable que se cumpla con los siguientes requisitos:

a) Las variables

deben cuantitativas.

b) La distribución de los datos

deben seguir el modelo teórico de la distribución normal.

c) Las varianzas, de las variables,

deben ser iguales

(homocedasticidad).

(19)

Prueba de normalidad de una distribución

Para determinar si los datos obtenidos, de una variable cuantitativa (discreta o continua), tiene distribución normal se utilizan dos pruebas estadísticas: la prueba de kolmogorov-smirnov (k-s) en el caso que los datos superen los 30 casos y la de Shapiro-Wilk en el caso que los datos sean menor a 30 casos.

Prueba de Kolmogorov-Smirnov (K-S)

La prueba de Kolmogorov-Smirnov para una muestra es un procedimiento de "bondad de ajuste", que permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica. Es decir la prueba de Kolmogorov-Smirnov se utiliza para comprobar si los datos de una variable se distribuyen normalmente. Para realizar la prueba estadística de kolmogorov-Smirnov (K-S) se sigue el siguiente procedimiento:

a) Se plantean dos hipótesis: la hipótesis nula y la hipótesis alterna.

Ho:

La distribución de la variable

NO

difiere de la distribución normal.

H1:

La distribución de la variable difiere de la distribución normal.

b) Se establece el nivel de significancia cuyo valor estándar es de α



5%



0,05 c) Se obtiene el resultados de la prueba K-S mediante el SPSS.

d) Se compara el p valor calculado con el nivel de significancia: p y 0,05

e) Decisión y Conclusión: Si p valor calculado es menor que el nivel de significación 0,05 se rechaza la hipótesis nula y si el p valor es mayor se acepta la hipótesis nula. En el primer caso se concluye que la variable no tiene una dis tribución normal, en el segundo caso la variable s i tiene una dis tribución normal.

Nota

: Si p valor calculado es menor que el nivel de significación 0,05 la dis tribución no es normal, si es mayor que

0.05

la dis tribución es normal.

Ejemplo:

Se tiene una muestra de 70 personas cuyos pesos son los siguientes:

55 49 52 56 54 52 59 54 68 63 50 49 54 60 71 50 73 70 70 62 60 52 60 64 70 60 59 70 58 48 63 58 42 42 45 73 63 59 46 54 60 50 55 60 66 63 59 43 56 60 40 50 66 62

55 57 60 40 45 48 62 75 49 74 72 50 64 74 42 70

Determinar si la muestra tiene una distribución normal.

Solución

Utilizando la prueba de de Kolmogorov-Smirnov.

(20)

Ho:

La distribución de la variable peso

NO

difiere de la distribución normal.

H1:

La distribución de la variable peso difiere de la distribución normal. b) Nivel de significancia: α



5%



0,05

c) Resultados de la prueba K-S mediante el SPSS.

d) Comparando el p valor con el nivel de significancia: p



0,785



0,05

e) Decisión y conclusión: Como el p valor calculado es mayor que el nivel de significación

se

acepta la hipótesis nula y se rechaza la alterna

; es decir variable peso s i tiene una distribución normal.

ESTADISTICA NO PARAMETRICA

La

estadística no paramétrica

es una rama de la estadística que estudia las pruebas y modelos estadísticos

cuya distribución no se ajusta a los llamados criterios paramétricos

. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando:

Las variables

son cualitativas

(nominal u ordinal).

Las variables

son cuantitativas,

pero

no tienen una distribución normal y/o sus varianzas

no son iguales (Homocedasticidad)

y los datos

no superan, como mínimo, los 30 casos.

Las pruebas no paramétricas, son menos “potentes” que las pruebas paramétricas, pero reúnen las siguientes características:

1. Son más fáciles de aplicar.

2. Son aplicables a los datos jerarquizados.

3. Se pueden usar cuando dos series de observaciones provienen de distintas poblaciones. 4. Son la única alternativa cuando el tamaño de muestra es pequeño.

Prueba de Kolmogorov-Smirnov para una muestra

Peso

Parámetros normalesa,b Media 57,77

Desviación típica 9,255 Diferencias más extremas Absoluta ,078 Positiva ,071 Negativa -,078 Z de Kolmogorov-Smirnov ,654

Sig. asintót. (bilateral) ,785

a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.

(21)

Las principales pruebas no paramétricas son las siguientes:

Chi cuadrado de Pearson

χ 2

,

test exacto de Fisher, tau b de Kendall, coeficiente de correlación de Spearman, prueba

binomial, test de Mann-Whitney, prueba de McNemar, prueba de Kruskal-Wallis, test de

Wilcoxon, Q de Cochran y la prueba de Kolmogórov-Smirnov.

PRUEBA DE HIPOTESIS

Para realizar la prueba de hipótesis se realiza el siguiente procedimiento:

PRIMERO: Planteamiento de las hipótesis.

Se plantean la hipótesis nula (Ho) y la hipótesis alterna (Ha) (puede ser la hipótesis general o las especificas).

SEGUNDO: Nivel de significación.

El riesgo que se asume acerca de rechazar la hipótesis nula cuando en realidad debe aceptarse por ser verdadera. El nivel de significación se denota mediante la letra griega alfa α No hay un nivel de significación que se aplique a todos los estudios que implican muestreo. Sin embargo generalmente para la decisión se usa el nivel

0.05 (equivale a 5%), el nivel 0.01

(1%), el 0.10 (10%)

o cualquier otro nivel entre 0 y 1. El investigador debe decidir el nivel de significación antes de formular una regla de decisión y recopilar datos muéstrales.

Error tipo 1

. Se llama así a la probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera.

Error tipo 2.

Cuando la probabilidad de aceptar la hipótesis nula siendo en realidad falsa

TERCERO: Determinación del estadístico de prueba.

Un valor, determinado a partir de la información muestral, que se utiliza para aceptar o rechazar la hipótesis nula.

CUARTO: Regla de decisión.

Es una regla simple la cual es una afirmación de las condiciones bajo las que se acepta o rechaza la hipótesis nula.

QUINTO: Toma de decisión

Es la toma de decisión si se debe aceptar o rechazar la hipótesis nula.

DETERMINACIÓN DEL ESTADÍSTICO DE PRUEBA.

La determinación del estadístico de prueba es la etapa donde se requiere un análisis minucioso de diferentes aspectos (tipos de variables, tipo de estudio, diseño, parámetros, distribución de la población a la que pertenece la muestra, tamaño de la muestra, objetivos del estudio, etc)

(22)

PRUEBAS NO PARAMETRICAS PRUEBAS PARAMETRICAS

Variable aleatoria

Variable fija NOMINAL

DICOTOMICA

NOMINAL

POLITOMICA ORDINAL CUANTITATIVAS

Estudio Transversal Muestras independientes Un grupo χ2 Bondad de ajuste Binomial χ2 Bondad de ajuste χ2 Bondad de ajuste T de Student

para una muestra

Dos grupos χ2 de homogeneidad. Corrección de Yates Test Exacto de Fisher χ2 de homogeneidad U de Mann-Withney T de Student para muestras independientes Más de dos grupos χ2 de homogeneidad χ2 de homogeneidad Kruskall-Wallis ANOVA con un factor Inter sujetos Estudio Longitudinal Muestras relacionadas

Dos medias Mc-Nemar Q de Cochran Wilcoxon

T de Student

para muestras

relacionadas Más de dos

medias Q de Cochran Q de Cochran Friedman

ANOVA para

medidas repetidas

La siguiente tabla muestra la descripción de cada uno de los estadísticos de prueba más utilizados

PRUEBAS NO PARAMETRICAS

Prueba

Una

muestra

Variables

Chi cuadrado de Pearson

Es una prueba de bondad de ajuste, de homogeneidad y de independencia, que permite averiguar si la distribución empírica de una variable categórica se ajusta o no (se parece o no) a una determinada distribución teórica (uniforme, binomial, multinomial, etc.).

VI:

Ordinal/Nominal/Intervalo

VD: Nominal

Test exacto de Fisher

Es una prueba similar a la de Chi cuadrado, que se utiliza cuando las variables son dicotómicas y además no se puede utilizar la prueba de

Chi-VI: Dicotómica

(23)

Binomial

Es una prueba de bondad de ajuste, que permite averiguar si una variable dicotómica sigue o no un determinado modelo de probabilidad. Permite contrastar la hipótesis de que la proporción observada de aciertos se ajusta a la proporción teórica de una distribución binomial (lo cual se traduce en la posibilidad de contrastar hipótesis sobre proporciones y sobre cuartiles).

VD: Nominal

Kolmogorov-Smirnov (K-S)

Es una prueba de bondad de ajuste, que sirve para contrastar la hipótesis nula de que la distribución de una variable se ajusta a una determinada distribución teórica de probabilidad que puede ser con tendencia a la normal, a la de Poisson o exponencial.

VD: Ordinal/Intervalo

PRUEBAS NO PARAMETRICAS

Prueba

Dos muestras relacionadas

Variables

Prueba de McNemar

Sirve para contrastar hipótesis sobre igualdad de proporciones.

Se usa cuando hay una situación en la que las medidas de cada sujeto se repiten, por lo que la respuesta de cada uno de ellos se obtiene dos veces:

una vez antes y otra después de que ocurra un

evento específico y las muestras son relacionadas

dependientes y además son dicotómicas.

VI: Dicotómica

VD: Nominal

Prueba de Wilcoxon

Permite contrastar la hipótesis de igualdad entre dos medianas poblacionales. Se utiliza cuando las muestras son relacionadas.

El contraste se basa en el comportamiento de las diferencias entre las puntuaciones de los elementos de cada par asociado, teniendo en cuenta no sólo el signo, sino también la magnitud de la diferencia.

Paralela a la prueba paramétrica de contraste t para muestras relacionadas.

VI: Dicotómica

VD: Ordinal/Intervalo

Prueba

K

muestras

relacionadas

Variables

Prueba de Cochran

Esta prueba se aplica cuando todas las

respuestas

son binarias

.

La Q de Cochran prueba la hipótesis de que varias

variables dicotómicas

que están relacionadas entre sí, tienen el mismo promedio. En

observaciones

múltiples las variables son medidas en el mismo

individuo o en individuos pareados (k muestras

relacionadas)

. Tiene la ventaja de examinar cambios en las variables categóricas.

VI: Dicotómica

VD: Nominal

(24)

Prueba

Dos muestras independientes

Variables

Prueba U de Mann-Whitney

Es equivalente a la prueba de suma de rangos de Wilcoxon y a la prueba de dos grupos de Kruskal-Wallis. Es la alternativa no paramétrica a

la

comparación

de

dos

promedios

(grupos)

independientes

(cuando la variable de estudio es ordinal) a través de la t de Student.

VI: Dicotómica

VD: Ordinal

Prueba de Kolmogorov-Smirnov

Sirve para contrastar la hipótesis de que dos muestras proceden de la misma población. Para ello, compara las funciones de distribución (funciones de probabilidad acumuladas) de ambas muestras.

VI: Dicotómica

VD: Ordinal/Intervalo

Prueba

K muestras independientes

Variables

Prueba H de Kruskal- Wallis

Es una extensión de la de U de Mann-Whitney y representa una excelente alternativa al ANOVA de un factor completamente aleatorizado. Se utiliza

para K

muestras independientes.

VI: Politómica

VD: Ordinal/Intervalo

PRUEBAS NO PARAMETRICAS

Prueba

Una

muestra

Variables

Rho de Spearman

Es una prueba de correlación (de asociación o interdependencia) entre dos variables cuantitativas- Es equivalente a la correlación de Pearson pero utilizado no en puntuaciones sino que éstos han sido convertidos a rangos. También se utiliza cuando las variables cuantitativas no tienen distribución normal; cuando una es cuantitativa (la independiente) y la otra ordinal (la dependiente).

VI: Numérica

VD: Numérica/ordinal

Tau b de Kendall

Es una prueba similar a la de Chi cuadrado, que se utiliza para establecer la correlación cuando las variables son

originalmente categóricas

. Y además, éstas variables categóricas deben tener la misma cantidad de categorías (tablas de 3x3, 4x4).

VI: Ordinal VD: Ordinal

(25)

EJEMPLOS DE USO DE LAS PRINCIPALES PRUEBAS NO PARAMETRICAS

1. CHI CUADRADO DE PEARSON

2

χ

Ejemplo 1

Hipótesis:

Las alteraciones de la Lordosis Lumbar tienen relación con la Lumbalgia Mecánica.

Ambas variables, alteraciones de la Lordosis Lumbar y Lumbalgia Mecánica,

son

variables cualitativas.

Ho:

Las alteraciones de la Lordosis Lumbar

NO

tienen relación con la Lumbalgia Mecánica.

Ha:

Las alteraciones de la Lordosis Lumbar

SI

Nivel de Significación

: α



5%

,

Prueba Estadística:

Chi-cuadrado

2 2

_



( i



i) c i O E E χ

Contrastación

:

Valor Chi Cuadrado de tabla χt 2 5,99

Valor Chi cuadrado calculado χ_c2



13,57

Decisión:

Ho se rechaza.

Conclusión:

Como el valor calculado ( χ_c2



13,57) es mayor que el valor de tabla

2 _5,99

t

χ



(cae en la zona de rechazo), podemos concluir que a un nivel de significación del 5% (0.001 < 0.05), se rechaza la hipótesis nula y acepta la hipótesis alterna:

Ha: Las alteraciones de la Lordosis Lumbar

SI

Tabla de contingencia Alteraciones de la Lordosis Lumbar * Lumbalgia Mecánica

Lumbalgia Mecánica Total

Lumbalgia Aguda Lumbalgia Subaguda Lumbalgia Crónica Hipolordosis Lumbar Recuento 10 5 4 19 % del total 21,7% 10,9% 8,7% 41,3% Hiperlordosis Lumbar Recuento 3 4 20 28 % del total 6,5% 8,7% 43,5% 58,7% Total Recuento 12 10 24 46 % del total 28,3% 19,6% 52,2% 100,0%

(26)

Prueba de Chi-Cuadrado

Valor gl Sig. asintótica (bilateral)

Chi-cuadrado de Pearson

13,566

a 2

0,001

Asociación lineal por lineal 13,051 1 ,000 N de casos válidos 46

a. 1 casillas (16,7%)tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 3,72.

Nota importante:

El mensaje que viene en la tabla de la prueba estadística Chi-cuadrado es fundamental para determinar si se acepta o no la asociación entre las variables. El porcentaje mínimo debe ser del 25%. Si este porcentaje supera el 25% entonces no podríamos utilizar el Chi-cuadrado y se debe recategorizar los niveles de una de las variables para aplicar la prueba exacta de Fisher o buscar otro estadístico de prueba.

Ejemplo 2

Hipótesis:

El número de caídas tiene relación con el grado de dependencia en las actividades diarias de un grupo de ancianos.

Una variable es cuantitativa (la independiente) y la otra variable es categórica (la dependiente) por tanto, se puede usar la prueba estadística de Chi-cuadrado.

Ho:

El número de caídas

NO

tiene relación significativa con el grado de dependencia en las actividades diarias de un grupo de ancianos.

Ha:

El número de caídas

SI

Nivel de Significación

: α



5%

,

Prueba Estadística:

Chi-cuadrado

2 2

_



( i



i) c i O E E χ

Contrastación

:

Valor Chi Cuadrado de tabla

2

12,59

t

χ 

Valor Chi Cuadrado calculado

2

52,48

c

(27)

Tabla de contingencia Número de caídas * Grado de dependencia

Grado de dependencia Total

Grave Moderada Leve Independiente

Número de caídas 1 Recuento 0 0 5 8 13 Frec. esperada 2,7 2,3 5,0 3,1 13,0 2 Recuento 0 6 8 0 14 Frec. esperada 2,9 2,5 5,4 3,3 14,0 3 Recuento 7 0 0 0 7 Frec. esperada 1,4 1,2 2,7 1,6 7,0 Total Recuento 7 6 13 8 34 Frec. esperada 7,0 6,0 13,0 8,0 34,0

La tabla nos muestra que 11 casillas,

es decir el 91,7%,

tienen frecuencias esperadas menor a 5. Este porcentaje supera al mínimo aceptable (25%), entonces

NO

podemos utilizar el Chi-cuadrado y se debe utilizar otra prueba estadística. Como la variable independiente es cuantitativa y la dependiente categórica, entonces se debe utilizar el coeficiente de correlación de Spearman. Al calcular el coeficiente de Spearman, se tiene:

Decisión:

Ho se rechaza.

Pruebas de chi-cuadrado

Valor gl Sig. asintótica

(bilateral)

Chi-cuadrado de Pearson 52,480a 6 ,000

Razón de verosimilitudes 54,644 6 ,000

Asociación lineal por lineal 26,834 1 ,000

N de casos válidos 34

a.11 casillas (91,7%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 1,24.

Correlaciones Número de caídas Grado de dependencia Rho de Spearman Número de caídas Coeficiente de correlación 1,000 -,879** Sig. (bilateral) . 0,000 N 34 34 Grado de dependencia Coeficiente de correlación -,879** 1,000 Sig. (bilateral) ,000 . N 34 34

(28)

Conclusión:

Como el p valor es p



0,000menor que el nivel de significancia

5% 0,05

α



podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: El número de caídas

SI

2. TEST EXACTO DE FISHER

Ejemplo

Hipótesis:

El género tiene relación con la ansiedad en un grupo de personas. Ambas variables, el género y la ansiedad, son variables cualitativas.

Ho:

El género

NO

tiene relación significativa con la ansiedad en un grupo de personas.

Ha:

El género

SI

Nivel de Significación

: α



5%

,

Prueba Estadística:

Chi-cuadrado

2 2

_



( _i



_i) c i O E E χ

Contrastación

:

Tabla de contingencia Sexo * Niveles de Ansiedad

Niveles de Ansiedad Total

Leve Moderado Severo

Sexo

Hombres

Recuento 2 7 6 15

Frecuencia esperada 5,9 5,5 3,6 15,0

% dentro de Niveles de Ansiedad 15,4% 58,3% 75,0% 45,5%

Mujeres

Recuento 11 5 2 18

Total

Recuento 13 12 8 33

Valor gl Sig. asintótica (bilateral)

Chi-cuadrado de Pearson 8,360a 2 0,015

Razón de verosimilitudes 9,014 2 ,011

Asociación lineal por lineal 7,602 1 ,006

(29)

La tabla nos muestra que dos casilla , es decir el

33;3%,

que supera al mínimo aceptable (25%), entonces

NO

podemos utilizar el Chi-cuadrado y se debe recategorizar los niveles de una de las variables para aplicar la

prueba exacta de Fisher

. Al recategorizar la variable ansiedad, en solo dos categorías (alta-baja) para poder utilizar el test exacto de Fisher, se tiene:

Valor gl Sig. asintótica

(bilateral) Sig. exacta (bilateral) Sig. exacta (unilateral) Chi-cuadrado de Pearson 5,241a 1 ,022

Corrección por continuidadb 3,762 1 ,052

Estadístico exacto de Fisher 0,037 0,025

b. Calculado sólo para una tabla de 2x2.

Decisión:

Ho se rechaza.

Conclusión:



5% 0,05

α



podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna:

Ha: El género

SI

Nota importante:

La prueba exacta de Fisher solo se utiliza cuando no se puede aplicar el Chi-cuadrado y además,

las variables tienen que ser dicotómicas

(la tabla de contingencia debe ser cuadrada de 2x2.

3. COEFICIENTE DE CORRELACIÓN DE SPEARMAN

Ejemplo

Se desea correlacionar el grado de Estrés Laboral (Bajo-Moderado-Alto) con los años de servicio, de un grupo de trabajadores de una determinada institución.

Como la variable años de servicio es la independiente y la variable estrés laboral es una variable categórica, se puede utilizar la prueba estadística de Spearman.

Hipótesis:

El número de caídas tiene relación con el grado de dependencia en las actividades diarias de un grupo de ancianos.

(30)

Una variable es cuantitativa (la independiente) y la otra variable es categórica (la dependiente) por tanto, se puede usar la prueba estadística de Chi-cuadrado.

Ho: NO

existe correlación entre el tiempo de servicios y el grado de estrés laboral en los trabajadores de una determinada institución.

Ha: Existe

correlación entre el tiempo de servicios y el grado de estrés laboral en los trabajadores de una determinada institución.

Nivel de Significación

: α



5%



0,05

Prueba Estadística:

Rho de Spearman

2 2 6 1 ( 1) i s d n n

r

 





Contrastación

: 0,412 s

r



y

p



0,002

Decisión:

Ho se rechaza.

Conclusión:



5% 0,05

α



Ha:

Existe

correlación entre el tiempo de servicios y el grado de estrés laboral en los trabajadores de una determinada institución.

Nota:

La correlación rho de Spearman es

r

_s



0, 412, por tanto se puede decir que la correlación entre los años de servicio y el estrés laboral es

moderada

.

Correlaciones Tiempo de Servicio Estrés Laboral Rho de Spearman Tiempo de Servicio Coeficiente de correlación 1,000 0,412** Sig. (bilateral) . 0,002 N 54 54 Estrés Laboral Coeficiente de correlación ,412** 1,000 Sig. (bilateral) ,002 . N 54 54

(31)

4. TAU b DE KENDALL

Ejemplo:

Se desea saber si el nivel de educación (primaria-secundaria-superior) es un factor predictivo para la consistencia o adherencia (buena-regular-mala), a un determinado tratamiento por parte de un grupo de personas.

Las variables son

categóricas

y además sus

escalas son iguales (3x3),

entonces se debe utilizar el estadístico de prueba Tau b de Kendall.

Hipótesis:

El nivel de educación es un factor predictivo para la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.

Ho: NO

existe correlación entre el nivel de educación y la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.

Ha:

Existe correlación entre el nivel de educación y la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.

Nivel de Significación

: α



5%



0,05

Prueba Estadística:

Tau b de Kendall

2 1 ( )( ) x x b C D C D E C D E

r





 

Contrastación

: 0,349 t

r



y

p



0,007 Correlaciones Grado de Estudios Adherencia al Tratamiento Tau_b de Kendall Grado de Estudios Coeficiente de correlación 1,000 0,349** Sig. (bilateral) . 0,007 N 50 50 Adherencia al Tratamiento Coeficiente de correlación ,349** 1,000 Sig. (bilateral) ,007 . N 50 50

**. La correlación es significativa al ni vel 0,01 (bilateral).

Decisión:

Ho se rechaza.

Conclusión:



5% 0,05

α



Ha:

Existe

correlación entre el nivel de educación y la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.