• No se han encontrado resultados

estadistica basica tapia pdf

N/A
N/A
Protected

Academic year: 2020

Share "estadistica basica tapia pdf"

Copied!
95
0
0

Texto completo

(1)

Nociones b´asicas de Estad´ıstica

Jes´

us Tapia

(2)
(3)

´

Indice general

1. Estad´ıstica e Investigaci´on 1

1.1. Los or´ıgenes . . . 1

1.2. Elementos te´oricos . . . 2

1.2.1. ¿Cu´ando utilizar la estad´ıstica en la investigaci´on? . . . 7

1.2.2. Problemas que pueden ser solucionados mediante m´eto-dos estad´ısticos. . . 7

1.2.3. Proceso estad´ıstico en la investigaci´on cient´ıfica . . . . 8

1.2.4. Poblaci´on y Muestra . . . 9

1.2.5. Variables . . . 9

2. Estad´ıstica descriptiva univariada 11 2.1. Definiciones . . . 11

2.2. Medidas de tendencia central . . . 16

2.3. Medidas de posici´on . . . 17

2.4. Medidas de dispersi´on . . . 18

2.5. Medidas de forma . . . 20

(4)

iv ´INDICE GENERAL

3. Introducci´on a la teor´ıa de probabilidad 27

3.1. Conceptos b´asicos . . . 27

3.2. Variables aleatorias . . . 30

3.3. Algunas distribuciones discretas de inter´es . . . 34

3.4. Algunas distribuciones continuas de inter´es . . . 37

3.5. Teor´ıa de muestreo . . . 43

3.5.1. Tama˜no de la muestra . . . 43

3.5.2. Tipos de Muestreo . . . 46

3.5.3. Clases de Muestreo . . . 46

4. Introducci´on a la Inferencia 49 4.1. Preliminares . . . 49

4.2. Teorema central del L´ımite . . . 50

4.3. Distribuci´on muestral . . . 50

4.4. Distribuci´on muestral de la media . . . 50

4.5. Distribuci´on muestral de las varianza . . . 51

4.6. Distribuci´on muestral de la diferencia de medias . . . 52

4.7. Estimaci´on de par´ametros . . . 54

4.7.1. Propiedades de los estimadores . . . 55

4.8. Pruebas de Hip´otesis . . . 60

4.9. La prueba t de Student. . . 61

4.9.1. Prueba t de student para una muestra . . . 61

4.10. Prueba t de Student para dos muestras . . . 63

(5)

´

INDICE GENERAL v

4.10.2. Dos Muestras Independientes . . . 66

5. Estad´ıstica bivariante 71 5.1. Estad´ıstica descriptiva bivariante . . . 71

5.2. Variables cualitativas frente a cualitativas . . . 71

5.3. Variable cualitativa frente a cuantitativa . . . 77

5.4. Variable cuantitativa frente a cuantitativa . . . 80

5.4.1. An´alisis de correlaci´on . . . 80

(6)

Cap´ıtulo 1

Estad´ıstica e Investigaci´

on

1.1.

Los or´ıgenes

Los or´ıgenes de la estad´ıstica se pueden decir tiene su nacimiento en la ´epoca de las civilizaciones m´as antiguas, desde el momento en que existi´o la necesidad de conocer el n´umero de habitantes y el recurso material para su subsistencia, de all´ı que practicaran recuentos rudimentarios de la poblaci´on y de las riquezas a los fines de su administraci´on. Con el transcurso del tiempo, los avances en la organizaci´on del estado, hicieron necesario conocer con mayor exactitud los hechos que afectan a la poblaci´on y a sus recursos, como eran los nacimientos, muertes, n´umero de pobladores, tierras en explotaci´on agr´ıcola, producci´on de alimentos, viviendas, etc. Con lo cual se da inicio a los primeros registros estad´ısticos Pero el origen de la estad´ıstica como ciencia actual, lo constituyen los juegos de azar.

En los pa´ıses europeos los juegos de dados, cartas, ruletas, etc., tomaron gran auge a partir del siglo XVI, algunos apasionados jugadores solicitaron el auxilio de matem´aticos de la ´epoca para tratar de obtener nuevas ganancias de los juegos. Es aqu´ı, cuando, matem´aticos como Pascal y Fermat, trataron de darle soluci´on a algunos problemas planteados por los jugadores, dando origen al futuro c´alculo de Probabilidades. Sin embargo el c´alculo de probabil-idades como ciencia alcanza su plenitud a principio del siglo XIX gracias a los trabajos de matem´aticos como Laplace, Bernoulli, Poison y Gauss, quienes construyeron la base fundamental de la teor´ıa de Probabilidades. Es ´esta, la ´epoca de la estad´ıstica asociada a la recolecci´on y descripci´on de datos.

(7)

Por otra parte la revoluci´on cibern´etica de la segunda mitad el siglo XX, ha introducido cambios en el tratamiento estad´ıstico de datos, asociados a la telem´atica, con el uso de paquetes estad´ısticos en microcomputadores, que permiten el procesamiento de gran flujo de datos en poco tiempo.

1.2.

Elementos te´

oricos

La investigaci´on cient´ıfica como aplicaci´on del m´etodo cient´ıfico requiere como factor de suma importancia de los m´etodos estad´ısticos, a fin de llegar realmente al conocimiento cient´ıfico, en el cual tiene como condiciones b´asicas ser objetivo, preciso y general; de igual manera todo conocimiento sobre la realidad es probabil´ıstica, esto nos muestra claramente la utilidad de la estad´ıstica en el proceso cient´ıfico.

Cada una de las etapas de la investigaci´on cient´ıfica est´an ´ıntimamente relacionadas con la estad´ıstica, a grandes rasgos esta relaci´on se pueden iden-tificar como:

Formulaci´on del problema:

Determinar los requerimientos cualitativos

Dise˜no del experimento:

• Definir variables Escala de mediciones

• Formular Hip´otesis H0, H1, α

• Selecci´on de instrumentos−→Validez, contabilidad, sensibilidad.

• Dise˜no muestral −→ Universo, poblaci´on, muestra, unidades de muestreo.

• An´alisis estad´ıstico−→ Estad´ıstica anal´ıtica e inferencial. Recolecci´on de datos

• Dise˜no y Prueba de instrumentos para recolecci´on de datos.

• Aplicaci´on de instrumentos para recolecci´on de datos.

Clasificaci´on, tabulaci´on y descripci´on de datos

• Distribuciones y medidas estad´ısticas de los datos obtenidos

(8)

• Estimaciones estad´ısticas de par´ametros: Pruebas param´etricas y no param´etricas.

• Inferencia sobre resultados obtenidos.

• Distribuciones mu´estrales

Elaboraci´on y publicaci´on de Informes

• Elaboraci´on de gr´aficas.

• Tablas

El esquema anterior muestra la relaci´on intr´ınseca existente entre la in-vestigaci´on cient´ıfica y la estad´ıstica.

Los m´etodos de an´alisis de los datos obtenidos a trav´es de la aplicaci´on de los instrumentos, dependen de tres factores:

1. El nivel de medici´on de las variables

2. La manera como se haya formulado las hip´otesis

3. El inter´es del investigador.

Los m´etodos de an´alisis aplicados a una variable nominal, no son los mismos que se puedan aplicar a una variable cuantitativa por intervalos. En general, el investigador busca en primer lugar describir los datos, luego efect´ua las pruebas de an´alisis para determinar las relaciones existentes entre las varia-bles, para luego inferir, la extrapolaci´on de los resultados obtenidos sobre la muestra, a la poblaci´on total. Cabe se˜nalar, que el an´alisis de los datos no es indiscriminado, cada m´etodo posee una raz´on de ser y un prop´osito especifico, tampoco se deber efectuar m´as an´alisis de los necesarios. La estad´ıstica no es un fin en si misma, es una herramienta para el an´alisis de datos.

Los principales an´alisis que se pueden efectuar son:

Estad´ıstica descriptiva.

Normalizaci´on de variables.

Razones y tasas

Estad´ıstica Inferencial.

(9)

Pruebas no param´etricas

An´alisis multivariado.

Un resumen de cada uno de estos m´etodos ser´a dado a continuaci´on; el estudio detallado de ellos se realizara posteriormente.

Estad´ıstica descriptiva la descripci´on de los elementos que componen un problema de investigaci´on, las caracter´ısticas de cada uno de los ele-mentos, es el inicio del an´alisis de los datos, esta tarea es la funci´on de la estad´ıstica descriptiva, es decir, la estad´ıstica descriptiva es una t´ecnica de reducci´on de informaci´on, un m´etodo que permite la selec-ci´on presentaselec-ci´on y caracterizaselec-ci´on de los datos, con la finalidad de especificar las caracter´ısticas que ellos presentan.

Las funciones de la estad´ıstica descriptiva son: la descripci´on de los ele-mentos que componen un problema de investigaci´on, las caracter´ısticas de cada uno de los elementos, es el inicio del an´alisis de los datos, esta tarea es la funci´on de la estad´ıstica descriptiva, es decir, la estad´ıstica descriptiva es una t´ecnica de reducci´on de informaci´on, un m´etodo que permite la selecci´on presentaci´on y caracterizaci´on de los datos, con la finalidad de especificar las caracter´ısticas que ellos presentan. Las funciones de la estad´ıstica descriptiva son:

Reducir los datos a proporciones manuales, para su empleo en medida de c´alculo.

Determinar los valores que se identifican mejor, o representan la generalidad de los posibles valores asignados a las variables.

La especificaci´on de los datos y el an´alisis estad´ıstico de ellos reportan, es fundamental en el estudio de la informaci´on acerca de la muestra en estudio. Entre la informaci´on m´as importante que se puede obtener, se rese˜na:

Identificar las caracter´ısticas m´as resaltantes de la muestra. Proveer una base para conocer los valores poblacionales

Estimar la magnitud de la relaci´on entre dos o m´as conjuntos de datos.

Proveer una base de datos para establecer predicciones del com-portamiento de la poblaci´on.

(10)

resumir la informaci´on contenida en una muestra son: son tablas, gr´afi-cos, medidas de tendencia central, medidas de dispersi´on medidas de posici´on, etc. El estudio en detalle de cada una de ellas se efectuara em-pleando paquetes estad´ısticos, pero una descripci´on simple, en funci´on de la escala de medici´on empleada se presenta en la tabla siguiente:

Variable Descripci´on Estad´ısticos y gr´aficas Nominal Valores no num´ericos

con ausencia de orden entre ellos

Distribuci´on de frecuencias Moda, Diagrama de barras o de sector

Ordinal Valores no num´ericos con presencia de orden entre ellos

M´ınimo, M´aximo, Mediana, Cuartiles Percentiles, Rango intercuart´ılico, Diagramas de caja y bigote

Cuantitativa

Discretas: unica-´ mente puede tomar una cantidad finita de valores num´ericos

Media, Rango, Mediana, Cuar-tiles, Coeficiente de variaci´on, Coeficiente de asimetr´ıa, Coe-ficiente de Kurtosis, Histogra-mas, Gr´aficos de tallo y hojas

Continuas: puede asumir cualquier va-lor num´erico en un intervalo

Estad´ıstica inferencial frecuentemente, el prop´osito de la investigaci´on va m´as all´a de la descripci´on de las variables, se pretende generalizar los re-sultados obtenidos de la muestra a la poblaci´on o al universo. Los datos casi siempre son recolectados de una muestra, sus resultados estad´ısti-cos se denominan estad´ıgrafos, la media, la varianza de la distribuci´on de una muestra son estad´ıgrafos; a las estad´ısticas de la poblaci´on o universo se les conoce como par´ametros. Los par´ametros no son calcu-lados porque no se recolectan datos de toda la poblaci´on, pero pueden ser inferidos de los estad´ıgrafos, de ah´ı el nombre de .es

tad´ıstica inferen-cial”. La inferencia de los par´ametros se lleva a cabo mediante t´ecnicas estad´ısticas apropiadas para ello, las cuales ser´an discutidas en detalles posteriormente.

La estad´ıstica inferencial se emplea en dos procedimientos diferentes, los cuales son:

(11)

en la muestra. Si la hip´otesis es consistente con los datos, ´esta es retenida como un valor aceptable del par´ametro. Si la hip´otesis no es consistente con los datos se rechaza ´esta, pero los datos no se descartan. Para entender en detalles el concepto de hip´otesis estad´ıstica es necesario revisar los conceptos de distribuci´on mues-tral y nivel de significancia, los cuales ser´an estudiados posterior-mente.

Cuando se efect´uan las pruebas de hip´otesis, existen dos tipos de an´alisis que se pueden realizar: los an´alisis param´etricos y los an´alisis no param´etricos. Cada tipo posee caracter´ısticas que lo sustentan y la elecci´on del investigador sobre que clase de an´ali-sis a efectuar depende de estas presuposiciones. Asimismo cabe destacar que en una misma investigaci´on pueden aplicarse an´ali-sis param´etricos para algunas hip´otean´ali-sis y variables y an´alian´ali-sis no param´etricos para otras.

Estimar par´ametros un aspecto muy interesante en la inferencia es-tad´ıstica es la estimaci´on de par´ametros, esta t´ecnica consiste e estimar o representar los diferentes par´ametros de la poblaci´on (media, varianza, mediana, etc.) a partir de su correspondiente estad´ıgrafo, el cual como se dijo, es obtenido de la muestra que se selecciono de la poblaci´on en estudio.

La estimaci´on de par´ametros se puede expresar de dos formas:

Estimaci´on puntual la estimaci´on puntual es un valor ´unico, que representa la estimaci´on del par´ametro sometido a estu-dio. Por ejemplo, cuando se dice que el sueldo promedio de un grupo de obreros es de 150.00 bol´ıvares al mes, se est´a en presencia de un estimador puntual

Estimaci´on por intervalos La estimaci´on por intervalos es, co-mo su nombre lo indica, un intervalo formado por valores mu´estrales, los cuales representan los l´ımites del intervalo en el cual se supone que est´a ubicado el verdadero valor pobla-cional que se pretende estimar, por ejemplo, cuando se dice que la nota promedio del curso de estad´ıstica b´asica esta com-prendida entre 13y 15.5 puntos, se est´a efectuando una esti-maci´on por intervalos.

En el caso de estimaci´on por intervalos, se emplea el valor proba-bil´ıstico que nos da la confianza de nuestra estimaci´on, este valor probabil´ıstico es conocido como el nivel de significancia. Por ejem-plo, cuando se dice que la nota promedio del curso de estad´ıstica b´asica esta comprendida entre 13y 15.5 puntos, con una confianza de 98 %, se est´a efectuando una estimaci´on por intervalos con un nivel de significancia establecido por el investigador.

(12)

n´umero de individuos se recurre a los m´etodos estad´ısticos multivaria-dos o multivariantes, la complejidad de estos m´etomultivaria-dos amerita un curso particular para el estudio de ellos.

1.2.1.

¿Cu´

ando utilizar la estad´ıstica en la investigaci´

on?

Las t´ecnicas estad´ısticas de an´alisis de datos se emplean en la investi-gaci´on cient´ıfica cuando ´esta presenta:

Variables que son cuantificables mediante conteo o alguna escala par-ticular de medici´on empleada por el investigador.

Cuando las unidades de muestreo son muy numerosas.

Cuando las unidades son heterog´eneas en cuanto a las variables de investigaci´on.

Cuando existe dificultad de controlar todas las variables que influyen sobre el fen´omeno en estudio.

Cuando la poblaci´on sobre la cual se desea efectuar la investigaci´on es dif´ıcil de observar de manera integral.

1.2.2.

Problemas que pueden ser solucionados

medi-ante m´

etodos estad´ısticos.

La estad´ıstica como t´ecnica en el an´alisis de datos permite resolver situa-ciones problem´aticas que satisfacen ciertas caracter´ısticas particulares como:

1. Precisar la frecuencia con que se presenta un fen´omeno o varias clases de fen´omenos que caracterizan una situaci´on problem´atica estudiada.

2. Determinar el valor, elemento o clase de elementos m´as representativos de un conjunto de observaciones.

3. Precisar el grado de relaciones que pueden existir entre dos o m´as vari-ables.

(13)

5. Definir el nivel de confianza que se puede tener en un resultado es-tad´ıstico obtenido.

6. Extrapolar la informaci´on que se tiene sobre una muestra, en estudio, a la poblaci´on o universo total.

7. Comparar el comportamiento de diferentes grupos ante un fen´omeno de estudio particular

8. Comparar el rendimiento laboral de diferentes grupos en una empresa particular.

9. Determinar conductas comunes sobre diferentes grupos humanos.

10. Cualquier otro problema en el cual sea necesario el manejo, descripci´on clasificaci´on comparaci´on de grandes cantidades de datos.

1.2.3.

Proceso estad´ıstico en la investigaci´

on cient´ıfica

El proceso estad´ıstico en la investigaci´on cient´ıfica se puede resumir en tres pasos fundamentales:

Elaboraci´on de la matriz de datos: la matriz de datos es un arreglo rectangular demfilas yncolumnas, una columna por cada variable, que caracteriza al problema de investigaci´on, el n´umero de filas representa las observaciones estudiadas durante el proceso de investigaci´on, cada variable debe ser definida en t´erminos de la escala de medici´on, tipo de variable y etiqueta que describa parcialmente los valores de la variable

Cargar la matriz de datos: la matriz de datos en la intersecci´on de la fila i con la columna j posee como valor de posici´on ij el valor de la observaci´onique se asigno a la variablej, por tanto la matriz de datos poseen×m valores.

Procesar la matriz de datos: en esta etapa de la investigaci´on cient´ıfica es necesario aplicar las t´ecnicas estad´ıstica, previamente seleccionadas por el investigador, la aplicaci´on de ´estas se efect´ua mediante el uso de un paquete estad´ıstico computarizado.

(14)

V1 V2 · · · Vp 1 v11 v12 · · · v1p 2 v21 v22 · · · v2p ... ... . .. ...

n vn1 vn1 · · · vnp

1.2.4.

Poblaci´

on y Muestra

Poblaci´on el conjunto de unidades f´ısicas (personas u objetos) a las cuales se les mide una o m´as caracter´ısticas, constituyen el universo, pudiendo obtenerse diferentes poblaciones de caracter´ısticas distintas; a saber: las poblaciones de pesos, tallas, calificaciones, etc. Algunos autores suelen considerar universo y poblaci´on como sin´onimos, s´olo puede ser correcto en caso que se defina de esta manera.

Muestra un subconjunto de la poblaci´on (o universo) seleccionado ade-cuadamente de forma tal, que sea representativa de la poblaci´on de origen, se denomina muestra estad´ıstica y el proceso de seleccionarla se conoce como muestreo estad´ıstico.

1.2.5.

Variables

Definici´on 1.1 Se conoce como variable a cualquier caracter´ıstica de un individuo: persona, regi´on u objeto, que toma valores o modalidades diferentes en un conjunto de observaciones o datos

Las variables pueden ser clasificadas de distintas maneras seg´un la natu-raleza que tengan sus valores o modalidades:

Variables cualitativas tambi´en conocidas como atributos, son aquellas vari-ables cuyas modalidades no son num´ericas, es decir son cualidades o caracter´ısticas, se clasifican a su vez en:

Nominales son aquellas variables cuyas modalidades no admiten or-denaci´on, Por ejemplo: Sexo, estado civil, Postgrado que realiza, Sector laboral, etc.

(15)

Variables cuantitativas son aquellas variables cuyas modalidades son nu-m´ericas, ejemplo edad, estatura, peso, n´umero de hijos, ingreso mensual del grupo familiar, etc. Se clasifican a su vez en:

Discretas asumen un n´umero finito de valores, por ejemplo: n´umero de hijos, Miembros del grupo familiar, d´ıas de entrenamiento en un deporte particular, etc.

(16)

Cap´ıtulo 2

Estad´ıstica descriptiva

univariada

2.1.

Definiciones

Definici´on 2.1 La estad´ıstica descriptiva univariada est´a constituida por un conjunto de t´ecnicas cuyo objetivo es clasificar, describir, resumir y analizar los datos relativos a una variable, es decir, a una caracter´ıstica de los indi-viduos de la poblaci´on.

Para lograr sus fines la estad´ıstica descriptiva de basa en dos tipos de t´ecnicas:

T´ecnicas gr´aficas est´an conformados por un conjunto de tablas y g´aficos que resumen una caracter´ıstica particular de un conjunto de datos, las m´as utilizadas son:

(17)

Porcentaje Porcentaje Frecuencia Porcentaje V´alido acumulado

V´alido Hombre 778 47.2 47.2 47.2

Mujer 871 52.8 52.8 100

Total 1649 100 100

Las tablas de frecuencias se pueden construir utilizando SPSS, al eje-cutar la secuencia de comandos:

Analizar -->Estad´ısticos descriptivos --> Frecuencias

La cual activa la caja de di´alogo:

Cuando la variables es continua, ´esta se debe discretizar o categorizar para poder construir su tabla de frecuencias.

Gr´aficos de Sectores al igual que las tablas de frecuencias, los gr´aficos de sectores sirven para representar variables cualitativas o cuantitativas discretas, cada modalidad o valor de la variable est´a representado por un sector circular de ´area proporcional a su frecuencia o porcentaje. Los gr´aficos de sector se pueden construir utilizando SPSS, al ejecutar la secuencia de comandos:

(18)

La cual activa la caja de di´alogo: o mediante

Gr´aficos--> sectores

El gr´afico obtenido es de la forma:

55,00 Mujer

45,00 Hombre

Gr´aficos de barras cada modalidad o valor de la variable est´a representa-do por un rect´angulo cuya altura corresponde a una frecuencia o un porcentaje.

Los gr´aficos de barras se pueden construir utilizando SPSS, al ejecutar la secuencia de comandos:

(19)

La cual activa la caja de di´alogo: o mediante

Gr´aficos--> Barras

El gr´afico obtenido es de la forma:

SEXO

SEXO

Mujer Hombre

Frecuencia

12

10

8

6

4

2

0

11

9

(20)

los rect´angulos unidos entre si, indicando de este modo que existe con-tinuidad en la escala de los valores de la variable.

Los histogramas se pueden construir utilizando SPSS, al ejecutar la secuencia de comandos:

Analizar -->Estad´ısticos descriptivos --> Frecuencias Gr´aficos--> Histogramas

La cual activa la caja de di´alogo:

o mediante

Gr´aficos--> Histogramas

El gr´afico obtenido es de la forma:

T´ecnicas num´ericas es posible condensar a´un m´as la informaci´on conteni-da en un conjunto de conteni-datos, con la ayuconteni-da de los estad´ısticos, que son cantidades num´ericas calculables en la distribuci´on de los datos, los cuales informan de alguna manera de sus caracter´ısticas. Los estad´ısti-cos tratan de reflejar num´ericamente distintos aspectos de la variable en estudio. Se pueden distinguir cuatro mediada o estad´ısticos asociados a una distribuci´on de datos:

1. Medidas de tendencia central 2. Medidas de posici´on

(21)

ingreso mensual

2200000,0 2000000,0 1800000,0 1600000,0 1400000,0 1200000,0 1000000,0 800000,0 600000,0

ingreso mensual

Frecuencia

5

4

3

2

1

0

Desv. t p. = 566970,8 Media = 1289806,0 N = 20,00

2.2.

Medidas de tendencia central

Por tendencia central se entiende un valor que representa al conjunto de valores de la distribuci´on de una variable. De acuerdo a la naturaleza de cada variable existen diferentes procedimientos para obtener una medida de tendencia central, los m´as comunes son:

La moda valor que posee la mayor frecuencia en una distribuci´on de datos, la denotamos por M0; es el valor que m´as se repite. Aunque puede

calcularse para cualquier tipo de variables, tiene m´as sentido cuando se trata de variables cualitativas o cuantitativas discretas

La mediana valor que ocupa la posici´on central de una distribuci´on orde-nada por sus valores. En consecuencia no tiene sentido calcularla en el caso de variables nominales. En otras palabras, la mediana puede entenderse como aquel valor que divide a la distribuci´on en dos partes iguales, se denota por Me.

Dado un conjunto de observaciones ordenadas de la variableX, deno-tado por

x1, x2, x3,· · · , xn

la posici´on en la cual se ubica la mediana est´a definida por

Kme =

(22)

sines un n´umero impar, entoncesKme es u n´umero entero, y la mediana

se alcanza sobre una de las n observaciones de X, en caso contrario, cuandones par,Kme =S,5, dondeS es un n´umero entero; y el valor de

la mediana no se alcanza sobre alguna observaci´on, pero est´a definido como:

Me =

xS+xS+1

2

es decir, el punto medio entre las observaciones de posici´onSy posici´on

S+ 1.

La media es un promedio de los valores de la distribuci´on obtenido medi-ante la divisi´on de la suma de todos los valores por el n´umero total de casos. La cantidad estimada por la media es el valor que tendr´ıan todos los individuos si todos tuvieran que tener un mismo valor, se denota por X, y se valor es:

X = 1

n

n

X

i=1 xi

2.3.

Medidas de posici´

on

Las medidas de posici´on son estad´ısticos de localozaci´on que indican el valor que ocupa un determinado orden en la distribuci´on, se denominan de manera general como Cuantiles. La medida m´as simple de posici´on es la mediana, ya que ella ocupa la posicic´on central de la distgribuci´on.

Otras medidas de posici´on son:

Cuartiles se define como cuartiles a los tres valores que dividen a la dis-tribuci´on en cuatro partes iguales, se denotan por Q1, Q2, Q3. As´ı, el

primer cuartil tiene un 25 % de los casos por debajo de dicho valor, el segundo cuartil coincide con la media y por tanto, deba por debajo el 50 % de los caso, mientras que el tercer cuartil deja por debajo al 75 % de los casos.

(23)

denotamos porK1, K2, K3 respectivamente y est´an definidas por:

K1 =

n+ 1 4

K2 =

n+ 1 2

K2 = 3

n+ 1 4

Si Kj = S.α, donde α es la parte decimal de la posici´on del j-´esimo cuartilj = 1,2,3, entonces el valor del cuartil Qj es

Qj = (1−α)xs+αxs+1 j = 1,2,3

Deciles se define como deciles a los nueve valores que dividen a la dis-tribuci´on en diez partes iguales, se denotan porD1, D2,· · · , D9. As´ı, el

primer decil tiene un 10 % de los casos por debajo de dicho valor, el quinto decil coincide con la media y por tanto, deja por debajo el 50 % de los caso, mientras que el noveno decil deja por debajo al 90 % de los casos.

Para estimar los deciles se debe determinar la posici´on de cada uno de ellos y luego se calcula su valor. La posiciones de cada decil las denotamos porKj j = 1,2,3,· · · ,9 respectivamente y est´an definidas por:

Kj = j

n+ 1

10 j = 1,2,· · · ,9

Si Kj = S.α, donde α es la parte decimal de la posici´on del j-´esimo cuartilj = 1,2,3, entonces el valor del cuartil Qj es

Qj = (1−α)xs+αxs+1 j = 1,2,3,· · · ,9

Percentiles son 99 valores que dividen a la dstribuci´on en 100 partes iguales, se denotan porP1, P2,· · · , P99. Su estimaci´on es an´aloga a los cuartiles

y deciles.

2.4.

Medidas de dispersi´

on

(24)

Las medidas de dispersi´on m´as usadas son:

M´ınimo corresponde al menor valor de las observaciones asociada a la vari-able en estudio.

M´aximo corresponde al mayor valor asumido por la variable entre el con-junto de datos estudiados

Rango se define como la diferencia entre los valores extremos de la variable estudiada, es decir, la diferencia entre el m´aximo y el m´ınimo valor. Puede estar muy condicionado por un solo valor extremo poco repre-sentativo de la magnitud estudiada. Se recomienda en tal caso estudiar el rengo intercuartil´ıco.

Rango intercuart´ılico es la diferencia entre el tercer y primer cuartil, in-dica entre cu´antos valores se encuentra el 50 % de los casos centrales de la distribuci´on. Se expresa como:

IQ=Q3−Q1

Varianza es la media aritm´etica de las desviaciones cuadr´aticas de los valo-res con valo-respecto a la media aritm´etica, asume siempre valor positivo, est´a definida por:

S2 = 1 n n X i=1

(xi −X)2

Los paquetes estad´ısticos calculan la varianza utilizando la expresi´on:

S2 = 1

n1 n

X

i=1

(xi−X)

2

conocido como cuasi-varianza

Desviaci´on t´ıpica o est´andar es la ra´ız cuadrada positiva de la varianza, se utiliza para devolver el valor de la varianza a sus unidades originales, se estima como:

S = v u u t 1 n n X i=1

(xi−X)2

Los paquetes estad´ısticos estiman con frecuencia la cuasidesviaci´on t´ıpi-ca S = v u u t 1

n1 n

X

i=1

(25)

Coeficiente de variaci´on es una medida de dispersi´on relativa, definida como el cociente entre la desviaci´on t´ıpica y el valor absoluto de media aritm´etica. Al ser un cociente carece de unidades de medida, y, en consecuencia se utiliza para comparar la dispersi´on entre variables que tengan distintas unidades de medida o distintas medias. Su valor es

CV = S

|X|

2.5.

Medidas de forma

Existen otras medidas cuyo prop´osito es expresar a trav´es de un n´umero la forma de la distribuci´on, las cuales se clasifican en dos tipos:

1. Medidas de simetr´ıa atiende a la forma horizontal de la distribuci´on, es decir, si la parte izquierda de la distribuci´on es semejante a su parte derecha. Su estudio se realiza mediante la estimaci´on del coeficiente de asimetr´ıa AS

2. Medidas de apuntalamiento expresan la forma vertical de la distribu-ci´on, es decir, si las frecuencias de los valores centrales son mayores que las de los valores extremos. Su estudio se realiza mediante la estimaci´on del coeficiente de KurtosisK.

Coeficiente de asimetr´ıa AS es el indicado del grado de simetr´ıa de la distribuci´on de los datos, puede estimarse mediante diferentes f´ormulas:

AS = 3(X−Me)

S Pearson

AS = Q3−2Q2+Q1

S Bowley

AS = m3

S3 Momentos

donde

m3 =

1

n

n

X

i=1

(xi −X)

3

Si AS = 0 se dice que la distribuci´on es sim´etrica y se cumple

(26)

Distribución simétrica

SiAS <0 se dice que la distribuci´on es asim´etrica a la derecha y se cumple la siguiente condici´on

X < Me < M0

es decir, m´as del 50 % de los datos son mayores que la media.

Distribución asimétrica a la derecha

M0 Pro

Si AS >0 se dice que la distribuci´on es asim´etrica a la izquierda y se cumple la condici´on

X > Me > M0

es decir, m´as del 50 % de los datos son menores que la media.

Distribución asimétrica a la derecha

M0 Pro

Los paquetes estad´ısticos emplean un coeficiente de asimetr´ıa estandariza-do definiestandariza-do por

As=

n

(n2)

m3 S3

(27)

Adem´as los momentos son calculados como

mj = 1

n1 n

X

i=1

(xi−X)j j = 1,2,3,· · ·

Coeficiente de Kurtosis K las medidas de apuntalamiento indican cu´an centradas o dispersas est´an las frecuencias de los valores en relaci´on con el punto medio de la distribuci´on. Si las frecuencias est´an concentradas en el centro, la distribuci´on se denomina leptoK´urtica, si las frecuencias mayores se ubican en los extremos es platik´urtica, en el caso intermedio ser´ıa una distribuci´on mesoK´urtica. El indicador del grado de apunta-lamiento de la distribuci´on es el coeficiente de Kurtosis, definido por:

K = m4

S4

donde

m4 =

1

n

n

X

i=1

(xi −X)

4

En t´erminos de K las distribuciones se clasifican como:

K >3 leptok´urticas

K = 3 mesok´urticas

K <3 platik´urticas

Kurtosis

K>3

K=3

(28)

Los paquetes estad´ısticos emplean un coeficiente de Kurtosis estandarizado definido por

Ks = 3K

pero en la mayor´ıa de los casos la f´ormula utilizada es

Ks =

n(n+ 1) (n2)(n3)

m4 S4

3 (n−1)

2

(n2)(n3)

as´ı, cuando

Ks=

( >

0 Leptokurtica = 0 Mesokurtica

<0 Platicurtica

Ejemplo 2.1 Estimar las medidas de tendencia central, dispersi´on, posici´on y forma par la distribuci´on de datos: 10,15,20,15,10

Los datos ordenados se expresan como:

10,10,15,15,20

La posici´on de la mediana la podemos calcular como:

KMe =

5 + 1

2 =

6 2 = 3 es decir, la mediana es el valor de posici´on 3, entonces

Me =x3 = 15

El valorMe= 15 nos indica que el 50 % de los datos son menores que ´el, mientras que el 50 % restante son mayores o iguales a este valor

Como los valores 10 y 15 se repiten dos veces entonces la distribuci´on de datos posee dos modas

La media aritm´etica de la distribuci´on de datos es

X = 10 + 10 + 15 + 15 + 20

(29)

es decir, si se desea asignar un ´unico valor a todas las observaciones, este valor debe ser igual a 14.

Los cuartiles de la distribuci´on de datos est´an ubicados en las posiciones:

K1 =

n+ 1

4 =

5 + 1 4 = 1,5

K2 =

n+ 1

2 =

5 + 1 2 = 3

K3 = 3

n+ 1

4 =

18 4 = 4,5

K1 = 1,5 indica que el primer cuartil es el punto medio entre las dos

primeras observaciones,K2 = 3 corrobora el c´alculo de la mediana, mientras

que K3 = 4,5 indica que el tercer cuartil es el promedio entre la cuarta y

quinta observaci´on.

As´ı, los valores de los cuartiles son:

Q1 = (1−0,5)x1+ 0,5∗x2

= 0,510 + 0,510 = 10

Q2 = x3 = 15

Q3 = (1−0,5)x4+ 0,5∗x5

= 0,515 + 0,520 = 17,5

Q1 = 10 indica que el 25 % de las observaciones es menor o igual a 10,

comoQ2 = 15 el cincuenta por ciento de la observaciones no superan el valor

de 15, mientras que, Q3 = 17,5 indica que s´olo el 25 % final supera el valor

de 17.5

Para calcular la varianza, el coeficiente de asimetr´ıa y el coeficiente de Kurtosis se necesita estimar los momentos respecto de la media, se constru-ir´a una tabla que contenga toda la informaci´on requerida:

X Xi−X (Xi−X)2 (Xi−X)3 (Xi −X)4

10 -4 16 -64 256

15 1 1 1 1

20 6 36 216 1296

15 1 1 1 1

10 -4 16 -64 256

(30)

Ahora

S2 = 1

n1

5

X

i=1

(Xi−X)

2

= 70

4 = 17,5

El coeficiente de variaci´on est´a dado por

CV = 17,5

14 = 1,25

El tercer y cuarto momento respecto de la media se calcula como:

m3 =

1 4

5

X

i=1

(Xi−X)

3

= 90

4 = 22,5

m4 =

1 4

5

X

i=1

(Xi−X)4 = 1810

4 = 452,5

de esta manera, el coeficiente de asimetr´ıa y de Kurtosis est´an dados por

As =

n

(n2)

m3 S3

= 5∗22,5

34,183 = 0,5122

K =

n(n+ 1) (n2)(n3)

m4 S4

3 (n−1)

2

(n2)(n3)

= 5∗6∗452,5 3217,517,5−

316 32 = 7,398 =0,6122

ComoAS >0 entonces la distribuci´on de los datos es sesgada a la izquierda, es decir, m´as del 50 % de los datos son mayores que la media. Por otra parte como K <0 entonces la mayor´ıa de las observaciones se ubican en los extremos de la distribuci´on, es decir, las colas de la distribuci´on son m´a ligeras que las de la distribuci´on normal y la curva es plantik´urtica

Los estad´ısticos estimados manualmente puede ser calculados mediante el SPSS, al ejecutar la secuencia de comandos:

Analizar --> Estad´ısticos descriptivos --> Frecuencias Estad´ısticos:

(31)

media mediana moda varianza Asimetr´ıa Kurtosis

Obteni´endose la tabla de resumen:

n v´alidos 5

Perdidos 0

Media 14.00

Mediana 15.00

Moda 10.00

Varianza 17.50

Asimetr´ıa 0.512

Kurtosis -0.612

Cuartiles

25 10.00 50 15.00 75 17.50

2.6.

Ejercicio Pr´

actico

El archivo Estad´ısticas.sav contiene las calificaciones del primer parcial de estad´ıstica I presentado por 70 alumnos cursantes. Utilizar los datos apor-tados para realizar la actividad siguiente:

1. Determine los cuartiles, media, mediana varianza coeficiente de varaici´on, asimetr´ıa y Kurtosis de la variable calificaciones

2. Determine el valor que deja por debajo al 65 % de los casos

3. ¿Qu´e calificaci´on obtuvo como m´ınimo el 34 de los mejores alumnos?

4. Entre que valores se ubicar´a el 60 % central de la distribuci´on de las calificaciones

5. Entre hombres y mujeres ¿Cu´al grupo presenta mayor variabilidad?

6. ¿M´as del 50 % de las calificaciones est´an por encima o por debajo de la media?

(32)

Cap´ıtulo 3

Introducci´

on a la teor´ıa de

probabilidad

3.1.

Conceptos b´

asicos

Despu´es de estudiar los elementos asociados a la estad´ıstica descriptiva, se abordar´an los t´opicos b´asicos de la teor´ıa de probabilidades necesarios para el estudio de la teor´ıa de muestreo e inferencia estad´ıstica.

Tipos de experimentos

Experimento deterministico es aquel experimento que realizado bajo las mismas condiciones produce los mismos resultados, es decir, una misma causa produce un mismo efecto.

Experimento aleatorio es aquel experimento que realizado bajo las mis-mas condiciones produce distintos e impredecibles resultados, es decir, se rompe la relaci´on un´ıvoca causa-efecto.

La teor´ıa de probabilidades es la ciencia que se ocupa del estudio de fen´omenos aleatorios.

Asociados a la teor´ıa de probabilidad existe un conjunto de fundamentos b´asicos, que enunciaremos a continuaci´on

(33)

Ejemplo 3.1 El lanzar de un dado balanceado es un experimento aleato-rio con espacio muestral

S =

1,2,3,4,5,6

Espacio muestral discreto se dice que un espacio muestral es discreto si sus valores pueden ponerse en correspondencia uno a uno con el con-junto de los n´umeros naturales.

Ejemplo 3.2 El n´umero de llamadas telef´onicas recibidas por una cen-tralista entre las 10:00 y 11:30 am, es un experimento aleatorio discreto, co espacio muestral

S=

0,1,2,3,4,5,6,· · ·

Espacio muestral continuo se dice que un espacio muestral es continuo si sus resultados consiste de un intervalo de los n´umeros reales.

Ejemplo 3.3 La concentraci´on de part´ıculas s´olidas en las aguas de un r´ıo es un experimento aleatorio con espacio muestral continuo

Evento es cualquier subconjunto de un espacio muestral, cuyos miembros poseen una caracter´ıstica com´un.

Ejemplo 3.4 El lanzar de un dado balanceado es un experimento aleato-rio con espacio muestral

S =

1,2,3,4,5,6

un evento asociado a este experimento lo constituye aquellos valores representados por n´umeros pares, es decir

E =

2,4,6

Probabilidad es la medida de la ocurrencia de los resultados de un experi-mento.

(34)

Interpretaci´on Laplaciana se define la probabilidad de un evento como la raz´on entre el n´umero de casos favorables y el total de todos los casos posibles, est´a basada fundamentalmente en situaciones generadas por los juegos de azar.

Ejemplo 3.5 Al lanzar un dado cual es la probabilidad que salga un n´umero par.

El espacio muestral est´a definido por

S=

1,2,3,4,5,6

mientras que el evento de salida de un n´umero par es

E =

2,4,6

de manera que el n´umero de casos favorables es tres y el total de posibles casos es seis, as´ı, la probabilidad de salir par se define como:

P(es par) = 3 6 =

1

2 = 0,5

en otras palabras existe un 50 % de posibilidades de obtener un n´umero par al lanzar el dado.

Interpretaci´on frecuentista se fundamenta en la ley emp´ırica de regulari-dad estad´ıstica: la frecuencia relativa de un suceso o evento tiende a estabilizarse cuando el n´umero de experimentos crece indefinidamente, Entonces definimos la probabilidad como el n´umero al que tiende la frecuencia relativa, es decir, se define como el l´ımite de la frecuencia:

P(A) = l´ım n→∞fr(A)

se basa en las teor´ıas de Von Mises (1920) y la definici´on axiom´atica de Kolmogorov (1933).

Interpretaci´on subjetiva o personal en este contexto, la probabilidad de ocurrencia de un suceso se interpreta como el grado de creencia que para una persona determinada tiene, en base a informaci´on a priori sobre el mismo, esta tendencia es conocida como el enfoque Bayesiano

Sea cual fuese el enfoque con que se estudie la probabilidad de ocur-rencia de un evento E, esta debe cumplir la condici´on

(35)

3.2.

Variables aleatorias

En la teor´ıa de probabilidad es muy importante conocer las caracter´ısticas del comportamiento de los posibles rebultados de un experimento aleatorio, este comportamiento es descrito por las variables aleatorias:

Variable aleatoria es toda funci´on que permite asignar un ´unico n´umero real a todos y cada uno de los elementos del espacio muestral de un ex-perimento aleatorio. En otras palabras, es una caracter´ıstica num´erica que resume los resultados de un experimento aleatorio y los cuantifica en t´erminos de probabilidad.

Variables discretas una variable aleatoria es discreta si la cantidad de valores que puede asumir es contable, ya sea finita o infinita.

Variables Continuas una variable aleatoria es continua cuando los valores que ella asume forman un conjunto infinito, es decir, no contable

Las variables aleatorias se acostumbran denotar con letras may´usculas

X, Y, Z,· · ·, mientras que los valores que ellas asumen se denotan con letras min´usculasx, y, z,· · ·

En general, una variable aleatoria discretaX representa los resultados de un espacio muestral en forma tal que porP(X =x) se entender´a la probabilidad de que X tome el valorx.

Definici´on 3.1 sea x una variable aleatoria discreta, se denomina funci´on de probabilidad o densidad de X a la funci´on f(x) = P(X = x), la cual satisface las siguientes propiedades

1. f(x)0 para todo valor x de X

2. P

xf(x) = 1

Definici´on 3.2 La funci´on de distribuci´on acumulada de la variable aleato-ria discreta X es la probabilidad de que X sea menor o igual a un valor especif´ıco de x y esta definida por

F(x) =P(xx) = X xi≤x

(36)

Por lo tanto, en el caso discreto, una variable aleatoria X est´a caracteri-zada por una funci´on de probabilidad puntual f(x), la cual determina la probabilidad puntual de que X =x, y por la funci´on de distribuci´on acumu-lada F(x), la que representa la suma de las probabilidades puntuales hasta el valor x de la variable X, inclusive.

Ejemplo 3.6 Se lanzan al aire tres monedas, considere el evento n´umeros de cara. Determine la funci´on de densidad y distribuci´on de probabilidades asociada al evento.

Soluci´on

Si denotamos porc la aparici´on de una cara y pors un sello, entonces el espacio muestral est´a definido por:

S =

ccc, ccs, css, sss, scc, ssc, scs, csc

la variable X = n´umero caras, asume los siguientes valores

no

de caras evento

0 sss

1 css, ssc, scs

2 ccs, scc, csc

3 ccc

entonces tenemos

f(0) = P(X = 0) = 1 8

f(1) = P(X = 1) = 3 8

f(2) = P(X = 2) = 3 8

(37)

de manera an´aloga se tiene

F(0) = P(X = 0) = 1 8

F(1) = P(X 1) =P(X = 0) +P(X = 1) = 1 8+

3 8 =

4 8 =

1 2

F(2) = P(X 2) = 1 8 +

3 8 +

3 8 =

7 8

F(3) = P(X 3) = 1 8 +

3 8 +

3 8 +

1 8 = 1

la funci´on de probabilidad f(x) puede ser representada como:

x f(x)

0 1 2 3

* *

* *

1/8 3/8

Definici´on 3.3 Dada X una variable aleatoria continua, si existe una fun-ci´on f(x) tal que

1. f(x)0 cuando −∞< x <+

2. R+∞

−∞ f(x)dx= 1

3. P(a x b) = Rb

af(x)dx para cualquier a y b, entonces f(x) es la densidad de la variable aleatoria X.

Puesto que el ´area total bajo la curva f(x) es uno, la probabilidad del in-tervalo a x b es el ´area acotada por la funci´on de densidad y las rectas

(38)

b

a

f(x)

Al igual que en el caso discreto, la funci´on de distribuci´on acumulada de una variable aleatoria continua X es la probabilidad de queX tome un valor menor o igual a alg´unx espec´ıfico, esto es

F(x) = P(X x) =

Z x

−∞

f(t)dt

Por lo tanto, la funci´on de distribuci´on acumuladaF(x) es el ´area acotada por la funci´on de densidad que se localiza a la izquierda de la recta X =x, como se ilustra en la figura siguiente:

F(X)

x

La distribuci´on de probabilidades es una funci´on continua no decreciente de los valores de la variable aleatoria con las siguientes propiedades

1. F(−∞) = 0

2. F() = 1

3. P(axb) = F(b)F(a)

4. d

(39)

3.3.

Algunas distribuciones discretas de

in-ter´

es

Dentro del conjunto de distribuciones discretas de probabilidad se desta-can las distribuciones Binomial y de Poisson.

Distribuci´on Binomial una variable aleatoria X se dice que posee una distribuci´on Binomial con par´ametrosn∈ {0,1,2,3,· · · } y p[0,1] si su espacio muestral est´a definido por S = {0,1,2,· · ·, n} y para cada

kS se tiene:

P(X =k) = nk pk(1p)n−k

La funci´on de distribuci´on de una variable binomial es:

F(X =k) = k

X

j=0

n

j

pj(1p)n−j

La media y la varianza de una distribuci´on Binomial son:

µ = np

σ2 = np(1p)

La variable X es dicot´omica, es decir, s´olo puede asumir dos valores, por ejemplo el lanzar al aire una moneda.

Ejemplo 3.7 Una prueba de opci´on m´ultiple consta de 24 ´ıtem y cada uno de ellos posee 4 opciones.

1. Determine la probabilidad de contestar exactamente 12 respuestas correctas

2. Determine la probabilidad de contestar no m´as de 5 respuestas correctas

3. Determine la predecibilidad de contestar al azar m´as de la mitad de respuestas incorrectas

(40)

La respuesta de cada ´ıtem puede ser contestada de dos formas: correcta o err´onea, as´ı, podemos definir una variable aleatoria:

X =

( 1 respuesta correcta

0 respuesta err´onea

es decir,X es una variable aleatoria Binomial; como existen 4 opciones de respuesta y s´olo una es correcta, entonces

probabilidad de ´exito : p= 1 4

probabilidad de fracaso : q= 1p= 3 4

adem´as, el total de ocurrencias de X esn = 24, de donde

X Bin

x,24,1

4

Ahora

P(X = 12) = 2412 1 4

123

4

24−12

= 0,0051

en otras palabras, solamente el 051 % contesta exactamente 12 pregun-tas correcpregun-tas

La probabilidad de contestar no m´as de 5 respuestas correctas, es la suma de las probabilidades de contestar n respuestas correctas cuando

n = 1,2,3,4,5, as´ı,

P(X 5) =

5

X

k=0

P(X =k)

=

5

X

k=0

24

k

1 4

k3

4

24−k

= CDF.Bin

5,24,1

4

= 0,422

(41)

Para determinar la probabilidad de contestar m´as de la mitad de las repuestas incorrectas, usando complemento, calculamos:

1P(x11) = 1CP F :Bin

11,24, ,25)

= 10,9928 = 0,0072

es decir, s´olo el 0.72 % contesta m´as de la mitad de las respuestas in-correctas.

Distribuci´on Poisson en estad´ıstica y probabilidad se dice que una vari-able discretaX se distribuye Poisson, cuando la densidad deX expresa la probabilidad de que un n´umero de eventos ocurran en un periodo de tiempo determinado, suponiendo que son independientes y que se conoce su promedio λ, esta distribuci´on fue desarrollada por Sime´on-Dennis Poisson, su distribuci´on de probabilidad est´a dada por

P(X =x, λ) = λ xe−λ

x! x= 0,1,2,3,· · ·

La funci´on de distribuci´on de una variable binomial es:

F(X =k) = k

X

j=0 λje−λ

j!

La media y la varianza de la distribuci´on Poisson son

µ = λ

σ2

= λ

Ejemplo 3.8 En el proceso de Admisi´on los aspirantes al Postgrado en Gerencia general, la proporci´on de aspirantes rechazados es p=,01. Se elige una muestra al azar de 30 aspirantes:

1. cu´al es la probabilidad de rechazar 2 aspirantes

2. cu´al es la probabilidad de rechazar un m´aximo de 5 aspirantes

Soluci´on

(42)

Como la proporci´on de rechazados es p= 0,1 y la muestra la conforman 30 aspirantes, entonces el promedio de la muestra es

λ =np= 300,1 = 3

As´ı, X P oisson(3)

Luego:

P(X = 2) = e−

3

∗32

2!

= 9

2e3 = 0,1120

as´ı, podemos concluir que existe un 11.20 % de posibilidades de rechazar exactamente 2 aspirantes de la muestra.

Por otra parte:

P(X 5)

5

X

k=0

P(X =k)

=

5

X

k=0 e−3

∗3k

k!

= CDF.P oisson(5,3) = 0,9161

3.4.

Algunas distribuciones continuas de

in-ter´

es

Dentro de la amplia gama de distribuciones continuas de reducibilidades consideraremos algunas de ellas, las de mayor inter´es en el ´ambito de las aplicaciones estad´ısticas; citaremos: la distribuci´on normal, la distribuci´on chi-cuadrado χ2

, la distribuci´on F y la distribuci´on t de student.

(43)

sim´etrica que se extiende sin l´ımite tanto en la direci´on positiva como negativa.

Se dice que una variable aleatoria continua X est´a normalmente dis-tribuida si su funci´on de densidad probabil´ıstica est´a definida por:

f(x) = 1

σ√2πe

−(x−µ)2

2σ2 − ∞ ≤x, µ ≤+∞, σ >0

Los par´ametros de la distribuci´on son la media y la varianza µ, σ2

respectivamente.

La apariencia geom´etrica de la distribuci´on normal con media 0 y varianza 1 se ilustra en la figura siguiente:

La funci´on de distribuci´on de probabilidad para una variable X dis-tribuida normalmente es

F(x) = 1

σ√2π

Z x

−∞

e−(t2−σµ2)2dt

Cuando µ = 0, σ = 1 existen tabla que resumen las probabilidades acumuladas para la distribuci´on normal.

La distribuci´on normalN(0,1) presenta una caracter´ıstica muy impor-tante y de gran utilidad en la inferencia estad´ıstica, la cual describe el porcentaje de informaci´on contenida en intervalos sim´etricos al rededor de la media, as´ı, 1 x 1 contiene el 68.27 % de la informaci´on,

−2 x 2 contiene 95.45 % y finalmente 3 x 3 contiene el 99.73 % de la informaci´on total, intervalos sim´etricos centrados en el origen con extremos mayores o iguales que 4 contienen el total de la informaci´on.

Ejemplo 3.9 Las calificaciones acumuladas en la escala 1-100 de 70 alumnos del curso de Estad´ıstica se distribuyen normal con media 54 y dseviaci´on est´andar 9.

(44)

N(0,1)

0 1 -1

68.27% 2

-2

95.45% 99.73%

3 -3

1. Cu´al es la probabilidad de obtener una puntuaci´on igual o inferior a 49

2. cu´al es la probabilidad de su calificaci´on var´ıe entre 61 y 74 3. La amplitud intercuartil´ıca

4. Cu´antos participantes tiene un puntaje mayor o igual que 51

Soluci´on

Por definici´on X N(54,9), entonces

P(X 49) = CDF.N ormal(49,54,9) = 0,2893

es decir, el 28.93 % de la calificaciones son menores o iguales a 49 puntos

P(61X 74) = CDF.N ormal(74,54,9)CDF :N ormal(61,54,9) = 0,98690,7817 = 0,2052

as´ı, el 2o.52 % de las calificaciones se ubican entre 61 y 74 puntos. Para calcular el rango intercuartil´ıco se deben estimar el primer y tercer cuartil as´ı,

Q1 = IDF :N ormal(0,25,54,9) = 47,93 Q3 = IDF :N ormal(0,75,54,9) = 60,07

luego el rango intercuartil´ıco es

(45)

el 50 % de las calificaciones centrales difieren en 12.14 puntos. Final-mente se debe estimar la probabilidadP(X >51); la cual esta definida por:

P(X >51) = 1P(X 51)

= 1CDF.N ormal(51,54,9) = 10,369 = 0,6306

Luego, la cantidad de alumnos con calificaciones mayores a 51 puntos es

n=P(X >51)70 = 44,14

entonces 44 de los 70 participantes poseen calificaciones mayores a 51 puntos

Distribuci´on χ2

supongamos se tienen X1, X2,· · · , Xk; k variables

nor-males con media cero y varianza uno, definimos

Z =X12+X 2

2 +· · ·+X 2

k

la variableZ se distribuye como una χ2

con k grados de libertad y su funci´on de densidad probabil´ıstica est´a definida por:

f(x) =

( 1

Γ k

2

2k2x

k

2−1e−

x

2 si x >0

0 otros casos

Γ(x) es la funci´on gamma, los par´ametros de la distribuci´on χ2

son:

µ = k

σ2

= 2k

la gr´afica de la disribuci´on χ2

para ciertos valores de k se ilustra a continuaci´on:

Distribuci´on F si U es una variable χ2

con n grados de libertad y V es otra χ2

con m grados de libertad entonces la variable

X =

U n V m

posee una distribuci´on F con n, m grados de libertad, cuando U y V

(46)

k=2 k=3

k=4

k=6

La funci´on de densidad probabil´ıstica de una variable X distribuida

Fn,m, es de la forma:

f(x) = 1

β n2,m2

x

nx nx+m

n2

1 nx

nx+m

m2

donde β(t) es la funci´on matem´atica beta.

La distribuci´on Fn,m se caracteriza completamente por los grados de libertas n, m, de manera tal que.

µ = m

m2 m >2

σ2

= m

2

(2m+ 2n4)

n(m2)2(m

−4) m >4

La distribuci´onFn,m es asim´etrica positiva para cualquier valor den, m, su gr´afica es de la forma:

Distribuci´on t de student dadas U una variable distribuida normal con media 0 y varianza 1, V una variable aleatoria χ2

(47)

libertad, independientes, la variable aleatoria

X= qU

V n

posee una distribuci´ontde student conngrados de libertad y su funci´on de densidad de probabilidad est´a definida por

f(x) = Γ n+1

2

nπ Γ n

2

1 + x

2 n

−n+12

la media y la varianza de una variabletn son

µ = 0 n >1

σ2

= n

n2 n >2

Geom´etricamente, la distribuci´on t se asemeja a una normal, cuando

n > 30 la similitud se acent´ua, por ejemplo, para n = 3 en la gr´afica siguiente comparamos t3 con la curva normal est´andar:

N(0,1)

(48)

As´ı, como la distribuc´on normal es de gran importancia en la teor´ıa de inferencia estad´ıstica, las distribuciones t, F, χ2

son elementos funda-mentales en la formulaci´on de pruebas de bondad de ajuste, raz´on por la cual son citadas en estas notas.

3.5.

Teor´ıa de muestreo

Un subconjunto de la poblaci´on (o universo) seleccionado adecuadamente, de forma tal que sea representativa de la poblaci´on de origen, se denomina muestra estad´ıstica y el proceso de seleccionarla se conoce como muestreo estad´ıstico.

La teor´ıa de muestreo se realiza de manera tal que los elementos carac-ter´ısticos de la poblaci´on pueden ser estimados a partir de la informaci´on obtenida de la muestra, tambi´en es de gran utilidad cuando se desea deter-minar si las diferencias que se pueden observar entre las caracter´ısticas de varias muestras, se deben a cuestiones del azar o si son reales o verdadera-mente significativas; tales decisiones de toman mediante la aplicaci´on de los llamados ensayos o hip´otesis de significancia.

Por otra parte, la utilizaci´on de las muestras posee entre otras ventajas:

1. La calidad de la informaci´on obtenida, debido a que se necesitan menos colaboradores, se pueden elegir de mejor nivel.

2. El costo es menor y se puede obtener un mejor rendimiento del capital invertido

3. Se obtiene una disminuci´on notable del tiempo necesario para levantar la informaci´on deseada

3.5.1.

Tama˜

no de la muestra

El tama˜no de la muestra depende de cuatro elementos:

1. El tama˜no de la poblaci´on: finita o infinita; una poblaci´on se considera finita si no posee m´as de 100.000 individuos, e infinita en caso contrario

(49)

3. El error de estimaci´on permitido

4. La proporci´on en que se encuentra en la poblaci´on la caracter´ıstica estudiada, cuando no es posible mediante una prueba piloto estimar esta proporci´on, se adotar´a el supuesto de que dicha proporci´on es del 50 %

Para poblaciones con m´as de 100.000 individuos, el tama˜no de la muestra se calcula mediante la f´ormula

n= σ

2 pq E2

mientras que para poblaciones con menos de 100.000 individuos la identidad utilizada es

n = N σ

2 pq E2(N

−1) +σ2pq

donde

n : tama˜no de muestra

N : tama˜no de poblaci´on

E : error de estinaci´on permitido 0 < E <1

p : probabilidad de seleccionar a cada individuo

q : probabilidad de ser rechazado cada individuo

σ : cuantil de la distribuci´on normal asociada al nivel de confianza

Por lo general, el nivel de confianza se ubica por encima del 95 %, as´ı, cuando el nivel de confianza est´a ubicado entre 95.5 % y 99.5 % el valor de

σ = 2, mientras que para niveles de confianzas superiores al 99.5 % se elige

σ= 3

Ejemplo 3.10 Para establecer una clasificaci´on de las playas del litoral cen-tral, en playas aptas y no aptas para el uso de los temporadistas, se desea seleccionar una muestra de ellas con un nivel de confianza del 99.8 %, un error m´aximo de esrimaci´on del 3 %, a partir del 75 playas existentes.

De la informaci´on aportada, sabemos que:

(50)

El nivel de confianza esperado es del 99.9 %, de donde σ = 3

El error de estimaci´on permitido es del 3 %

Como no existen indicios acerca de la proporci´on de playas seleccionadas y no seleccionadas, se considera p=q = 50 %

as´ı, el tama˜no de la muestra est´a definido por

n = N σ

2 pq E2(N

−1) +σ2pq

= 75∗3

2

∗5050 32

∗(751) + 32

∗5050 = 1686500

23166 = 72,85 la muestra est´a conformada por 72 playas

Ejemplo 3.11 Con el fin de desarrollar un plan piloto de educaci´on ambi-ental en los ni˜nos de la primera y segunda etapa de Educaci´on B´asica en el estado Barinas, se seleccionaron 420 escuelas en los 11 municipios del estado, cada escuela posee en promedio 240 alumnos de la primera y segun-da etapa en el turno de la ma˜nana. Determine el tama˜no de la muestra de alumnos con los cuales se trabajar´a en el plan piloto, si el nivel de error de estimaci´on m´aximo permitido es del 4 % y el nivel de confianza esperado es del 96.7 %

El estudio se realizar´a en 420 escuelas, cada una con 240 alumnos en promedio, as´ı, la poblaci´on total es de 240420 = 100,800 alumnos, es decir, la poblaci´on es infinita, el error de estimaci´on m´aximo permitido es el 4 %, es decir, E = 4, por otra parte, el nivel de confianza es del 96,7 %, entonces

σ = 3, adem´as, como no esta definida la proporci´on entre seleccionados y no seleccionados, se conceder´anp=q= 50 %, el tama˜no estimado de la muestra es:

n = σ

2 pq E2

= 3

2

∗5050 42

= 22500

16 = 1406,25

(51)

3.5.2.

Tipos de Muestreo

Muestreo probabil´ıstico: Cuando la selecci´on de las unidades mu´estrales se realizan aleatoriamente o al azar, se debe conocer de antemano la probabilidad de obtenci´on de cada una de las muestras posibles de seleccionar (por lo general se da el caso de considerar igual probabilidad de selecci´on).

Muestreo Intencional: En este caso, el encargado de seleccionar la mues-tra es qui´en procura que sea representativa, debe tener conocimiento de la poblaci´on en estudio, lo que contribuye a eliminar en algo la sub-jetividad, pero a´un as´ı est´a influida por las preferencias o tendencias de qui´en realiza el muestreo.

Muestreo sin Norma: Se selecciona la muestra de cualquier forma por ra-zones de comodidad o circunstancias; se logra representatividad s´olo cuando la poblaci´on es muy homog´enea.

3.5.3.

Clases de Muestreo

Muestreo Aleatorio Simple: Es realizado al azar y cada elemento de la poblaci´on tiene igual probabilidad de integrar la muestra (Equiproba-bilidad de Selecci´on). Puede ser efectuado en dos formas:

1. Con reemplazamiento: Cada elemento es devuelto a la poblaci´on despu´es de anotar sus caracter´ısticas, coincide con el muestreo de poblaci´on infinitas.

2. Sin reemplazamiento. El elemento seleccionado para integrar la muestra deja de ser seleccionable, por tanto la poblaci´on es agotable y por supuesto finita, se suele llamar muestreo irrestrictamente aleatorio.

Ejemplo 3.12 En el ejemplo 7 fue estimado el tama˜no de la muestra, obteniendo 72 seleccionados de un total de 75, para seleccionar cada playa que pertenezca al estudio, se procede de la forma siguiente

se enumeran las 77 playas de manera ascendente

(52)

Muestreo Estratificado: A fin de disminuir la variabilidad de la poblaci´on, ´esta se divide en subgrupos o estratos, buscando mayor homogeneidad dentro de cada estrato (menor variabilidad).

El reparto de la muestra entre los diferentes estratos se denomina Afi-jaci´on y esta puede ser:

Arbitraria: Cuando se distribuye la muestra en cada estrato indepen-dientemente del total de elementos que compone a cada uno de ellos.

Igual: Cuando se reparte la muestra por igual a cada estrato.

Proporcional: Cuando se reparte proporcionalmente al n´umero de elementos que componen la poblaci´on de cada estrato.

´

Optima: Cuando se distribuye la muestra en forma proporcional al n´umero de elementos y a la desviaci´on t´ıpica de cada estrato.

Ejemplo 3.13 Para el ejemplo 7 el litoral central se divide en tres re-giones, sector sur, sector central y sector norte, el tama˜no de la muestra se divida entre tres para obtener la cuota de selecci´on en cada sector

C = 72 3 = 24

en cada sector se seleccionan al azar 24 playas, mediante muestreo al azar

Muestreo por Conglomerados: Las unidades de muestreo se sustituyen por un grupo de ellas, se trata de que cada conglomerado sea represen-tativo en lo posible de la poblaci´on.

Muestreo Biet´apico: Es una modificaci´on del muestreo por conglome-rados, aqu´ı no forma parte de la muestra todas las unidades de los conglomerados, sino que una vez seleccionados ´estos, se efect´ua un submuestreo dentro de cada conglomerado.

Muestreo Poliet´apico: Es una generalizaci´on del Biet´apico, los con-glomerados seleccionados en la primera etapa puede estar forma-do por nuevos conglomeraforma-dos, de tal forma que se pueda sub-muestrear unidades de conglomerados dentro de conglomerados.

Ejemplo 3.14 Siguiendo con el ejemplo 8, el procedimiento para la selecci´on de la muestra mediante conglomerados es el siguiente:

(53)

como la muestra a elegir consta de 1406 alumnos y cada escuela posee en promedio 240 alumnos se establece el n´umero de escuelas a seleccionar (conglomerados) definido por:

k = 1406

240 = 5,85

es decir, se seleccionan al azar 5 escuelas para el plan piloto, de ellas se seccionan los 1406 alumnos

Muestreo Sistem´atico: Se toman los elementos de la poblaci´on que van a formar la muestra en forma sistem´atica de K en K a partir de un elemento tomado al azar.

Muestreo Bif´asico: Se toma una muestra grande en forma r´apida y sencilla y con la informaci´on obtenida de ella, se dise˜na una muestra m´as peque˜na para referirnos a la caracter´ıstica objeto de estudio.

Muestreo Polif´asico o M´ultiple: Es una extensi´on del anterior a tres o m´as fases.

Ejemplo 3.15 Siguiendo con el ejemplo 8, para aplicar muestreo sis-tem´atico, se recomienda seguir el siguiente procedimiento:

se divide el tama˜no de la poblaci´on entre el tama˜no de la muestra para obtener la longitud de la cota de selecci´on

K = 100,800

1406 = 71,69≈71

se elige al azar un n´umero entre 1 y 100.800, primer caso selec-cionado en la muestra, digamos 17

se enumera de manera ascendente la poblaci´on la serie seleccionada la conforman

17,88,159,230,301,372,· · ·

(54)

Cap´ıtulo 4

Introducci´

on a la Inferencia

4.1.

Preliminares

Frecuentemente, el prop´osito de cualquier investigaci´on va m´as all´a de describir las distribuciones de las variables por si solas, se pretende generalizar los resultados obtenidos en la muestra a la poblaci´on o universo. Los datos obtenidos casi siempre son recolectados de una muestra y sus resultados estad´ısticos se conocen como estad´ıgrafos, la media la desviaci´on est´andar, la varianza, etc. Son estad´ıgrafos. A los valores estad´ısticos de la poblaci´on se le conocen como par´ametros. Los par´ametros no son calculados porque los datos sobre la poblaci´on no siempre se pueden recolectar en la mayor´ıa de los casos; pero pueden ser inferidos en funci´on de los estad´ısticos de la muestro. As´ı una herramienta fundamental de la inferencia estad´ıstica es la recolecci´on de datos en las muestras o muestreo.

La inferencia de los par´ametros poblacionales se lleva a cabo mediante t´ecnicas estad´ısticas apropiadas para ello. Estas t´ecnicas se estudian en esta secci´on. La estad´ıstica inferencial puede ser utilizada para dos fines diferentes:

1. Estimar par´ametros

2. Probar hip´otesis.

(55)

4.2.

Teorema central del L´ımite

Teorema 4.1 Sean X1, X2,· · · , Xn un conjunto de n variables aleatorias independientes con distribuci´on normal con media µy varianza σ2

considere la variable

Y = 1

n

n

X

i=1 Xi

es decir la media muestral, entonces Y posee una distribuci´on l´ımite

N

µ,σ 2 n

Este resultado se cumple sin importar la forma de la distribuci´on de proba-bilidad de las variables en estudio.

Del teorema central del l´ımite se tiene el siguiente resultado equivalente:

Z =

n

Y µ

σ ∼N

0,1

4.3.

Distribuci´

on muestral

Una distribuci´on muestral consiste de un conjunto de valores de un es-tad´ıstico calculado sobre todas las muestras posibles de un determinado tama˜no. Por ejemplo el valor de la medias de todas las muestras de tama˜no cuatro tomadas de una poblaci´on cualquiera. Las distribuciones muestrales se pueden determinar para cada uno de los estad´ısticos asociados a una muestra como son: media, mediana, desviaci´on est´andar, varianza, cuartiles, deciles, percentiles, etc. las distribuciones muestrales de medias son probablemente las m´as conocidas, pero es necesario conocer el concepto de distribuci´on mues-tral asociado a cualquier estad´ıstico S asociado a las muestras de tama˜no n extra´ıdas de una poblaci´on dada.

4.4.

Distribuci´

on muestral de la media

(56)

de la media obteni´endose un conjunto de observacionesX1, X2,· · · , Xk a las cuales se les pueden calcular los estad´ısticos m´as comunes como son la media, la desviaci´on est´andar y la varianza, los cuales se denotan como:

µX, σX, σ2

X

respectivamente, conocidos los valores de la media, la desviaci´on est´andar y la varianza de la poblaci´on, entonces los estad´ısticos de la distribuci´on muestral de la media se definen como:

µX = µ

σX = 1

n σ

σ2

X = 1

n σ 2

en tales condiciones utilizando el teorema central del l´ımite se tiene que :

X N

µ,σ 2 n

de manera tal que

Z = X−σ µ

n ∼N 0,1

4.5.

Distribuci´

on muestral de las varianza

Dentro de las estad´ısticas empleadas en la inferencia estad´ıstica respecto a la varianza poblacional es la varianza muestral denominada por recu´erdese que es una medida de variabilidad e indica la dispersi´on existente entre las observaciones. Dado que la dispersi´on es considerada tan importante como la tendencia central la distribuci´on muestral de varianza es tan importante como lo es la distribuci´on muestral de medias.

Se desea desarrollar la distribuci´on muestral de S2

cuando el muestreo se lleva a cabo sobre una poblaci´on distribuida normal con media µconocida y varianza σ2

desconocida.

ComoS2

se define mediante

S2 = 1

n

n

X

i=1

(xi−µ)

Referencias

Documento similar

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

 Para recibir todos los números de referencia en un solo correo electrónico, es necesario que las solicitudes estén cumplimentadas y sean todos los datos válidos, incluido el

diabetes, chronic respiratory disease and cancer) targeted in the Global Action Plan on NCDs as well as other noncommunicable conditions of particular concern in the European

 Tejidos de origen humano o sus derivados que sean inviables o hayan sido transformados en inviables con una función accesoria..  Células de origen humano o sus derivados que

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y

En este sentido, puede defenderse que, si la Administración está habilitada normativamente para actuar en una determinada materia mediante actuaciones formales, ejerciendo

Este mismo régimen de deberes tiene sentido cuando la actuación de reforma o renovación significa un cambio radical de la morfología urbana, normalmente acompa- ñado por un cambio