estadistica basica tapia pdf

(1)

Nociones b´asicas de Estad´ıstica

Jes´

us Tapia

(2)

(3)

´

_{Indice general}

1. Estad´ıstica e Investigaci´on 1

1.1. Los or´ıgenes . . . 1

1.2. Elementos te´oricos . . . 2

1.2.1. ¿Cu´ando utilizar la estad´ıstica en la investigaci´on? . . . 7

1.2.2. Problemas que pueden ser solucionados mediante m´eto-dos estad´ısticos. . . 7

1.2.3. Proceso estad´ıstico en la investigaci´on cient´ıfica . . . . 8

1.2.4. Poblaci´on y Muestra . . . 9

1.2.5. Variables . . . 9

2. Estad´ıstica descriptiva univariada 11 2.1. Definiciones . . . 11

2.2. Medidas de tendencia central . . . 16

2.3. Medidas de posici´on . . . 17

2.4. Medidas de dispersi´on . . . 18

2.5. Medidas de forma . . . 20

(4)

iv ´INDICE GENERAL

3. Introducci´on a la teor´ıa de probabilidad 27

3.1. Conceptos b´asicos . . . 27

3.2. Variables aleatorias . . . 30

3.3. Algunas distribuciones discretas de inter´es . . . 34

3.4. Algunas distribuciones continuas de inter´es . . . 37

3.5. Teor´ıa de muestreo . . . 43

3.5.1. Tama˜no de la muestra . . . 43

3.5.2. Tipos de Muestreo . . . 46

3.5.3. Clases de Muestreo . . . 46

4. Introducci´on a la Inferencia 49 4.1. Preliminares . . . 49

4.2. Teorema central del L´ımite . . . 50

4.3. Distribuci´on muestral . . . 50

4.4. Distribuci´on muestral de la media . . . 50

4.5. Distribuci´on muestral de las varianza . . . 51

4.6. Distribuci´on muestral de la diferencia de medias . . . 52

4.7. Estimaci´on de par´ametros . . . 54

4.7.1. Propiedades de los estimadores . . . 55

4.8. Pruebas de Hip´otesis . . . 60

4.9. La prueba t de Student. . . 61

4.9.1. Prueba t de student para una muestra . . . 61

4.10. Prueba t de Student para dos muestras . . . 63

(5)

´

INDICE GENERAL v

4.10.2. Dos Muestras Independientes . . . 66

5. Estad´ıstica bivariante 71 5.1. Estad´ıstica descriptiva bivariante . . . 71

5.2. Variables cualitativas frente a cualitativas . . . 71

5.3. Variable cualitativa frente a cuantitativa . . . 77

5.4. Variable cuantitativa frente a cuantitativa . . . 80

5.4.1. An´alisis de correlaci´on . . . 80

(6)

Cap´ıtulo 1

Estad´ıstica e Investigaci´

on

1.1. Los or´ıgenes

Los or´ıgenes de la estad´ıstica se pueden decir tiene su nacimiento en la época de las civilizaciones más antiguas, desde el momento en que existió la necesidad de conocer el número de habitantes y el recurso material para su subsistencia, de all´ı que practicaran recuentos rudimentarios de la población y de las riquezas a los fines de su administración. Con el transcurso del tiempo, los avances en la organización del estado, hicieron necesario conocer con mayor exactitud los hechos que afectan a la población y a sus recursos, como eran los nacimientos, muertes, número de pobladores, tierras en explotación agr´ıcola, producción de alimentos, viviendas, etc. Con lo cual se da inicio a los primeros registros estad´ısticos Pero el origen de la estad´ıstica como ciencia actual, lo constituyen los juegos de azar.

En los pa´ıses europeos los juegos de dados, cartas, ruletas, etc., tomaron gran auge a partir del siglo XVI, algunos apasionados jugadores solicitaron el auxilio de matemáticos de la época para tratar de obtener nuevas ganancias de los juegos. Es aqu´ı, cuando, matemáticos como Pascal y Fermat, trataron de darle solución a algunos problemas planteados por los jugadores, dando origen al futuro cálculo de Probabilidades. Sin embargo el cálculo de probabil-idades como ciencia alcanza su plenitud a principio del siglo XIX gracias a los trabajos de matemáticos como Laplace, Bernoulli, Poison y Gauss, quienes construyeron la base fundamental de la teor´ıa de Probabilidades. Es ésta, la época de la estad´ıstica asociada a la recolección y descripción de datos.

(7)

Por otra parte la revolución cibernética de la segunda mitad el siglo XX, ha introducido cambios en el tratamiento estad´ıstico de datos, asociados a la telemática, con el uso de paquetes estad´ısticos en microcomputadores, que permiten el procesamiento de gran flujo de datos en poco tiempo.

1.2. Elementos te´

oricos

La investigación cient´ıfica como aplicación del método cient´ıfico requiere como factor de suma importancia de los métodos estad´ısticos, a fin de llegar realmente al conocimiento cient´ıfico, en el cual tiene como condiciones básicas ser objetivo, preciso y general; de igual manera todo conocimiento sobre la realidad es probabil´ıstica, esto nos muestra claramente la utilidad de la estad´ıstica en el proceso cient´ıfico.

Cada una de las etapas de la investigación cient´ıfica están ´ıntimamente relacionadas con la estad´ıstica, a grandes rasgos esta relación se pueden iden-tificar como:

Formulaci´on del problema:

Determinar los requerimientos cualitativos

Dise˜no del experimento:

• Definir variables _→ Escala de mediciones

• Formular Hip´otesis _→H0, H1, α

• Selecci´on de instrumentos_−→Validez, contabilidad, sensibilidad.

• Dise˜no muestral _−→ Universo, poblaci´on, muestra, unidades de muestreo.

• An´alisis estad´ıstico_−→ Estad´ıstica anal´ıtica e inferencial. Recolecci´on de datos

• Dise˜no y Prueba de instrumentos para recolecci´on de datos.

• Aplicaci´on de instrumentos para recolecci´on de datos.

Clasificación, tabulación y descripción de datos

• Distribuciones y medidas estad´ısticas de los datos obtenidos

(8)

• Estimaciones estad´ısticas de parámetros: Pruebas paramétricas y no paramétricas.

• Inferencia sobre resultados obtenidos.

• Distribuciones mu´estrales

Elaboraci´on y publicaci´on de Informes

• Elaboraci´on de gr´aficas.

• Tablas

El esquema anterior muestra la relaci´on intr´ınseca existente entre la in-vestigaci´on cient´ıfica y la estad´ıstica.

Los métodos de análisis de los datos obtenidos a través de la aplicación de los instrumentos, dependen de tres factores:

1. El nivel de medici´on de las variables

2. La manera como se haya formulado las hip´otesis

3. El inter´es del investigador.

Los métodos de análisis aplicados a una variable nominal, no son los mismos que se puedan aplicar a una variable cuantitativa por intervalos. En general, el investigador busca en primer lugar describir los datos, luego efectúa las pruebas de análisis para determinar las relaciones existentes entre las varia-bles, para luego inferir, la extrapolación de los resultados obtenidos sobre la muestra, a la población total. Cabe señalar, que el análisis de los datos no es indiscriminado, cada método posee una razón de ser y un propósito especifico, tampoco se deber efectuar más análisis de los necesarios. La estad´ıstica no es un fin en si misma, es una herramienta para el análisis de datos.

Los principales an´alisis que se pueden efectuar son:

Estad´ıstica descriptiva.

Normalizaci´on de variables.

Razones y tasas

Estad´ıstica Inferencial.

(9)

Pruebas no param´etricas

An´alisis multivariado.

Un resumen de cada uno de estos métodos será dado a continuación; el estudio detallado de ellos se realizara posteriormente.

Estad´ıstica descriptiva la descripción de los elementos que componen un problema de investigación, las caracter´ısticas de cada uno de los ele-mentos, es el inicio del análisis de los datos, esta tarea es la función de la estad´ıstica descriptiva, es decir, la estad´ıstica descriptiva es una técnica de reducción de información, un método que permite la selec-ción presentaselec-ción y caracterizaselec-ción de los datos, con la finalidad de especificar las caracter´ısticas que ellos presentan.

Las funciones de la estad´ıstica descriptiva son: la descripción de los ele-mentos que componen un problema de investigación, las caracter´ısticas de cada uno de los elementos, es el inicio del análisis de los datos, esta tarea es la función de la estad´ıstica descriptiva, es decir, la estad´ıstica descriptiva es una técnica de reducción de información, un método que permite la selección presentación y caracterización de los datos, con la finalidad de especificar las caracter´ısticas que ellos presentan. Las funciones de la estad´ıstica descriptiva son:

Reducir los datos a proporciones manuales, para su empleo en medida de c´alculo.

Determinar los valores que se identifican mejor, o representan la generalidad de los posibles valores asignados a las variables.

La especificación de los datos y el análisis estad´ıstico de ellos reportan, es fundamental en el estudio de la información acerca de la muestra en estudio. Entre la información más importante que se puede obtener, se reseña:

Identificar las caracter´ısticas m´as resaltantes de la muestra. Proveer una base para conocer los valores poblacionales

Estimar la magnitud de la relaci´on entre dos o m´as conjuntos de datos.

Proveer una base de datos para establecer predicciones del com-portamiento de la poblaci´on.

(10)

resumir la información contenida en una muestra son: son tablas, gráfi-cos, medidas de tendencia central, medidas de dispersión medidas de posición, etc. El estudio en detalle de cada una de ellas se efectuara em-pleando paquetes estad´ısticos, pero una descripción simple, en función de la escala de medición empleada se presenta en la tabla siguiente:

Variable Descripción Estad´ısticos y gráficas Nominal Valores no numéricos

con ausencia de orden entre ellos

Distribuci´on de frecuencias Moda, Diagrama de barras o de sector

Ordinal Valores no num´ericos con presencia de orden entre ellos

M´ınimo, M´aximo, Mediana, Cuartiles Percentiles, Rango intercuart´ılico, Diagramas de caja y bigote

Cuantitativa

Discretas: unica-´ mente puede tomar una cantidad finita de valores num´ericos

Media, Rango, Mediana, Cuar-tiles, Coeficiente de variaci´on, Coeficiente de asimetr´ıa, Coe-ficiente de Kurtosis, Histogra-mas, Gr´aficos de tallo y hojas

Continuas: puede asumir cualquier va-lor num´erico en un intervalo

Estad´ıstica inferencial frecuentemente, el propósito de la investigación va más allá de la descripción de las variables, se pretende generalizar los re-sultados obtenidos de la muestra a la población o al universo. Los datos casi siempre son recolectados de una muestra, sus resultados estad´ısti-cos se denominan estad´ıgrafos, la media, la varianza de la distribución de una muestra son estad´ıgrafos; a las estad´ısticas de la población o universo se les conoce como parámetros. Los parámetros no son calcu-lados porque no se recolectan datos de toda la población, pero pueden ser inferidos de los estad´ıgrafos, de ah´ı el nombre de .es

tad´ıstica inferen-cial”. La inferencia de los parámetros se lleva a cabo mediante técnicas estad´ısticas apropiadas para ello, las cuales serán discutidas en detalles posteriormente.

La estad´ıstica inferencial se emplea en dos procedimientos diferentes, los cuales son:

(11)

en la muestra. Si la hipótesis es consistente con los datos, ésta es retenida como un valor aceptable del parámetro. Si la hipótesis no es consistente con los datos se rechaza ésta, pero los datos no se descartan. Para entender en detalles el concepto de hipótesis estad´ıstica es necesario revisar los conceptos de distribución mues-tral y nivel de significancia, los cuales serán estudiados posterior-mente.

Cuando se efectúan las pruebas de hipótesis, existen dos tipos de análisis que se pueden realizar: los análisis paramétricos y los análisis no paramétricos. Cada tipo posee caracter´ısticas que lo sustentan y la elección del investigador sobre que clase de análi-sis a efectuar depende de estas presuposiciones. Asimismo cabe destacar que en una misma investigación pueden aplicarse análi-sis paramétricos para algunas hipóteanáli-sis y variables y análianáli-sis no paramétricos para otras.

Estimar parámetros un aspecto muy interesante en la inferencia es-tad´ıstica es la estimación de parámetros, esta técnica consiste e estimar o representar los diferentes parámetros de la población (media, varianza, mediana, etc.) a partir de su correspondiente estad´ıgrafo, el cual como se dijo, es obtenido de la muestra que se selecciono de la población en estudio.

La estimaci´on de par´ametros se puede expresar de dos formas:

Estimación puntual la estimación puntual es un valor único, que representa la estimación del parámetro sometido a estu-dio. Por ejemplo, cuando se dice que el sueldo promedio de un grupo de obreros es de 150.00 bol´ıvares al mes, se está en presencia de un estimador puntual

Estimación por intervalos La estimación por intervalos es, co-mo su nombre lo indica, un intervalo formado por valores muéstrales, los cuales representan los l´ımites del intervalo en el cual se supone que está ubicado el verdadero valor pobla-cional que se pretende estimar, por ejemplo, cuando se dice que la nota promedio del curso de estad´ıstica básica esta com-prendida entre 13y 15.5 puntos, se está efectuando una esti-mación por intervalos.

En el caso de estimación por intervalos, se emplea el valor proba-bil´ıstico que nos da la confianza de nuestra estimación, este valor probabil´ıstico es conocido como el nivel de significancia. Por ejem-plo, cuando se dice que la nota promedio del curso de estad´ıstica básica esta comprendida entre 13y 15.5 puntos, con una confianza de 98 %, se está efectuando una estimación por intervalos con un nivel de significancia establecido por el investigador.

(12)

número de individuos se recurre a los métodos estad´ısticos multivaria-dos o multivariantes, la complejidad de estos métomultivaria-dos amerita un curso particular para el estudio de ellos.

1.2.1. ¿Cu´

ando utilizar la estad´ıstica en la investigaci´

on?

Las técnicas estad´ısticas de análisis de datos se emplean en la investi-gación cient´ıfica cuando ésta presenta:

Variables que son cuantificables mediante conteo o alguna escala par-ticular de medici´on empleada por el investigador.

Cuando las unidades de muestreo son muy numerosas.

Cuando las unidades son heterog´eneas en cuanto a las variables de investigaci´on.

Cuando existe dificultad de controlar todas las variables que influyen sobre el fen´omeno en estudio.

Cuando la poblaci´on sobre la cual se desea efectuar la investigaci´on es dif´ıcil de observar de manera integral.

1.2.2. Problemas que pueden ser solucionados

medi-ante m´

etodos estad´ısticos.

La estad´ıstica como técnica en el análisis de datos permite resolver situa-ciones problemáticas que satisfacen ciertas caracter´ısticas particulares como:

1. Precisar la frecuencia con que se presenta un fenómeno o varias clases de fenómenos que caracterizan una situación problemática estudiada.

2. Determinar el valor, elemento o clase de elementos m´as representativos de un conjunto de observaciones.

3. Precisar el grado de relaciones que pueden existir entre dos o m´as vari-ables.

(13)

5. Definir el nivel de confianza que se puede tener en un resultado es-tad´ıstico obtenido.

6. Extrapolar la informaci´on que se tiene sobre una muestra, en estudio, a la poblaci´on o universo total.

7. Comparar el comportamiento de diferentes grupos ante un fen´omeno de estudio particular

8. Comparar el rendimiento laboral de diferentes grupos en una empresa particular.

9. Determinar conductas comunes sobre diferentes grupos humanos.

10. Cualquier otro problema en el cual sea necesario el manejo, descripción clasificación comparación de grandes cantidades de datos.

1.2.3. Proceso estad´ıstico en la investigaci´

on cient´ıfica

El proceso estad´ıstico en la investigaci´on cient´ıfica se puede resumir en tres pasos fundamentales:

Elaboración de la matriz de datos: la matriz de datos es un arreglo rectangular demfilas yncolumnas, una columna por cada variable, que caracteriza al problema de investigación, el número de filas representa las observaciones estudiadas durante el proceso de investigación, cada variable debe ser definida en términos de la escala de medición, tipo de variable y etiqueta que describa parcialmente los valores de la variable

Cargar la matriz de datos: la matriz de datos en la intersección de la fila i con la columna j posee como valor de posición ij el valor de la observaciónique se asigno a la variablej, por tanto la matriz de datos poseen_×m valores.

Procesar la matriz de datos: en esta etapa de la investigación cient´ıfica es necesario aplicar las técnicas estad´ıstica, previamente seleccionadas por el investigador, la aplicación de éstas se efectúa mediante el uso de un paquete estad´ıstico computarizado.

(14)

V1 V2 · · · Vp 1 v11 v12 · · · v1p 2 v21 v22 · · · v2p ... ... . .. ...

n vn1 vn1 · · · vnp

1.2.4. Poblaci´

on y Muestra

Población el conjunto de unidades f´ısicas (personas u objetos) a las cuales se les mide una o más caracter´ısticas, constituyen el universo, pudiendo obtenerse diferentes poblaciones de caracter´ısticas distintas; a saber: las poblaciones de pesos, tallas, calificaciones, etc. Algunos autores suelen considerar universo y población como sinónimos, sólo puede ser correcto en caso que se defina de esta manera.

Muestra un subconjunto de la poblaci´on (o universo) seleccionado ade-cuadamente de forma tal, que sea representativa de la poblaci´on de origen, se denomina muestra estad´ıstica y el proceso de seleccionarla se conoce como muestreo estad´ıstico.

1.2.5. Variables

Definici´on 1.1 Se conoce como variable a cualquier caracter´ıstica de un individuo: persona, regi´on u objeto, que toma valores o modalidades diferentes en un conjunto de observaciones o datos

Las variables pueden ser clasificadas de distintas maneras seg´un la natu-raleza que tengan sus valores o modalidades:

Variables cualitativas tambi´en conocidas como atributos, son aquellas vari-ables cuyas modalidades no son num´ericas, es decir son cualidades o caracter´ısticas, se clasifican a su vez en:

Nominales son aquellas variables cuyas modalidades no admiten or-denaci´on, Por ejemplo: Sexo, estado civil, Postgrado que realiza, Sector laboral, etc.

(15)

Variables cuantitativas son aquellas variables cuyas modalidades son nu-m´ericas, ejemplo edad, estatura, peso, n´umero de hijos, ingreso mensual del grupo familiar, etc. Se clasifican a su vez en:

Discretas asumen un n´umero finito de valores, por ejemplo: n´umero de hijos, Miembros del grupo familiar, d´ıas de entrenamiento en un deporte particular, etc.

(16)

Cap´ıtulo 2

Estad´ıstica descriptiva

univariada

2.1. Definiciones

Definición 2.1 La estad´ıstica descriptiva univariada está constituida por un conjunto de técnicas cuyo objetivo es clasificar, describir, resumir y analizar los datos relativos a una variable, es decir, a una caracter´ıstica de los indi-viduos de la población.

Para lograr sus fines la estad´ıstica descriptiva de basa en dos tipos de t´ecnicas:

Técnicas gráficas están conformados por un conjunto de tablas y gáficos que resumen una caracter´ıstica particular de un conjunto de datos, las más utilizadas son:

(17)

Porcentaje Porcentaje Frecuencia Porcentaje V´alido acumulado

V´alido Hombre 778 47.2 47.2 47.2

Mujer 871 52.8 52.8 100

Total 1649 100 100

Las tablas de frecuencias se pueden construir utilizando SPSS, al eje-cutar la secuencia de comandos:

Analizar -->Estad´ısticos descriptivos --> Frecuencias

La cual activa la caja de di´alogo:

Cuando la variables es continua, ´esta se debe discretizar o categorizar para poder construir su tabla de frecuencias.

Gráficos de Sectores al igual que las tablas de frecuencias, los gráficos de sectores sirven para representar variables cualitativas o cuantitativas discretas, cada modalidad o valor de la variable está representado por un sector circular de área proporcional a su frecuencia o porcentaje. Los gráficos de sector se pueden construir utilizando SPSS, al ejecutar la secuencia de comandos:

(18)

La cual activa la caja de di´alogo: o mediante

Gr´aficos--> sectores

El gr´afico obtenido es de la forma:

55,00 Mujer

45,00 Hombre

Gráficos de barras cada modalidad o valor de la variable está representa-do por un rectángulo cuya altura corresponde a una frecuencia o un porcentaje.

Los gr´aficos de barras se pueden construir utilizando SPSS, al ejecutar la secuencia de comandos:

(19)

La cual activa la caja de di´alogo: o mediante

Gr´aficos--> Barras

SEXO

Mujer Hombre

Frecuencia

12

10

8

6

4

2

0

11

9

(20)

los rect´angulos unidos entre si, indicando de este modo que existe con-tinuidad en la escala de los valores de la variable.

Los histogramas se pueden construir utilizando SPSS, al ejecutar la secuencia de comandos:

Analizar -->Estad´ısticos descriptivos --> Frecuencias Gr´aficos--> Histogramas

La cual activa la caja de di´alogo:

o mediante

Gr´aficos--> Histogramas

Técnicas numéricas es posible condensar aún más la información conteni-da en un conjunto de conteni-datos, con la ayuconteni-da de los estad´ısticos, que son cantidades numéricas calculables en la distribución de los datos, los cuales informan de alguna manera de sus caracter´ısticas. Los estad´ısti-cos tratan de reflejar numéricamente distintos aspectos de la variable en estudio. Se pueden distinguir cuatro mediada o estad´ısticos asociados a una distribución de datos:

1. Medidas de tendencia central 2. Medidas de posici´on

(21)

ingreso mensual

2200000,0 2000000,0 1800000,0 1600000,0 1400000,0 1200000,0 1000000,0 800000,0 600000,0

ingreso mensual

Frecuencia

5

4

3

2

1

0

Desv. t p. = 566970,8 Media = 1289806,0 N = 20,00

2.2. Medidas de tendencia central

Por tendencia central se entiende un valor que representa al conjunto de valores de la distribuci´on de una variable. De acuerdo a la naturaleza de cada variable existen diferentes procedimientos para obtener una medida de tendencia central, los m´as comunes son:

La moda valor que posee la mayor frecuencia en una distribuci´on de datos, la denotamos por M0; es el valor que m´as se repite. Aunque puede

calcularse para cualquier tipo de variables, tiene m´as sentido cuando se trata de variables cualitativas o cuantitativas discretas

La mediana valor que ocupa la posición central de una distribución orde-nada por sus valores. En consecuencia no tiene sentido calcularla en el caso de variables nominales. En otras palabras, la mediana puede entenderse como aquel valor que divide a la distribución en dos partes iguales, se denota por Me.

Dado un conjunto de observaciones ordenadas de la variableX, deno-tado por

x1, x2, x3,· · · , xn

la posici´on en la cual se ubica la mediana est´a definida por

Kme =

(22)

sines un n´umero impar, entoncesKme es u n´umero entero, y la mediana

se alcanza sobre una de las n observaciones de X, en caso contrario, cuandones par,Kme =S,5, dondeS es un n´umero entero; y el valor de

la mediana no se alcanza sobre alguna observaci´on, pero est´a definido como:

Me =

xS+xS+1

2

es decir, el punto medio entre las observaciones de posici´onSy posici´on

S+ 1.

La media es un promedio de los valores de la distribución obtenido medi-ante la división de la suma de todos los valores por el número total de casos. La cantidad estimada por la media es el valor que tendr´ıan todos los individuos si todos tuvieran que tener un mismo valor, se denota por X, y se valor es:

X = 1

n

X

i=1 xi

2.3. Medidas de posici´

on

Las medidas de posición son estad´ısticos de localozación que indican el valor que ocupa un determinado orden en la distribución, se denominan de manera general como Cuantiles. La medida más simple de posición es la mediana, ya que ella ocupa la posicicón central de la distgribución.

Otras medidas de posici´on son:

Cuartiles se define como cuartiles a los tres valores que dividen a la dis-tribuci´on en cuatro partes iguales, se denotan por Q1, Q2, Q3. As´ı, el

primer cuartil tiene un 25 % de los casos por debajo de dicho valor, el segundo cuartil coincide con la media y por tanto, deba por debajo el 50 % de los caso, mientras que el tercer cuartil deja por debajo al 75 % de los casos.

(23)

denotamos porK1, K2, K3 respectivamente y est´an definidas por:

K1 =

n+ 1 4

K2 =

n+ 1 2

K2 = 3

n+ 1 4

Si Kj = S.α, donde α es la parte decimal de la posici´on del j-´esimo cuartilj = 1,2,3, entonces el valor del cuartil Qj es

Qj = (1−α)xs+αxs+1 j = 1,2,3

Deciles se define como deciles a los nueve valores que dividen a la dis-tribuci´on en diez partes iguales, se denotan porD1, D2,· · · , D9. As´ı, el

primer decil tiene un 10 % de los casos por debajo de dicho valor, el quinto decil coincide con la media y por tanto, deja por debajo el 50 % de los caso, mientras que el noveno decil deja por debajo al 90 % de los casos.

Para estimar los deciles se debe determinar la posici´on de cada uno de ellos y luego se calcula su valor. La posiciones de cada decil las denotamos porKj j = 1,2,3,· · · ,9 respectivamente y est´an definidas por:

Kj = j

n+ 1

10 j = 1,2,· · · ,9

Si Kj = S.α, donde α es la parte decimal de la posici´on del j-´esimo cuartilj = 1,2,3, entonces el valor del cuartil Qj es

Qj = (1−α)xs+αxs+1 j = 1,2,3,· · · ,9

Percentiles son 99 valores que dividen a la dstribución en 100 partes iguales, se denotan porP1, P2,· · · , P99. Su estimación es análoga a los cuartiles

y deciles.

2.4. Medidas de dispersi´

on

(24)

Las medidas de dispersi´on m´as usadas son:

M´ınimo corresponde al menor valor de las observaciones asociada a la vari-able en estudio.

M´aximo corresponde al mayor valor asumido por la variable entre el con-junto de datos estudiados

Rango se define como la diferencia entre los valores extremos de la variable estudiada, es decir, la diferencia entre el m´aximo y el m´ınimo valor. Puede estar muy condicionado por un solo valor extremo poco repre-sentativo de la magnitud estudiada. Se recomienda en tal caso estudiar el rengo intercuartil´ıco.

Rango intercuart´ılico es la diferencia entre el tercer y primer cuartil, in-dica entre cu´antos valores se encuentra el 50 % de los casos centrales de la distribuci´on. Se expresa como:

IQ=Q3−Q1

Varianza es la media aritmética de las desviaciones cuadráticas de los valo-res con valo-respecto a la media aritmética, asume siempre valor positivo, está definida por:

S2 = 1 n n X i=1

(xi −X)2

Los paquetes estad´ısticos calculan la varianza utilizando la expresi´on:

S2 = 1

n₋1 n

X

i=1

(xi−X)

2

conocido como cuasi-varianza

Desviaci´on t´ıpica o est´andar es la ra´ız cuadrada positiva de la varianza, se utiliza para devolver el valor de la varianza a sus unidades originales, se estima como:

S = v u u t 1 n n X i=1

(xi−X)2

Los paquetes estad´ısticos estiman con frecuencia la cuasidesviaci´on t´ıpi-ca S = v u u t 1

n₋1 n

X

i=1

(25)

Coeficiente de variación es una medida de dispersión relativa, definida como el cociente entre la desviación t´ıpica y el valor absoluto de media aritmética. Al ser un cociente carece de unidades de medida, y, en consecuencia se utiliza para comparar la dispersión entre variables que tengan distintas unidades de medida o distintas medias. Su valor es

CV = S

|X_|

2.5. Medidas de forma

Existen otras medidas cuyo propósito es expresar a través de un número la forma de la distribución, las cuales se clasifican en dos tipos:

1. Medidas de simetr´ıa atiende a la forma horizontal de la distribución, es decir, si la parte izquierda de la distribución es semejante a su parte derecha. Su estudio se realiza mediante la estimación del coeficiente de asimetr´ıa AS

2. Medidas de apuntalamiento expresan la forma vertical de la distribu-ci´on, es decir, si las frecuencias de los valores centrales son mayores que las de los valores extremos. Su estudio se realiza mediante la estimaci´on del coeficiente de KurtosisK.

Coeficiente de asimetr´ıa AS es el indicado del grado de simetr´ıa de la distribuci´on de los datos, puede estimarse mediante diferentes f´ormulas:

AS = 3(X−Me)

S Pearson

AS = Q3−2Q2+Q1

S Bowley

AS = m3

S3 Momentos

donde

m3 =

1

n

X

i=1

(xi −X)

3

Si AS = 0 se dice que la distribuci´on es sim´etrica y se cumple

(26)

Distribución simétrica

SiAS <0 se dice que la distribución es asimétrica a la derecha y se cumple la siguiente condición

X < Me < M0

es decir, m´as del 50 % de los datos son mayores que la media.

Distribución asimétrica a la derecha

M0 Pro

Si AS >0 se dice que la distribución es asimétrica a la izquierda y se cumple la condición

X > Me > M0

es decir, m´as del 50 % de los datos son menores que la media.

Distribución asimétrica a la derecha

M0 Pro

Los paquetes estad´ısticos emplean un coeficiente de asimetr´ıa estandariza-do definiestandariza-do por

As=

n

(n₋2)

m3 S3

(27)

Adem´as los momentos son calculados como

mj = 1

n₋1 n

X

i=1

(xi−X)j j = 1,2,3,· · ·

Coeficiente de Kurtosis K las medidas de apuntalamiento indican cuán centradas o dispersas están las frecuencias de los valores en relación con el punto medio de la distribución. Si las frecuencias están concentradas en el centro, la distribución se denomina leptoKúrtica, si las frecuencias mayores se ubican en los extremos es platikúrtica, en el caso intermedio ser´ıa una distribución mesoKúrtica. El indicador del grado de apunta-lamiento de la distribución es el coeficiente de Kurtosis, definido por:

K = m4

S4

donde

m4 =

1

n

X

i=1

(xi −X)

4

En t´erminos de K las distribuciones se clasifican como:

K >3 leptok´urticas

K = 3 mesok´urticas

K <3 platik´urticas

Kurtosis

K>3

K=3

(28)

Los paquetes estad´ısticos emplean un coeficiente de Kurtosis estandarizado definido por

Ks = 3₋K

pero en la mayor´ıa de los casos la f´ormula utilizada es

Ks =

n(n+ 1) (n₋2)(n₋3)

m4 S4

−

3_∗ (n−1)

2

(n₋2)(n₋3)

as´ı, cuando

Ks=

( _>

0 Leptokurtica = 0 Mesokurtica

<0 Platicurtica

Ejemplo 2.1 Estimar las medidas de tendencia central, dispersión, posición y forma par la distribución de datos: 10,15,20,15,10

Los datos ordenados se expresan como:

10,10,15,15,20

La posici´on de la mediana la podemos calcular como:

KMe =

5 + 1

2 =

6 2 = 3 es decir, la mediana es el valor de posici´on 3, entonces

Me =x3 = 15

El valorMe= 15 nos indica que el 50 % de los datos son menores que ´el, mientras que el 50 % restante son mayores o iguales a este valor

Como los valores 10 y 15 se repiten dos veces entonces la distribuci´on de datos posee dos modas

La media aritm´etica de la distribuci´on de datos es

X = 10 + 10 + 15 + 15 + 20

(29)

es decir, si se desea asignar un ´unico valor a todas las observaciones, este valor debe ser igual a 14.

Los cuartiles de la distribuci´on de datos est´an ubicados en las posiciones:

K1 =

n+ 1

4 =

5 + 1 4 = 1,5

K2 =

n+ 1

2 =

5 + 1 2 = 3

K3 = 3

n+ 1

4 =

18 4 = 4,5

K1 = 1,5 indica que el primer cuartil es el punto medio entre las dos

primeras observaciones,K2 = 3 corrobora el c´alculo de la mediana, mientras

que K3 = 4,5 indica que el tercer cuartil es el promedio entre la cuarta y

quinta observaci´on.

As´ı, los valores de los cuartiles son:

Q1 = (1−0,5)x1+ 0,5∗x2

= 0,5_∗10 + 0,5_∗10 = 10

Q2 = x3 = 15

Q3 = (1−0,5)x4+ 0,5∗x5

= 0,5_∗15 + 0,5_∗20 = 17,5

Q1 = 10 indica que el 25 % de las observaciones es menor o igual a 10,

comoQ2 = 15 el cincuenta por ciento de la observaciones no superan el valor

de 15, mientras que, Q3 = 17,5 indica que s´olo el 25 % final supera el valor

de 17.5

Para calcular la varianza, el coeficiente de asimetr´ıa y el coeficiente de Kurtosis se necesita estimar los momentos respecto de la media, se constru-ir´a una tabla que contenga toda la informaci´on requerida:

X Xi−X (Xi−X)2 (Xi−X)3 (Xi −X)4

10 -4 16 -64 256

15 1 1 1 1

20 6 36 216 1296

15 1 1 1 1

10 -4 16 -64 256

(30)

Ahora

S2 = 1

n₋1

5

X

i=1

(Xi−X)

2

= 70

4 = 17,5

El coeficiente de variaci´on est´a dado por

CV = 17,5

14 = 1,25

El tercer y cuarto momento respecto de la media se calcula como:

m3 =

1 4

5

X

i=1

(Xi−X)

3

= 90

4 = 22,5

m4 =

1 4

5

X

i=1

(Xi−X)4 = 1810

4 = 452,5

de esta manera, el coeficiente de asimetr´ıa y de Kurtosis est´an dados por

As =

n

(n₋2)

m3 S3

= 5∗22,5

3_∗4,183 = 0,5122

K =

n(n+ 1) (n₋2)(n₋3)

m4 S4

−

3_∗ (n−1)

2

(n₋2)(n₋3)

= 5∗6∗452,5 3_∗2_∗17,5_∗17,5−

3_∗16 3_∗2 = 7,39₋8 =₋0,6122

ComoAS >0 entonces la distribución de los datos es sesgada a la izquierda, es decir, más del 50 % de los datos son mayores que la media. Por otra parte como K <0 entonces la mayor´ıa de las observaciones se ubican en los extremos de la distribución, es decir, las colas de la distribución son má ligeras que las de la distribución normal y la curva es plantikúrtica

Los estad´ısticos estimados manualmente puede ser calculados mediante el SPSS, al ejecutar la secuencia de comandos:

Analizar --> Estad´ısticos descriptivos --> Frecuencias Estad´ısticos:

(31)

media mediana moda varianza Asimetr´ıa Kurtosis

Obteni´endose la tabla de resumen:

n v´alidos 5

Perdidos 0

Media 14.00

Mediana 15.00

Moda 10.00

Varianza 17.50

Asimetr´ıa 0.512

Kurtosis -0.612

Cuartiles

25 10.00 50 15.00 75 17.50

2.6. Ejercicio Pr´

actico

El archivo Estad´ısticas.sav contiene las calificaciones del primer parcial de estad´ıstica I presentado por 70 alumnos cursantes. Utilizar los datos apor-tados para realizar la actividad siguiente:

1. Determine los cuartiles, media, mediana varianza coeficiente de varaici´on, asimetr´ıa y Kurtosis de la variable calificaciones

2. Determine el valor que deja por debajo al 65 % de los casos

3. ¿Qu´e calificaci´on obtuvo como m´ınimo el 34 de los mejores alumnos?

4. Entre que valores se ubicar´a el 60 % central de la distribuci´on de las calificaciones

5. Entre hombres y mujeres ¿Cu´al grupo presenta mayor variabilidad?

6. ¿M´as del 50 % de las calificaciones est´an por encima o por debajo de la media?

(32)

Cap´ıtulo 3

Introducci´

on a la teor´ıa de

probabilidad

3.1. Conceptos b´

asicos

Después de estudiar los elementos asociados a la estad´ıstica descriptiva, se abordarán los tópicos básicos de la teor´ıa de probabilidades necesarios para el estudio de la teor´ıa de muestreo e inferencia estad´ıstica.

Tipos de experimentos

Experimento deterministico es aquel experimento que realizado bajo las mismas condiciones produce los mismos resultados, es decir, una misma causa produce un mismo efecto.

Experimento aleatorio es aquel experimento que realizado bajo las mis-mas condiciones produce distintos e impredecibles resultados, es decir, se rompe la relaci´on un´ıvoca causa-efecto.

La teor´ıa de probabilidades es la ciencia que se ocupa del estudio de fen´omenos aleatorios.

Asociados a la teor´ıa de probabilidad existe un conjunto de fundamentos b´asicos, que enunciaremos a continuaci´on

(33)

Ejemplo 3.1 El lanzar de un dado balanceado es un experimento aleato-rio con espacio muestral

S =

1,2,3,4,5,6

Espacio muestral discreto se dice que un espacio muestral es discreto si sus valores pueden ponerse en correspondencia uno a uno con el con-junto de los n´umeros naturales.

Ejemplo 3.2 El n´umero de llamadas telef´onicas recibidas por una cen-tralista entre las 10:00 y 11:30 am, es un experimento aleatorio discreto, co espacio muestral

S=

0,1,2,3,4,5,6,_{· · ·}

Espacio muestral continuo se dice que un espacio muestral es continuo si sus resultados consiste de un intervalo de los n´umeros reales.

Ejemplo 3.3 La concentraci´on de part´ıculas s´olidas en las aguas de un r´ıo es un experimento aleatorio con espacio muestral continuo

Evento es cualquier subconjunto de un espacio muestral, cuyos miembros poseen una caracter´ıstica com´un.

Ejemplo 3.4 El lanzar de un dado balanceado es un experimento aleato-rio con espacio muestral

S =

1,2,3,4,5,6

un evento asociado a este experimento lo constituye aquellos valores representados por n´umeros pares, es decir

E =

2,4,6

Probabilidad es la medida de la ocurrencia de los resultados de un experi-mento.

(34)

Interpretación Laplaciana se define la probabilidad de un evento como la razón entre el número de casos favorables y el total de todos los casos posibles, está basada fundamentalmente en situaciones generadas por los juegos de azar.

Ejemplo 3.5 Al lanzar un dado cual es la probabilidad que salga un n´umero par.

El espacio muestral est´a definido por

S=

1,2,3,4,5,6

mientras que el evento de salida de un n´umero par es

E =

2,4,6

de manera que el n´umero de casos favorables es tres y el total de posibles casos es seis, as´ı, la probabilidad de salir par se define como:

P(es par) = 3 6 =

1

2 = 0,5

en otras palabras existe un 50 % de posibilidades de obtener un n´umero par al lanzar el dado.

Interpretación frecuentista se fundamenta en la ley emp´ırica de regulari-dad estad´ıstica: la frecuencia relativa de un suceso o evento tiende a estabilizarse cuando el número de experimentos crece indefinidamente, Entonces definimos la probabilidad como el número al que tiende la frecuencia relativa, es decir, se define como el l´ımite de la frecuencia:

P(A) = l´ım n→∞fr(A)

se basa en las teor´ıas de Von Mises (1920) y la definici´on axiom´atica de Kolmogorov (1933).

Interpretaci´on subjetiva o personal en este contexto, la probabilidad de ocurrencia de un suceso se interpreta como el grado de creencia que para una persona determinada tiene, en base a informaci´on a priori sobre el mismo, esta tendencia es conocida como el enfoque Bayesiano

Sea cual fuese el enfoque con que se estudie la probabilidad de ocur-rencia de un evento E, esta debe cumplir la condici´on

(35)

3.2. Variables aleatorias

En la teor´ıa de probabilidad es muy importante conocer las caracter´ısticas del comportamiento de los posibles rebultados de un experimento aleatorio, este comportamiento es descrito por las variables aleatorias:

Variable aleatoria es toda función que permite asignar un único número real a todos y cada uno de los elementos del espacio muestral de un ex-perimento aleatorio. En otras palabras, es una caracter´ıstica numérica que resume los resultados de un experimento aleatorio y los cuantifica en términos de probabilidad.

Variables discretas una variable aleatoria es discreta si la cantidad de valores que puede asumir es contable, ya sea finita o infinita.

Variables Continuas una variable aleatoria es continua cuando los valores que ella asume forman un conjunto infinito, es decir, no contable

Las variables aleatorias se acostumbran denotar con letras may´usculas

X, Y, Z,_{· · ·}, mientras que los valores que ellas asumen se denotan con letras min´usculasx, y, z,_{· · ·}

En general, una variable aleatoria discretaX representa los resultados de un espacio muestral en forma tal que porP(X =x) se entender´a la probabilidad de que X tome el valorx.

Definición 3.1 sea x una variable aleatoria discreta, se denomina función de probabilidad o densidad de X a la función f(x) = P(X = x), la cual satisface las siguientes propiedades

1. f(x)_≥0 para todo valor x de X

2. P

xf(x) = 1

Definición 3.2 La función de distribución acumulada de la variable aleato-ria discreta X es la probabilidad de que X sea menor o igual a un valor especif´ıco de x y esta definida por

F(x) =P(x_≤x) = X xi≤x

(36)

Por lo tanto, en el caso discreto, una variable aleatoria X está caracteri-zada por una función de probabilidad puntual f(x), la cual determina la probabilidad puntual de que X =x, y por la función de distribución acumu-lada F(x), la que representa la suma de las probabilidades puntuales hasta el valor x de la variable X, inclusive.

Ejemplo 3.6 Se lanzan al aire tres monedas, considere el evento números de cara. Determine la función de densidad y distribución de probabilidades asociada al evento.

Soluci´on

Si denotamos porc la aparici´on de una cara y pors un sello, entonces el espacio muestral est´a definido por:

S =

ccc, ccs, css, sss, scc, ssc, scs, csc

la variable X = n´umero caras, asume los siguientes valores

no

de caras evento

0 sss

1 css, ssc, scs

2 ccs, scc, csc

3 ccc

entonces tenemos

f(0) = P(X = 0) = 1 8

f(1) = P(X = 1) = 3 8

f(2) = P(X = 2) = 3 8

(37)

de manera an´aloga se tiene

F(0) = P(X = 0) = 1 8

F(1) = P(X _≤1) =P(X = 0) +P(X = 1) = 1 8+

3 8 =

4 8 =

1 2

F(2) = P(X _≤2) = 1 8 +

3 8 +

3 8 =

7 8

F(3) = P(X _≤3) = 1 8 +

3 8 +

1 8 = 1

la funci´on de probabilidad f(x) puede ser representada como:

x f(x)

0 1 2 3

* *

1/8 3/8

Definici´on 3.3 Dada X una variable aleatoria continua, si existe una fun-ci´on f(x) tal que

1. f(x)_≥0 cuando _−∞< x <+_∞

2. R+∞

−∞ f(x)dx= 1

3. P(a _≤ x _≤ b) = Rb

af(x)dx para cualquier a y b, entonces f(x) es la densidad de la variable aleatoria X.

Puesto que el área total bajo la curva f(x) es uno, la probabilidad del in-tervalo a _≤x_≤ b es el área acotada por la función de densidad y las rectas

(38)

b

a

f(x)

Al igual que en el caso discreto, la función de distribución acumulada de una variable aleatoria continua X es la probabilidad de queX tome un valor menor o igual a algúnx espec´ıfico, esto es

F(x) = P(X _≤x) =

Z x

−∞

f(t)dt

Por lo tanto, la función de distribución acumuladaF(x) es el área acotada por la función de densidad que se localiza a la izquierda de la recta X =x, como se ilustra en la figura siguiente:

F(X)

x

La distribuci´on de probabilidades es una funci´on continua no decreciente de los valores de la variable aleatoria con las siguientes propiedades

1. F(_−∞) = 0

2. F(_∞) = 1

3. P(a_≤x_≤b) = F(b)₋F(a)

4. d

(39)

3.3. Algunas distribuciones discretas de

in-ter´

es

Dentro del conjunto de distribuciones discretas de probabilidad se desta-can las distribuciones Binomial y de Poisson.

Distribución Binomial una variable aleatoria X se dice que posee una distribución Binomial con parámetrosn_{∈ {}0,1,2,3,_{· · · }} y p_∈[0,1] si su espacio muestral está definido por S = _{0,1,2,_{· · ·}, n_} y para cada

k_∈S se tiene:

P(X =k) = n_k pk(1₋p)n−k

La funci´on de distribuci´on de una variable binomial es:

F(X =k) = k

X

j=0

_n

j

pj(1₋p)n−j

La media y la varianza de una distribuci´on Binomial son:

µ = np

σ2 = np(1₋p)

La variable X es dicot´omica, es decir, s´olo puede asumir dos valores, por ejemplo el lanzar al aire una moneda.

Ejemplo 3.7 Una prueba de opci´on m´ultiple consta de 24 ´ıtem y cada uno de ellos posee 4 opciones.

1. Determine la probabilidad de contestar exactamente 12 respuestas correctas

2. Determine la probabilidad de contestar no m´as de 5 respuestas correctas

3. Determine la predecibilidad de contestar al azar m´as de la mitad de respuestas incorrectas

(40)

La respuesta de cada ´ıtem puede ser contestada de dos formas: correcta o err´onea, as´ı, podemos definir una variable aleatoria:

X =

( ₁ _{respuesta correcta}

0 respuesta err´onea

es decir,X es una variable aleatoria Binomial; como existen 4 opciones de respuesta y s´olo una es correcta, entonces

probabilidad de ´exito : p= 1 4

probabilidad de fracaso : q= 1₋p= 3 4

adem´as, el total de ocurrencias de X esn = 24, de donde

X _∼Bin

x,24,1

4

Ahora

P(X = 12) = 24₁₂ 1 4

123

4

24−12

= 0,0051

en otras palabras, solamente el 051 % contesta exactamente 12 pregun-tas correcpregun-tas

La probabilidad de contestar no m´as de 5 respuestas correctas, es la suma de las probabilidades de contestar n respuestas correctas cuando

n = 1,2,3,4,5, as´ı,

P(X _≤5) =

5

X

k=0

P(X =k)

=

5

X

k=0

24

k

1 4

k3

4

24−k

= CDF.Bin

5,24,1

4

= 0,422

(41)

Para determinar la probabilidad de contestar m´as de la mitad de las repuestas incorrectas, usando complemento, calculamos:

1₋P(x_≤11) = 1₋CP F :Bin

11,24, ,25)

= 1₋0,9928 = 0,0072

es decir, s´olo el 0.72 % contesta m´as de la mitad de las respuestas in-correctas.

Distribución Poisson en estad´ıstica y probabilidad se dice que una vari-able discretaX se distribuye Poisson, cuando la densidad deX expresa la probabilidad de que un número de eventos ocurran en un periodo de tiempo determinado, suponiendo que son independientes y que se conoce su promedio λ, esta distribución fue desarrollada por Simeón-Dennis Poisson, su distribución de probabilidad está dada por

P(X =x, λ) = λ x_e−λ

x! x= 0,1,2,3,· · ·

La funci´on de distribuci´on de una variable binomial es:

F(X =k) = k

X

j=0 λj_e−λ

j!

La media y la varianza de la distribuci´on Poisson son

µ = λ

σ2

= λ

Ejemplo 3.8 En el proceso de Admisi´on los aspirantes al Postgrado en Gerencia general, la proporci´on de aspirantes rechazados es p=,01. Se elige una muestra al azar de 30 aspirantes:

1. cu´al es la probabilidad de rechazar 2 aspirantes

2. cu´al es la probabilidad de rechazar un m´aximo de 5 aspirantes

Soluci´on

(42)

Como la proporci´on de rechazados es p= 0,1 y la muestra la conforman 30 aspirantes, entonces el promedio de la muestra es

λ =n_∗p= 30_∗0,1 = 3

As´ı, X _∼P oisson(3)

Luego:

P(X = 2) = e−

3

∗32

2!

= 9

2_∗e3 = 0,1120

as´ı, podemos concluir que existe un 11.20 % de posibilidades de rechazar exactamente 2 aspirantes de la muestra.

Por otra parte:

P(X _≤5)

5

X

k=0

P(X =k)

=

5

X

k=0 e−3

∗3k

k!

= CDF.P oisson(5,3) = 0,9161

3.4. Algunas distribuciones continuas de

in-ter´

es

Dentro de la amplia gama de distribuciones continuas de reducibilidades consideraremos algunas de ellas, las de mayor interés en el ámbito de las aplicaciones estad´ısticas; citaremos: la distribución normal, la distribución chi-cuadrado χ2

, la distribuci´on F y la distribuci´on t de student.

(43)

sim´etrica que se extiende sin l´ımite tanto en la direci´on positiva como negativa.

Se dice que una variable aleatoria continua X está normalmente dis-tribuida si su función de densidad probabil´ıstica está definida por:

f(x) = 1

σ√2πe

−(x−µ)2

2σ2 − ∞ ≤x, µ ≤+∞, σ >0

Los par´ametros de la distribuci´on son la media y la varianza µ, σ2

respectivamente.

La apariencia geom´etrica de la distribuci´on normal con media 0 y varianza 1 se ilustra en la figura siguiente:

La funci´on de distribuci´on de probabilidad para una variable X dis-tribuida normalmente es

F(x) = 1

σ√2π

Z x

−∞

e−(t2−σµ2)2dt

Cuando µ = 0, σ = 1 existen tabla que resumen las probabilidades acumuladas para la distribuci´on normal.

La distribución normalN(0,1) presenta una caracter´ıstica muy impor-tante y de gran utilidad en la inferencia estad´ıstica, la cual describe el porcentaje de información contenida en intervalos simétricos al rededor de la media, as´ı, ₋1 _≤ x _≤ 1 contiene el 68.27 % de la información,

−2 _≤ x _≤ 2 contiene 95.45 % y finalmente ₋3 _≤ x _≤ 3 contiene el 99.73 % de la información total, intervalos simétricos centrados en el origen con extremos mayores o iguales que 4 contienen el total de la información.

Ejemplo 3.9 Las calificaciones acumuladas en la escala 1-100 de 70 alumnos del curso de Estad´ıstica se distribuyen normal con media 54 y dseviaci´on est´andar 9.

(44)

N(0,1)

0 1 -1

68.27% 2

-2

95.45% 99.73%

3 -3

1. Cu´al es la probabilidad de obtener una puntuaci´on igual o inferior a 49

2. cu´al es la probabilidad de su calificaci´on var´ıe entre 61 y 74 3. La amplitud intercuartil´ıca

4. Cu´antos participantes tiene un puntaje mayor o igual que 51

Soluci´on

Por definici´on X _∼N(54,9), entonces

P(X _≤49) = CDF.N ormal(49,54,9) = 0,2893

es decir, el 28.93 % de la calificaciones son menores o iguales a 49 puntos

P(61_≤X _≤74) = CDF.N ormal(74,54,9)₋CDF :N ormal(61,54,9) = 0,9869₋0,7817 = 0,2052

as´ı, el 2o.52 % de las calificaciones se ubican entre 61 y 74 puntos. Para calcular el rango intercuartil´ıco se deben estimar el primer y tercer cuartil as´ı,

Q1 = IDF :N ormal(0,25,54,9) = 47,93 Q3 = IDF :N ormal(0,75,54,9) = 60,07

luego el rango intercuartil´ıco es

(45)

el 50 % de las calificaciones centrales difieren en 12.14 puntos. Final-mente se debe estimar la probabilidadP(X >51); la cual esta definida por:

P(X >51) = 1₋P(X _≤51)

= 1₋CDF.N ormal(51,54,9) = 1₋0,369 = 0,6306

Luego, la cantidad de alumnos con calificaciones mayores a 51 puntos es

n=P(X >51)_∗70 = 44,14

entonces 44 de los 70 participantes poseen calificaciones mayores a 51 puntos

Distribuci´on χ2

supongamos se tienen X1, X2,· · · , Xk; k variables

nor-males con media cero y varianza uno, definimos

Z =X12+X 2

2 +· · ·+X 2

k

la variableZ se distribuye como una χ2

con k grados de libertad y su funci´on de densidad probabil´ıstica est´a definida por:

f(x) =

( ₁

Γ k

2

2k2x

k

2−1e−

x

2 si x >0

0 otros casos

Γ(x) es la función gamma, los parámetros de la distribución χ2

son:

µ = k

σ2

= 2k

la gr´afica de la disribuci´on χ2

para ciertos valores de k se ilustra a continuaci´on:

Distribuci´on F si U es una variable χ2

con n grados de libertad y V es otra χ2

con m grados de libertad entonces la variable

X =

U n V m

posee una distribuci´on F con n, m grados de libertad, cuando U y V

(46)

k=2 k=3

k=4

k=6

La funci´on de densidad probabil´ıstica de una variable X distribuida

Fn,m, es de la forma:

f(x) = 1

β n₂,m₂

x

nx nx+m

n₂

1₋ nx

nx+m

m₂

donde β(t) es la funci´on matem´atica beta.

La distribuci´on Fn,m se caracteriza completamente por los grados de libertas n, m, de manera tal que.

µ = m

m₋2 m >2

σ2

= m

2

(2m+ 2n₋4)

n(m₋2)2₍_m

−4) m >4

La distribuciónFn,m es asimétrica positiva para cualquier valor den, m, su gráfica es de la forma:

Distribuci´on t de student dadas U una variable distribuida normal con media 0 y varianza 1, V una variable aleatoria χ2

(47)

libertad, independientes, la variable aleatoria

X= qU

V n

posee una distribucióntde student conngrados de libertad y su función de densidad de probabilidad está definida por

f(x) = Γ n+1

2

√

nπ Γ n

2

1 + x

2 n

−n+1₂

la media y la varianza de una variabletn son

µ = 0 n >1

σ2

= n

n₋2 n >2

Geom´etricamente, la distribuci´on t se asemeja a una normal, cuando

n > 30 la similitud se acentúa, por ejemplo, para n = 3 en la gráfica siguiente comparamos t3 con la curva normal estándar:

N(0,1)

(48)

As´ı, como la distribuc´on normal es de gran importancia en la teor´ıa de inferencia estad´ıstica, las distribuciones t, F, χ2

son elementos funda-mentales en la formulaci´on de pruebas de bondad de ajuste, raz´on por la cual son citadas en estas notas.

3.5. Teor´ıa de muestreo

Un subconjunto de la poblaci´on (o universo) seleccionado adecuadamente, de forma tal que sea representativa de la poblaci´on de origen, se denomina muestra estad´ıstica y el proceso de seleccionarla se conoce como muestreo estad´ıstico.

La teor´ıa de muestreo se realiza de manera tal que los elementos carac-ter´ısticos de la población pueden ser estimados a partir de la información obtenida de la muestra, también es de gran utilidad cuando se desea deter-minar si las diferencias que se pueden observar entre las caracter´ısticas de varias muestras, se deben a cuestiones del azar o si son reales o verdadera-mente significativas; tales decisiones de toman mediante la aplicación de los llamados ensayos o hipótesis de significancia.

Por otra parte, la utilizaci´on de las muestras posee entre otras ventajas:

1. La calidad de la informaci´on obtenida, debido a que se necesitan menos colaboradores, se pueden elegir de mejor nivel.

2. El costo es menor y se puede obtener un mejor rendimiento del capital invertido

3. Se obtiene una disminuci´on notable del tiempo necesario para levantar la informaci´on deseada

3.5.1. Tama˜

no de la muestra

El tama˜no de la muestra depende de cuatro elementos:

1. El tamaño de la población: finita o infinita; una población se considera finita si no posee más de 100.000 individuos, e infinita en caso contrario

(49)

3. El error de estimaci´on permitido

4. La proporción en que se encuentra en la población la caracter´ıstica estudiada, cuando no es posible mediante una prueba piloto estimar esta proporción, se adotará el supuesto de que dicha proporción es del 50 %

Para poblaciones con más de 100.000 individuos, el tamaño de la muestra se calcula mediante la fórmula

n= σ

2 pq E2

mientras que para poblaciones con menos de 100.000 individuos la identidad utilizada es

n = N σ

2 pq E2₍_N

−1) +σ2_pq

donde

n : tama˜no de muestra

N : tama˜no de poblaci´on

E : error de estinaci´on permitido 0 < E <1

p : probabilidad de seleccionar a cada individuo

q : probabilidad de ser rechazado cada individuo

σ : cuantil de la distribuci´on normal asociada al nivel de confianza

Por lo general, el nivel de confianza se ubica por encima del 95 %, as´ı, cuando el nivel de confianza est´a ubicado entre 95.5 % y 99.5 % el valor de

σ = 2, mientras que para niveles de confianzas superiores al 99.5 % se elige

σ= 3

Ejemplo 3.10 Para establecer una clasificación de las playas del litoral cen-tral, en playas aptas y no aptas para el uso de los temporadistas, se desea seleccionar una muestra de ellas con un nivel de confianza del 99.8 %, un error máximo de esrimación del 3 %, a partir del 75 playas existentes.

De la informaci´on aportada, sabemos que:

(50)

El nivel de confianza esperado es del 99.9 %, de donde σ = 3

El error de estimaci´on permitido es del 3 %

Como no existen indicios acerca de la proporci´on de playas seleccionadas y no seleccionadas, se considera p=q = 50 %

as´ı, el tama˜no de la muestra est´a definido por

n = N σ

2 pq E2₍_N

−1) +σ2_pq

= 75∗3

2

∗50_∗50 32

∗(75₋1) + 32

∗50_∗50 = 1686500

23166 = 72,85 la muestra est´a conformada por 72 playas

Ejemplo 3.11 Con el fin de desarrollar un plan piloto de educación ambi-ental en los niños de la primera y segunda etapa de Educación Básica en el estado Barinas, se seleccionaron 420 escuelas en los 11 municipios del estado, cada escuela posee en promedio 240 alumnos de la primera y segun-da etapa en el turno de la mañana. Determine el tamaño de la muestra de alumnos con los cuales se trabajará en el plan piloto, si el nivel de error de estimación máximo permitido es del 4 % y el nivel de confianza esperado es del 96.7 %

El estudio se realizará en 420 escuelas, cada una con 240 alumnos en promedio, as´ı, la población total es de 240_∗420 = 100,800 alumnos, es decir, la población es infinita, el error de estimación máximo permitido es el 4 %, es decir, E = 4, por otra parte, el nivel de confianza es del 96,7 %, entonces

σ = 3, además, como no esta definida la proporción entre seleccionados y no seleccionados, se concederánp=q= 50 %, el tamaño estimado de la muestra es:

n = σ

2 pq E2

= 3

2

∗50_∗50 42

= 22500

16 = 1406,25

(51)

3.5.2. Tipos de Muestreo

Muestreo probabil´ıstico: Cuando la selección de las unidades muéstrales se realizan aleatoriamente o al azar, se debe conocer de antemano la probabilidad de obtención de cada una de las muestras posibles de seleccionar (por lo general se da el caso de considerar igual probabilidad de selección).

Muestreo Intencional: En este caso, el encargado de seleccionar la mues-tra es quién procura que sea representativa, debe tener conocimiento de la población en estudio, lo que contribuye a eliminar en algo la sub-jetividad, pero aún as´ı está influida por las preferencias o tendencias de quién realiza el muestreo.

Muestreo sin Norma: Se selecciona la muestra de cualquier forma por ra-zones de comodidad o circunstancias; se logra representatividad sólo cuando la población es muy homogénea.

3.5.3. Clases de Muestreo

Muestreo Aleatorio Simple: Es realizado al azar y cada elemento de la poblaci´on tiene igual probabilidad de integrar la muestra (Equiproba-bilidad de Selecci´on). Puede ser efectuado en dos formas:

1. Con reemplazamiento: Cada elemento es devuelto a la población después de anotar sus caracter´ısticas, coincide con el muestreo de población infinitas.

2. Sin reemplazamiento. El elemento seleccionado para integrar la muestra deja de ser seleccionable, por tanto la poblaci´on es agotable y por supuesto finita, se suele llamar muestreo irrestrictamente aleatorio.

Ejemplo 3.12 En el ejemplo 7 fue estimado el tama˜no de la muestra, obteniendo 72 seleccionados de un total de 75, para seleccionar cada playa que pertenezca al estudio, se procede de la forma siguiente

se enumeran las 77 playas de manera ascendente

(52)

Muestreo Estratificado: A fin de disminuir la variabilidad de la poblaci´on, ´esta se divide en subgrupos o estratos, buscando mayor homogeneidad dentro de cada estrato (menor variabilidad).

El reparto de la muestra entre los diferentes estratos se denomina Afi-jaci´on y esta puede ser:

Arbitraria: Cuando se distribuye la muestra en cada estrato indepen-dientemente del total de elementos que compone a cada uno de ellos.

Igual: Cuando se reparte la muestra por igual a cada estrato.

Proporcional: Cuando se reparte proporcionalmente al n´umero de elementos que componen la poblaci´on de cada estrato.

´

Optima: Cuando se distribuye la muestra en forma proporcional al n´umero de elementos y a la desviaci´on t´ıpica de cada estrato.

Ejemplo 3.13 Para el ejemplo 7 el litoral central se divide en tres re-giones, sector sur, sector central y sector norte, el tama˜no de la muestra se divida entre tres para obtener la cuota de selecci´on en cada sector

C = 72 3 = 24

en cada sector se seleccionan al azar 24 playas, mediante muestreo al azar

Muestreo por Conglomerados: Las unidades de muestreo se sustituyen por un grupo de ellas, se trata de que cada conglomerado sea represen-tativo en lo posible de la poblaci´on.

Muestreo Bietápico: Es una modificación del muestreo por conglome-rados, aqu´ı no forma parte de la muestra todas las unidades de los conglomerados, sino que una vez seleccionados éstos, se efectúa un submuestreo dentro de cada conglomerado.

Muestreo Polietápico: Es una generalización del Bietápico, los con-glomerados seleccionados en la primera etapa puede estar forma-do por nuevos conglomeraforma-dos, de tal forma que se pueda sub-muestrear unidades de conglomerados dentro de conglomerados.

Ejemplo 3.14 Siguiendo con el ejemplo 8, el procedimiento para la selecci´on de la muestra mediante conglomerados es el siguiente:

(53)

como la muestra a elegir consta de 1406 alumnos y cada escuela posee en promedio 240 alumnos se establece el n´umero de escuelas a seleccionar (conglomerados) definido por:

k = 1406

240 = 5,85

es decir, se seleccionan al azar 5 escuelas para el plan piloto, de ellas se seccionan los 1406 alumnos

Muestreo Sistemático: Se toman los elementos de la población que van a formar la muestra en forma sistemática de K en K a partir de un elemento tomado al azar.

Muestreo Bifásico: Se toma una muestra grande en forma rápida y sencilla y con la información obtenida de ella, se diseña una muestra más pequeña para referirnos a la caracter´ıstica objeto de estudio.

Muestreo Polifásico o Múltiple: Es una extensión del anterior a tres o más fases.

Ejemplo 3.15 Siguiendo con el ejemplo 8, para aplicar muestreo sis-tem´atico, se recomienda seguir el siguiente procedimiento:

se divide el tamaño de la población entre el tamaño de la muestra para obtener la longitud de la cota de selección

K = 100,800

1406 = 71,69≈71

se elige al azar un n´umero entre 1 y 100.800, primer caso selec-cionado en la muestra, digamos 17

se enumera de manera ascendente la poblaci´on la serie seleccionada la conforman

17,88,159,230,301,372,_{· · ·}

(54)

Cap´ıtulo 4

Introducci´

on a la Inferencia

4.1. Preliminares

Frecuentemente, el propósito de cualquier investigación va más allá de describir las distribuciones de las variables por si solas, se pretende generalizar los resultados obtenidos en la muestra a la población o universo. Los datos obtenidos casi siempre son recolectados de una muestra y sus resultados estad´ısticos se conocen como estad´ıgrafos, la media la desviación estándar, la varianza, etc. Son estad´ıgrafos. A los valores estad´ısticos de la población se le conocen como parámetros. Los parámetros no son calculados porque los datos sobre la población no siempre se pueden recolectar en la mayor´ıa de los casos; pero pueden ser inferidos en función de los estad´ısticos de la muestro. As´ı una herramienta fundamental de la inferencia estad´ıstica es la recolección de datos en las muestras o muestreo.

La inferencia de los parámetros poblacionales se lleva a cabo mediante técnicas estad´ısticas apropiadas para ello. Estas técnicas se estudian en esta sección. La estad´ıstica inferencial puede ser utilizada para dos fines diferentes:

1. Estimar par´ametros

2. Probar hip´otesis.

(55)

4.2. Teorema central del L´ımite

Teorema 4.1 Sean X1, X2,· · · , Xn un conjunto de n variables aleatorias independientes con distribuci´on normal con media µy varianza σ2

considere la variable

Y = 1

n

X

i=1 Xi

es decir la media muestral, entonces Y posee una distribuci´on l´ımite

N

µ,σ 2 n

Este resultado se cumple sin importar la forma de la distribuci´on de proba-bilidad de las variables en estudio.

Del teorema central del l´ımite se tiene el siguiente resultado equivalente:

Z =

√

n

Y ₋µ

σ ∼N

0,1

4.3. Distribuci´

on muestral

Una distribución muestral consiste de un conjunto de valores de un es-tad´ıstico calculado sobre todas las muestras posibles de un determinado tamaño. Por ejemplo el valor de la medias de todas las muestras de tamaño cuatro tomadas de una población cualquiera. Las distribuciones muestrales se pueden determinar para cada uno de los estad´ısticos asociados a una muestra como son: media, mediana, desviación estándar, varianza, cuartiles, deciles, percentiles, etc. las distribuciones muestrales de medias son probablemente las más conocidas, pero es necesario conocer el concepto de distribución mues-tral asociado a cualquier estad´ıstico S asociado a las muestras de tamaño n extra´ıdas de una población dada.

4.4. Distribuci´

on muestral de la media

(56)

de la media obteniéndose un conjunto de observacionesX1, X2,· · · , Xk a las cuales se les pueden calcular los estad´ısticos más comunes como son la media, la desviación estándar y la varianza, los cuales se denotan como:

µ_X, σ_X, σ2

X

respectivamente, conocidos los valores de la media, la desviación estándar y la varianza de la población, entonces los estad´ısticos de la distribución muestral de la media se definen como:

µ_X = µ

σ_X = _√1

n σ

σ2

X = 1

n σ 2

en tales condiciones utilizando el teorema central del l´ımite se tiene que :

X _∼N

µ,σ 2 n

de manera tal que

Z = X−_σ µ

√_n ∼N 0,1

4.5. Distribuci´

on muestral de las varianza

Dentro de las estad´ısticas empleadas en la inferencia estad´ıstica respecto a la varianza poblacional es la varianza muestral denominada por recuérdese que es una medida de variabilidad e indica la dispersión existente entre las observaciones. Dado que la dispersión es considerada tan importante como la tendencia central la distribución muestral de varianza es tan importante como lo es la distribución muestral de medias.

Se desea desarrollar la distribuci´on muestral de S2

cuando el muestreo se lleva a cabo sobre una poblaci´on distribuida normal con media µconocida y varianza σ2

desconocida.

ComoS2

se define mediante

S2 = 1

n

X

i=1

(xi−µ)