Ueman Moran Ahuat resumen - copia

(1)

REPORTE DE LECTURA

”INSTITUTO TECNOLOGICO SUPERIOR DE TEPEXI DE RODRIGUEZ.”

EMANUEL MARTINEZ SOTO.

DOCENTE.

PROBABILIDAD Y ESTADISTICAS.

MATERIA.

“ESTADISTICA DESCIPTIVA”

TEMA.

UEMAN MORÁN AHUAT.

ALUMNO.

12255013.

NUM DE CONTROL

.

(2)

Bibliografía: (documentada en estilo APA).

D.R 2008 por Cengage Learning Editores S.A de C.V., una compañía de Cengage

Learning.Inc.comparativo santa fe. Av. Santa Fe núm. 505 piso 12.Col.Cruz Manca, Santa FE C.P 05349, México, D.F.Cengage Learning es una marca registrada bajo permiso.

Grado de confiabilidad (señalar el criterio): Bueno Fuente:

Autor: JAY L. DEVORE Editorial:

Actualidad: 2008 por Cengage Learning.

Glosario: Bivariantes:

Multibariantes:

Variable: dato de un proceso que puede tomar valores diferentes dentro del mismo. En calculo de probabilidades función que asigna un valor numérico a cada uno de los resultados de un conjunto de experiencias.

Cuantificar: esperar numéricamente una magnitud, introducir los principios de la mecánica en el estudio de un fenómeno.

Distribuida: función que describe un comportamiento estadístico asociado a cada numero real x la probabilidad de que el valor del parámetro que define un suceso sea menor.

Preguntas que suscita el texto: ¿Qué estadística descriptiva?

¿Cuáles son los conceptos de la estadística descriptiva? ¿Qué es la ponderada?

(3)

Organizador gráfico:

Resumen:

COCEPTOS BASICOS DE ESTADISTICA. Definición.

El término estadística tiene su raíz en la palabra estado. Surge cuando se hace necesario para sus intereses cuantificar conceptos. En la mayoría de los casos esta cuantificación se hará en función de unos fines económicos o militares. El estado quiere conocer censo de personas, de infraestructura, de recursos en general, para poder obtener conclusiones de esta información.

Actualmente la estadística es una ciencia. No es ya una cuestión reservada al estado. Podríamos decir que se encuentra en la totalidad del resto de ciencias. La razón es clara: por una parte la estadística proporciona técnicas precisas para obtener información, (recogida y descripción de datos) y por otra parte proporciona métodos para el análisis de esta información.

CONCEPTO BASICOS DE ESTADISTICA.

Definición, Teoría de decisión, Población, Muestra aleatoria, parámetros aleatorios.

Descripción de datos. Datos agrupados y no agrupados, frecuencia relativa, punto medio, limite.

Medidas de tendencia central, media aritmética, geometría y ponderada, mediana, moda, medidas de dispersión varianza, desviación estándar,

desviación media rango.

PARAMETROS PARA DATOS AGRUPADOS.

DISTRIBUCION DE FRECUENCIAS.

TECNICAS DE AGRUPACION DE DATOS.

(4)

De ahí el nombre de estadística distributiva ya que el objetivo será, a partir de una muestra de datos (recogida según una técnica concreta), la descripción de las características más importantes, entendiendo como características, aquellas cantidades que nos proporcionen información sobre el tema de interés del cual hacemos el estudio.

La estadística es el estudio de los métodos y procedimientos para recoger, clasificar, resumir y analizar datos y para hacer inferencias científicas partiendo de tales datos.

Es importante observar que el objeto del que realiza el análisis estadístico son los datos y las observaciones científicas por sí mismos, mas que el material químico que interviene en el estudio.

Por lo tanto no es posible trazar límites rígidos entre la química, la estadística y la matemática.

La estadística se puede dividir en 2 categorías, la "estadística descriptiva" y la "inferencia estadística".

La estadística descriptiva implica la abstracción de varias propiedades de conjuntos de observaciones, mediante el empleo de métodos gráficos, tabulares ó numéricos.

Teoría de decisión.

Población.

Es un conjunto finito o infinito de personas, animales o cosas que presentan características comunes, sobre los cuales se quiere efectuar un estudio determinado. En otras palabras, la población se define como la totalidad de los valores posibles (mediciones o conteos) de una característica particular de un grupo especificado de personas, animales o cosas que se desean estudiar en un momento determinado. Así, se puede hablar de la población de habitantes de un país, de la población de estudiantes universitarios los Ríos de las ciudades.

Una investigación típicamente se enfocara en una colección bien definida de objetos que constituyen una población de interés. La población podría consistir de todas las capsulas de la gelatina de un tipo en particular producidas durante un periodo especifico. La población compuesta de todos los individuos que recibieron una licenciatura de ingeniería durante un año académico más reciente.

Cuando la información deseada esta disponible para todos los objetos de la población se tiene lo que se llama un censo. Las restricciones de tiempo, dinero, y otros recursos escasos casi siempre hacen que un censo sea impráctico o infactible.

Muestra aleatoria.

Una muestra aleatoria es aquella que se selecciona como un subconjunto de una población para ser analizada con mayor facilidad.

Parámetros aleatorios.

(5)

DESCRIBCION DE DATOS.

Datos agrupados y no agrupados.

Cálculo de la mediana a partir de datos no agrupados:

Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden descendente o ascendente. Si el conjunto de datos contiene un número impar de elementos, el de en medio en el arreglo es la mediana. Si hay un número par de observaciones, la mediana es el promedio de los dos elementos de en medio.

Mediana = (n + 1) / 2

Cálculo de la mediana a partir de datos agrupados:

 Encontrar qué observación de la distribución está más al centro (Mediana = (n + 1) / 2).

 Sumar las frecuencias de cada clase para encontrar la clase que contiene a ese elemento más central.  Determinar el número de elementos de la clase y la localización de la clase que contiene al elemento

mediano.

 Determinar el ancho de cada paso para pasar de una observación a otra en la clase mediana, dividiendo el intervalo de cada clase entre el número de elementos contenido en la clase.

 Determinar el número de pasos que hay desde el límite inferior de la clase mediana hasta el elemento correspondiente a la mediana.

 Calcular el valor estimado del elemento mediano multiplicando el número de pasos que se necesitan para llegar a la observación mediana por el ancho de cada paso. Al producto sumarle el valor del límite inferior de la clase mediana.

 Si existe un número par de observaciones en la distribución, tomar el promedio de los valores obtenidos para el elemento mediano calculados en el paso número 6.

Cálculo de la moda a partir de datos no agrupados:

En ocasiones, el azar hace que un solo elemento no representativo se repita lo suficiente para ser el valor más frecuente del conjunto de datos. Es por esta razón que rara vez utilizamos la moda de un conjunto de datos no agrupados como medida de tendencia central.

Por esta razón, siempre que utilizamos la moda como medida de tendencia central de un conjunto de datos, debemos calcular la moda de datos agrupados (buscar la clase modal).

Cálculo de la moda de datos agrupados:

Cuando los datos ya se encuentran agrupados en una distribución de frecuencias, podemos poner que la moda está localizada en la clase que contiene el mayor número de elementos, es decir, en la clase que tiene mayor frecuencia. Para determinar un solo valor para la moda a partir de esta clase modal:

Mo = Lmo + [d1 / (d1 + d2 )] w

Lmo = límite inferior de la clase modal.

d1 = frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente por debajo de ella.

(6)

de ella.

w = ancho del intervalo de la clase modal.

Frecuencia de clase.

Es aquella distribución en la que la disposición tabular de los datos estadísticos se encuentra ordenada en clases y con la frecuencia de cada clase; es decir, los datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clase. No existen normas establecidas para determinar cuándo es apropiado utilizar datos agrupados o datos no agrupados; sin embargo, se sugiere que cuando el número total de datos (N) es igual o superior 50 y además el rango o recorrido de la serie de datos es mayor de 20, entonces, se utilizará la distribución de frecuencia para datos agrupados, también se utilizará este tipo de distribución cuando se requiera elaborar gráficos lineales como el histograma, el polígono de frecuencia o la ojiva.

La razón fundamental para utilizar la distribución de frecuencia de clases es proporcionar mejor comunicación acerca del patrón establecido en los datos y facilitar la manipulación de los mismos. Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la información obtenida de una investigación sea manejable con mayor facilidad.

1.- Rango o Amplitud total (recorrido).- Es el límite dentro del cual están comprendidos todos los valores de la serie de datos, en otras palabras, es el número de diferentes valores que toma la variable en un estudio o investigación dada.

2.- Clase o Intervalo de clase.- Son divisiones o categorías en las cuales se agrupan un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores comprendidos entre dos limites.

Frecuencia relativa.

La frecuencia relativa es aquella que resulta de dividir cada uno de los n de las clases de una distribución de frecuencia de clase entre el número total de datos(N) de la serie de valores. Estas frecuencias se designan con las letras n; si cada n se multiplica por 100 se obtiene la frecuencia relativa porcentual (n %).

Punto medio.

El punto medio de un intervalo se puede obtener de varias formas. Posiblemente la más fácil consiste en sumar los límites inferiores de dos intervalos consecutivos y dividir entre dos.

En un ejemplo seria el siguiente:

Puntuaciones frecuencia

200-299 2

300-399 8

(7)

El 200 es el límite inferior del primer intervalo y 300 el límite inferior del segundo intervalo. Por lo tanto el punto

medio del primer intervalo es (200+300)/2 = 250. De igual forma el punto medio del segundo intervalo es 350.

Limites.

Son los valores extremos que tiene el intervalo de clase, inferior y superior, entre los cuales van a estar los

valores de los datos agrupados en ese intervalo de clase.

MEDIDAS DE TENDENCIAS CENTRAL.

Se enfoca en el número que, suele situarse en el centro de la distribución de datos al cual se denomina medida o parámetro de tendencia central o de centralización.

Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.

Media aritmética.

La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de sumandos.

La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos. Se le llama también promedio o, simplemente, media.

La fórmula que se utiliza para sacar la media aritmética es:

Geometría y ponderada.

A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada.

(8)

Mediana.

Es un sinónimo de “medio” y la mediana muestral es en realidad el valor medio una vez que se ordenan las observaciones de la más pequeña a la más grande. Cuando las observaciones están denotadas por x1…….xn se utilizara el símbolo x para representar la media muestral.

La media muestral: se obtiene ordenando primero la n observaciones de la más pequeña a la más grande (con cualesquiera valores repetidos incluidos de modo que cada observación muestral aparezca en la lista ordenada.

X= el valor medio único si n es impar=

X=el promedio de los dos valores medios si n es par =promedio de

( ) ( )

Moda.

La moda es el valor más frecuente de un conjunto de datos en ocasiones se presentan dos o más valores que se repiten con mayor frecuencia. En este caso, a los datos se les conoce como bimodales o multimodales, respectivamente.

La moda es la única medida de tendencia central que se puede aplicar a datos del tipo cualitativo, por ejemplo: analizar el color de ojos (café, negro, azul) de una población. Es muy fácil de determinar, basta con observar detenidamente al conjunto de datos y ver cuál es el que más se repite; sin embargo, no es muy útil por que puede ocurrir que una distribución tenga dos o más valores que se repitan con la misma frecuencia, en tal caso se tienen dos o mas modas. También puede ocurrir que no exista ningún valor que se repita y entonces no habrá moda. Por otra parte puede ser un valor extremo el de mayor frecuencia y difícilmente podría ser considerado una medida de tendencia central

Medidas de dispersión varianza.

La dispersión puede medirse en términos de la diferencia entre dos valores seleccionados del conjunto de datos. Las medidas de distancia son: el alcance, el alcance interfractil y el alcance intercuartil.

Alcance.

Es la diferencia entre el más alto y el más pequeño de los valores observados.

Alcance = valor de la observación más alta – valor de la observación más pequeña

El alcance es fácil de entender y de encontrar, pero su utilidad como medida de dispersión es limitada. Sólo toma en cuenta los valores más alto y más bajo de una distribución y no considera ninguna otra observación del conjunto de datos. Ignora la naturaleza de la variación entre todas las demás observaciones, y se ve muy influido por los valores extremos.

Desviación estándar.

(9)

√∑ ̅

Desviación mediana.

El criterio que guía esta estadística, radica en el uso de diferencias de cada dato respecto a la mediana muestral

m.

Si estas diferencias son muy grandes, entonces estamos ante un caso de gran variabilidad, y si son pequeñas se espera que la variabilidad sea pequeña.

Un agrupamiento natural sería una suma de ellas, pero el sólo uso de las diferencias no garantiza que se pueda medir discrepancias porque algunas (prácticamente la mitad) serán menores que la mediana, con diferencias negativas, y el resto mayores que la mediana, con diferencias positivas, y al sumar dichos valores habría compensaciones entre valores negativos y positivos.

Por lo tanto, una salida a esta dificultad es considerar el valor absoluto de las diferencias calculadas y promediarlos.

Esto conduce a la definición siguiente:

Dado un conjunto de datos, x1, ..., xn su desviación mediana está definida por :

Donde m representa la mediana de los datos.

Puede verse entonces que, cuanto mayor sea la dispersión existente entre los datos, tanto mayor tenderá a ser el promedio del valor absoluto de las diferencias de los datos, respecto de la mediana muestral.

Esta estadística se encuentra medida en la misma escala que los datos originales, lo que facilita su comprensión.

Rango.

El rango, o R, es la diferencia entre los valores más alto y más bajo incluidos en un conjunto de datos. Así, cuando My representa al mayor valor del grupo y Mn al menor, el rango de datos no agrupados es R = My – Mn.

Un ejemplo seria el siguiente: Durante un mes de verano, los ocho vendedores de una empresa de equipos de calefacción y aire acondicionado vendieron los siguientes números de unidades centrales de aire acondicionado: 8,11, 5, 14, 8,11, 16, 11. El rango del número de unidades vendidas es

R =My - Mn = 16 - 5 = 11.0 unidades.

(10)

nivel original de medición.

PARAMETROS PARA DATOS AGRUPADOS.

Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las características de la muestra y por consiguiente las de la población de donde fue tomada.

Antes de pasar a definir cuál es la manera de determinar las características de interés (media, mediana, moda, etc.) cuando se han agrupado en clases los datos de la muestra, es necesario que sepamos cómo se agrupan los datos.

DISTRIBUCION DE FRECUENCIAS.

En estadística, se le llama distribución de frecuencias a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase

 Una distribución de frecuencias es un formato tabular en la que se organizan los datos en clases, es decir, en grupos de valores que describen una característica de los datos y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.

 La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su Frecuencia. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada.

 La tabla de frecuencias puede representar gráficamente en un histograma (Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores.  La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los

datos estadísticos, asignando a cada dato su frecuencia correspondiente.

TECNICAS DE AGRUPACION DE FRECUENCIAS.

TECNICAS DE MUESTREO.

HISTOGRAMAS.

Algunos números numéricos se obtienen contando para determinar el valor de una variable (el numero de cetarios de trafico que una persona recibió durante el año pasado, el numero de personas que solicitan empleo durante un periodo particular) mientras que otros datos se obtienen tomando mediciones (peso de un individuo tiempo de reacción a un estimulo particular). La prescripción para trazar un histograma es en general diferente en estos dos casos.

Una variable numérica es discreta si su conjunto de valores posibles es finito o se puede enumerar en una sucesión infinita (una en la cual existe un primer numero, un segundo numero y así sucesivamente). Una variable numérica es continua si sus valores posibles abarcan un intervalo completo sobre la línea de números.

Una variable discreta x casi siempre resulta contar en cuyo caso posibles valores son 0, 1, 2, 3,.. O algún subconjunto de estos enteros.

(11)

Construcción de un histograma para datos discretos:

En primer lugar, se determina la frecuencia y la frecuencia relativa de cada valor x.

Luego se marcan los valores x posibles en una escala horizontal. Sobre cada valor, se traza un rectángulo cuya altura es la frecuencia relativa (o alternativamente la frecuencia) de dicho valor.

Esta construcción garantiza que el área de cada rectángulo es proporcional a la frecuencia relativa al valor. Por lo tanto si las frecuencias relativas de x= 1 y x=5 son 0.35 y 0.07 respectivamente, entonces el área del rectángulo sobre 1 es cinco veces el área del rectángulo sobre 5.

Un histograma se muestra o se presenta en varias formas :

 Histograma unimodal es el que se eleva a una sola cresta y luego declina.

 Histograma bimodal tiene dos cretas diferentes. Puede ocurrir bimodilidad cuando el conjunto de datos se compone de observaciones de dos clases bastante diferentes de individuos u objetos.