ESTADÍSTICA. UNIDAD Nº I Estadística Descriptiva.

(1)

ESTADÍSTICA

UNIDAD Nº I

(2)

Introducción

La información siempre, y con mayor razón hoy en día, es fundamental para la toma de decisiones, las que deben ser oportunas y eficientes. Con errada o insuficiente información lo más probable es que la decisión sea equivocada. En consecuencia, un sólido respaldo para una acertada toma de decisiones, contempla ambos aspectos: i) información buena y suficiente, y ii) un debido procesamiento de los datos.

La Estadística es una disciplina que proporciona una metodología fundada en la matemática para obtener, recopilar, procesar, resumir y presentar datos referentes a un estudio de interés, transformándolos en estadísticos y parámetros con el fin de interpretarlos para obtener conclusiones, dando garantía de idoneidad en los procedimientos. También propone metodologías que permite deducir características poblacionales a partir de muestras de ellas.

(3)

Ideas fuerza

La aplicación del tratamiento estadístico tiene dos fases fundamentales: 1. Organización y análisis inicial de los datos recogidos.

2. Extracción de conclusiones válidas y toma de decisiones razonables a partir de ellos.

El propósito de la Estadística Descriptiva es abordar la primera de las fases precitadas. Es decir, su objetivo es ordenar, describir y sintetizar la información recogida. En este proceso será necesario establecer medidas cuantitativas que reduzcan a un número manejable de parámetros el conjunto, en general grande, de datos obtenidos.

La realización de gráficas, visualización de los datos en diagramas, también forma parte de la Estadística Descriptiva dado que proporciona una manera visual directa de organizar y presentar la información.

La finalidad por tanto de la Estadística Descriptiva no es, extraer conclusiones generales sobre el fenómeno que ha producido los datos bajo estudio, sino solamente su descripción, de ahí su nombre.

(4)

Desarrollo

1. Introducción a la Estadística

La Estadística es la ciencia de la toma de decisiones en condiciones de incertidumbre y como tal, forma parte del método científico. El método científico se basa en tres pilares fundamentales: observación, razonamiento y experimentación, el cual no debe entenderse como una simple receta, sino que se trata de un proceso exigente que requiere, entre otros ingredientes, juicio crítico. De forma resumida, el método científico incorpora las siguientes facetas:

Figura 1: Forma resumida del método científico.

Con el objetivo de ir profundizando en el lenguaje propio de la estadística, se expondrán algunos conceptos preliminares:

▪ Por Universo se entenderá el conjunto de individuos objeto de nuestro interés o estudio. La especificación de universo, en general, no es trivial, pues es necesario que no haya ambigüedad respecto a quien forma parte o no forma parte de este conjunto.

(5)

▪ Por Población se entenderá como el conjunto de datos de una característica medida en cada individuo del universo. Así, asociado a un mismo universo se podrán tener varias poblaciones. Para distinguir una población de otra denominaremos variable a cada una de estas características particulares, así por ejemplo, la variable estatura, la variable sexo, la variable estado civil, etc. En consecuencia, los diferentes valores que toma una característica se denomina variable. Para el caso particular de una muestra que incluye a todos los elementos de la población es conocido como censo.

▪ Por muestra se entiende cualquier subconjunto de la población. Existen distintas formas de elegir una muestra. Las dos más opuestas son: las muestras

dirigidas donde la selección de los individuos de la población se efectúa al gusto

del investigador, y por otro lado las muestras aleatorias, que son las que tienen

validez estadística y son aquellas donde los individuos son seleccionados

mediante un procedimiento regido por el azar, por ejemplo, a través de números

aleatorios.

En otro orden de definiciones es importante diferenciar los conceptos de dato,

información y conocimiento. Es común que en la vida cotidiana los tres conceptos

suelen utilizarse indistintamente. Un dato es un conjunto discreto de factores objetivos sobre un hecho real, es decir, éste no dice nada sobre el porqué de las cosas, y por sí mismo tiene poca o ninguna relevancia o propósito. Por ejemplo, un dato puede corresponder a una de las calificaciones obtenidas en la asignatura de estadística por una de las estudiantes de cuarto año de la carrera de Ingeniería de una institución de educación superior en particular. El concepto de información se entiende como un mensaje, el cual puede ser escrito o audible, y es capaz de cambiar la forma en que el receptor del mensaje percibe un determinado suceso, es capaz de impactar sobre sus juicios de valor y comportamientos; finalmente los datos se convierten en información cuando se les añade significado.

Por otro lado, el conocimiento es una mezcla de experiencia, valores, información y

saber hacer, que sirve como marco para la incorporación de nuevas experiencias e

información, y es útil para la acción. Se aplica en la mente de los conocedores. Para concluir, se puede declarar que, el conocimiento se deriva de la información, así como la información se deriva de los datos. En estadística, se recolectan los datos, se analizan, y se elabora la información.

(6)

1.1 Método estadístico

En la etapa del método científico, Figura 1, llamada “Verificación de la Consecuencia” es en donde se utiliza el método estadístico, es decir, se buscar verificar/descartar la hipótesis planteada, investigando de las consecuencias deducidas si se cumplen o no. Por ejemplo, si se tiene la siguiente hipótesis “el 60% de las mujeres mayores de 30 años están casadas”; es en esta etapa donde se verifica si la hipótesis planteada es verdadera o falsa, a través de la recolección y análisis de datos.

Por lo anterior, es posible concluir que el método estadístico (estadística descriptiva) nos proporciona las técnicas necesarias para recolectar y analizar la información requerida, en la que se puede distinguir dos etapas:

a) Diseño del trabajo estadístico

Los pasos que conforman esta etapa del método estadístico son representados y definidos en la Figura 2.

(7)

b) Ejecución del trabajo estadístico

La etapa de ejecución del trabajo estadístico contempla los siguientes pasos consecutivos: i) recopilación de los datos, ii) elaboración de la información, el cual consiste en tabular, graficar y resumir la información, y por último iii) análisis de resultados (temas que serán abordados en el transcurso de la presente unidad).

Desde una mirada científica, la estadística brinda las herramientas y procedimientos para ser aplicadas en los siguientes contextos y/o situaciones:

▪ Análisis de muestras. Se elige una muestra de una población para hacer inferencias respecto de esa población a partir de lo observado en la muestra (sondeos de opinión, control de calidad, etc.).

▪ Descripción de datos. Procedimientos para resumir la información contenida en un conjunto (amplio) de datos.

▪ Contraste de hipótesis. Metodología estadística para diseñar experimentos que garanticen que las conclusiones que se extraigan sean válidas. Sirve para comparar las predicciones resultantes de las hipótesis con los datos observados (medicina eficaz, diferencias entre poblaciones, etc.).

▪ Medición de relaciones entre variables estadísticas, por ejemplo, el contenido de gas hidrógeno en galaxias y su relación con la tasa de formación de estrellas, etc.

▪ Predicción. Prever la evolución de una variable estudiando su historia y/o relación con otras variables.

1.2 Variables y su clasificación

La Estadística Descriptiva se ocupa, fundamentalmente, de los siguientes puntos: ▪ Organizar los datos en tablas estadísticas.

▪ Representar gráficamente los datos para hacer una representación esquemática de estos.

(8)

▪ Determinar los estadísticos de tal manera de mostrar características propias de los datos.

Para poder realizar adecuadamente estas tres tareas, se debe tener en cuenta el tipo de dato que se va a medir, es decir, el tipo de tabla, gráfico y estadísticos que se determinarán (los estadísticos son explicados más adelante en esta unidad); lo cual depende del tipo de variable que se está analizando estadísticamente.

Dado lo anterior, lo principal será definir los tipos de variables y sus principales características.

El objeto de interés o estudio pueden ser variables de tipos muy diversos. De ahí que normalmente se clasifican en: i) variables cuantitativas, son aquellas que toman valores numéricos, ejemplo de estas son: la altura, la velocidad de móvil, la presión, etc., y ii)

variables cualitativas, también llamadas atributos, son aquellas que, en general, no se

representan numéricamente puesto que describen cualidades. Por ejemplo, la variable “color” o “estado civil”. Sin bien existen algunas diferencias entre un tipo de variable y otra, en muchas ocasiones es posible asignar valores numéricos a los diferentes caracteres cualitativos.

Por otro lado las variables pueden ser clasificadas según el tamaño del recorrido y la

escala de medición, lo que permite determinar el método más adecuado para tratar los

datos recolectados según su naturaleza. a) Tamaño del recorrido

Como su nombre lo indica, en este caso las variables son clasificadas de acuerdo al número de valores que éstas pueden tomar, las que se pueden dividir en:

▪ Variable binaria o dicotómica. Estas variables sólo pueden tomar dos valores, es decir, los elementos pueden ser clasificados en dos categorías mutuamente excluyentes. Son ejemplos de variable binaria o dicotómica: “sexo” (masculino/femenino), chilenos/extranjeros, etc.

▪ Variable discreta. Una variable será cuantitativa discreta cuando sólo pueden tomar una cantidad finita numerables de valores. Por ejemplo, el número de electrones de un átomo, el número de estudiantes en una sala, etc.

(9)

▪ Variable continua. Una variable será cuantitativa continua cuando pueden tomar teóricamente infinitos valores entre dos valores dados. Por ejemplo entre los número 0 y 1 existe un número infinito de números. Como ejemplo de estas variables se encuentra el ingreso, el consumo de agua potable, la estatura, etc. Muchas veces una variable continua se trabaja como variable discreta (para propósitos de análisis). Así por ejemplo, la variable “ingreso” puede tratarse en subcategorías referidas a niveles o estratos socio-económicos.

b) Escala de medición

▪ Escala nominal. Las observaciones para una variable sólo pueden ser clasificadas en “una” de varias clases mutuamente excluyentes y exhaustivas. Una clase se define como el rango de intervalos, en la que se debe agrupar una variable. Por ejemplo, supongamos que se realiza esta pregunta: “¿podrías seleccionar el grado de incomodidad de tu enfermedad?”. Las opciones de respuesta utilizadas para este tipo de escala serían: (1) Leve, (2) Moderado y (3) Severo.

▪ Escala ordinaria (ordinal). También llamada escala de orden jerárquico, con ella se establecen posiciones relativas de los objetos o fenómenos de estudio, respecto de alguna característica de interés, sin que se reflejen distancias entre ellos. Por ejemplo, suponga que a los clientes en un almacén se les formulan unas preguntas para valorar la calidad del servicio. Los clientes valoran la calidad de acuerdo a las siguientes respuestas previas: 1 (excelente), 2 (bueno), 3 (regular), 3 (malo) y 4 (pésimo). Estos datos son ordinales. Nótese que una valoración de 1 no indica que el servicio es dos veces mejor que cuando se da una valoración de 2. Sin embargo podemos decir que la valoración de 1 es preferiblemente mejor que 2, y así lo mismo para los demás casos.

▪ Escala de intervalos. Representa un nivel de medición más preciso, matemáticamente hablando, que las anteriores; no solo se establece un orden en las posiciones relativas de los objetos o individuos unos respectos de otros, sino que se mide también la distancia entre los intervalos o las diferentes categorías o clases.

(10)

▪ Escala de razón. Cuando una escala tiene todas las características de una escala de intervalo y además un punto cero real en su origen, se llama escala de razón. Además de distinción, orden y distancia, ésta es una escala que permite establecer en qué proporción es mayor una categoría de una escala que otra. El cero absoluto o natural representa la nulidad de lo que se estudia.

Finalmente es posible resumir los tipos de variables a través de la siguiente figura:

Variable Cuantitativa Continuas

Ejemplos: presión arterial, peso, edad, altura, etc.

Discretas

Ejemplos: Número de hijos, número

de episodios de una serie,

episodios de alguna enfermedad en particular, etc.

Variable Cualitativa Ordinales

Ejemplos: jerarquías en profesores universitarios, evaluación laboral (clasificación en listas; lista 1, lista 2, …, lista 5).

Nominales

Ejemplos:

- Variable dicotómica; ejemplo: vivo/muerto, etc.

- Variable policotómicas; ejemplo: grupo sanguíneo, grupo etario, etc.

Figura 3: Cuadro resumen tipos de variables.

Por otra parte, las variables se pueden asimismo clasificar en unidimensionales, cuando solo se mida un carácter o atributo de los elementos de la muestra, o

bidimensionales, tridimensionales, y en general n-dimensionales, cuando se

(11)

2. Estadística Descriptiva

Cuando primero se le presenta a usted un conjunto de datos, ya sea de una muestra o una población, necesita encontrar una forma de organizarlo y resumirlo. La rama de la estadística que presenta técnicas para describir conjuntos de mediciones o datos se denomina estadística descriptiva. Las gráficas de barras, de puntos, las gráficas presentadas por un candidato político o las gráficas presentadas en vuestra fuente laboral es el resultado de la estadística descriptiva.

La estadística descriptiva está formada por procedimientos empleados para resumir y describir las características importantes de un conjunto de datos, para lo cual se emplean unos cuantos estadísticos y algunas gráficas adecuadas.

Como podemos observar, la definición de estadística descriptiva nos invita a aprender las técnicas utilizadas para resumir y comprender la información entregada por los datos. La estadística descriptiva formula reglas y procedimientos para la presentación de una serie de datos en una forma más útil y significativa.

Siempre que se va a realizar un análisis estadístico de una serie de datos, es aconsejable previamente hacer una estadística descriptiva con el propósito de obtener información de las variables a analizar, o simplemente para chequear posibles errores en los datos. El primer paso para el estudio estadístico de una muestra es su ordenamiento y presentación en una tabla de frecuencias.

2.1 Tabla de frecuencias

2.1.1 Tabla de frecuencias para variables discretas

Supongamos que tenemos una muestra de tamaño 𝑛, donde la variable estadística 𝑥 toma valores distintos 𝑥₁, 𝑥₂, … , 𝑥_𝑛. En primer lugar debemos ordenar los diferentes valores que toma la variable estadística en orden (normalmente creciente). La diferencia entre el valor mayor y menor que toma la variable se conoce como recorrido o rango 𝑅.

En el caso de variables discretas, generalmente, un mismo valor de la variable aparecerá repetido más de una vez (es decir 𝑘 < 𝑛). De forma que el siguiente paso es la

(12)

construcción de una tabla en la que se indiquen los valores posibles de la variables y su frecuencia de aparición.

A continuación se presenta, a modo general, una tabla de distribución de frecuencias para una variable discreta.

Tabla 1: Tabla de distribución de frecuencias de una variable discreta. Valores de la variable estadística 𝑥_𝑖 Frecuencias absolutas 𝑓_𝑖 Frecuencias relativas ℎ_𝑖 Frecuencias absolutas acumuladas 𝐹_𝑖 Frecuencias relativas acumuladas 𝐻_𝑖 𝑥1 𝑥₂ . . . 𝑥𝑘 𝑓1 𝑓₂ . . . 𝑓𝑘 ℎ1 ℎ₂ . . . ℎ𝑘 𝐹1 𝐹₂ . . . 𝐹𝑘 𝐻1 𝐻₂ . . . 𝐻𝑘

En la primera columna de la Tabla 1 se escriben los distintos valores de la variable, 𝑥_𝑖, ordenados generalmente, de menor a mayor. Es posible hacer también una tabla de frecuencias de una variable cualitativa. En este caso, en la primera columna se escribirían las diferentes cualidades o atributos que puede tomar la variable. En las siguientes columnas se escriben las frecuencias para cada valor de la variable.

▪ Frecuencia absoluta 𝑓_𝑖: Definida como el número de veces que aparece repetido el valor en cuestión de la variable estadística en el conjunto de las observaciones realizadas. Si 𝑛 es el número total de observaciones (o tamaño de la muestra), las frecuencias absolutas cumplen las siguientes propiedades:

0 ≤ 𝑓_𝑖 ≤ 𝑛 ; ∑ 𝑓_𝑖 = 𝑛

𝑘

𝑖=1

(13)

definición.

▪ Frecuencia relativa ℎ_𝒊: Corresponde al cociente entre la frecuencia absoluta y el número de observaciones 𝑛. Es decir:

ℎ𝑖 =

𝑓_𝑖 𝑛 Cumpliéndose las propiedades:

0 ≤ ℎ_𝑖 ≤ 1 ; ∑ℎ𝑖 𝑛 = 1

𝑘

𝑖=1

Esta frecuencia relativa se puede expresar también en tantos por ciento del tamaño de la muestra, para lo cual basta con multiplicar por 100. En este caso habitualmente recibe el nombre de frecuencia relativa porcentual.

ℎ𝑖(%) = 100 ∙ ℎ𝑖

Así por ejemplo, si ℎ𝑖 = 0,25, esto quiere decir que la variable 𝑥𝑖 se repite en el

25% de la muestra.

▪ Frecuencia absoluta acumulada 𝐹_𝑖: Corresponde a la suma de las frecuencias absolutas de los valores inferiores o igual a 𝑥_𝑖, o número de medidas por debajo, o igual, que 𝑥𝑖. Evidentemente la frecuencia absoluta acumulada de un valor se

puede calcular a partir de la correspondiente al anterior como: 𝐹𝒊= 𝐹𝑖−1+ 𝑓𝑖 ; 𝐹𝟏 = 𝑓𝟏

Además la frecuencia absoluta acumulada del último valor será: 𝐹_𝑘 = 𝑛

▪ Frecuencia relativa acumulada 𝐻_𝑖: Corresponde al cociente entre la frecuencia absoluta acumulada y el número total de observaciones. Coincide además con la suma de las frecuencias relativas en los valores inferiores o iguales a 𝑥𝑖.

𝐻𝑖 =

𝐹_𝑖 𝑛

(14)

Nótese que la frecuencia relativa acumulada del último valor es 1, o 100% si está expresada en porcentaje.

Al igual que la frecuencia relativa, la frecuencia relativa acumulada puede expresarse como un porcentaje (multiplicando por 100) y su interpretación corresponderá al tanto por ciento de medidas con valores por debajo o igual

que 𝑥_𝑖.

Ejemplo 1:

Supongamos que el número e de hijos de una muestra de 20 familias es el siguiente:

2 1 1 3 1 2 5 1 2 3

4 2 3 2 1 4 2 3 2 1

El tamaño de la muestra es 𝑛 = 20, el número de valores posibles 𝑘 = 5 (se observan familias con hasta 5 hijos), y el recorrido es 5 − 1 = 4.

N° 𝑥𝑖 𝑓𝑖 ℎ𝑖 𝑓𝑖⁄ 𝑛 𝐹𝑖 ∑ 𝑓𝑗 𝑖 1 𝐻𝑖 ∑ ℎ𝑗 𝑖 1 1 1 6 0,30 6 0,30 2 2 7 0,35 13 0,65 3 3 4 0,20 17 0,85 4 4 2 0,10 19 0,95 5 5 1 0,05 20 1,00

Algunas conclusiones que se pueden obtener a partir de la tabla de frecuencias son las siguientes:

▪ De las 20 familias, 7 de ellas tienen 2 hijos.

▪ De las 20 familias, el 20% tiene 3 hijos (ℎ₃ = 0,20; frecuencia relativa del intervalo 3).

▪ De las 20 familias, 17 de ellas tienen 3 hijos o menos (𝐹₃ = 17). ▪ De las 20 familias, el 65% de ellas tiene 2 hijos o menos (𝐻2 = 0,65).

(15)

Cuando el número de valores que toma la variable estadística es demasiado grande o la variable es continua no es útil elaborar una tabla de frecuencias como la vista anteriormente. En estos casos se realiza un agrupamiento de los datos en intervalos y se hace un recuento del número de observaciones que caen dentro de cada uno de ellos. Dichos intervalos se denominan intervalos de clase, y al valor de la variable en el centro de cada intervalo de le llama marca de clase. De esta forma se sustituye cada medida por la marca de clase del intervalo que corresponda. A la diferencia entre el extremo superior e inferior de cada intervalo se le llama amplitud del intervalo. Normalmente se trabajará con intervalos de amplitud constante.

La tabla de frecuencias resultante es similar a la vista anteriormente. En el caso de una distribución en 𝑘 intervalos ésta sería:

Tabla 2: Tabla de distribución de frecuencias de una variable continua. Intervalos de clase 𝑎_𝑖 − 𝑎_𝑖+1 Marcas de clase 𝑚_𝑖 Frecuencias absolutas 𝑓_𝑖 Frecuencias relativas ℎ_𝑖 = 𝑓_𝑖⁄ 𝑛 Frecuencias absolutas acumuladas 𝐹_𝑖 Frecuencias relativas acumuladas 𝐻_𝑖 = 𝐹_𝑖⁄ 𝑛 𝑎₁− 𝑎₂ 𝑎₂− 𝑎₃ . . . 𝑎𝑘− 𝑎𝑘+1 𝑚₁ 𝑚₂ . . . 𝑚𝑘 𝑓₁ 𝑓₂ . . . 𝑓𝑘 ℎ₁ ℎ₂ . . . ℎ𝑘 𝐹₁ 𝐹₂ . . . 𝐹𝑘 𝐻₁ 𝐻₂ . . . 𝐻𝑘

El realizar el estudio mediante el agrupamiento por intervalos de clase simplifica el trabajo, pero también supone una pérdida de información, ya que no se tienen en cuenta cómo se distribuyen los datos dentro de cada intervalo. Para que dicha pérdida sea mínima es necesario elegir con cuidado los intervalos. Aunque no existen reglas estrictas para la elección de los intervalos, aquí se entregan algunas orientaciones para resolver esta situación.

(16)

ii. Decidir el número 𝑘 de intervalos de clase en que se van a agrupar los datos. Dicho número se debe situar normalmente entre 5 y 20, dependiendo del caso. En general el número será más grande cuantos más datos tenga la muestra. Existen dos reglas para orientar la decisión del número de intervalos 𝑘. La primera de estas reglas corresponde a elegir 𝑘 como el entero más próximo a √𝑛, donde 𝑛 corresponde al número total de medidas o datos. La segunda corresponde a la

Regla de Sturges, la cual determina el número de intervalos 𝑘 mediante la siguiente expresión:

𝑘 = 1 + 3,3 log (𝑛)

Así por ejemplo, si el estudio corresponde a la estatura de 142 niños de octavo básico, el número de intervalos 𝑘 utilizando la Regla de Sturges será:

𝑘 = 1 + 3,3 log (142) 𝑘 = 8,1 … ≈ 8

Así para este estudio podrían emplearse 8 intervalos (también podría aproximarse al entero superior. Dependerá del criterio del analista).

iii. Dividir el rango 𝑅 entre el número de intervalos 𝑘 para determinar la amplitud 𝐴 (constante) de cada intervalo. Dicha amplitud no es necesariamente que sea exactamente el resultado de esa división, sino que normalmente se puede redondear hacia el número entero superior.

𝐴 =𝑅 𝑘

iv. Determinar los extremos o límites de los intervalos de clase. Evidentemente el extremo superior de cada intervalo ha de coincidir con el extremo inferior del siguiente. Es importante que ninguna observación coincida con algunos de

los extremos, para evitar así una ambigüedad en la clasificación de ese dato

(observación). Una forma de conseguir esto es asignar a los extremos de los intervalos una cifra decimal más que las medidas de la muestra. Así por ejemplo, si la variable estadística toma valores enteros tales como: 10, 11, 12…., los intervalos se podrían elegir: 9,5 – 11,5; 11,5 – 13,5,… y así sucesivamente. v. Calcular las marcas de clase de cada intervalo como el valor medio entre los

(17)

éste no debe ser superior al dato máximo de la muestra. Esto es, si el dato máximo es 45,5, el límite superior del último intervalo debiera ser 45,55. Recuerde la orientación iv.

vi. Una vez determinados los intervalos se debe hacer un recuento cuidadoso del número de observaciones que caen dentro de cada intervalo, para construir así la tabla de distribución de frecuencias.

Ejemplo 2:

En la siguiente tabla se listan los datos medidos por James Short en 1763 sobre la

paralaje del Sol en segundos de arco. La paralaje es el ángulo subtendido por la Tierra

vista desde el Sol. Se midió observando tránsitos de Venus desde diferentes posiciones y permitió la primera medida de la distancia Tierra-Sol, que es la unidad básica de la escala de distancias en el Sistema Solar (la unidad astronómica).

Datos (medidos en segundos):

8,63 10,16 8,50 8,31 10,80 7,50 8,12

8,42 9,20 8,16 8,36 9,77 7,52 7,96

7,83 8,62 7,54 8,28 9,32 7,96 7,47

Cálculo del rango o recorrido 𝑅

𝑅 = 𝑑𝑎𝑡𝑜 𝑚á𝑥𝑖𝑚𝑜 − 𝑑𝑎𝑡𝑜 𝑚í𝑛𝑖𝑚𝑜 𝑅 = 10,80 − 7,47 = 3,33 Determinación del número de intervalos 𝑘.

▪ Aplicando la regla √𝑛, se tiene:

𝑘 = √21 = 4,58 → 𝑘 = 5 ▪ Aplicando la regla de Sturges, se tiene:

(18)

𝑘 = 5,36 ≈ 5

Para efectos de este ejemplo, se utilizará el primer cálculo, es decir, 𝑘 = 5. Como el valor fue redondeado hacia arriba, la amplitud del intervalo multiplicada por el número de intervalos será mayor que el rango y no tendremos problemas en los extremos. Cálculo de la amplitud de los intervalos:

𝐴 =𝑅 𝑘 𝐴 =3,33

5 → 0,7 Determinación de los límites de los intervalos:

Con el objetivo de evitar coincidencias se debe tomar un decimal más. Observemos que el dato mínimo es 7,47; un decimal más corresponderá 7,470. Si el primer intervalo tendrá como límite inferior el valor 7,465, y el límite superior del intervalo será 7,465 + 0,700 = 8,165, de este modo el segundo intervalo comenzará desde el valor 8,165; y así sucesivamente.

Construcción de la tabla de distribución de frecuencias:

Intervalo Marca de Clase 𝑚_𝑖 𝑓_𝑖 ℎ_𝑖 𝐹_𝑖 𝐻_𝑖 7,465 – 8,165 7,815 9 0,43 9 0,43 8,165 – 8,865 8,515 7 0,33 16 0,76 8,865 – 9,565 9,215 2 0,10 18 0,86 9,565 – 10,265 9,915 1 0,05 19 0,90 10,265 – 10,805 10,535 2 0,10 21 1,00

Algunas conclusiones que se pueden obtener a partir de la tabla de frecuencias son las siguientes:

(19)

▪ El 10% de las mediciones tienen en promedio un arco de 9,215 segundos. ▪ De las 21 mediciones, 18 de ellas tiene un arco inferior a 9,565 segundos, o bien

18 de ellas tiene un arco igual o inferior a 9,56 segundos (recuerde que el límite superior de cada intervalo se encuentra aumentado en 1 2⁄ del decimal adicional). ▪ El 90% de las mediciones tiene un arco igual o inferior a 10,26 segundos.

2.2 Tablas multidimensionales

Una tabla multidimensional, o tabla de contingencia, es una de las formas más comunes de resumir datos categóricos. En general, el interés se centra en estudiar si existe alguna asociación entre una variable fila y otra variable columna y/o calcular la intensidad de dicha asociación.

Sean 𝑋 e 𝑌 dos variables categóricas de respuesta, 𝑋 con 𝐼 categorías e 𝑌 con 𝐽 categorías. Un sujeto puede venir clasificado en una de las 𝐼 × 𝐽 categorías, que es el número posible de categorías que existe. Una tabla rectangular que tiene 𝐼 filas para las categorías de 𝑋 y 𝐽 columnas para las categorías de 𝑌 se denomina tabla 𝐼 × 𝐽.

Ejemplo 3:

Por ejemplo, se considera la distribución conjunta de dos variables y la correspondiente tabla de contingencia en una muestra de pacientes de un hospital.

𝑋: Se toma aspirina o placebo (𝐼 = 2).

𝑌: No se sufre un ataque cardiaco o bien se sufre y es mortal o no (𝐽 = 3).

Ataque Mortal Ataque No

Mortal No Ataque

Placebo 18 171 10845

Cardioaspirina 5 99 10933

De la tabla multidimensional anterior, de 2 × 3, relaciona el uso de cardioaspirina y los ataques al corazón. Esto fue un estudio aleatorio sobre si la ingesta regular de cardioaspirina reduce la mortalidad por enfermedades cardiovascular. Los pacientes del

(20)

decir, los pacientes no sabían si tomaban el medicamento o no. De los 11034 pacientes que tomaron placebo, 18 sufrieron un ataque mortal al corazón, mientras que de los 11037 pacientes que tomaron cardioaspirina, 5 sufrieron un ataque fatal al corazón.

(21)

Conclusión

Podemos finalizar el estudio de la primera semana del curso reforzando que la estadística descriptiva es la rama de la matemática que recolecta, presenta y caracteriza un conjunto de datos, con el fin de describir apropiadamente las diversas características de este conjunto. Las variables, en su primera clasificación, pueden ser del tipo cualitativas o cuantitativas, las cuales también pueden clasificarse como unidimensionales, bidimensionales y n-dimensionales.

Los datos corresponden a medidas y/o números recopilados a partir de la observación, los cuales pueden concebirse como información numérica para ayudar a tomar una decisión con más bases en una situación particular. Para que los datos entreguen información deben ser suficientes en calidad y cantidad, además deben ser procesados y tabulados en tablas de distribución de frecuencia, las cuales permiten visualizar aspectos relevantes para la toma decisiones. En este sentido se deben considerar, básicamente, la frecuencia absoluta, la frecuencia relativa, la frecuencia absoluta acumulada y relativa acumulada, en tanto por uno y, si se requiere, también en porcentaje.

(22)

Bibliografía

- Canavos, G. (1988). Probabilidad y Estadística: Aplicaciones y Métodos. Mc Graw-Hill. México D. F., México.

- Walpole, Ronald E (1992). Probabilidades y Estadística. 3ª edición. Interamericana McGraw-Hill. México.

- Cordova, M. (2003). Estadística Descriptiva e Inferencial con Aplicaciones, 5ª edición. Editorial Moshera S.R.L. Perú.

- Wisniewski, M. (2008). Estadística y Probabilidad. Editorial Trillas. México.

- Walpole Ronald E. (2012). Probabilidad y Estadística para Ingeniería y Ciencias. Editorial Pearson Educación. México.

(23)