• No se han encontrado resultados

TEMA UNIDAD I: ESTADÍSTICA DESCRIPTIVA

N/A
N/A
Protected

Academic year: 2021

Share "TEMA UNIDAD I: ESTADÍSTICA DESCRIPTIVA"

Copied!
43
0
0

Texto completo

(1)

39

A

A

N

N

Á

Á

L

L

I

I

S

S

I

I

S

S

D

D

E

E

S

S

C

C

R

R

I

I

P

P

T

T

I

I

V

V

O

O

D

D

E

E

V

V

A

A

R

R

I

I

A

A

B

B

L

L

E

E

S

S

C

C

U

U

A

A

N

N

T

T

I

I

T

T

A

A

T

T

I

I

V

V

A

A

S

S

4

4.

.1

1.

.

IN

I

NT

TR

RO

OD

DU

UC

CC

CI

ÓN

N

Continuando con la descripción estadística de conjuntos de datos empíricos, que se corresponden con los valores de una variable observada, que generalmente en el caso de una variable cualitativa se obtienen mediante la observación y que para el caso de una variable cuantitativa surgen por recuento o medición instrumental de una característica o propiedad (datos univariados) o de dos (datos bivariados) o más (datos multivariados) en las unidades de análisis que componen una muestra, este capítulo y el siguiente enfocarán el análisis numérico y gráfico de los datos de naturaleza cuantitativa.

Se vio la sencillez de la descripción estadística en el caso de las variables cualitativas, tanto a través de las herramientas gráficas como las numéricas. Contrariamente, la descripción estadística de las variables cuantitativas, dado que los datos surgen de aplicar los niveles de medición más altos (escala de intervalo o escala de razones), presenta un mayor grado de dificultad y requiere un tratamiento previo del significado del concepto “propiedades estadísticas de los datos cuantitativos en masa” o simplemente de las propiedades estadísticas. Estas propiedades se deben a la naturaleza aleatoria que presentan los datos empíricos correspondientes a fenómenos que resulta de interés estudiar en el campo del futuro desempeño profesional, y permiten describir diferentes aspectos que presentan las distribuciones de frecuencias muestrales para poder comprender el comportamiento empírico general, y a partir de esto poder desarrollar modelos teóricos explicativos que representan las leyes generales que rigen la ocurrencia de los hechos naturales, ecológicos, productivos, económicos, etc.

Lo que antecede justifica plenamente el estudio de las propiedades estadísticas que presentan las muestras de datos cuantitativos cuando se los analiza en masa. Siguiendo el enfoque ya presentado, para esto se puede recurrir a herramientas gráficas (visualización: diagramas y gráficos) y numéricas (cuantificación: medidas descriptivas o estadígrafos), que se elegirán teniendo en cuenta el tipo de variable y el tamaño muestral.

4

4.

.2

2.

.

PR

P

RO

OP

PI

IE

ED

DA

AD

DE

ES

S

E

ES

ST

TA

AD

ÍS

ST

TI

IC

C

AS

A

S

DE

D

E

LA

L

AS

S

V

V

AR

A

RI

IA

AB

BL

LE

ES

S

CU

C

UA

AN

NT

TI

IT

TA

AT

TI

IV

V

AS

A

S

Los fenómenos que resultan de interés en el campo de las ciencias con pertinencia en las carreras de la Facultad, presentan una característica común: no tienen un comportamiento constante. Al registrar datos relacionados resulta que siempre muestran variación y esto lleva a su caracterización estadística mediante el análisis descriptivo y el análisis inferencial, que se realizan respectivamente, en una etapa inicial y en una etapa a posteriori. El análisis completo permite establecer leyes, denominadas

4.1.Introducción

4.2.Propiedades estadísticas de las variables cuantitativas 4.3. Descripción de muestras pequeñas

4.3.1. Herramientas para el análisis gráfico 4.3.2. Herramientas para el análisis numérico

4.4. Descripción de muestras grandes

4.5. Distribuciones de frecuencias de variables cuantitativas (datos agrupados)

4.6. Propiedades de las distribuciones de variables cuantitativas en muestras grandes

4.7. Variables discretas

4.7.1.Herramientas para el análisis gráfico

4.7.2.Herramientas para el análisis numérico (estadígrafos) 4.7.2.1. Medidas de posición

4.7.2.2. Medidas de dispersión

4.7.2.3. Medidas de forma: asimetría y curtosis

4.8. Variables continuas

4.8.1. Herramientas para el análisis gráfico

4.8.2. Herramientas para el análisis numérico (estadígrafos)

(2)

leyes estocásticas o probabilísticas

poblacional), que se inducen a partir del conocimiento obtenido por medición de ocurrencias singulares (realidad particular o muestra). Significa que las l

vida real son esquemas objetivos

relaciones constantes, en otras palabras, son formas generales que se descubren y representan la variación de los procesos reales y sus propie

nuestra voluntad o nuestra conciencia, porque son inherentes a la naturaleza y la sociedad, denominada Iey objetiva. Ahora bien, cuando el hombre descubre una ley objetiva, trata de expresarla en forma racional mediante la forma de

cuanto sea el conocimiento que el científico posee sobre los hechos reales, pero nunca llega a coincidir por completo con la ley objetiva.

hombre puede transformar los efectos de una ley cambiando las condiciones de los procesos afectados. Las leyes científicas no determinan

ocurrirá en un cierto proceso

científicas desempeñan la función de predecir lo desco leyes científicas sirven como instrumento

posibilitan el avance del conocimiento de las ciencias

el cuándo, el cómo y el por qué de Ios procesos existentes. A modo de resumen funciones de la ley son las propias del conocimiento científico:

fenómenos o hechos que son de interés en el mundo real.

Al desarrollar la unidad de probabilidad e inferencia, se comprenderá el fundamental tienen los métodos estadísticos en la formulación de las leyes científicas.

visualizarse la idea del comportamiento de datos, que varían con regularidad estadística. Naturalmente al tratarse del estudio descriptivo d

las leyes, las explicaciones que puedan construirse a partir de datos particulares tendrán un alcance acotado: serán explicaciones válidas para la muestra en cuestión, que solamente servi

comenzar a vislumbrar algo posible para la población, un conocimiento que se aprenderá a formalizar a mediante el enunciado de hipótesis

Con esta finalidad, se datos, que pueden ser examina

Solamente se pretende que el alumno tome una idea general de los aspectos que deben ser analizados cuando dispone de datos de una muestra univariada donde la variable es de naturaleza cuantitativa, y comience a juzgar frente a cada uno de los casos que ser

corresponde describir y cuáles no, por el alcance que tienen los datos.

4

4.

.2

2.

.1

1.

.

E

El

l

p

po

os

si

ic

ci

io

on

na

am

mi

i

La primera propiedad estadística a analizar con el objetivo de caracterizar el patrón de variabilidad general de las masas de datos muestral

definir el recorrido de una variable cuantitativa, que se debe dejar en claro el campo de variación numérico que tiene dicha variable, y que se ha recurrido en referencia a los conjuntos de los números naturales (datos de conteo)

discretas y variables continuas. La propiedad de posicionamiento se refiere a como se ubican o toman posición los datos en masa

el eje de las abscisas de un sistema cartesiano

estadígrafos de posición, que pueden clasificarse como estadígrafos de centralización y estadígrafos no centrados.

En general los datos de largo del recorrido de la variable,

propiedad de distribución general que se conoce como

habla de las medidas de la tendencia central que en general son las medidas promedios

se toma como punto típico de los datos, es un valor alrededor del cual se agrupan los demás valores de la variable. Además se completa la descripción del posicionamiento general de los datos a través de los estadígrafos no centrados, que se refieren a la mayoría de los percentiles, cuartiles y deciles

medida que puede resultar centralizada o no, denominada la me

4

4.

.2

2.

.2

2.

.

L

La

a

d

di

is

sp

pe

er

rs

si

ón

n

La segunda propiedad estadística a analizar con el objetivo de caracterizar el patrón de variabilidad general de las masas de datos muestrales, es

descripción estadística de variables dispersión.

leyes estocásticas o probabilísticas, que son explicaciones acerca de una clase de hechos posibles poblacional), que se inducen a partir del conocimiento obtenido por medición de ocurrencias singulares (realidad particular o muestra). Significa que las leyes que verdaderamente

vida real son esquemas objetivos sujetos los procesos existentes que son regulados por ciertas relaciones constantes, en otras palabras, son formas generales que se descubren y representan la variación de los procesos reales y sus propiedades. A esta clase de

nuestra voluntad o nuestra conciencia, porque son inherentes a la naturaleza y la sociedad, Ahora bien, cuando el hombre descubre una ley objetiva, trata de expresarla n forma racional mediante la forma de una ley científica. La ley científica se construye, tanto mejor cuanto sea el conocimiento que el científico posee sobre los hechos reales, pero nunca llega a coincidir por completo con la ley objetiva. Sin embargo la gran ventaja de disponer de leyes científicas es que el los efectos de una ley cambiando las condiciones de los procesos afectados. leyes científicas no determinan como ocurren Ios procesos,

ocurrirá en un cierto proceso cuando se cumplan tales y cuales condiciones.

científicas desempeñan la función de predecir lo desconocido, con base en lo conocido. Es decir que leyes científicas sirven como instrumentos de las investigaciones

posibilitan el avance del conocimiento de las ciencias al aportar explicaciones acerca del qué de Ios procesos existentes. A modo de resumen

funciones de la ley son las propias del conocimiento científico: son de interés en el mundo real.

Al desarrollar la unidad de probabilidad e inferencia, se comprenderá el fundamental tienen los métodos estadísticos en la formulación de las leyes científicas.

visualizarse la idea del comportamiento de datos, que varían con regularidad estadística. Naturalmente al tratarse del estudio descriptivo de muestras, no se satisfacerá la condición de generalidad que tienen las leyes, las explicaciones que puedan construirse a partir de datos particulares tendrán un alcance acotado: serán explicaciones válidas para la muestra en cuestión, que solamente servi

comenzar a vislumbrar algo posible para la población, un conocimiento que se aprenderá a formalizar a hipótesis.

se hará una introducción general de las propiedades de la distribución de los examinadas en una muestra; ellas son las siguientes

El posicionamiento La dispersión La forma

Solamente se pretende que el alumno tome una idea general de los aspectos que deben ser analizados cuando dispone de datos de una muestra univariada donde la variable es de naturaleza cuantitativa, y comience a juzgar frente a cada uno de los casos que ser

corresponde describir y cuáles no, por el alcance que tienen los datos.

i

ie

en

nt

to

o

La primera propiedad estadística a analizar con el objetivo de caracterizar el patrón de variabilidad general de las masas de datos muestrales, es el

definir el recorrido de una variable cuantitativa, que se debe dejar en claro el campo de variación numérico que tiene dicha variable, y que se ha recurrido en referencia a los conjuntos de los números (datos de conteo) y reales (datos de medición), asociados respectivamente a variables discretas y variables continuas. La propiedad de posicionamiento se refiere a como se ubican o toman

en masa de la variable en una escala numérica,

de un sistema cartesiano. Estadísticamente se la cuantifica con los denominados , que pueden clasificarse como estadígrafos de centralización y estadígrafos n general los datos de las distribuciones empíricas suelen presentar tendencia a ubicarse a lo largo del recorrido de la variable, en un mayor o menor grado, en una posición más o menos central propiedad de distribución general que se conoce como tendencia central

edidas de la tendencia central que en general son las medidas promedios

se toma como punto típico de los datos, es un valor alrededor del cual se agrupan los demás valores de emás se completa la descripción del posicionamiento general de los datos a través de los estadígrafos no centrados, que se refieren a la mayoría de los percentiles, cuartiles y deciles

medida que puede resultar centralizada o no, denominada la mediana.

propiedad estadística a analizar con el objetivo de caracterizar el patrón de variabilidad general de las masas de datos muestrales, es la

descripción estadística de variables cuantitativas debe incluir una medida de la posición y una de explicaciones acerca de una clase de hechos posibles (idea poblacional), que se inducen a partir del conocimiento obtenido por medición de ocurrencias singulares verdaderamente explican los hechos de la sujetos los procesos existentes que son regulados por ciertas relaciones constantes, en otras palabras, son formas generales que se descubren y representan la clase de ley, que rige independientemente de nuestra voluntad o nuestra conciencia, porque son inherentes a la naturaleza y la sociedad,

Ahora bien, cuando el hombre descubre una ley objetiva, trata de expresarla La ley científica se construye, tanto mejor cuanto sea el conocimiento que el científico posee sobre los hechos reales, pero nunca llega a coincidir gran ventaja de disponer de leyes científicas es que el los efectos de una ley cambiando las condiciones de los procesos afectados.

Ios procesos, sino que expresan lo que cuales condiciones. En este sentido, las leyes nocido, con base en lo conocido. Es decir que s de las investigaciones posteriores, y de esta manera,

al aportar explicaciones acerca del qué, el dónde, qué de Ios procesos existentes. A modo de resumen, se puede decir que las funciones de la ley son las propias del conocimiento científico: explicar y predecir el curso de los Al desarrollar la unidad de probabilidad e inferencia, se comprenderá el fundamental papel que tienen los métodos estadísticos en la formulación de las leyes científicas. En este capítulo comenzará a visualizarse la idea del comportamiento de datos, que varían con regularidad estadística. Naturalmente no se satisfacerá la condición de generalidad que tienen las leyes, las explicaciones que puedan construirse a partir de datos particulares tendrán un alcance acotado: serán explicaciones válidas para la muestra en cuestión, que solamente servirán de base para comenzar a vislumbrar algo posible para la población, un conocimiento que se aprenderá a formalizar a las propiedades de la distribución de los son las siguientes:

Solamente se pretende que el alumno tome una idea general de los aspectos que deben ser analizados cuando dispone de datos de una muestra univariada donde la variable es de naturaleza cuantitativa, y comience a juzgar frente a cada uno de los casos que serán presentados, cuáles corresponde describir y cuáles no, por el alcance que tienen los datos.

La primera propiedad estadística a analizar con el objetivo de caracterizar el patrón de es, es el posicionamiento. Se ha visto que al definir el recorrido de una variable cuantitativa, que se debe dejar en claro el campo de variación numérico que tiene dicha variable, y que se ha recurrido en referencia a los conjuntos de los números (datos de medición), asociados respectivamente a variables discretas y variables continuas. La propiedad de posicionamiento se refiere a como se ubican o toman

de la variable en una escala numérica, que por lo general se representa Estadísticamente se la cuantifica con los denominados , que pueden clasificarse como estadígrafos de centralización y estadígrafos suelen presentar tendencia a ubicarse a lo en una posición más o menos central; una

encia central, y en correspondencia se edidas de la tendencia central que en general son las medidas promedios. Un promedio se toma como punto típico de los datos, es un valor alrededor del cual se agrupan los demás valores de emás se completa la descripción del posicionamiento general de los datos a través de los estadígrafos no centrados, que se refieren a la mayoría de los percentiles, cuartiles y deciles, y de una

diana.

propiedad estadística a analizar con el objetivo de caracterizar el patrón de

dispersión. Cualquiera sea el caso, la cuantitativas debe incluir una medida de la posición y una de

40 (idea poblacional), que se inducen a partir del conocimiento obtenido por medición de ocurrencias singulares los hechos de la sujetos los procesos existentes que son regulados por ciertas relaciones constantes, en otras palabras, son formas generales que se descubren y representan la independientemente de nuestra voluntad o nuestra conciencia, porque son inherentes a la naturaleza y la sociedad, es Ahora bien, cuando el hombre descubre una ley objetiva, trata de expresarla La ley científica se construye, tanto mejor cuanto sea el conocimiento que el científico posee sobre los hechos reales, pero nunca llega a coincidir gran ventaja de disponer de leyes científicas es que el los efectos de una ley cambiando las condiciones de los procesos afectados. lo que las leyes nocido, con base en lo conocido. Es decir que las de esta manera,

qué, el dónde, que las el curso de los papel que En este capítulo comenzará a visualizarse la idea del comportamiento de datos, que varían con regularidad estadística. Naturalmente no se satisfacerá la condición de generalidad que tienen las leyes, las explicaciones que puedan construirse a partir de datos particulares tendrán un alcance rán de base para comenzar a vislumbrar algo posible para la población, un conocimiento que se aprenderá a formalizar a las propiedades de la distribución de los

Solamente se pretende que el alumno tome una idea general de los aspectos que deben ser analizados cuando dispone de datos de una muestra univariada donde la variable es de naturaleza án presentados, cuáles

La primera propiedad estadística a analizar con el objetivo de caracterizar el patrón de Se ha visto que al definir el recorrido de una variable cuantitativa, que se debe dejar en claro el campo de variación numérico que tiene dicha variable, y que se ha recurrido en referencia a los conjuntos de los números (datos de medición), asociados respectivamente a variables discretas y variables continuas. La propiedad de posicionamiento se refiere a como se ubican o toman que por lo general se representa en Estadísticamente se la cuantifica con los denominados , que pueden clasificarse como estadígrafos de centralización y estadígrafos suelen presentar tendencia a ubicarse a lo una , y en correspondencia se Un promedio se toma como punto típico de los datos, es un valor alrededor del cual se agrupan los demás valores de emás se completa la descripción del posicionamiento general de los datos a través de los , y de una

propiedad estadística a analizar con el objetivo de caracterizar el patrón de Cualquiera sea el caso, la cuantitativas debe incluir una medida de la posición y una de

(3)

El concepto de dispersión en Estadística, se refiere caótica, sino a que fluctúan con cierta regularidad

como referencia (generalmente el valor

información acerca del grado en que los datos se

palabras si los valores están próximos entre sí o si por el contrario están o muy dispersos.

4

4.

.2

2.

.3

3.

.

L

La

a

f

fo

or

rm

ma

a

Cuando se dispone de muestras grandes,

relación al colectivo de datos, que dan información sobre el aspecto de forma de la son: la asimetría y la curtosis

de coeficientes.

a) Asimetría: la condición de simetría s derecha e izquierda del punto central central y hacer una comparación

distribución es la imagen especular de su mitad derecha. E

característica de una repartición de datos equilibradamente por encima y por debajo de la tendencia central. Contrariamente la condición de asimetría o sesgo,

repartirse de modo diferente, en corresponde

superiores a éste. La consecuencia de la falta de simetría es que afecta la inferenci

valor central, de modo que un valor medio tomado como representativo del conjunto puede no serlo tanto.

Las posibilidades que pueden presentarse con relación a la propiedad de asimetría son: Caso de distribución asimétrica

hacia el lado de valores que se encuentran por encima del unidades de análisis

derecha pesada)

Caso de distribución sim

valores en ambos lados de Caso de distribución

hacia el lado de valores que se encuentran por debajo del

unidades de análisis con valores que se posicionan en la parte muy izquierda pesada

Así por ejemplo, si un monte frutal no es bien conducido, es de esperarse que la distribución de frecuencias del rendimiento por planta (kg) resulte con sesgo

los de los frutales producirán poca fruta

es bien conducido, se puede esperar una distribución del rendimiento con sesgo que la mayoría de las plantas produci

el monte presenta una situación normal en la conducción, resulte simétrica.

b) Curtosis: el nombre de esta propiedad se deriva etimológicamente del término griego “kurtos”,que significa convexo, y

“curvatura”. La propiedad se relaciona con dos aspectos que hacen a la forma de la distribución: 1) el grado de apuntalamiento que posee una distribución de frecuencias en su parte central,

colas, o partes extremas de la distribuci

central o no. La consecuencia de una alta curtosis es que afecta la inferencia con respecto a las medidas de dispersión.

Las posibilidades que pu tomando como referencia

Caso de distribución

puntiagudo en el entorno al

distribución de los datos se extiende marcadamente tanto hacia el lado de valores que se encuentran muy por debajo del

encima del mismo. En general Caso de distribución

de valores en ambos lados de Caso de distribución

meseta en el entorno al

los datos se extiende poco tanto hacia el lado de valores

valor central como hacia el lado de valores ubicados muy por encima del mismo. En general el gráfico de la distribución tomará una forma estilizada

La descripción estadística de las distribuciones de frecuencias, a través de las propiedades del colectivo de datos muestrales, permitirá el primer acercamiento hacia la modelización del comportamiento de las variables en el contexto poblacional, el cual se

leyes probabilísticas o estocásticas que sirven para dar sustento a las leyes científicas.

El concepto de dispersión en Estadística, se refiere a que los datos empíricos no varían en forma fluctúan con cierta regularidad con relación a

como referencia (generalmente el valor de la media), y por ende

información acerca del grado en que los datos se aproximan o alejan con respecto a ella están próximos entre sí o si por el contrario están o muy dispersos.

Cuando se dispone de muestras grandes, resulta de interés analizar otras dos propiedades en relación al colectivo de datos, que dan información sobre el aspecto de forma de la

curtosis. Ambas propiedades se miden numéricamente a través de sendas clases la condición de simetría se refiere a que los datos se distribuyen

del punto central. Esto es como imaginar un eje perpendicular ubicado en el valor y hacer una comparación de la partes laterales, encontrando

distribución es la imagen especular de su mitad derecha. E

característica de una repartición de datos equilibradamente por encima y por debajo de la tendencia Contrariamente la condición de asimetría o sesgo,

repartirse de modo diferente, en correspondencia a los valores inferiores al promedio y los valores La consecuencia de la falta de simetría es que afecta la inferenci

valor central, de modo que un valor medio tomado como representativo del conjunto puede no serlo Las posibilidades que pueden presentarse con relación a la propiedad de asimetría son:

distribución asimétrica positiva; cuando la hacia el lado de valores que se encuentran por encima del unidades de análisis con valores que se posicionan

),

distribución simétrica: cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados del valor central

distribución asimétrica negativa: cuando la

hacia el lado de valores que se encuentran por debajo del

unidades de análisis con valores que se posicionan en la parte muy izquierda pesada),

Así por ejemplo, si un monte frutal no es bien conducido, es de esperarse que la distribución de frecuencias del rendimiento por planta (kg) resulte con sesgo

frutales producirán poca fruta y unos pocos darán mucha

es bien conducido, se puede esperar una distribución del rendimiento con sesgo que la mayoría de las plantas producirían mucha fruta

monte presenta una situación normal en la conducción, simétrica.

el nombre de esta propiedad se deriva etimológicamente del término griego “kurtos”,que y que comenzó a utilizarse en el contexto de la matemática significando a propiedad se relaciona con dos aspectos que hacen a la forma de la distribución: 1) el grado de apuntalamiento que posee una distribución de frecuencias en su parte central,

o partes extremas de la distribución, en cuanto a si se extienden hacia valores alejados del La consecuencia de una alta curtosis es que afecta la inferencia con respecto a las medidas de dispersión.

Las posibilidades que pueden presentarse con relación a la propiedad de curtosis se establecen tomando como referencia una distribución que gráficamente

distribución leptocúrtica; cuando la distribución

puntiagudo en el entorno al valor central y además posee colas

distribución de los datos se extiende marcadamente tanto hacia el lado de valores que se encuentran muy por debajo del valor central como hacia el lado de valores ubicados muy por encima del mismo. En general el gráfico de la distribución t

distribución mesocúrtica: cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados del valor central

distribución platicúrtica: cuando la distribución muestra un aspecto aplastado o de meseta en el entorno al valor central y además posee colas cortas, esto es, la distribución de los datos se extiende poco tanto hacia el lado de valores

central como hacia el lado de valores ubicados muy por encima del mismo. En general el gráfico de la distribución tomará una forma estilizada

descripción estadística de las distribuciones de frecuencias, a través de las propiedades del colectivo de datos muestrales, permitirá el primer acercamiento hacia la modelización del comportamiento de las variables en el contexto poblacional, el cual se

leyes probabilísticas o estocásticas que sirven para dar sustento a las leyes científicas.

que los datos empíricos no varían en forma con relación a alguna medida de posición tomada por ende, las medidas de dispersión contienen aproximan o alejan con respecto a ella, en otras están próximos entre sí o si por el contrario están o muy dispersos.

resulta de interés analizar otras dos propiedades en relación al colectivo de datos, que dan información sobre el aspecto de forma de la distribución, ellas Ambas propiedades se miden numéricamente a través de sendas clases

los datos se distribuyen de forma similar sto es como imaginar un eje perpendicular ubicado en el valor

partes laterales, encontrando la mitad izquierda de su distribución es la imagen especular de su mitad derecha. Es decir que hace referencia a la característica de una repartición de datos equilibradamente por encima y por debajo de la tendencia Contrariamente la condición de asimetría o sesgo, hace referencia a que los datos tienden a ncia a los valores inferiores al promedio y los valores La consecuencia de la falta de simetría es que afecta la inferencia con respecto al valor central, de modo que un valor medio tomado como representativo del conjunto puede no serlo Las posibilidades que pueden presentarse con relación a la propiedad de asimetría son:

cuando la distribución se extiende marcadamente hacia el lado de valores que se encuentran por encima del valor central por la existencia de

que se posicionan en la parte muy alta de la escala cuando se distribuyen aproximadamente la misma cantidad de

cuando la distribución se extiende marcadamente hacia el lado de valores que se encuentran por debajo del valor central por existencia de unidades de análisis con valores que se posicionan en la parte muy baja de la escala Así por ejemplo, si un monte frutal no es bien conducido, es de esperarse que la distribución de frecuencias del rendimiento por planta (kg) resulte con sesgo positivo, puesto que la mayoría de y unos pocos darán mucha. Si por el contrario el monte es bien conducido, se puede esperar una distribución del rendimiento con sesgo negativo, dado

mucha fruta y unas pocas darán bajo rendimiento monte presenta una situación normal en la conducción, lo más probable es que la distribución

el nombre de esta propiedad se deriva etimológicamente del término griego “kurtos”,que omenzó a utilizarse en el contexto de la matemática significando a propiedad se relaciona con dos aspectos que hacen a la forma de la distribución: 1) el grado de apuntalamiento que posee una distribución de frecuencias en su parte central, y, 2) las en cuanto a si se extienden hacia valores alejados del La consecuencia de una alta curtosis es que afecta la inferencia con respecto a las eden presentarse con relación a la propiedad de curtosis se establecen una distribución que gráficamente posee una forma campanular armónica:

distribución muestra gran alzada o un aspecto y además posee colas estiradas, esto es, la distribución de los datos se extiende marcadamente tanto hacia el lado de valores que se hacia el lado de valores ubicados muy por el gráfico de la distribución tiene una forma estilizada.

cuando se distribuyen aproximadamente la misma cantidad distribución muestra un aspecto aplastado o de central y además posee colas cortas, esto es, la distribución de los datos se extiende poco tanto hacia el lado de valores que se encuentran muy por debajo del central como hacia el lado de valores ubicados muy por encima del mismo. En general el descripción estadística de las distribuciones de frecuencias, a través de las propiedades del colectivo de datos muestrales, permitirá el primer acercamiento hacia la modelización del comportamiento de las variables en el contexto poblacional, el cual se aprenderá a expresar utilizando leyes probabilísticas o estocásticas que sirven para dar sustento a las leyes científicas.

41 que los datos empíricos no varían en forma tomada las medidas de dispersión contienen , en otras

resulta de interés analizar otras dos propiedades en distribución, ellas Ambas propiedades se miden numéricamente a través de sendas clases de forma similar a sto es como imaginar un eje perpendicular ubicado en el valor la mitad izquierda de su ncia a la característica de una repartición de datos equilibradamente por encima y por debajo de la tendencia hace referencia a que los datos tienden a ncia a los valores inferiores al promedio y los valores a con respecto al valor central, de modo que un valor medio tomado como representativo del conjunto puede no serlo

distribución se extiende marcadamente existencia de de la escala (cola cuando se distribuyen aproximadamente la misma cantidad de distribución se extiende marcadamente existencia de baja de la escala (cola Así por ejemplo, si un monte frutal no es bien conducido, es de esperarse que la distribución de , puesto que la mayoría de . Si por el contrario el monte vo, dado o rendimiento. Si lo más probable es que la distribución el nombre de esta propiedad se deriva etimológicamente del término griego “kurtos”,que omenzó a utilizarse en el contexto de la matemática significando a propiedad se relaciona con dos aspectos que hacen a la forma de la distribución: 1) el

y, 2) las en cuanto a si se extienden hacia valores alejados del La consecuencia de una alta curtosis es que afecta la inferencia con respecto a las eden presentarse con relación a la propiedad de curtosis se establecen una forma campanular armónica: muestra gran alzada o un aspecto

, esto es, la distribución de los datos se extiende marcadamente tanto hacia el lado de valores que se hacia el lado de valores ubicados muy por cuando se distribuyen aproximadamente la misma cantidad distribución muestra un aspecto aplastado o de central y además posee colas cortas, esto es, la distribución de que se encuentran muy por debajo del central como hacia el lado de valores ubicados muy por encima del mismo. En general el descripción estadística de las distribuciones de frecuencias, a través de las propiedades del colectivo de datos muestrales, permitirá el primer acercamiento hacia la modelización del aprenderá a expresar utilizando

(4)

42

4

4.

.3

3.

.

DE

D

ES

SC

CR

RI

IP

PC

CI

Ó

N

N

MU

M

UE

ES

ST

TR

R

AS

A

S

PE

P

EQ

Q

UE

U

ÑA

AS

S

(U

(

UN

NI

IV

VA

AR

RI

IA

AD

DA

AS

S)

)

A diferencia de los datos categóricos respecto a los cuales siempre se dispone de una muestra grande, se ha visto que en el caso de los datos cuantitativos se pueden presentar dos situaciones: el caso de muestras pequeñas y el caso de muestras grandes, y en cada caso corresponderá realizar la descripción que corresponda, recordando lo expuesto al inicio de este capítulo, para caracterizar el patrón de variabilidad que posee la variable en estudio.

4

4.

.3

3.

.1

1.

.

H

He

er

rr

ra

am

mi

ie

en

nt

ta

as

s

p

pa

ar

ra

a

e

el

l

a

an

ál

li

is

si

is

s

g

gr

áf

fi

ic

co

o

4

4

.

.

3

3

.

.

1

1

.

.

1

1

.

.

P

P

r

r

e

e

s

s

e

e

n

n

t

t

a

a

c

c

i

i

ó

ó

n

n

t

t

a

a

b

b

u

u

l

l

a

a

r

r

e

e

s

s

En el caso de muestras pequeñas este tipo de descripción no es utilizada. La organización de los datos solo puede arrojar una distribución simple.

4

4

.

.

3

3

.

.

1

1

.

.

2

2

.

.

R

R

e

e

p

p

r

r

e

e

s

s

e

e

n

n

t

t

a

a

c

c

i

i

ó

ó

n

n

g

g

r

r

á

á

f

f

i

i

c

c

a

a

4

4..33..11..22..11.. DDiiaaggrraammaaddeeppuunnttoossooppuunnttiiggrraammaa..

Un diagrama elemental que resulta muy útil para visualizar global e individualmente un conjunto pequeño de datos, o razonablemente pequeño con pocos datos diferentes, es el diagrama de puntos, o

puntigrama. Se trata de un tipo de graficación que es muy utilizada en el análisis exploratorio de datos.

Definición 4.1.

El diagrama de puntos, consiste sencillamente, en representar los valores observados de la variable en estudio como puntos sobre un eje horizontal.

Construcción: cada dato se representa con un punto encima de la correspondiente localización en una escala horizontal de medida. Cuando existen valores repetidos, se dibuja un punto por cada ocurrencia en formato vertical.

Interpretación: se deberá analizar donde se produce la mayor concentración de datos (tendencia) y la dispersión que presenta la muestra. Esto último significa identificar si el patrón de variación es más o menos regular o no, identificar los valores extremos y detectar datos atípicos, que son datos que tienen la particularidad de tomar valores muy alejados (numéricamente distantes) del grupo general de datos Esto es importante porque las medidas estadísticas derivadas de conjuntos de datos que incluyen valores atípicos suelen arrojar información engañosa.

De la bibliografía se han extraído datos que corresponden a residuos de cloro (ppm) en un depósito de agua de lluvia después de haber sido tratada para su potabilización: 1,8-0,9-1,2-1,4-1,5-1,4-1,7-1,1-1,2. Los datos se muestran en el gráfico 4.1, que corresponde a un diagrama de puntos. En él se pueden analizar con rapidez y facilidad las principales características de los datos muestrales, esto es su posicionamiento en la recta de los números reales y además, se puede observar cuál es la tendencia central y la variabilidad que presentan.

Gráfico 4.1: Diagrama de puntos para residuos de cloro en tratamientos de un depósito de agua

Por ejemplo, se nota que la parte media de los datos se encuentra entre 1,2 y 1,4, aunque más cerca de 1,4 ppm. También se observa que los valores mínimo y máximo han sido, respectivamente, 0,9 y 1,8, por lo tanto la amplitud de los valores es de 0,9 ppm (1,8-0,9).

A menudo se puede presentar la necesidad de comparar dos o más conjuntos pequeños de datos, como ocurre en el campo de la experimentación donde se trabaja con muestras pequeñas. Por ejemplo, se ha realizado un experimento para comprobar si la aplicación de tratamiento fitosanitario para prevenir ataque de peronóspora en vid tiene un efecto fitotóxico, que se traduce en una disminución de la expresión vegetativa. Para esto al momento de la poda, se pesa el material eliminado en diez plantas sin tratar (testigo) y en diez tratadas, que se seleccionan, en ambos casos, al azar. Los resultados obtenidos, en kg/planta, son:

0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 Residuos de Cloro (ppm)

Propiedades estadísticas a describir en: muestras pequeñas de datos cuantitativos Tamaño Propiedades

(5)

43 Testigo 17,50 - 17,63 - 18,25 - 18,00 - 17,86 - 17,75 - 18,22 - 17,90 – 17,96 –17,80

Tratada 16,85 - 16,40 - 17,21 - 16,35 - 16,52 - 17,04 - 16,96 - 17,15 – 16,59 – 16,10

El diagrama de puntos del gráfico 4.2 muestra los dos conjuntos de mediciones, donde los asteriscos corresponden a las plantas tratadas y los puntos a las plantas testigo. Nótese que rápidamente el diagrama de puntos revela que las plantas tratadas han producido menos material de poda, y puede esperarse que el valor medio se encuentre más o menos centrado, mientras que en el caso de las plantas testigo, este valor estaría un poco desplazado hacia la izquierda. Continuando con el análisis comparativo, se puede ver que además los resultados han sido más variables en el caso de las plantas tratadas.

Gráfico 4.2: Diagrama de puntos para producción de material de poda (kg/pl), en vides tratadas (♦) y no tratadas (•)

No obstante, cabe aclarar que cuanto más pequeño sea el número de datos, más difícil se puede hacer la tarea de identificar patrones de variación específicos a través de estos diagramas. También resulta claro ver, que no son representaciones adecuadas para conjuntos numerosos de datos.

4

4..33..11..22..22.. DDiiaaggrraammaaddeettaalllloo--hhoojjaa

El diagrama de tallo y hoja es una buena manera de hacer una descripción gráfica de conjuntos de datos que no son demasiado pequeños y que además están formados por al menos dos dígitos.

Definición 4.2

El diagrama de tallo-hoja, consiste en representar los valores observados de la variable en diferentes renglones y en relación a una línea vertical, de tal modo que: a la izquierda de la misma se colocan los primeros dígitos o dígitos principales, constituyendo el tallo y, a la derecha, en correspondencia se ubica ordenadamente de menor a mayor el último dígito de cada número, de tal modo que cada uno de ellos se considera como una hoja.

Para construir un diagrama de tallo y hoja (del inglés, Stem-and-Leaf Diagram), supóngase que los datos de la variable están formados por dos dígitos (12-18-12-15-26-27-30-30-39), luego solo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de los primeros dígitos (que formarán el tallo), esto es:

Tallo Hoja 1 2 3 2 2 5 8 6 7 0 0 9

El gráfico es doblemente informativo: no se pierden los datos brutos y, además muestra el perfil como se distribuyen en general los datos es decir, permite tomar una idea acerca del patrón de variabilidad de la variable. A continuación se dan algunos ejemplos ilustrativos:

a) Horarios de llegada de los trenes que cubren el trayecto entre dos ciudades Tabla de datos ordenados

5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.32 20.07 6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.37 20.20 6.18 7.50 9.24 11.37 13.50 15.32 17.07 18.50 20.32 6.37 8.02 9.32 12.02 14.02 15.37 17.20 19.02 20.37 6.48 8.05 9.37 12.07 14.07 15.50 17.32 19.07 20.50 6.55 8.20 10.02 12.32 14.20 16.02 17.37 19.20 21.02 7.02 8.24 10.07 12.37 14.32 16.07 17.50 19.32 21.07 7.07 8.32 10.32 13.02 14.37 16.20 18.02 19.37 21.20 7.20 8.37 10.37 13.07 14.50 16.32 18.07 19.50 21.32 7.25 8.51 11.02 13.20 15.02 16.37 18.20 20.02 21.37 22.3 16,00 16,50 17,00 17,50 18,00 18,50 Kg/pl

(6)

44 Diagrama de tallo y hoja

05 | 03 06 | 02 18 37 48 55 07 | 02 07 20 25 32 37 50 08 | 02 05 20 24 32 37 51 09 | 02 07 24 32 37 10 | 02 07 32 37 11 | 02 07 32 37 12 | 02 07 32 37 13 | 02 07 20 32 37 50 14 | 02 07 20 32 37 50 15 | 02 07 20 32 37 50 16 | 02 07 20 32 37 50 17 | 02 07 20 32 37 50 18 | 02 07 20 32 37 50 19 | 02 07 20 32 37 50 20 | 02 07 20 32 37 50 21 | 02 07 20 32 37 22 | 38

En el diagrama de tallo y hoja, está representada la hora a la izquierda de la barra de separación |

y los minutos a la derecha. Se desprende que la cantidad de trenes en las diferentes horas está reflejada por la longitud de las filas y además, es muy fácil ver que hay coincidencia en los minutos de cada hora en que pasan.

b) Muestra de 25 observaciones del rendimiento de un proceso químico, que genera un precipitado cuyo peso es medido, en mg. En el diagrama (a) se observa que los valores extremos han sido 61 y 95 mg, así como que los rendimientos más comunes estuvieron entre 70 y 80 mg; en tanto, en el diagrama (b) se puede captar mejor la información contenida en los datos observados porque los valores correspondientes a cada decena se dividen en dos partes, L (del ingl. lower) indica el renglón donde los valores del último dígito son menores a 5, y U (del ingl. upper) indica el renglón con los valores igual o superior a 5.

Tallo Hoja Tallo Hoja

6 7 8 9 134556 011357889 1344788 235 6L 6U 7L 7U 8L 8U 9L 9U 134 556 0113 57889 1344 788 23 5 (a) (b)

Hasta aquí hemos visto que la decisión de recopilar datos, que sean relevantes y conformen una muestra aleatoria, es sólo el comienzo indispensable para empezar a desentrañar una situación problema de interés. También ya conocemos que cuando las muestras son pequeñas (n≤ 30), en la mayoría de los casos, se trabaja directamente con los datos tal cual fueron recolectados, tanto para su representación gráfica como para el cálculo de las medidas descriptivas. Se describe el patrón de datos, a partir de la obtención de una distribución simple o distribución de datos no agrupados. Contrariamente, cuando las muestras grandes, los datos brutos o datos sin procesar no resultan de mucha utilidad, hay que darles una forma comprensible que ponga en evidencia el patrón de comportamiento que tiene la variable considerada. Para esto, se requiere un tratamiento previo a su análisis, que en términos generales hemos llamado organización de los datos, y que muchas veces consiste en someterlos a un ordenamiento y clasificación. Luego, el patrón de datos, se describe a partir de la obtención de distribución de datos agrupados.

4

4.

.3

3.

.2

2.

.

An

A

ál

li

is

si

is

s

n

nu

um

ér

r

ic

i

co

o

Se vio que cuando las variables son cualitativas, la descripción numérica prácticamente se limita al concepto de frecuencias o proporciones. Si las variables son cuantitativas el espectro se amplía, de acuerdo a lo siguiente:

(7)

45

4

4

.

.

3

3

.

.

2

2

.

.

1

1

.

.

M

M

e

e

d

d

i

i

d

d

a

a

s

s

d

d

e

e

p

p

o

o

s

s

i

i

c

c

i

i

o

o

n

n

a

a

m

m

i

i

e

e

n

n

t

t

o

o

:

:

P

P

r

r

o

o

m

m

e

e

d

d

i

i

o

o

s

s

4

4..33..22..11..11.. MMeeddiiaaaarriittmmééttiiccaa

La media aritmética, y desde ahora simplemente la media, es la medida de posición más utilizada. Pertenece al grupo de estadígrafos conocido como promedios, y es por excelencia el promedio pero como se verá no en exclusividad, razón por la cual se aconseja no utilizar el término “promedio” como sinónimo de media. Se la denota con el símbolo x , y su valor se obtiene matemáticamente a través de una suma y un cociente

n x + x ... + x + x = x 1 2 + n−1 n

, donde el numerador x1,x2, ..., xn-1, xn, representa la

suma de las n observaciones muestrales.

Esta expresión constituye la fórmula explícita o expandida de la media. Comúnmente se utiliza una fórmula abreviada que emplea el operador suma, representado con el símbolo griego sigma mayúscula

Σ, acompañado de:

a) un subíndice que individualiza los términos que deben sumarse. A saber i=1 expresa que se suma desde el primer valor de la variable x, esto es

b) un superíndice que indica el último sumando representado genéricamente por n, esto es

Así por ejemplo para una muestra de n=10, la fórmula aplicada de la media resultará ̅ = ∑ 10. Definición 4.3

“La media aritmética muestral (), de un conjunto de n datos es igual a la suma, desde la i-ésima observación de la variable estadística x hasta la n-ésima, divida por el tamaño muestral n”

n

x

=

x

i n =1 i

La media como medida de posición, tiene una importante interpretación física: si cada observación se piensa como una unidad de masa colocada sobre el filo de una fina cuchilla (que representa el recorrido de la variable), y que se coloca un punto de apoyo exactamente en el valor de la media, resultará que el sistema de masas queda perfectamente equilibrado, de ahí la consideración de la media como un punto de equilibrio (el peso de las masas a la izquierda de la media iguala al peso de las posicionadas a su derecha). El concepto se ilustra en el gráfico 4.3.

º º º º º º º º

16.0 16.5 17.0 17.5 18.0 kg/planta x= 16.717 kg/planta

Gráfico 4.3: La media muestral como punto de quilibrio de un sistema de pesos. Al interpretar la información gráfica, deberá prestarse atención a lo siguiente:

1º) la media es un valor calculado de la variable

2º) la media tiene la misma unidad de medida que los datos originales.

Medidas para describir muestras pequeñas

Propiedades Medidas Posicionamiento Tendencia central Media aritmética, ̅ Media geométrica, ̅ Mediana (*), ̅ Otras Cuantiles Cuartiles, qi (*) q2 = ̅ Deciles, di Percentiles, pi Dispersión Absolutas Amplitud o recorrido, Varianza, Desviación típica,

(8)

46 3º) la media se ha expresado con un decimal más del que tenían los datos originales

A continuación se presentará formalmente la media poblacional, µ. Análogamente a lo visto para la media muestral, la fórmula de la media poblacional indica que es el promedio aritmético de todas las N observaciones de una población1.

Definición 4.4: Se lee ¨La media aritmética poblacional (µµµµ), de un conjunto de N datos es igual a la suma, desde la i-ésima observación de la variable X, hasta la N-ésima, divida por el tamaño poblacional N¨

N

x

=

i N =1 i

µ

4 4..33..22..11..22.. MMeeddiiaannaa

Otra medida de posición bastante utilizada es la mediana, denotada con ̅. Este estadígrafo posee un nombre que hace referencia a una posición media bajo ordenamiento, relacionada con igual cantidad de datos a su izquierda ( < ̅) y a su derecha ( > ̅).

Para la definición formal de la mediana, y por ende para su cálculo, hay que considerar si la serie de datos es par o impar:

1

En las situaciones prácticas resultará imposible (o poco práctico o poco económico) examinar las N unidades que componen una población, por lo tanto el valor verdadero de la media en la práctica nunca será conocido. Al desarrollar la unidad de probabilidad, se estudiarán modelos para representar poblaciones finitas e infinitas y se introducirá el concepto de variable aleatoria y el de “esperanza matemática” , como el concepto relacionado con la media poblacional. En la unidad de inferencia

estadística se darán métodos para poder inferir o estimar la media poblacional, a partir del conocimiento de la ̅.

Propiedades de la media

Propiedad 1. La suma de los desvíos de los valores de la variable x, con respecto a la media, para el conjunto de n obsercaciones es igual a cero.

0

)

(

1

=

=

x

x

n i i

Significa que la suma de desvíos negativos (xi < x) es igual a la suma de los desvíos positivos

(xi >x). Esto explica de otra forma, por qué la media se interpreta físicamente como un punto de equilibrio.

Propiedad 2. La suma del cuadrado de los desvíos de la variable x, con respecto a la media, para el conjunto de n observaciones es un valor mínimo.

mínimo x x n i i − =

= 2 1 ) (

Propiedad 3. La media de la suma de varias variables, o media general, es igual a la suma de las medias de cada variable

(

x+ y+z

)

=x+ y+z

Propiedad 4. Si cada una de las n observaciones muestrales es multiplicada por una constante c, la media de los datos transformados (c.x), es igual a la constante multiplicada por la media de los datos originales

x

c

cx

cx

cx

1

+

2

+

...

+

n

=

.

Propiedad 5. La media conjunta, xc , de dos series simples está dada por: 2

x + x =

xc 1 2 si la cantidad de datos es igual (n1 = n2)

n + n n x + n x = x 2 1 2 2 1 1

c si los conjuntos tienen diferente tamaño (n1 ≠ n2)

Nótese que se trata de una media ponderada. En el primer caso, no se observa la ponderación en la fórmula porque al ser idénticos los tamaños muestrales (n1 = n2) ambas medias tienen idéntico peso (ponderación unitaria). En el segundo las medias se deben multiplicar por los correspondientes tamaños muestrales (ponderaciones), dado que el valor de la media se ha calculado con diferente cantidad de información. El caso anterior es sólo una situación particular del caso general para k series, donde la media de medias o media general, xg , para series de igual tamaño está dad por:

k x x x x k g + + + = 1 2 ....

La media es un valor de variable y por tanto debe expresarse numéricamente, acompañada con las mismas unidades que tiene la variable.

(9)

47 a) La mediana de una serie simple que tiene un número impar de observaciones, en un arreglo ordenado por magnitud, toma el valor de la observación que ocupa la posición central.

b) La mediana de una serie simple que tiene un número par de observaciones, en un arreglo ordenado por magnitud, toma el valor que corresponde a la media de las dos observaciones centrales

En consecuencia, se requieren dos definiciones formales de la mediana, según la muestra tenga un tamaño impar, definición 4.3, o bien par, definición 4.4.

Definición 4.5: Cuando el tamaño de la muestra es impar,

=

Definición 4.4: Cuando el tamaño de la muestra es par

=

! "

+

! "

A continuación se ilustrarán estos conceptos:

Muestra con n impar :

Sea la serie de datos ordenados (n=5) 500 570 590 600 690 donde las observaciones ocupan el orden 1º 2º 4º 5º

El punto de posicionamiento de la mediana es (n+1) / 2, o sea [(5+1) / 2] = 3, es decir que la mediana en esta serie toma el valor de variable que tiene la unidad de análisis que se ubica en en centro de la serie ordenada, por tanto 3º lugar: xd = 590, con la unidad de medida correspondiente.

Muestra con n par :

Sea la serie de datos ordenados (n=6) 12 15 17 23 25 28 donde las observaciones ocupan el orden 1º 2º 5º 6º El punto de posicionamiento de la mediana está entre (n / 2) y (n / 2) + 1, por reemplazo (6/2) y (6/2) + 1, o sea entre 3 y 4, luego, la mediana para esta serie toma el valor de la semisuma (17+23) /2 , es decir 20, con la unidad de medida correspondiente.

Cabe aclarar también que en el cálculo de la mediana, si la muestra tiene observaciones xi repetidas, se las debe incluir tal cual en la serie ordenada repitiendo el valor las veces que sea necesario. Por ejemplo, sea el conjunto de datos arreglados el siguiente: 19,8 20,5 21,6 21,6 22,7 23,1 25,0. Como n=7, resulta que la mediana ocupa el 4º lugar, y entonces es igual a 21,6.

La mediana presenta la siguiente ventajas:

1º) para el cálculo de su valor intervienen las n observaciones y, Una importante aclaración acerca de la mediana

No confundir número de orden con valor de la mediana. El siguiente esquema pretende clarificar el concepto:

La mediana es un valor de variable observado en el caso de n impar 1) Ordenamiento de las unidades de análisis por

magnitud

2) Asignación del número de orden a las unidades 1º 2º 3º 4º 5º 6º 7º 3) Identificación de la unidad/des que ocupa/n en la

serie la/s unidad/es central/les, según n sea impar o 4) Obtener la mediana (valor que tomó la variable en la unidad central, x(n+1)/2, o valor correspondiente a la

semisuma de los datos que tomó la variable en las dos unidades centrales, 2 1 2 2+ ( / )+ / n n x x ) n impar → x(n+1)/2 = xd x1 x2 x3 x4 x5 x6 x7 d x = x4

la mediana, toma el valor de la semisuma de los valores que

corresponden a las dos observaciones centrales, en una serie ordenada por magnitud

la mediana toma el valor numérico que corresponde a la observación

(10)

48 2º) a diferencia de lo que acontece con la media, no es afectada por la magnitud que puedan

tener los valores extremos de la serie

Para aclarar, supóngase que las observaciones muestrales han sido 1, 3, 4, 2, 7, 6 y 8, en tanto la media resulta ser igual a 4,4 en tanto que la mediana resulta ser igual a 4. Ambas medidas dan una idea razonable de la tendencia central de los datos. Ahora supóngase que la penúltima observación de la serie fue 2450. Recalculando se tiene que la media vale 353,6 y que la mediana sigue valiendo 4. En este último caso, una serie con un valor muy extremo, la media no dice mucho con respecto a la tendencia central de la mayoría de los datos, mientras que la mediana resulta más adecuada para representarlos.

Del mismo modo que ocurrió con la media, media muestral y media poblacional, además de la mediana muestral se puede definir :

Definición 4.6

La mediana poblacional, como el valor de variable que deja a la mitad de los valores poblacionales por debajo y a la otra mitad por encima.

4

4..33..22..11..33.. MMeeddiiaaggeeoommééttrriiccaa

En ocasiones se trabajan con cantidades que cambian en un cierto período, y se necesita conocer una tasa promedio de cambio, como por ejemplo, la tasa de crecimiento promedio de un órgano vegetativo o del crecimiento poblacional en una ciudad o de la inflación monetaria. En tales caso se utiliza como medida de la tendencia central la media geométrica, denotada como ̅, una medida que tiene como inconveniente la dificultad que presenta para entender su significado.

Definición 4.7:

= n i i g=n x x 1

que se lee ¨La media geométrica $ , de un conjunto de n datos muestrales es igual a la raíz n-ésima del producto de las xi, desde la i-ésima observación de la variable estadística x, hasta la n-ésima¨

Por ejemplo, sea el crecimiento de una cuenta de ahorros que en cinco años ha tenido las siguientes tasas: 1,07-1,08-1,10-1,12 y 1,18. Luego, el valor de la media geométrica está dada por ejemplo 1,1093 y respresenta el factor de crecimiento promedio que ha tenido el depósito hecho en la cuenta de ahorro.

̅ = 5&'

= 5(1,07 ∗ 1,08 ∗ 1,10 ∗ 1,12 ∗ 1,18 = 1,1093

Mediante la transformación logarítmica, la fórmula queda expresada como

n

x

=

x

n i g

1

log

log

4

4

.

.

3

3

.

.

2

2

.

.

2

2

.

.

M

M

e

e

d

d

i

i

d

d

a

a

s

s

d

d

e

e

d

d

i

i

s

s

p

p

e

e

r

r

s

s

i

i

ó

ó

n

n

El posicionamiento o la tendencia central es una propiedad que no proporciona información suficiente para describir datos de manera adecuada. Por ejemplo, sean dos muestras en que se ha determinado la presencia de un cierto componente en ppm:

Muestra 1: 130 140 145 150 158 165 Muestra 2: 98 128 140 160 165 205

En ambos casos la media es igual a 148 ppm. Sin embargo, si se recurre al diagrama de puntos del Gráfico 4.4, se observa que los patrones de variabilidad o dispersión son diferentes, la muestra 2 posee más variabilidad que la de la muestra 1.

Gráfico 4.4: Datos de composición, en ppm, de dos muestras Referencias: *, datos de la Muestra 1 y, º, datos de la Muestra 2

4

4..33..22..22..11.. AAmmpplliittuudd

La medida más simple de variabilidad es la amplitud de la muestra, también conocida como rango o recorrido de la muestra. La amplitud muestral, es una medida de la extensión o recorrido de la muestra en la recta de los reales.

Referencias

Documento similar

Primera edición: abril de 2003 Decimonovena edición: junio de 2016 Edición ejecutiva: Paloma Jover Revisión editorial: Carolina Pérez Coordinación gráfica: Lara Peces..

&#34;No porque las dos, que vinieron de Valencia, no merecieran ese favor, pues eran entrambas de tan grande espíritu […] La razón porque no vió Coronas para ellas, sería

La Normativa de evaluación del rendimiento académico de los estudiantes y de revisión de calificaciones de la Universidad de Santiago de Compostela, aprobada por el Pleno or-

A través de la experiencia de un reconocido productor mexicano Alfonso Rosas Priego, tendrás una visión general de todo el proceso que lleva el iniciar la aventura

BUBER'NEUaiAMN, Margarete ¡ Von Potsáam ndch Moskau. SMíionen eines Irftveges. Stuttgart, 1957; Deutsche Verlags-Anstalt, 480 págs... DAHM: Deutsches Reckt. Die geschichüichen

Pero cuando vio a Mar sacar el fuego de bajo su ala, voló de vuelta a su tribu a contarles lo que había visto.... Justo antes de que el sol saliera, Tatkanna se despertó y comenzó

El tercero tiene notas bajas pero la mayor es estadística, una de las temáticas trabajadas de forma más mecánica, asimismo el último arquetipo muestra que, aun con notas buenas,

“La unificación de la clasificación de empresas otorgada por las CC.AA.”, “La unificación de criterios en la acreditación de los servicios de prevención de riesgos