• No se han encontrado resultados

POBLACIÓN: Conjunto de seres o sucesos de los que vamos a estudiar una o varias

N/A
N/A
Protected

Academic year: 2021

Share "POBLACIÓN: Conjunto de seres o sucesos de los que vamos a estudiar una o varias"

Copied!
18
0
0

Texto completo

(1)

1. INTRODUCCIÓN A LA ESTADÍSTICA UNIDIMENSIONAL.

La estadística estudia una o varias características de cada uno de los elementos de un conjunto. Para ello, se encarga de:

 Recoger los datos, ordenarlos y agruparlos.  Representarlos en tablas y gráficas.

 Calcular medidas de centralización.

 Elegir alguna de estas medidas como representante de todos los datos.

Siempre que realizamos un análisis sobre una característica propia de una población, la toma de datos se realiza a partir de la respuesta que dan los individuos a una pregunta determinada.

Vamos a ver algo de vocabulario básico que utilizamos cuando hablamos de estadísticas.

POBLACIÓN: Conjunto de seres o sucesos de los que vamos a estudiar una o varias características.

Por ejemplo si lo que queremos estudiar es la longitud media de la rana verde, la población son todas las ranas verdes del Planeta.

MUESTRA: Subconjunto de la población, que estudiamos cuando no podemos hacerlo con toda la población o es demasiado costoso.

Si queremos saber la longitud de una rana verde, sería imposible medirlas a todas. Las ranas que midiésemos serían la muestra, por ejemplo 200 ranas.

VARIABLE : Es la característica que estudiamos en los individuos. Es siempre el primer dato que colocamos en la tabla estadística.

En este caso la longitud, es decir, los cm que miden las ranas.

FRECUENCIA ABSOLUTA: Es el número de veces que se repite el valor de la variable. Y la llamamos fi. Es siempre el segundo dato que colocamos en la tabla estadística. El sumatorio de todas las frecuencias relativas

(

)

ha de dar siempre como resultado el valor de la muestra (N).

Si tenemos 47 ranas que miden 3,5 cm. La frecuencia absoluta de la variable 3,5 cm es 47.

(2)

cada valor de la frecuencia absoluta los valores anteriores. De tal manera que el último valor de la frecuencia absoluta acumulada ha de ser igual a la muestra.

FRECUENCIA RELATIVA: La llamamos

f

R . Se obtiene al dividir cada frecuencia

absoluta entre el valor de la muestra (N). El sumatorio de todas las frecuencias relativas (

)

ha de dar siempre como resultado 1.

f

R

=

FRECUENCIA RELATIVA ACUMULADA: La llamamos

F

R. Se obtiene sumándole a

cada valor de la frecuencia relativa los valores anteriores. De tal manera que el último valor de la frecuencia relativa acumulada ha de ser igual al (

),

o sea, 1.

2. MEDIDAS ESTADÍSTICAS.

 MEDIDAS DE CENTRALIZACIÓN: Son unos valores que resumen todos los datos en uno solo.

El estadístico elegirá después cual es el que más le conviene. Cada uno de estos valores se denomina medida de centralización ya que pretende centrar la información en ese único valor. Son medidas de centralización: la media, la mediana y la moda.

 La media: Es una medida de centralización que resulta de dividir la suma de todos los productos de cada valor de la variable por su frecuencia absoluta, entre el tamaño de la muestra.

Se le denota . Para calcularla aplicamos la siguiente fórmula:

(3)

 La mediana: Es una medida de centralización que representa el valor de la variable que ocupa la posición central en un conjunto de datos ordenados. Es decir, es el número en el medio de una lista ordenada.

Se le denota Me. Para calcular la mediana, ordenamos los números que nos han dado según su valor. La mediana será el que queda en el medio. Esto se hace dividiendo la muestra entre 2, luego buscamos ese valor que resulta de la división en la tabla de frecuencias absolutas y vemos que valor de la variable le corresponde. Ese valor de la variable es la mediana.

Si el tamaño de la muestra es par, en ese caso tenemos que encontrar el par central de números, y después calcular su valor medio.

 La moda: Es una medida de centralización que indica el valor de la variable de mayor frecuencia. O dicho de otro modo es el valor que más se repite.

Para localizarla basta buscar el mayor número en la columna de frecuencias absolutas y ver que valor de la variable le corresponde. Ese valor de la variable será la moda.

 MEDIDAS DE DISPERSIÓN: Son unos valores que controlan la fiabilidad de la información que proporcionan las medidas de centralización.

Son medidas de dispersión: la varianza, la deviación típica y la simetría de la distribución de la variable.

(4)

 La varianza: Es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media.

Se le denota Var. Para calcularla hemos de aplicar la siguiente fórmula:

Var =

 La desviación típica: Es una medida de dispersión que se utiliza para cuantificar la desviación de un conjunto de datos numéricos.

Una desviación baja indica que la mayor parte de los datos de una muestra tienden a estar agrupados cerca de su media, mientras que una desviación alta indica que los datos se extienden sobre un rango de valores más amplio. Se le denota con la letra griega sigma minúscula . Para calcular la desviación típica le hallamos la raíz cuadrada a la varianza.

= =

 La simetría de la distribución de la variable: Se trata de comprobar si la distribución de los datos es simétrica con respecto a la media.

Para ello representamos los datos en una gráfica. Una gráfica es toda representación en el plano de dos o más variables interrelacionadas.

Colocamos los valores de la variable (xi) en el eje de la x (eje de abscisas), y

los valores de la frecuencia absoluta (fi) en el eje de la y (eje de

ordenadas).

Representamos las frecuencias por segmentos (líneas continuas) que parten de cada valor de la variable y de altura proporcional al valor de su frecuencia correspondiente. Si una frecuencia es cero, la línea se reduce a un punto sobre el eje de la x. A continuación, unimos los extremos de los segmentos. Dando como resultado el polígono de frecuencias.

(5)

Decimos que la distribución de la variable (xi) es simétrica, si en relación a

la media, la distribución se distribuye un 50% a la derecha y otro 50% a la izquierda, presentando una forma similar a ambos lados. Es decir, si dobláramos el papel por el eje de la media, la gráfica coincidiría por ambos lados.

3. ORGANIZACIÓN DE DATOS.

Es indispensable organizar la información. Para ello confeccionaremos una tabla con todos los datos que necesitamos.

Vamos a hacer un ejercicio, y así elaboramos juntos la tabla.

1) Preguntamos a 10 alumnos de PAU + 25 años, del CEPER La Arboleda Perdida, la edad que tienen y se ha obtenido la siguiente información:

3 alumnos tienen 42 años, 1 alumna tiene 39, 2 alumnos tienen 36, 1

alumno tienen 33, 1 alumno tiene 31 y 2 alumnos tienen 25 años.

a) Construya la tabla estadística.

b) Calcule la edad media que tienen los alumnos, la mediana y la moda. c) Calcule la varianza y la desviación típica marginal.

a) Vamos a construir la tabla:

Variable: edad

x

i Frecuencia absoluta

f

i

x

i

•f

i Frecuencia absoluta acumulada

Fi

x

i2

f

i

•x

i2 Frecuencia relativa

f

R Frecuencia relativa acumulada

F

R 25 2 50 2 625 1250 0,2 0,2 31 1 31 3 961 961 0,1 0,3 33 1 33 4 1089 1089 0,1 0,4 36 2 72 6 1296 2592 0,2 0,6 39 1 39 7 1521 1521 0,1 0,7 42 3 126 10 (N) 1764 5292 0,3 1 (∑fR) 10 (muestra) 351 12705

∑f

R

=

1

∑f

i

= N

∑x

i

•f

i

=351

∑f

i

•x

i2

=12705

N = 10

(6)

Siempre en la primera columna colocaremos la variable que estamos estudiando, es decir las edades. La llamamos xi.

En la segunda columna siempre colocaremos la frecuencia absoluta que es el número de veces que se repite el valor de la variable. Y la llamamos fi.

A partir de ahí, iremos colocando en las posteriores columnas los datos que necesitemos organizar, para responder a las preguntas del ejercicio.

b) Vamos a calcular la media, mediana y moda. Para hallar la media aplicamos su fórmula:

=

El símbolo significa sumatorio y permite representar sumas de varios sumandos. Se expresa con la letra griega sigma mayúscula. Y en este caso quiere decir lo siguiente:

x

1

f

1

+

x

2

f

2

+ x

3

f

3

+ x

4

f

4

+… +

x

n

f

n

Así que, vámonos a la tabla… a meterle mano a la tercera columna para hallar

Una vez obtenidos los valores, los sustituimos en la fórmula.

=

=

35,1

La media de edad es 35,1 años de edad.

Para calcular la mediana necesitamos las frecuencias absolutas acumuladas

.

La frecuencia absoluta acumulada es el resultado de sumar sucesivamente las frecuencias absolutas, desde el menor al mayor de sus valores. El último valor de las frecuencias absolutas acumuladas ha de darnos el valor de la muestra (N).

Dividimos la muestra entre dos. 10:2= 5

(7)

En la columna de Fi buscamos el primer valor que sobrepase a 5, siendo el 4º valor,

que vale 6. Por lo tanto la mediana es 36.

Me = 36 años.

Vamos a calcular la moda, para ello nos vamos a la columna de frecuencias absolutas. Buscamos el que tenga el valor más grande. Siendo el último que vale 3. Así pues la moda es 42.

Moda = 42 años.

c) Vamos a calcular la varianza y la desviación típica. Para calcular la varianza aplicamos su fórmula:

Var =

-Necesitamos calcular

y luego

Para tenerlo todo organizado y evitar errores, colocamos todos estos datos en la tabla. Así que volvemos a la tabla para hacer los cálculos.

Cuando hemos hallado los valores que necesitamos los sustituimos en la fórmula para hallar el valor de la varianza.

Var =

-

= 1270,5 – 1232,01 = 38,49

La varianza es 38,49

Para calcular la desviación típica, aplicamos la fórmula. =

= = 6,2 La varianza es 6,2.

Otras posibles preguntas que nos pueden hacer son las siguientes: a) Halla la frecuencia relativa y la frecuencia relativa acumulada. b) ¿Es simétrica la distribución de la variable?

(8)

a) Hallo las frecuencias relativas a partir su fórmula y las frecuencias relativas acumuladas (sumando las anteriores) y lo reflejo en la tabla.

b) Hago un eje de coordenadas y represento la variable en el eje de la x y la Frecuencia absoluta en el de la y. Coloco el valor de la media en el eje de la x y trazo una línea. La distribución será simétrica si el polígono fe frecuencias lo es, respecto al eje de la media.

La distribución de las edades no es simétrica.

4. INTRODUCCIÓN A LA ESTADÍSTICA BIDIMENSIONAL.

En numerosas ocasiones interesa estudiar simultáneamente dos (o más) caracteres de una población, buscando la relación que existe entre ambas. En el caso de dos variables estudiadas conjuntamente se habla de variable bidimensional.

Así, por ejemplo, se puede estudiar la influencia que tienen los ingresos de una determinada familia y los gastos que tiene, o cómo influye la velocidad de un cierto automóvil y su consumo de combustible, o qué relación existe entre los pesos y las estaturas de un grupo de personas. Una variable bidimensional se representa por un par (X, Y), donde X es la primera variable y toma los valores xi (x1, x2, x3, ..., xn) e Y

(9)

5. MEDIDAS ESTADÍSTICAS EN LA BIDIMENSIONAL.

Vamos a estudiar:

 La media: Igual que en la estadística unidimensional pero para los dos valores.

=

Esta sería la fórmula para hallar la media de xi

=

Y esta para hallar la media de yi

 La covarianza: la covarianza es un valor que indica el grado de variación conjunta de dos variables respecto a sus medias.

xy

=

-

 La desviación típica: Igual que en la estadística unidimensional pero para los dos valores.

x =

(10)

autor, es un número que está comprendido entre -1 y 1. Expresan si los puntos están muy próximos o alejados del centro de gravedad. Se denota

r

. Teniendo en cuenta que el centro de gravedad (CG) es el punto cuyas

coordenadas son la media de la x y la media de la y, es decir: CG= ( , )

El coeficiente de correlación lo hallaremos con la siguiente fórmula:

r=

Según sea el valor de

r,

haremos la siguiente interpretación:

Si

r

es igual a 1 ó -1: La correlación es perfecta o funcional.

Si

r

está próximo a 1 ó -1: La correlación es fuerte.

Si

r

está próximo a 0: La correlación es débil.

Y según el signo:

 Si

r

es

+

la correlación es directa.

 Si

r

es

-

la correlación es inversa.

Vamos a verlo más claro con un ejemplo:

1. Calcule e interprete el coeficiente de correlación entre el número de

pedidos que sirve un almacén y el número de vendedores que tiene

contratados dicho almacén.

Nº de

vendedores 2 4 5 6 7 9 10

Nº de

(11)
(12)
(13)

 La recta de regresión de la y sobre la x: Es la recta que marca la tendencia del comportamiento de una variable (la

, la variable dependiente) respecto

a la otra (la

, la variable independiente). De tal manera que según sea la

correlación, más fiable será la predicción de datos a partir de la ecuación de la recta.

A ver, parece que aquí he de detenerme un poco a recapitular.

En una distribución bidimensional tenemos dos variables que se relacionan o no entre sí (siendo entonces incorreladas). El caso es que por alguna razón queremos estudiar si esa relación existe y en caso positivo cómo de fuerte es esa relación y además queremos poder sobre todo, predecir comportamientos de la relación entre ambas variables, para unos valores determinados de esas variables. Y por último saber cuánto de fiable es esa predicción.

Ejemplos de dos posibles variables que pueden llegar a tener relación entre sí:

 determinado perfil de la población y productos financieros,

 enfermedades de una determinada población y fabricación de fármacos,

 necesidades de determinados grupos sociales de la población y discursos políticos… etc.

¡Veis ahora la importancia del estudio estadístico!... ¿Será cierto lo que creían los seguidores de la escuela pitagórica, que “todas las cosas son en esencia números”?

Ahora bien, si tomamos esos dos valores como las coordenadas de un punto, ( , ), ( , ), ( , ),… ( , ) la distribución puede ser representada mediante puntos en un eje de coordenadas. Es lo que conocemos como nube de puntos.

Tanto si nos fijamos en la tabla de datos como en la nube de puntos apreciamos si hay correlación entre ambas variables.

Como decíamos al principio podemos dibujar una recta (que llamamos recta de regresión) que dependiendo de la correlación entre las dos variables, y a través de una fórmula, creamos una ecuación lineal (de primer grado), en donde a cada valor de la x le corresponde un valor de la y.

(14)

describe a grosso modo su tendencia. Por eso a partir de la ecuación lineal de la recta de regresión obtenemos de forma aproximada, el valor de y para un cierto valor de x. A estos valores se les llama estimaciones.

Hemos de tener en cuenta:

 Las estimaciones siempre se realizan aproximadamente y en términos de probabilidad.

 La aproximación es tanto mejor cuanto más fuerte sea la correlación, pues para valores muy próximos a 1 y -1, los puntos estarán muy próximos a la recta.

 Las estimaciones sólo deben hacerse dentro del intervalo de valores utilizados en la tabla de datos o muy cerca de ellos.

Conseguimos la ecuación de la recta de regresión, partir de la siguiente fórmula.

y=

(

) +

Veámoslo en un ejemplo:

La tabla adjunta da los alargamientos de una barra metálica por efecto de cambios en la temperatura. Temperatura (ºC) Alargamiento (mm) 0 0 8 1 16 2 25 3 40 5 50 6 60 7 70 9

Calcular la recta de regresión de y sobre x ó lo que es lo mismo, calcule la ecuación de la recta, que permite predecir los mm de alargamiento que se van a producir en las barras metálicas por cambios en la temperatura.

Calcule el coeficiente de correlación e interprételo. ¿Cuántos mm se alargaría la barra si la temperatura fuese de 55 ºC?

(15)

Lo primero de todo es asignar la x a la variable independiente y la y a la variable dependiente. Ya que no siempre el primer dato que aparece en la tabla es la variable independiente.

Hasta ahora nos era indiferente pero ya no, porque hemos de hallar la recta de regresión de la y sobre la x y no al contrario.

¿Qué nos va a ayudar a identificar cuál de las dos variables es la x? Pues bien, para eso nos fijaremos en la pregunta que nos pida una predicción… en este caso la última pregunta del ejercicio: ¿Cuántos mm se alargaría la barra si la temperatura fuese de 55ºC?

Aquí nos están dando el valor de la x (55ºC), es decir de la variable independiente, que al sustituirlo en la ecuación de la recta nos va a dar el valor de la y (el alargamiento, la variable dependiente).

(16)

Hallamos los datos que vamos colocando minuciosamente en la tabla y aplicamos la fórmula o ecuación de la recta de regresión.

(17)
(18)

Si nos hubieran preguntado como de fiable es la predicción, va a depender de dos factores, que han de tenerse en cuenta ambos:

 Por un lado: El coeficiente de correlación. Es decir:

 Si la correlación es funcional, la predicción es fiable por completo.

 Si la correlación es muy fuerte, muy próxima a 1 o -1, la predicción es bastante fiable.

 Si la correlación es débil, la predicción es poco fiable.

 Por otro lado: Que las variables estén entre los valores manejados. Es decir:  Si la temperatura está entre 0 y 70 ºC la predicción es fiable.

 Cuanto más se aleje la temperatura de ese rango menos fiable será la predicción.

Referencias

Documento similar

Reglamento (CE) nº 1069/2009 del parlamento Europeo y del Consejo de 21 de octubre de 2009 por el que se establecen las normas sanitarias apli- cables a los subproductos animales y

Volviendo a la jurisprudencia del Tribunal de Justicia, conviene recor- dar que, con el tiempo, este órgano se vio en la necesidad de determinar si los actos de los Estados

«Es claro, en efecto, que la inclusión del pluralismo político como un valor jurídico fundamental (art. 1.1 CE) y la consagración constitucional de los partidos políticos

Se llega así a una doctrina de la autonomía en el ejercicio de los derechos que es, en mi opinión, cuanto menos paradójica: el paternalismo sería siempre una discriminación cuando

Aparte de los posibles problemas técnicos que presenta un análisis de correlaciones (RePass 1976), lo que en ningún momento se plantea Converse es que la ausencia de

Este libro intenta aportar al lector una mirada cuestiona- dora al ambiente que se desarrolló en las redes sociales digitales en un escenario de guerra mediática mantenido por

En primer lugar, se va a realizar el contraste de Chow para concluir si hay cambio estructural desde el segundo trimestre de 2009, lo que nos indicará si

En cuarto lugar, se establecen unos medios para la actuación de re- fuerzo de la Cohesión (conducción y coordinación de las políticas eco- nómicas nacionales, políticas y acciones