Unidad 3.1. Estadistica descriptiva-Muestreo-Medidas

(1)

Prof. LAURA POLOLA

UNIDAD 3. LA INFERENCIA INDUCTIVA

Introducción a la Estadística Descriptiva

Estadística como herramienta de investigación

La principal y más acabada función de la Estadística es realizar inferencias a partir de datos colectados. Los métodos estadísticos se aplican en todas las etapas de una investigación, desde el diseño de la misma hasta el análisis final de los datos.

Podemos distinguir tres grandes etapas:

1. Diseño: Planeamiento de la investigación en función de la problemática 2. Descripción: Exploración y resumen de los datos

3. Inferencia: Predicciones y toma de decisiones sobre las características de una población, en base a la información reunida en una muestra de la población.

En la etapa de Diseñose define cómo se desarrollará la investigación, es decir su plan de acción. Un diseño bien realizado incluye la determinación de qué datos resultan relevantes para ser recolectados o registrados en pos de responder las preguntas que originaron el estudio.

Como parte del trabajo se definirán la población objetivo, los tamaños de muestra, los mecanismos de selección de individuos, los criterios de inclusión y exclusión de sujetos, los métodos de tratamientos, las variables que se medirán y cómo se entrenará al equipo de trabajo para el cumplimiento del protocolo.

Los métodos de Análisis Exploratorio o Estadística Descriptiva ayudan a

comprender la estructura de los datos, de manera de detectar tanto un patrón de

comportamiento general como apartamientos del mismo. Esto es vital ya que apunta a determinar qué modelo teórico puede implementarse como marco de trabajo formal.

Una forma de realizar esto es mediante gráficos de sencilla elaboración e interpretación. Otra forma de describir los datos es resumiéndolos en uno, dos o más números ó “medidas” que caractericen al conjunto de datos con fidelidad.

(2)

Estadística Descriptiva

Examinar los datos en forma descriptiva implica trabajar con el fin de: • Organizarlos

• Sintetizarlos

• Reconocer sus características más relevantes • Presentar la información de forma resumida

Los conceptos más importantes en el contexto de estos análisis son:

Unidad de análisis o de observación: objeto bajo estudio. Puede ser una persona, una familia, un país, una institución o en general, cualquier objeto o hecho.

Población: conjunto que incluye la totalidad de las unidades de análisis sobre las que se centra el estudio

Muestra: cualquier subconjunto de sujetos o unidades de análisis de la población en estudio.

Variable: cualquier característica de la unidad de observación que interese registrar y que en el momento de ser registrada puede ser transformada en un número.

Valor de una variable, Dato, Observación o Medición: número que describe a la característica de interés en una unidad de observación particular.

Caso o Registro: conjunto de mediciones realizadas sobre una unidad de observación.

Muestreo

En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se selecciona una muestra, con el objetivo que resulte una parte representativa de la población.

Una muestra se dice que es representativa de una población cuando reúne todas

las características presentes en la población de origen respetando la forma en que éstas se manifiestan.

Por ejemplo, en un subconjunto de personas donde aparecen sólo hombres si fue tomado de una población que presenta aproximadamente la misma cantidad de hombres que de mujeres, esa muestra no se puede considerar representativa ya que no puede ser considerada como la población “en miniatura” en términos de su extensión.

Según el tipo de tratamiento que se dé a los datos recolectados, los resultados obtenidos pueden carecer de todo valor si la muestra no es representativa. En ciertos contextos de trabajo, este rasgo no es imprescindible pero sí lo es cuando se trabaja con probabilidades, ya que se supone un contexto de aleatoriedad que ya veremos cómo se determina.

Tipos de muestreo

Existen diferentes criterios de clasificación de los diferentes tipos de muestreo,

aunque en general suelen dividirse en dos grandes grupos: métodos de muestreo

probabilísticos y métodos de muestreo no probabilísticos.

A. Muestreo probabilístico

(3)

y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:

Muestreo aleatorio simple: El procedimiento empleado es el siguiente: se asigna un número a cada individuo de la población y a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande.

Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k. El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población.

Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra.

Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población.

En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales.

B. Métodos de muestreo no probabilísticos

A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun a conciencia de que no sirven para realizar generalizaciones pues no se tiene certeza de que la muestra extraída sea representativa.

Entre los métodos de muestreo no probabilísticos más utilizados en investigación encontramos:

(4)

población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.

Muestreo intencional o de conveniencia: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos.

Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente.

Muestreo Discrecional: · A criterio del investigador los elementos son elegidos sobre lo que él cree que pueden aportar al estudio.

Resumen

Ventajas e inconvenientes de los distintos tipos de muestreo probabilístico Características Ventajas Inconvenientes

Aleatorio simple

Se selecciona una muestra de tamaño n

de una población de N unidades, cada elemento tiene una

probabilidad de inclusión igual y conocida de n/N.

Sencillo y de fácil comprensión. Cálculo rápido de medias y varianzas. Se basa en la teoría estadística, y por

tanto existen paquetes informáticos

para analizar los datos

Requiere que se posea de antemano un listado completo de toda la población.

Cuando se trabaja con muestras pequeñas es posible

que no represente a la población adecuadamente.

Sistemático

Conseguir un listado de los N elementos de

la población Determinar tamaño

muestral n. Definir un intervalo k=

N/n. Elegir un número aleatorio, r, entre 1 y k

(r= arranque aleatorio). Seleccionar los elementos de la lista.

Fácil de aplicar. No siempre es necesario tener un

listado de toda la población. Cuando la población

está ordenada siguiendo una tendencia conocida,

asegura una cobertura de unidades

de todos los tipos.

Si la constante de muestreo está asociada con el fenómeno de interés,

las estimaciones obtenidas a partir de

la muestra pueden contener sesgo de

selección

Estratificado

En ciertas ocasiones resultará conveniente estratificar la muestra

según ciertas variables de interés. Para ello es preciso

conocer la composición estratificada de la población objetivo

Tiende a asegurar que la muestra

represente adecuadamente a la población en función de sus características

de interés.

Se ha de conocer la distribución en la

población de las características más

(5)

Procesamiento y representación de datos cuantitativos1

Luego de realizado el proceso de muestreo aplicado sobre la población en estudio se realiza la selección de variables a analizar en el estudio descriptivo.

Las variables pueden identificarse con las características que se desean estudiar en los individuos de la población.

Dado que existen diferentes tipos de variables que, en base a esto, reciben diferente tratamiento, resumimos en el siguiente cuadro las principales características de cada una y las herramientas mediante las que serán procesadas.

Tipos de variables Tabla de frecuencias: Tipo de gráfico:

Discretas:

Surgen de un conteo

Simples: fi fr f% Bastones

Acumuladas: Fi Fr F% Escalones

Continuas: Surgen de una medición

Simples: fi fr f%

Histograma y Polígono de frecuencias

Acumuladas: Fi Fr F%

Ojiva o

Polígono de frecuencias acumuladas

Se denomina n a la cantidad de datos observados y con f (minúscula) se indican

las frecuencias simples siendo fi la frecuencia absoluta que representa el número

de veces que aparece cada dato en la muestra; fr es la frecuencia relativa que se

obtiene haciendo fi/n y f%es la frecuencia porcentual que se calcula haciendo

fr.100%.

Con F (mayúscula) se indican las frecuencias acumuladas que contabilizan las frecuencias simples correspondientes a cada valor de la variable y a todos los anteriores.

Diagrama de bastones: Nos da una primera aproximación rápida a la distribución de los datos sin perder de vista las observaciones. Se aplica especialmente a pocos datos o a variables discretas.

Ejemplo: La siguiente tabla contiene 45 observaciones (n=45) correspondientes al número de interrupciones en una señal de un radioemisor durante un día de trabajo:

96 93 88 117 127 95 113 96 138

108 94 148 156 139 142 94 107 124

125 155 155 103 112 127 117 120 113

112 135 132 111 125 104 106 139 103

134 119 97 89 118 136 125 143 120

A continuación se ve cómo se organizan los datos en una tabla de frecuencias y

cómo se representan en un diagrama de bastones:

1

(6)

Gráfico de Puntos

0 0,5 1 1,5 2 2,5 3 3,5

75 80 85 90 95 100 105 110 115 120 125 130 135 140 145 150 155 160

Duración en m inutos

N

ú

m

e

ro

d

e

c

a

s

o

s

Diagrama de bastones

¿Qué podemos ver en este tipo de diagrama?

• Rango de las observaciones, valores máximo y mínimo. • Forma de la distribución: simetría, asimetría a derecha, la asimetría a izquierda y cuántos picos tiene la distribución.

• Posición central de la distribución y concentración de los datos.

• Desviaciones muy marcadas respecto al comportamiento general: outliers o valores atípicos.

Histograma: se utiliza especialmente para variables continuas o cuando se trabaja con un número grande de datos

• Se divide el rango de los datos en intervalos o clases, que no se superpongan. Las clases deben ser excluyentes y exhaustivas.

• Se cuenta la cantidad de datos en cada intervalo o clase, es decir la frecuencia absoluta simple. También se puede usar para cada intervalo la cantidad total de datos o la frecuencia relativa que se obtiene dividiendo la cantidad de casos comprendidos en él sobre el total (n).

• Se grafica el histograma en un par de ejes coordenados representando en las abscisas los intervalos y sobre cada uno de ellos un rectángulo cuya área sea proporcional a la frecuencia relativa de dicho intervalo.

Observaciones:

• No existen criterios óptimos para elegir la cantidad de intervalos. En general, entre 8 y 15 intervalos deberían ser suficientes. Utilizar muchos o muy pocos intervalos puede ser poco informativo. Se debe buscar un equilibrio entre un histograma muy irregular y uno demasiado suavizado.

• No es necesario que todos los intervalos tengan la misma longitud, pero es recomendable que así sea. Esto facilita su interpretación.

• El histograma representa la frecuencia simple a través del área y no a través de la altura.

• Es recomendable tomar para cada intervalo como altura del rectángulo a la frecuencia relativa. De esta manera el área total es equivalente a 1 y dos histogramas son fácilmente comparables independientemente de la cantidad de observaciones en las que se basa cada uno.

X f fr

88 1 0,0222 89 1 0,0222 93 1 0,0222 94 2 0,0444 95 1 0,0222 96 2 0,0444 97 1 0,0222 103 2 0,0444 104 1 0,0222 106 1 0,0222 107 1 0,0222 108 1 0,0222 111 1 0,0222 112 2 0,0444 113 2 0,0444 117 2 0,0444 118 1 0,0222 119 1 0,0222 120 2 0,0444 124 1 0,0222 125 3 0,0667 127 2 0,0444 132 1 0,0222 134 1 0,0222 135 1 0,0222 136 1 0,0222 138 1 0,0222 139 2 0,0444 142 1 0,0222 143 1 0,0222 148 1 0,0222 155 2 0,0444 156 1 0,0222 Total (n) 45 1,0000

(7)

Histograma de frecuencias absolutas

0 2 4 6 8 10 12 14 16

[84, 86) [86, 88) [88, 90) [90,92) [92,94) [94,96) [96,98)

Ejemplo: Los siguientes datos corresponden a la medición de Porcentajes de Octanos en naftas:

85,3 87,5 87,8 88,5 89,9 90,4 91,8 92,7 86,7 87,8 88,2 88,6 90,3 91,0 91,8 93,2 88,3 88,3 89,0 89,2 90,4 91,0 92,3 93,3 89,9 90,1 90,1 90,8 90,9 91,1 92,7 93,4 91,2 91,5 92,6 92,7 93,3 94,2 94,7 94,2 95,6 96,1

Los agrupamos en 7 clases:

Para determinar el ancho de cada intervalo se divide el rango R= Máx-Mín=

=96,1-85,3=10,8 por la cantidad de intervalos a utilizar 10,8/7=1,54 2 siempre se

redondea hacia arriba. Como el ancho total de los intervalos ahora es de 14 se reparte el excedente a los extremos de la distribución.

En general, si el histograma es muy irregular puede ser imposible descubrir la forma o comportamiento de fondo de la variable. En ese caso es conveniente tomar intervalos más anchos.

¿Qué formas puede tener un histograma?

Un aspecto a tener en cuenta en la distribución de los datos es la simetría. Un conjunto de datos que no se distribuye simétricamente, se dice que es asimétrico. La asimetría puede verse en el Histograma y también puede apreciarse a través de la posición relativa entre algunas medidas que veremos más adelante, como la media y mediana.

A continuación se ven algunas de las formas posibles de un histograma:

Clase Frec. abs. fi Frec. relativa fri [84, 86) 1 0.02380952 [86, 88) 4 0.09523810 [88, 90) 9 0.21428571 [90,92) 14 0.33333333 [92,94) 9 0.21428571 [94,96) 4 0.09523810 [96,98) 1 0.02380952

(8)

Medidas de Resumen

Resumiremos la información de los datos provenientes de variables numéricas mediante medidas de fácil interpretación que reflejen sus características más relevantes. La medida a elegir dependerá de cada problema. No se mencionan todas las que existen, sólo se trabajarán aquellas que necesitamos para realizar tareas de inferencia estadística.

Medidas de Posición o Centrado

Un modo de resumir un conjunto de datos numéricos es a través de un número que represente a todos, en el sentido de ser un valor típico para el conjunto.

La pregunta que intentamos responder es: ¿Cuál es el valor central o que mejor representa a los datos?

Supongamos que tenemos un conjunto de n datos que genéricamente

representaremos por: x1, x2 ,..., xn

Promedio o Media Muestral: 1

i k n

x X

n

 





Es el punto de equilibrio del conjunto de datos.

Ejemplo: Supongamos que las observaciones son: 1, 2, 2, 3. En este caso X = 2.

Si reemplazamos el valor 3 por 7, las observaciones son: 1, 2, 2, 7 y X = 3.

 La media muestral es una medida muy sensible a la presencia de datos anómalos ó atípicos (outliers).

Mediana Muestral: Es una medida del centro de los datos en tanto divide a la muestra ordenada en dos partes de igual tamaño. Deja la mitad de los datos a cada lado.

Sean los estadísticos de orden muestrales (esto es equivalente al ordenamiento en forma creciente de las observaciones): x(1) ≤ x(2) ≤ x(3) ≤ … ≤ x(n)

Definimos como mediana a:

1 ( )

2

( /2) ( /2 1)

si n es impar

si n es par 2



 



  _

 

n n n

x

Me

(9)

 La mediana es resistente a la presencia de datos atípicos.

Ejemplos:

1) Supongamos que los datos son: 3, 5, 2, 4, 6, 8, 7, 7, 6. Como n = 9, (n+1)/2 = 5. Es decir el dato central será x(5) es decir, el dato ubicado en 5° lugar.

Ordenando la muestra: 2 3 4 5 6 6 7 7 8, entonces Me = 6.

x(5)

2) Supongamos que los datos son: 3, 5, 2, 4, 6, 8, 7, 7. Como n = 8, n/2 = 4 y por lo tanto la mediana muestral es el promedio de las observaciones que ocupan las posiciones 4 y 5 en la muestra ordenada: 2 3 4 5 6 7 7 8, entonces Me= 5,5

Me

Si la distribución es simétrica la mediana y la media identifican al mismo punto. Sin embargo, si la distribución de los datos es asimétrica, la relación entre ambas en general sigue el siguiente patrón:

Asimetría derecha (cola larga hacia la derecha) Me

<

X

Asimetría izquierda (cola larga hacia la izquierda) X

<

Me

Con esto se observa que la media es “llevada” hacia donde se presenta la asimetría dada la existencia de datos extremos en esa zona de la distribución.

Medidas de Dispersión o Variabilidad

¿Cuán dispersos están los datos? ¿Cuán cercanos son los datos al valor central? Analicemos los dos conjuntos de datos siguientes y calculemos para cada uno de ellos su media y su mediana:

Muestra 1 X: 0 2 6 7 10

Muestra 2 Y: 2 3 6 6 8

Resultan X = Y = 5 y MeX= MeY= 6

A pesar de tener igual media e igual mediana, los conjuntos de datos difieren en su distribución ¿Cómo medir la diferencia observada?

Rango Muestral: Es la diferencia entre el valor más grande y el más pequeño de los datos: Rango = máx(Xi) – mín(Xi)

(10)

Esta medida es muy sensible a la presencia de datos lejanos o atípicos. Además no capta la dispersión interna del conjunto de datos.

Otras medidas de variabilidad son:

Varianza Muestral: Mide la variabilidad de los datos alrededor de la media muestral.

2

2 1

( )

1

n i i

X X

s

n

  





Desvío Estándar Muestral = 2 s s

Ejemplo: En los dos conjuntos de datos anteriores obtenemos:

s2x= 20,5 sx= 4,258

s2y= 12,5 sy= 3,536

• El desvío estándar tiene las mismas unidades que los datos, mientras que la varianza no.

• Al basarse en promedios, estas medidas son sensibles a la presencia de datos atípicos.

Coeficiente de Variación: Es una medida que relaciona el desvío estándar con la media de una muestra.

s CV

X 

Esta medida se utiliza generalmente para comparar la variabilidad relativa de dos o más distribuciones. Como se calcula la razón entre el desvío respecto a su media, las variables de CV más pequeños resultan más homogéneas o consistentes, es decir sus datos son más próximos o similares.

Conclusión:

En la presentación de las medidas muestrales que se indicaron hasta aquí se definieron los llamados estadísticos muestrales que informan acerca de características interesantes de un conjunto de datos como su posición, dispersión o variabilidad, simetría y la existencia de datos atípicos.

(11)

Parámetros y estimadores

La estadística provee técnicas que permiten obtener conclusiones generales a partir de un conjunto limitado – pero representativo – de datos: una muestra aleatoria. Cuando inferimos no tenemos garantía de que la conclusión que

obtenemos sea exactamente correcta. Sin embargo, la estadística permite

cuantificar el error asociado a la estimación.

La mayoría de las distribuciones de probabilidad dependen de cierto número de

parámetros.

Por ejemplo: P(λ), Bi(n,p), N(μ,σ2), etc. Salvo que estos parámetros se conozcan,

deben estimarse a partir de los datos relevados muestralmente.

El objetivo de la estimación puntual es tomar una muestra para obtener números

que, en algún sentido, sean los que mejor representan a los verdaderos valores de los parámetros de interés.

Supongamos que se selecciona una muestra de tamaño n de una población. Antes de obtener la muestra no sabemos cuál será el valor de cada observación. Así, la primera observación puede ser considerada una variable aleatoria X₁, la segunda una variable aleatoria X₂, etc. Por lo tanto, antes de obtener la muestra denotaremos X₁, X₂,...., X_na las observaciones y, una vez obtenida la muestra los valores observados los denotaremos x₁, x₂,...., x_n.(en minúscula)

Del mismo modo, antes de obtener una muestra, cualquier función de ella será una variable aleatoria, por ejemplo: X Me S, , 2,max(X₁,...,X_n)

Def.: Un estimador puntual de un parámetro θ es un valor que puede ser considerado representativo de θ y se indicará ˆ. Se obtiene a partir de alguna función de la muestra.

Ejemplo: Con el fin de estudiar si un dado es o no equilibrado, se arroja el dado 100 veces en forma independiente, obteniéndose 21 ases. ¿Qué valor podría utilizarse, en base a esa información, como estimación de la probabilidad de as? Parece razonable utilizar la frecuencia relativa de ases.

En este caso, si llamamos p a la probabilidad que queremos estimar, ˆp = 0,21

Métodos de estimación puntual

¿Cómo obtener estimadores para un problema dado? Comentaremos dos

métodos habituales que proporcionan estimadores puntuales: el método de

momentos y el método de máxima verosimilitud.

(12)

Momentos poblacionales de orden k Momentos muestrales de orden k

Caso Discreto: ( ) ( )

X

k k x R

E X x p x







Caso Continuo: ( ) ( )

X

k k x R

E X x f x dx







Def: ( ) 1

k j j n k x E X n   



Como ya hemos visto cuando estudiamos la noción de momentos de una variable aleatoria, los momentos están relacionados con los parámetros de la distribución asociada.

Def: Sea X1, X2,…, Xn una muestra aleatoria de una distribución con función de probabilidad puntual o función de densidad que depende de m parámetros θ1,

θ2,…, θm. Los estimadores de momentos de θ1, θ2,…, θm son los valores

1 2

ˆ_{, ,}ˆ _,ˆ

m

    que se obtienen igualando m momentos poblacionales con los

correspondientes momentos muestrales. En general, se obtienen resolviendo el siguiente sistema de ecuaciones:

1

( ) ( )

k j

j n k k

x

E X m X

n     _ _   



con k=1, 2, …, m

Aplicación del método del los momentos

A partir del planteo de las ecuaciones para los los momentos de primeros órdenes comienzan a obtenerse algunos de los estimadores puntuales más importantes:

1

1( ) ( ) ˆ

j j n

x

m X E X X X

n 

 

 



  

2 2 2

1 1 1

2 2 2 2 2 2

2

2 2 2 2

2

1 1 1 1 1 1

2 2

2

2 2

1 1 2

( ) ( ) ( ) ˆ ˆ ˆ ˆ

2

ˆ 2 .

( 2 ) ( ) (

ˆ

j j j

j n j n j n

j j j j j

j n j n j n j n j n j n

j j j j

j n j n

x x x

m X E X E X

n n n

x x x x Xx X

nX

X X

n n n n n n n

x Xx X x X x X

n n                                                       



2

1 2 ) j n n s n   _



De esta manera surgen estimadores para la media μ y la varianza σ2

como parametros poblacionales a partir de los dos primeros momentos absolutos. Vemos hasta aquí, que los estimadores serían las medidas muestrales ya estudiadas.

(13)

Método de máxima verosimilitud: Este método fue introducido por Fisher en la década de 1920. Se basa en la idea de, dada una muestra, hallar los valores de los parámetros que hacen que la probabilidad de obtener dicha muestra sea máxima.

Para desarrollar este método es necesario definir la siguiente función.

Función de verosimilitud

Si Xi (1in) son variables aleatorias discretas con función de probabilidad conjunta Px(x1,x2,…,xn) que depende de m parámetros θ1, θ2,…, θm, se define la

función de verosimilitudL como la probabilidad de obtener los datos observados L(x1,x2,…,xn, θ1, θ2,…, θm ) = Px(x1,x2,…,xn)

Dado que los datos observados son valores conocidos se constituye una función que depende de los parámetros desconocidos de la población.

Si Xi (1in) son variables aleatorias continuas con función de densidad de probabilidad conjunta fx(x1,x2,…,xn) que depende de m parámetros θ1, θ2,…, θm, la función de verosimilitud L es:

L(x1,x2,…,xn, θ1, θ2,…, θm ) = fx(x1,x2,…,xn)

Suponiendo que las Xi (i=1,….,n) son independientes, la función de verosimilitud puede factorizarse, con lo que resulta

L(x1,x2,…,xn, θ1, θ2,…, θm ) = P(x1) P(x2).… P(xn) o

L(x1,x2,…,xn, θ1, θ2,…, θm ) = f(x1) f(x2).… f(xn)

Def. Los estimadores de máxima verosimilitud (EMV) de θ1, θ2,…, θm son los

valores ̂1, ̂2,… ̂m que maximizan la función de verosimilitud L(x1,x2,…,xn, θ1,

θ2,…, θm ), es decir que hacen máxima la función de probabilidad conjunta.

Dada la estructura multiplicativa de la función de verosimilitud para hallar su

óptimo –el valor que la maximiza- veremos en un ejemplo cómo se desarrolla su

análisis.

Ejemplo para la estimación de un único parámetro

Suponiendo que independientemente de lo que sucede el resto de los días, el número de personas que entran a una financiera (en un determinado horario) tiene una distribución de Poisson con media  desconocida.

Suponiendo además que el primer día observado entran 5 personas y el segundo y último día 8 personas, la función de verosimilitud es:

L(x1,x2, )= L(5,8, ) =

Para encontrar el estimador de máxima verosimilitud de  debemos maximizar la

función

L(5,8,) =

(14)

Maximizar esta función L es equivalente a maximizar el logaritmo de la función (ln L) ya que el logaritmo es una función monótona creciente y conservará el óptimo original de la función L para el mismo valor del argumento , con la ventaja de tener una expresión aditiva para ser derivada más cómodamente. Se obtiene entonces la función

ln L(5,8, ) = ln = -2 + 13 ln() – ln (5! 8!)

Para hallar el valor  que hace máxima esta función, se deriva respecto de  y luego se iguala la derivada a cero.



→ ̂ ⁄

Obtuvimos que el estimador de máxima verosimilitud de  es ̂ .

Vale decir que para la muestra de referencia, donde x1 = 5 y x2=8 el valor estimado de  obtenido coincide con la media muestral ̅

Propiedadad: La proporción muestral de éxitos es un estimador de máxima verosimilitud de la proporción poblacional (verificar)

i i

X k ˆπ p

n n

 





Sugerencia: considerar una muestra de n variables Bernoulli o sea Xi Be(

(1, por lo tanto p(xi)= πx (1-π)1-x

Ejemplo para la estimación de dos parámetros de una distribución Supongamos que Xi ~ N(µ, σ2

) o sea todas igualmente distribuidas. Dada una muestra aleatoria { X1, X2,…, Xn } equivale a tener una sucesión de variables independientes, entonces la función de probabilidad conjunta resulta:

2 i

2

1 n 1 n

(x μ) 2σ

x ...x 1 n x 1 x n i

1

f (x ,...,x ) f (x )...f (x ) con f(x ) e

σ 2π

 

 

Como los valores xi provienen de la muestra aleatoria, los parámetros a estimar son μ y σ a partir de la función de verosimilitud que adopta el siguiente formato:

√

o bien ∑ ( )

Maximizar esta función es equivalente a maximizar su logaritmo, como en el caso anterior

∑

Para encontrar los valores de que maximizan esta función se deben calcular

(15)

∑ ∑ (∑ )

∑

Luego igualarlas a cero y despejando los parámetros μ y σ para los siguientes estimadores (verificar):

̂ ∑ ̂ ∑ ̂

Los estimadores de máxima verosimilitud obtenidos de los parámetros μ=E(X) y σ2

=V(X) de una distribución normal vuelven a ser como en el método de momentos, la media y varianza muestrales. Destacamos que se trata del caso particular de la distribución normal ya que en este método EMV la distribución de la variable es determinante a la hora de hallar los estimadores, no siendo así en el caso del método de los momentos donde las identidades se establecen entre los momentos de diferentes órdenes para cualquier distribución.

Propiedades de los estimadores

Observemos que cuando se determina ˆ como estimador puntual del parámetro

θ de una distribución de probabilidad, surge en base a una muestra X1, X2,…, Xn , por lo tanto es una variable aleatoria. De ahí que más adelante se considerará su distribución en probabilidad

La diferencia  ˆ se define como error de estimación y una estimación será más precisa cuanto menor sea este error. Este error es también una variable aleatoria dado que depende de la muestra obtenida. Una propiedad deseable es que la esperanza del error sea 0, es decir que “en promedio” el error obtenido al estimar a partir de diferentes muestras sea cero.

Def: Un estimador puntual ˆ del parámetro θ es insesgadosi E( )ˆ  

Si ˆ no es insesgado, se denomina sesgo de ˆ a b(ˆ

) = E

θ

(

ˆ

) -

θ

Por lo tanto, un estimador es insesgado si su distribución tiene como valor esperado al parámetro a estimar.

Def: Un estimador puntual ˆ del parámetro θ basado en una muestra X1, X2,…, Xn es asintóticamente insesgado si el sesgo disminuye a medida que ésta aumenta su tamaño, es decir

ˆ

( ) _n

E_  _  

Obs.: Dada X con E(X)= μ y V(X)= σ2 veamos que los estimadores X

=

ˆ y

s

2n

=

2

ˆ

 resultan el primero insesgado pero el segundo no.

(16)

( ) ( )

( ) X E X E X n

E X E

n n n n n

 _{ }

 

 _ _    

 



→Xes insesgado.

Para lo que sigue es preciso estudiar la varianza del estimador X que resulta:

2 ₂ ₂

2 2 2 2

( ) ( )

( ) X V X V X n

V X v

n n n n n n

  

 

 _ _    

 



(La varianza se distribuye con la suma por la independencia de las variables)

Considerando 2 2 1 ( ) n i i n X X s n   



2 1 2 j j n x X n  





 resulta:

2

1

2 2 2 2 2 2 2 2

2 2 2

2 2 2 2 2 2 2 2

1 1

( ) ( ) ( )

1 1

j j n

n X x

x

E s E X E x E X

n n n

n

n n

n n n n n

                     _ _{ } _  _  _   _  _{ }  _               _  __  __  __  _       



2 1 2 2

( _n) n

E s

n  



  por lo tanto no es insesgado, pero sí resulta asintóticamente

insegado.

Importante: Si se considera esta corrección del desvío muestral

2 2 1 1 ( ) 1 n i i n X X s n     



resulta así un estimador insesgado.

Error estándar de un estimador: Al informar el resultado de una estimación puntual es necesario brindar información sobre la precisión de la estimación.

Def: El error estándar de un estimador es su desviación estándar, es decir:

ˆ V( )ˆ 

  

Si el error estándar depende de parámetros desconocidos, éstos se reemplazan por un estimador y se obtiene el error estándar estimado.

Def: Dados dos estimadores insesgados ˆ 1 y ˆ 2 del mismo parámetro

poblacional θ, diremos que ˆ 1 es más eficiente que ˆ 2si se verifica que:

2 2

1 2

ˆ ˆ

( ) ( )

   

Ejemplo: Sea X1, X2,…, Xn una muestra aleatoria de una distribución N (μ,σ 2

).

Entonces X es el EMV de μ y su error estándar es:

2

, ( )

X V  X _n



  

(17)

2

ˆ ˆ

( ) ( )

ECM  E  

Si el estimador ˆ fuera insesgado, el error cuadrático medio es igual a la varianza del estimador (verificar)

Principio de estimación de menor error cuadrático medio: Dados dos o más estimadores del parámetro θ, se trata de elegir el de menor ECM.

Este principio se reduce, en el caso de estimadores insesgados, al de mínima varianza entre los insesgados mencionado más arriba, ya que el error cuadrático medio se reduce a la varianza cuando un estimador es insesgado. Sin embargo, nos permite además seleccionar, por ejemplo, entre un estimador insesgado y otro que no lo es, en base a la varianza y al sesgo. Si el estimador sesgado tiene una varianza mucho menor que el insesgado, podría ser preferible su uso.

Def: Un estimador puntual ˆ es consistente si converge en probabilidad al parámetro θ (o sea ˆ p

n

 

),

por lo tanto   0, P



ˆ_n   



_n_ 1

,

es decir que a medida que aumenta el tamaño de la muestra, la probabilidad de que se asemejan los valores del estimador ˆ_n y los del parámetro θ tiende a uno.

Propiedad: Puede verificarse además que si ̂ es un estimador de que cumple:  E( ̂)

→ es un estimador asintóticamente insesgado

 V( ̂)

→ 0

Entonces ̂ es un estimador consistente de .

Ejercicio: Analizar si s2 verifica la propiedad anterior y resulta un estimador consistente de σ2

.

Resumen de propiedades de los estimadores

Estimador: Propiedades que cumple:

1

i k n

x X

n

 





• Insesgado

• Es estimador de máxima verosimilitud (EMV)

• Consistente

2

2 1

( )

1

n i i

X X

s

n

  





• Insesgado

• Consistente

i i

X k p

n n