UNIVERSIDAD AUTÓNOMA AGRARIA
ANTONIO NARRO
DIVISIÓN DE AGRONOMIA
Estadística Básica y su Utilización Agropecuaria
POR:
SALVADOR GUERRERO LUNA
MONOGRAFIA
Presentada como Requisito Parcial para
Obtener el Titulo de:
Ingeniero Agrónomo Fitotecnista
Buenavista, Saltillo, Coahuila, México.
UNIVERSIDAD AUTÓNOMA AGRARIA
ANTONIO NARRO
DIVISION DE AGRONOMIA
Estadística Básica y su Utilización Agropecuaria
POR:
SALVADOR GUERRERO LUNA
MONOGRAFIA
Que somete a la consideración del H. Jurado examinador como requisito
parcial para obtener el titulo de:
Ingeniero Agrónomo Fitotecnista
APROBADA
Asesor principal
MC. Jaime M Rodríguez Del Ángel
Asesor Asesor
MC Humberto Macias Hernández ING. Jesús Macias Hernández
El Coordinador de la División de Agronomía
MC Reynaldo Alonso Velasco
INDICE DE CONTENIDO
Pagina Introducción 1
Objetivo y Metas Asociadas 3
Medidas de Centralidad y Dispersión 4
Introducción 4
Media Aritmética 6
Media Ponderada 9
Media Geométrica, Armónica y Cuadrática 11
Mediana 12
Moda 16
Relación entre Media, Mediana y Moda 18
Medidas de Variabilidad y Dispersión 22
Desviación Media 22
Varianza y Desviación estándar 23
Método abreviado para el calculo de la Varianza 28
Coeficiente de Variación 30
Literatura Revisada 35
Probabilidad 36
Introducción 36
Teoría de la probabilidad 36
Definiciones y conceptos utilizados en la teoría de la probabilidad
37
Variables aleatorias Discretas y Continuas 38
Teoría de conjuntos 39
Probabilidad condicional e independencia 40
Permutaciones y Combinaciones 42
Pruebas repetidas independientes y Teorema de Bayes 43
Distribución Binomial 45
Distribución Poisson 47
Ejemplos prácticos 48
Literatura revisada 58
Distribución Normal o Gaussiana 59
Introducción 59
Concepto de álgebra de sucesos 61
Distribución Gaussiana 64
Distribuciones Gaussianas con diferente media pero igual dispersión
66
Distribuciones Gaussianas con igual media pero varianza diferente
67
Aproximación a la Normal de la Ley Binomial 70
Ejemplos y demostración 71
Intervalos de confianza para la Distribución Normal 77
Intervalo de confianza para la Media 81
Intervalo de confianza para la Varianza 85
Literatura citada 89
Distribución t de Student 90
Introducción 90
Definición de t de Student 92
Comparación entre las funciones t de Student y Normal 94
Pruebas de hipótesis e intervalos de confianza para la Media 96
Distribución Ji (X2) Cuadrada 101
Introducción 101
Test de ajuste de distribuciones 102
Test de homogeneidad de varias muestras cualitativas 105
Distribución X2 con un grado de libertad 112
INTRODUCCION
El objetivo de estas notas intituladas como monografía, por cuestión de reglamentación académica, no es el establecer un tratado sobre la aplicación de la Estadística en los aspectos agropecuarios, debido a que estas posiblemente no contienen nada nuevo para las personas que en su diario hacer se dedican a la investigación o evaluación de fenómenos en el campo de las ciencias naturales y que obviamente poseen un mayor cúmulo de conocimientos y experiencias. Sin embargo por interés propio y el demostrado por algunos de mis compañeros de estudios para los que nos pareció interesante este tema, es que me decidí a compilar y organizar las siguientes notas.
considerado de antemano al pretender estudiar correctamente el comportamiento de un fenómeno dentro del método científico.
Otro aspecto que también contribuye a que la estadística no sea una de las materias mas comprendidas y apreciadas durante nuestros estudios Universitarios, se refiere al volumen de datos, simbología y ecuaciones que por normatividad deberán utilizarse; Por principio de cuentas no manejamos los programas estadísticos contenidos en las calculadoras portátiles, por demás decir los computacionales. Con respeto dicho, algunos maestros pretenden que de memoria tengamos presente la simbología y formularios que deberán utilizarse en cada uno de los procedimientos, además de que pocos son los ejemplos que contemplan algún aspecto relacionado con los procesos agropecuarios, debido principalmente a que pocos son los estadísticos, que tienen un perfil profesional relacionado con la Agronomía.
En la presente monografía, se contemplan temas estadísticos básicos que normalmente son incluidos en los cursos formales. Las medidas de Centralidad y Dispersión.- La media y la varianza, son medidas distintivas de una muestra y definen en primera instancia el comportamiento, en función de un parámetro de interés, así mismo es importante hacer notar la aplicación de otro tipo de medidas especiales, como la Moda, Mediana, Desviación media, Coeficiente de variación etc. en situaciones donde se desea identificar mediante algún atributo la muestra. Probabilidad.- En principio la probabilidad es un elemento indispensable en el proceso de inferencia estadística y es determinante en las pruebas de hipótesis e intervalos de confianza sobre los estadísticos descriptivos, resulta por demás importante cuando se trabaja con funciones de probabilidad de variables aleatorias discretas y continuas, tales como la Binomial, Hipergeometrica y Poisson en las discretas y Normal, Ji cuadrada, T de Student y F en las continuas.
mencionadas y dependerá del tamaño de la muestra, sesgo y preescisión la utilización especifica de cada una de ellas. Las pruebas de hipótesis sobre la media para variables aleatorias continuas, pueden ser llevadas a cabo mediante la utilización de distribuciones como la Normal y t de Student, así mismo la determinación de intervalos de confianza y comparación entre medias muéstrales se puede definir con la utilización de estas distribuciones. Cuando se habla de dispersión la distribución Ji cuadrada es de gran ayuda ya que la misma permite establecer pruebas de hipótesis sobre la varianza, intervalos de confianza, tablas de contingencia y pruebas de comportamiento a priori. Las pruebas de homogeneidad, Aditividad e independencia, de las observaciones de una muestra pueden ser estudiadas en función del planteamiento de hipótesis basadas en una distribución F de Fischer. Como se observa en general, la estadística básica ocupa un gran espacio en el proceso de inferencia dentro del estudio de los sucesos agropecuarios.
De los objetivos de esta monografía podríamos decir lo siguiente;
Mediante la recopilación, ordenamiento y presentación de los temas aquí expuestos, se obtendrá una experiencia que será útil en el ejercicio profesional.
Considerando que los ejemplos contenidos en los temas se refieren a aspectos agropecuarios, se tendrá un conocimiento más acorde respecto a la aplicación de las técnicas estadísticas y su interpretación en esta área de estudio.
PROBABILIDAD
INTRODUCCIÓN
Históricamente la teoría de la probabilidad comenzó con el estudio de los juegos de azar tales como la ruleta y las cartas.
La probabilidad proporciona a quien toma una decisión un medio
cuantitativo de expresar sus ideas sobre cada resultado.
¿Qué quieren decir, realmente, esas frases que se leen en los diarios tales
como, la probabilidad de un brote de la enfermedad en el ganado de las vacas
locas en México en los próximos años es de .5, la probabilidad de que el agro mexicano crezca en este sexenio es de .8?. Estas situaciones tienen la característica de no poder ser interpretadas en términos de frecuencias; no pueden ser repetidas, ni se repetirán . De este modo el significado de la palabra probabilidad no debe interpretarse como una alternativa a largo plazo. Sin embargo, se supone que las frases anteriores muestran un uso legítimo del concepto probabilidad. Al usar probabilidad en esta manera, se dice que está expresando el grado de credibilidad racional. Tales son consideradas como personales o subjetivas. Las persona asignarán probabilidades en base a su propia experiencia, antecedentes y conocimiento.
A continuación en este trabajo de investigación documental, se dará a conocer la teoría de la probabilidad, algunos de sus conceptos y ejemplos aplicados en actividades agrícolas y pecuarias para una mejor comprensión del tema.
TEORÍA DE LA PROBABILIDAD
DEFINICIÓN CLÁSICA DE PROBABILIDAD
Supóngase un suceso E, que de un total de n casos posibles, todos
igualmente factibles, pueden presentarse en h de los casos. Entonces la
probabilidad de aparición del suceso (llamada su ocurrencia ) viene dada por :
La probabilidad de no aparición (llamada su no ocurrencia) viene dada por ;
q= P{ no E} = (n – h) / n = 1 - h / n = 1- p = 1 - P{E}
Así, pues, p + q = 1 o P{E} + P{ no E} = 1 El suceso no E a veces se denota por Ē ó ~ E.
DEFINICIONES Y CONCEPTOS UTILIZADOS EN LA TEORÍA DE LA PROBABILIDAD.
ESPACIO MUESTRAL
Con cada experimento E del tipo que consideramos, definimos al espacio
muestral como el conjunto de todos los resultados posibles de E, usualmente
designamos este conjunto como S.
SUCESO
Un suceso A, (respecto a un espacio muestral particular asociado con un
experimento E) es simplemente un conjunto de resultados posibles .
Se dice que dos suceso A y B son mutuamente excluyentes si no pueden ocurrir
juntos, expresamos esto escribiendo A ∩ B = Ǿ es decir la intersección de A y B
es el conjunto vacío.
FRECUENCIA RELATIVA
Fa = na / a se llama frecuencia relativa del suceso A en las n repeticiones de E . La frecuencia relativa tiene las siguientes propiedades
a) 0 ≤ Fa ≤ 1
c) Fa = 0 Si y solo si A nunca ocurre en las n repeticiones.
d) Si A y B son dos suceso que se excluyen mutuamente y si Fa * b es la
frecuencia relativa asociada al suceso A U B , entonces Fa U b = Fa + Fb
e) Fa basada en las N repeticiones del experimento y considerada para una
función de n “converge” en cierto sentido probabilístico a p( A) cuando n - > 00
OBSERVACIÓN
Una de las características básicas del experimento es que no sabemos que
resultado particular se obtendrá al realizar el mismo. En otras palabras si A es un
suceso asociado con un experimento no podemos indicar con certeza que A
ocurrirá o no. Por lo tanto llega a ser muy importante tratar de asociar un número
con el suceso A que medirá de alguna manera, la probabilidad de que el suceso A
ocurra.
VARIABLES ALEATORIAS
Una variable aleatoria es intuitivamente un método de
asignar números o vectores de números a los resultados de un
experimento .
Sea un experimento E y S el espacio muestral asociado con el experimento .
Una función X que asigna a cada uno de los elementos s Є S un número real X (s)
se llama variable aleatoria.
Además existen dos tipos de variables aleatorias que son ;
Continuas ; Se dice que X es una variable aleatoria continua si existe una función f llamada función de densidad de probabilidad de x que satisface las siguientes condiciones ;
a) fx (X) ≥ 0
b) -∞∫∞ Fx (x) dx = 1
c) Para cualquier a, b tal que -∞ < a < b= tenemos P(a ≤ X ≤ b) = a∫b fx (x)dx
TEORÍA DE CONJUNTOS
Este apartado trata algunas de las ideas y conceptos elementales de la teoría de conjuntos que serán necesarios para una introducción moderna a la teoría de la probabilidad.
CONJUNTOS ELEMENTOS
Se llama conjunto a una lista o colección bien definida de objetos; los objetos comprendidos en un conjunto son llamados elementos o miembros.
Escribimos;
p Є A si p es un elemento del conjunto A
Si cada elemento de a pertenece también a un conjunto B, esto es, si p ЄA implica
p Є B, entonces se dice que A es subconjunto de B , o que está contenido en B;
esto se denota por:
Dos conjuntos son iguales si cada uno está contenido en el otro, esto es;
A = B si y sólo si A C B y B C A.
A menos que otra cosa se establezca, todos los conjuntos en una
investigación se suponen subconjuntos de un conjunto fijo llamado conjunto
universal denotado por “U” . También usamos el símbolo Ǿ para indicar el conjunto vacío o nulo, esto es, el conjunto que no contiene elementos; este conjunto se considera como un subconjunto de cualquier otro conjunto. Así para cualquier conjunto A, tenemos
Ǿ C A C U
CONJUNTOS FINITOS Y CONTABLES
Los conjuntos pueden ser finitos o infinitos. Un conjunto es finito si está
vacío o si consta exactamente de n elementos en donde n es un entero positivo;
de otra manera es infinito.
Un conjunto es contable si es finito o si sus elementos pueden ser ordenados en forma de sucesión, en cuyo caso se dice que es contablemente infinito; de lo contrario el conjunto es no contable.
CONJUNTO PRODUCTO
Sean A y B dos conjuntos. El conjunto producto de A y B, expresado por
A X B, está formado por todas las parejas ordenadas ( a,b) donde aЄ A y bЄB
A X B = { (a,b) : aЄA, bЄB
El producto de un conjunto por sí mismo A X A se denota por A2
PROBABILIDAD CONDICIONAL
P{E2 / E1 } o P{E2 dado E1 } y se llama probabilidad condicional de E2 dado que E1 se ha presentado.
Si la ocurrencia o no ocurrencia de E1 no afecta la probabilidad de
ocurrencia de E2 , entonces: P{E1 / E2} = { E2 } y se dice que E1 y E2 son sucesos
independientes ; si no ocurre esto los procesos se dicen dependientes.
Si se denota por E1 y E2 llamado a veces suceso compuesto se tiene ;
P {E1E2} = P{E1} P{E2} para sucesos independientes
Para tres sucesos E1,E2,E3 se tiene
P{E1E2E3} = P{E2 / E1 } P{E3 / E1 E2 }
Es decir , la probabilidad de ocurrencia de E1, E2, E3 es igual a la probabilidad de
E1 por la probabilidad de ocurra E2, dado que ha ocurrido E1, por la probabilidad
de que ocurra E3dado que ha ocurrido E1 y E2 , En particular,
P {E1E2E3 } = P {E1 } P {E2 } P{E3 } para sucesos
independientes
En general , si E1,E2,E3....En son n sucesos independientes , cuyas
probabilidades respectivas son p1, p2,p3...pn entonces la probabilidad de
ocurrencia de E1,E2,E3....En es p1, p2,p3...pn
INDEPENCIA
Se dice que un evento B es independiente de un evento A si la probabilidad
palabras, si la probabilidad de B iguala la probabilidad condicional de B dado A: P(B) = P(BĮ A). Ahora sustituyendo P(B) por P(B Į A) en el teorema de la multiplicación P(A ∩ B ) = P (A) P(A l B) , obtenemos;
P(A ∩ B ) = P(A) P(B)
Usamos la definición anterior como nuestra definición formal de independencia
DEFINICIÓN: A Y B son eventos independientes si P(A ∩ B) = P(A) P(B); de otro
modo son dependientes.
PERMUTACIONES
Una permutación de n objetos diferentes tomados de r en r es una
ordenación de r objetos entre los n dados y atendiendo a la citación de cada objeto
en la ordenación. El número de permutaciones de n objetos tomados de r en r se
representa por nPr, P(n,r) y viene dado por;
nPr = n(n-1) n( n-2).... ( n-r+1) = n! / (n-r) Ị
COMBINACIONES
Una combinación de n objetos diferentes tomados de r en r es una
selección de r de los n objetos sin atender la ordenación de los mismos. El número de combinaciones de n objetos se representan por nCr , C(n,r), ó Cnr y viene dad
por :
nCr = n(N-1)...(n-r+1) n! / r! (n –r!)
PRUEBAS REPETIDAS INDEPENDIENTES
Sea S un espacio finito de probabilidad, por n pruebas repetidas o
independientes, significa que S es espacio de probabilidad T que consta de
n-uplas o elementos de S con la probabilidad de una n-nupla definida como el producto de las probabilidades de sus componentes:
P((S1, S2…… , Sn) = P(S1) P(S2) …..P(Sn)
PARTICIONES Y TEOREMA DE BAYES
Supongamos que los eventos
A
1, A
2... A
nforman una
partición de espacio muestral
S;
esto es, que los eventos
A
ison mutuamente exclusivos y su unión es S. Ahora sea B un
evento. Entonces
B = S
∩
B = (A
1UA
2U………….UA
n)
∩
B
=(A1 ∩ B) U ( A2∩ B)...U(An∩ B)
Donde las Ai ∩ Bson eventos mutuamente exclusivos. En consecuencia;
P(B)= P(A1 ∩ B) + P(A2 ∩ B) +……..+ P(An ∩ B)
Luego por el teorema de la multiplicación
P(B) = P(A1 ) P(B l A1) + P(A2 ) P(B l A2 )+……….+P(An) P(B l An)
P(A1 l B) = P(A1 ∩ B ) / P(B)
En esta ecuación usamos i para reemplazar, P(B) y usamos P(A1 ∩ B) = P(Ai)
P(B l Ai) para reemplazar P(Ai ∩ B), obteniendo así el Teorema de bayes
TEOREMA DE BAYES
Sopóngase que A1,A2, ...An es una partición de S y B es cualquier
evento. Entonces para cualquier i.
P(A1 l B) = P(Ai) P(B l Ai) / P(Ai) P(B l Ai ) + P(A2 ) P(B l A2) +………+ P(An)
P(B l An )
DISTRIBUCIONES DE PROBABILIDAD DISCRETA
Si una variable X puede tomar una serie de valores discretos
X1,X2,...Xk, con probabilidades respectivas, p1,
p2,...pk, donde la sumatoria de todas estas probabilidades es igual a 1,
se dice que ha sido definida una X para una probabilidad discreta. La función p(X)
que toma los valores respectivos p1, p2,...pk, para X =
X1,X2,...Xk, se llama función de probabilidad o función de
frecuencia X. Como X puede tomar ciertos valores con probabilidades dadas, se
llama a veces variable aleatoria discreta. Una variable aleatoria se conoce también como variable de probabilidad o variable estocástica.
DISTRIBUCIONES DE PROBABILIDAD CONTINUA
Las ideas anteriores igualmente pueden entenderse al caso que la variable
X puede tomar una serie de valores continuos. El polígono de frecuencias de una
como la que se muestra en la figura, cuya ecuación es Y = p(X). El área total bajo
esta curva limitada por el eje X es igual a uno, y el área bajo la curva y entre las
rectas X = a y X =b (área sombreada de la figura) da la probabilidad de que X se
encuentre entre a y b lo que se puede representar por P{a < X < X).
Se conoce como p(X) como una función de la probabilidad, o brevemente
como función de densidad, y cuando tal función es dada se dice que la distribución
de probabilidad continua para X ha sido definida. La variable X se llama también
variable aleatoria continua.
Como en el caso discreto, se definen las distribuciones de probabilidad acumulada y las funciones de distribución asociadas a ellas.
DISTRIBUCIONES ESPECIALES
DISTRIBUCIÓN BINOMIAL
Si P es la probabilidad de un suceso en un solo ensayo y p = 1 = p es la
P [ X = x ] (n, x) p x q n-x = n! / x!(n-x) p xq n-x x = 0,1,2,3...,n
En donde n Є N y 0 ≤ P ≤ 1, X ~ β(n,P)
PROPIEDADES DE LA DISTRIBUCIÓN BINOMIAL
A).-Note que para cada n y P se tiene una distribución. Se dice que n y P son los parámetros de la distribución binomial
B).- La media de la binomial es µ = nP
C).- La varianza de la binomial es σ2= npq
D),- La desviación típica de la binomial es σ =√npq
DISTRIBUCIÓN HIPERGEOMÉTRICA
Supóngase que tenemos un lote de N = m + n artículos de los cuales m
tiene una característica, y n = N-m no tienen la característica.
Supóngase que escogemos al azar r artículos de ese lote {¨(r ≤ N), (r ≤ n), (r ≤ m) }
sin sustitución.
Sea X el número de artículos con la característica puesto que X = X sí y solo
obtenemos x artículos con la característica y exactamente ( r – x) artículos sin la característica. Entonces;
P [ X = x ] = (mx) ( nr-x) / (m+nr)
X = 0,1,2,3,……….n D.O.M.
DISTRIBUCIÓN POISSON
Sea X una variable aleatoria que los valores posibles 1,2,3,4, ...n sí
P( X = x ) = e-λλx / x!
x = 0,1,2,3...,n
decimos que x tiene una distribución Poisson con parámetro λ > 0
TEOREMA;
Si x tiene una distribución de Poisson con parámetro λ entonces;
E(X) = λ y Var (X) = λ
DEMOSTRACION;
TEO; Sea x una variable aleatoria distribuida binomialmente con parámetro P( con
base en n repeticiones del experimento). Esto es;
P( X = x) = (nx) px qn-x
Supóngase que cuando n ∞ np = λ o equivalente cuando n ∞ p
1 tal que
Np λ bajo estas condiciones tenemos;
Lim
n ∞ P(X = x) = e-λλx / x!
CARACTERÍSTICAS DE LA DISTRIBUCIÓN POISSON;
B) de la misma manera la varianza para esta distribución es np o sea = m (σ2= np)
C) por ultimo la desviación estándar es igual a σ =√np
EJEMPLOS PACTICOS
PERMUTACIONES
¿De cuántas formas es posible permutar 7 vacas en corraletas individuales de una nave con capacidad para 20?
A) Si solo se ocupan 12 jaulas;
680 , 991 , 3 )! 7 12 ( ! 12 )! ( 12
7 = − =
= − =
P
P
n n nx xSe pueden acomodar de 3,991,680 formas.
B) si se ocupan las jaulas con número non;
800 , 609 )! 7 10 ( ! 10 10
7 = − =
P
Por lo visto se pueden acomodar de 609,800 maneras.
800 , 200 , 390 ) 7 20 ( 20 20
7 = − =
P
O sea se pueden permutar de 390,200,300 formas.
COMBINACIONES
En un termo de inseminación se tienen pajillas de semen
dispuestas de la siguiente manera:
CANTIDAD TORO 12 UA-903
5 UA-904 4 UA-108 2 UA-101
Por otra parte se desean 9 pajillas de las cuales deben ser;
CANTIDAD TORO 2 UA-903 2 UA-904 3 UA-108 2 UA-101
A) ¿De cuántas formas se pueden tomar?
240 , 164 , 1 7 2 9 3 5 2 12
2
C
C
C
=C
B) ¿De cuántas formas es posible tomarlas si 5 del TORO UA-903 no pueden ser incluidos en el arreglo
440 , 700 , 3 7 2 9 3 5 2 7
2
C
C
C
=C
O sea que se pueden arreglar de 3,700,440
C) ¿De cuántas formas es posible tomarlas si 4 del TORO UA-101 no pueden estar en el arreglo
320 , 166 3 2 9 3 5 2 12
2
C
C
C
=C
Es decir que se pueden tomar de 166,320 formas
PROBABILIDAD
En un invernadero se encuentran plantas de durazno dispuestas de la siguiente manera;
PERIODO VARIEDAD 1 VARIEDAD 2 CRIOLLO
TARDÍO 15 8 12
TEMPRANO 7 10 14
22 18 26 66
Calcular las siguientes probabilidades;
A).- Que al tomar un aplanta la azar, esta sea tardío o variedad dos:
B).- Que al tomar una planta al azar sea variedad 1
26/66 +22/6 = .7272 ó 72.72%
C).- Que al tomar tres plantas al azar sea criollo
(26/66) ( 25/65) (24/64) = 15600/274550 .0568 ó 5.68%
D).- Que al tomar 2 plantas al azar y con reemplazo las dos sean tardío
3(35/66) (35/66) = .28122 ó 28.12%
E).- Que al tomar 3 plantas en orden sean V1, V2, V3
(22/66) (18/65) (26/64) = .036931818 ó 36.93%
PRUEBAS REPETIDAS INDEPENDIENTES
La probabilidad de Neumonía en terneros Holstein en un establo es de 8%, si se toma al azar una muestra de cinco animales A).- ¿cuál es la probabilidad de que dos contengan Neumonía, B).- A lo más uno contenga la enfermedad, C).- Al menos cuatro no tengan Neumonía.
A).- Probabilidad de que dos contengan Neumonía
p = .08 n = 5
q = .92 x = 2
P(que 2 contengan neumonía) = C52 ..08² .925-2 =
Esto quiere decir que la probabilidad de 2 animales tengan
Neumonía es de 4.98%
B).- Probabilidad de que a lo mas 1 tenga Neumonía
P( de que al menos uno tenga Neumonía) = (C50) (.920 ) (.925-0) + (C51) (.081) (.92 5-1) = .28652
(1) (0) (.6590) + (5) (.08) (.7163) = .28652
Esto se traduce en la probabilidad de a lo más un animal contenga Neumonía es de 28.65 %
C).- Probabilidad de que a lo menos 4 no tengan Neumonía
P(de que al menos cuatro no tengan Neumonía) = C54 (.924) (.085-4) + C55 ( .92 5) ( 085-5) =
5(.7163) (.08) + 1(.6590) (0) = .28652
Esto significa que la probabilidad de que al menos cuatro
terneros no contengan Neumonía es de 28.65 %.
TEOREMA DE BAYES
La compra de mamilas para el sistema de ordeña de un
establo se efectúa de la siguiente manera:
FABRICANTE VOLUMEN
DEFECTUOSAS
ALBA 35 4
MEX-SOL 35
110
9
20
A).- Si al azar se toma una pieza ¿cuál es la probabilidad de que sea defectuosa y de Mex-sol
Cormoran Mexsol Alba
7/20 4/20 9/20
.40 .35 .35
P(defectuosas/ Mexsol) = (9/20) (.35)
(7/20).40 + (4/20).35 +(9/20).35
P = .4285 ó 42.85%
Es decir que la probabilidad de que la mamila sea defectuosa y
además fabricada por Mexsol es de 42.85 %
DISTRIBUCIÓN HIPERGEOMÉTRICA
Siete de cada 50 toretes Holstein de selección no son de primera,
si al azar se toma una muestra de 4 ¿Cuál es la probabilidad de:
C
C
C
P 50 4 43 2 7 2=
= 0.082 ó 8.2 % de probabilidad de que 2 no sean de
primera
B) Que al menos dos sean primera
C
C
C
P 50 4 7 1 43 3 =+
C
C
C
50 4 7 0 434
= 0.545
O sea el 54.5% de probabilidad de que al menos dos
terneros sean de primera.
Si 8 de cada 89 muestras de forraje colectado en el estado de
Coahuila presentan deficiencia de fósforo y en forma azarizada se
toma una muestra de tamaño 6
¿ Cuál es la probabilidad de que?
A) Dos presenten deficiencia de fósforo
C
C
C
n
N n N n N N n n P 1 1 1 1 ) ( 1 − − − − ==
P(2 deficiente)=
C
C
C
89 6 81 4 8 2=
581106988Esto quiere decir que la probabilidad de que dos muestras de
forraje tengan deficiencia de fósforo es de 8.10%
C) Que al menos una presente deficiencia de fósforo;
P = (al menos una deficiente)
P
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
89 6 8 6 81 0 89 6 8 5 81 1 89 6 8 4 81 2 89 6 8 3 81 3 89 6 8 2 81 4 89 6 8 1 815 + + + + +
= .441397
Es decir que la probabilidad de al menos 1 presente deficiencia de
fósforo es de 44.13%
DISTRIBUCIÓN POISSON
La probabilidad de fiebre de embarque en ganado bovino con
vacuna es de 1.2%, por otra parte se estima una muestra al azar
de 42 animales ¿Cuál es la probabilidad de que 2 tengan fiebre de
embarque y qué a lo más uno presente la enfermedad;
A) Probabilidad de que dos tenga fiebre de embarque;
p = 0.012
m = np = (0.012)(42)= .504 ! 2 ) 2 ( ! ) ( 504 . 0 2
0504
.
e
e
m
P X x F m x − = =P(2)= 0.076 ö 7.6%
Esto quiere decir que la probabilidad de 2 animales padezcan la
enfermedad es de 7.67%.
D) Probabilidad de que a lo mas 1 tenga fiebre de embarque
P = 0.012 n = 42
m = np = (0.012)(42)= .504
01 ) 1 , 0 ( 504 . 0 0
504
.
0
e
F − = + ! 1 504 . 0 1504
.
0
e
−=
= + =.604 .304 )
1 , 0 (
F .9058
Es decir que existe un 90.85% de probabilidad de que se presente la fiebre de
embarque en por lo menos1 animal.
La probabilidad de preñez en el primer celo posparto en bovinos es muy pequeña1.7%. Si al azar se toma una muestra de 42 animales, con estas características defina la probabilidad de que;
A) 2 queden preñadas
! )
(
X X
F
m
e
m x −
= =
x = 2 n= 42
m = np = .714
! 2 ) 2 ( 714 . 0 2
714
.
e
F −= = .1248
O sea que la probabilidad de que dos hembras queden preñadas es de 12.48%
B) A lo menos una quede preñada
P=.017 X= 2 n= 42
m= np= .714
! 0 ) 1 , 0 ( 714 . 0 0
714
.
0
e
F − = + ! 1 714 . 0 1714
.
0
e
−=
.4896 + 34.96 = .8392
Esto nos indica que la probabilidad de que lo más una quede preñada es de 83.92%
DISTRIBUCIÓN BINOMIAL
Si la probabilidad de Brucelosis en cabras en una zona templada
es de 8.3%. Si al azar se toma una muestra de 8 animales defina la
probabilidad de que;
q
p
C
n x n xx
X
F( )= −
p = .083 n = 8
q = .917 x = 2
)
083
(.
)
917
(.
8 2) 2
( =
C
82 2 −P = 28(.8400889)(.000000326)= .000007679
Como se observa es muy baja la probabilidad
B) A lo más dos tengan Brucelosis;
C
+ + =− − −
)
917
(.
)
083
(.
)
917
(.
)
083
(.
)
917
(.
)
083
(.
8 2 8 22 1 8 1 8 1 0 8 0 8
0
C
C
1(1)(4999)+8(.083)(.5452)+28(.006889)(.5946)= .9765
Esto quiere decir que la probabilidad de que a lo mas dos tengan Brucelosis es muy alta ya que es del 97.65%
C) Tres padezcan de Brucelosis
P(3) =
C
83(.
083
)
3(.
917
)
8−3(56) (.000571) (.6484) = .0207
La probabilidad de tres animales con Brucelosis es de 2.07 %
Bioestadística: Métodos y Aplicaciones. Universidad de Málaga.
http://www.bioestadistica.uma.es/libro/
Castillo P.J, J.G.Arias. 1998. Estadística inferencial básica. Grupo editorial Ibero América. México.
Cochran. G. William. 1980. Diseños experimentales. Editorial Trillas. México
Infante G. S. 1997. Métodos estadísticos. Editorial Trillas. México.
Kreyszig Erwin. 1979. Introducción a la estadística matemática. Editorial Limusa. México
Montgomery D. C.1991.Diseño y análisis de experimentos. Grupo editorial Iberoamérica. México.
Ostle, B. 1965. Estadística aplicada. Primera edición. Editorial Limusa. México.
Rodríguez del A. J. 1991. Métodos de investigación pecuaria. Editorial Trillas. México.
Snedecor W. George, W. G. Cochran. 1979 métodos estadísticos. Editorial Continental. México.
Steel G.D Robert, J. H. Torrie.1981. 2ª. Principles and procedures of statistics a biometrical approach. 2ª. Ed. Editorial Mc Graw-Hill. USA.
DISTRIBUCIÓN NORMAL O GAUSSIANA
INTRODUCCION
Para hacer una definición rigurosa de la probabilidad, necesitamos precisar ciertas leyes o axiomas que deba cumplir una función de probabilidad. Intuitivamente estos axiomas deberían implicar, entre otras, las siguientes cuestiones, que nos parecen lógicas en términos de lo que se puede esperar de una función de probabilidad:
• La probabilidad sólo puede tomar valores comprendidos entre 0 y 1(no
puede haber sucesos cuya probabilidad de ocurrir sea del 200% ni del –5.
• La probabilidad del suceso seguro es 1, es decir, el 100%.
• La probabilidad del suceso imposible debe ser 0.
• La probabilidad de la intersección de dos sucesos debe ser menor o igual
que la probabilidad de cada uno de los sucesos por separado, es decir:
• La probabilidad de la unión de sucesos debe ser mayor que la de cada uno
de los sucesos por separado:
Más aún, si los sucesos son disjuntos (incompatibles) debe ocurrir que
Prob[A] = 1 - Prob[A]. Esto en realidad puede deducirse del siguiente razonamiento:
La probabilidad de la unión numerable de sucesos disjuntos es la suma de sus probabilidades (figura 1).
Figura:1 Si con , entonces
siguiendo esos puntos:
La función de probabilidad debe calcularse sobre subconjuntos de E.
No es estrictamente necesario que sean todos, pero si es necesario que si
se puede calcular sobre un conjunto, lo pueda ser también sobre su
complementario, y que si se puede calcular sobre dos conjuntos A y B, que
también se pueda calcular sobre su unión y su intersección. Para ello
introduciremos el concepto de -álgebra de sucesos, que será una clase
de subconjuntos de E sobre los que podamos aplicar las reglas de la
Entre las leyes que debe cumplir una función de probabilidad y que se han escrito antes, se ha observado que algunas son redundantes, ya que se pueden deducir de las demás. Con la definición axiomática de la probabilidad se pretende dar el menor conjunto posible de estas reglas, para que las demás se deduzcan como una simple consecuencia de ellas.
Se precisa entonces los conceptos de -álgebra de sucesos y de
probabilidad.
CONCEPTO DE -ÁLGEBRA DE SUCESOS
Sea una clase no vacía formada por ciertos subconjuntos del espacio
muestral E. Diremos que esta clase es un -álgebra de sucesos si los sucesos
complementarios de aquellos que están en también están en , así como sus uniones numerables (sean finitas o infinitas). Esto se puede enunciar como:
La introducción de la definición de -álgebra puede parecer innecesaria a
primera vista, ya que es una clase formada por subconjuntos de E que verifican
ciertas propiedades relativas a la complementariedad y a las uniones finitas que ya verifica de antemano el conjunto denominado partes de E, P(E), formado por todos
los subconjuntos de E. Cuando el conjunto E de los posibles resultados de un
experimento aleatorio sea finito, normalmente consideraremos como -álgebra de
sucesos al conjunto P(E). Esto ocurre cuando por ejemplo realizamos el
experimento aleatorio de lanzar un dado:
Cuando E es infinito no numerable, la estructura del conjunto P(E) puede
conveniente utilizar como -álgebra un subconjunto más pequeño suyo, pero no tanto que no nos permita realizar las operaciones de complementariedad o de uniones finitas que se precisan en la definición de un -álgebra. Por ejemplo, si realizamos el experimento aleatorio de esperar el tiempo que hace falta para que
un átomo de carbono catorce, C14, se desintegre de modo natural, se tiene que
Sin embargo, el -álgebra de sucesos que consideramos no es ,
que es una clase demasiado compleja para definir sobre sus elementos una medida de probabilidad. En su lugar consideramos el -álgebra formada por todos los intervalos, abiertos o cerrados, y sus uniones finitas, lo que, por
supuesto incluye a los puntos de , ya que por ejemplo
Este tipo de conjuntos (los intervalos) son los que nos interesan en la práctica (Walpole, 1992).
PROBABILIDAD CONDICIONADA E INDEPENDENCIA DE SUCESOS
Sea B C E un suceso aleatorio de probabilidad no nula, P[B]>0. Para
cualquier otro suceso A C E, llamamos probabilidad condicionada de A a B a la
Ejemplo
Se lanza un dado al aire ¿Cuál es la probabilidad de que
salga el número 4? Si sabemos que el resultado ha sido un
número par, ¿se ha modificado esta probabilidad?
Solución:
El espacio muestral que corresponde a este experimento es:
y se ha de calcular la probabilidad del suceso . Si el dado no está trucado,
todos los números tienen la misma probabilidad de salir, y siguiendo la definición de probabilidad de Laplace,
Obsérvese que para calcular la probabilidad de A según la definición de
Laplace se ha tenido que suponer previamente que todos los elementos del espacio muestral tienen la misma probabilidad de salir, es decir:
Esta misma probabilidad se podría haber calculado siguiendo la definición de la probabilidad condicionada, ya que si escribimos
y entonces
que por supuesto coincide con el mismo valor que calculamos usando la definición de probabilidad de Laplace. Obsérvese que según la definición de probabilidad condicionada, se puede escribir la probabilidad de la intersección de dos sucesos de probabilidad no nula como
O sea, la probabilidad de la intersección de dos sucesos, es la probabilidad de uno
cualquiera de ellos, multiplicada por la probabilidad del segundo sabiendo que ha
que la expresión ``sabiendo que'' no aporte ninguna información. De este modo
introducimos el concepto de independencia de dos sucesos A y B como:
Esta relación puede ser escrita de modo equivalente, cuando dos sucesos son de probabilidad no nula como
DISTRIBUCIÓN NORMAL O GAUSSIANA
La distribución gaussiana, recibe también el nombre de distribución normal, ya que una gran mayoría de las v.a continuas de la naturaleza siguen esta distribución. Se dice que una v.a. X sigue una distribución normal de parámetros µ y σ2 lo que representamos del modo
si su función de densidad es:
La forma de la función de densidad es la llamada campana de Gauss.
Es un ejercicio interesante comprobar que ésta alcanza un único máximo
(moda) en µ, que es simétrica con respecto al mismo, y por tanto
,
con lo cual en µ coinciden la media, la mediana y la moda, y por último, también interesante, calcular sus puntos de inflexión. (Steel, 1986).
El soporte de la distribución es todo , de modo que la mayor parte de la
masa de probabilidad (área comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media, y las ramas de la curva se extienden asintóticamente a los ejes, de modo que cualquier valor ``muy alejado" de la media es posible (aunque poco probable).
La forma de la campana de Gauss depende de los parámetros µ y σ.
• µ, indica la posición de la campana (parámetro de centralización);
Figura:3 Distribuciones gaussianas con diferentes medias e igual dispersión.
• (o equivalentemente, ) será el parámetro de dispersión. Cuanto menor
sea, mayor cantidad de masa de probabilidad habrá concentrada alrededor
de la media (grafo de f muy apuntado cerca de µ y cuanto mayor sea ``más
aplastado" será.
La función característica de la distribución normal, se comprueba más adelante que es:
A pesar de la utilidad de la ley gausiana, hay que apuntar un hecho
negativo para esta ley de probabilidad:
La función no posee primitivaconocida. Las consecuencias desde el punto de
vista práctico son importantes, ya que eso impide el que podamos escribir de modo sencillo la función de distribución de la normal, y nos tenemos que limitar a decir que:
sin poder hacer uso de ninguna expresión que la simplifique. Afortunadamente
esto no impide que para un valor de x fijo, F(x) pueda ser calculado. De hecho
puede ser calculado con tanta precisión (decimales) como se quiera, pero para esto se necesita usar técnicas de cálculo numérico y ordenadores. Para la
utilización en problemas prácticos de la función de distribución F, existen ciertas
tablas donde se ofrecen (con varios decimales de precisión) los valores F(x) para
una serie limitada de valores xi dados. Normalmente F se encuentra tabulada para
una distribución Z, normal de media 0 y varianza 1 que se denomina distribución
normal tipificada:
Proposición
Demostración
Por ser la normal una ley de probabilidad se tiene que
es decir, esa integral es constante. Con lo cual, derivando la expresión anterior con respecto a µ se obtiene el valor 0:
luego .
Para demostrar la igualdad entre la Var [X] y , basta con aplicar la misma
técnica, pero esta vez derivando con respecto a :
Luego
y calculamos
Como , por la proposición 5 deducimos que
Aproximación a la normal de la ley binomial
Se puede demostrar (teorema central del límite) que una v.a. discreta con
distribución binomial, X B(n,p)se puede aproximar mediante una distribución
normal si n es suficientemente grande y p no está ni muy próximo a 0 ni a 1. Como
el valor esperado y la varianza de X son respectivamente np y npq, la
aproximación consiste en decir que
.
El convenio que se suele utilizar para poder realizar esta aproximación es:
aunque en realidad esta no da resultados muy precisos a menos que realmente n
sea un valor muy grande o p p ½. Como ilustración obsérvense las figuras 5 Y 6.
Figura 5: Comparación entre la función de densidad de una v.a. continua con distribución N(np, npq) y el diagrama de barras de una v.a. discreta de distribución B(n,p) para casos en que la aproximación normal de la binomial es válida. Es peor
esta aproximación cuando p está próximo a los bordes del intervalo [0,1].
Ejemplo
Durante cierta epidemia de diarrea viral bovina, enferma el 30% de la una engorda. En un corral con 200 toretes, ¿cuál es la probabilidad de que al menos 40 padezcan la enfermedad? Calcular la probabilidad de que haya 60 toretes con diarrea viral bovina.
Solución: La v.a. que contabiliza el número de toretes que padece la enfermedad es:
cuya media es y su varianza es . Realizar los
cálculos con la ley binomial es muy engorroso, ya que intervienen números combinatorios de gran tamaño, y potencias muy elevadas. Por ello utilizamos la
aproximación normal de X, teniendo en cuenta que se verifican las condiciones
necesarias para que el error sea aceptable:
Así aproximando la v.a. discreta binomial X, mediante la v.a. continua normal XN
También es necesario calcular P[X=60]. Esta probabilidad se calcula exactamente como:
Dada la dificultad numérica para calcular esa cantidad, y como la distribución binomial no está habitualmente tabulada hasta valores tan altos,
vamos a utilizar su aproximación normal, XN. Pero hay que prestar atención al
hecho de que XN es una v.a. continua, y por tanto la probabilidad de cualquier
punto es cero. En particular,
lo que ha de ser interpretado como un error de aproximación. Hay métodos más aproximados para calcular la probabilidad buscada. Por ejemplo, podemos
aproximar P[X=60] por el valor de la función de densidad de XN en ese punto (es
Por último, otra posibilidad es considerar un intervalo de longitud 1 centrado en el valor 60 del que deseamos hallar su probabilidad y hacer:
Ejemplo
Según un estudio, el peso al destete de becerros Hereford en cierto rancho
es una v.a. X, que podemos considerar que se distribuye según una ley gaussiana
de valor esperado µ = 175 kg y desviación típica σ = 10 kg. Dar un intervalo para
el que tengamos asegurado que el 50% de los becerros del rancho comprendidos en él.
Solución: Tenemos que
.
Si buscamos un intervalo donde estar seguros de que el 50% de los becerros sus pesos comprendidos en él hay varias estrategias posibles:
1.- Podemos tomar el porciento 50, ya que este valor deja por debajo suya
a la mitad, 0,5, de la masa de probabilidad. Este valor, x0,5, se definiría
como:
El valor z0,5 lo podemos buscar en la tabla 3 (distribución N(0.1) y se obtiene
Por tanto podemos decir que la mitad de la población tiene un peso inferior a X0.5 = 175 kg. Este resultado era de esperar, ya que en la distribución es simétrica y habrá una mitad de individuos con un peso inferior a la media y otro con un peso superior (figura 7). Esto puede escribirse como:
El 50% de la población tiene un peso comprendido en el intervalo (-∞, 175].
Figura 7: Intervalo donde tenemos asegurado que el 50% de la población tiene un peso comprendido en él. Como se observa, no es un tamaño óptimo, en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda).
El 50% de la población tiene una altura comprendida en el intervalo [175, + ∞).
3.- Los anteriores intervalos, aún dando un resultado correcto, no son satisfactorios en el sentido de que son muy grandes, y no tienen en cuenta la simetría de la distribución normal para tomar un intervalo cuyo centro sea µ. Vamos a utilizar entonces otra técnica que nos permita calcular el intervalo centrado en la media, y que además será el más pequeño posible que contenga al 50% de la población.
Para ello observamos que la mayor parte de probabilidad está concentrada siempre alrededor de la media en las leyes gaussianas. Entonces podemos tomar un intervalo que contenga un 25% de probabilidad del lado izquierdo más próximo a la media, y un 25% del derecho (figura 8).
Esto se puede describir como el intervalo
donde x0,25 es el valor que deja por debajo de sí al 25% de la masa de
probabilidad y x0,75 el que lo deja por encima (o lo que es lo mismo, el que
deja por debajo al 75% de las observaciones). Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribución normal, tipificando en primera instancia para destipificar después:
donde
En una tabla encontramos el valor z0,75, y se destipifica:
Análogamente se calcularía
Por la simetría de la distribución normal con respecto al origen, tenemos que z0,25= - z0,75.Luego
En conclusión:
El 50% de la población tiene un peso comprendido en el intervalo [168,25,181,75].
De entre los tres intervalos que se han calculado el que tiene más interés es el último, ya que es simétrico con respecto a la media, y es el más pequeño de todos los posibles (más preciso).
INTERVALOS DE CONFIANZA PARA LA DISTRIBUCIÓN NORMAL
Dada una variable aleatoria de distribución gaussiana X N(µ,σ2),nos intere-- samos en primer lugar, en calcular intervalos de confianza para sus dos
parámetros, µ y σ2 . Enseguida se muestra un resumen de las situaciones
consideradas.
Intervalo para la Media si se Conoce la Varianza
Este no es un caso práctico (no se puede conocer sin conocer
previamente µ), pero sirve para introducirnos en el problema de la estimación confidencial de la media.
Este se trata del caso con verdadero interés práctico. Por ejemplo sirve para estimar intervalos que contenga la media del colesterol en sangre en una población, la altura, el peso, etc, cuando disponemos de una muestra de la variable.
Intervalo de Confianza para la Varianza
Éste es otro caso de interés en las aplicaciones. El objetivo es calcular un
intervalo de confianza para σ2, cuando sólo se dispone de una muestra.
Estimación del tamaño muestral
La utilidad consiste en decidir cuál deberá ser el tamaño necesario de una muestra para obtener intervalos de confianza para una media, con precisión y significación dadas de antemano. Para que esto sea posible es necesario poseer
cierta información previa, que se obtiene a partir de las denominadas muestras
piloto.
Enseguida se considera caso en que se tiene dos poblaciones donde cada
una sigue su propia ley de distribución N(µ1,σ21),y N(µ2,σ22). Los problemas
asociados a este caso son:
Diferencia de medias homocedáticas
Se realiza el cálculo del intervalo de confianza suponiendo que ambas
variables tienen la misma varianza, es decir son homocedáticas. En la práctica
se usa este cálculo, cuando ambas variables tienen parecida dispersión.
Es el mismo caso que el anterior, pero se realiza cuando se observa que hay diferencia notable en la dispersión de ambas variables.
Intervalo para la Media si se Conoce la Varianza
Este caso que planteamos es más a nivel teórico que práctico: difícilmente
vamos a poder conocer con exactitud σ2 mientras que µ es desconocido. Sin
embargo nos aproxima del modo más simple a la estimación confidencial de medias.
Para estimar µ el estadístico que mejor nos va a ayudar es , del que
conocemos su ley de distribución:
Esa ley de distribución depende de µ (desconocida). Lo más conveniente es hacer que la ley de distribución no dependa de ningún parámetro desconocido, para ello tipificamos:
Este es el modo en que haremos siempre la estimación puntual: buscaremos una relación en la que intervengan el parámetro desconocido junto con su estimador y de modo que estos se distribuyan según una ley de
De este modo, fijado α∈(0,1) consideramos la v.a. Z N(0,1) y tomamos un
intervalo que contenga una masa de probabilidad de 1-α. Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es tomarlo simétrico con respecto a la media (0), ya que allí es donde se acumula más masa (véase la figura 9). Así las dos colas de la distribución (zonas más alejadas de la media) se repartirán a partes iguales el resto de la masa de probabilidad, α.
Figura 9: La distribución N(0,1) y el intervalo más pequeño posible cuya probabilidad es 1- α. Por simetría, los cuantiles Z α/2 y Z1-
α/2 sólo difieren en el signo.
Ahora se precisa cómo calcular el intervalo de confianza:
• Sea Zα/2 el porcentaje 100 α/2 de Z, es decir, aquel valor de IR que deja por debajo de si la cantidad Z α/2de la masa de probabilidad de Z, es decir:
Es útil considerar en este punto la simetría de la distribución normal, y observar que los porcentuales anteriores son los mismos aunque con el signo cambiado:
• El intervalo alrededor del origen que contiene la mayor parte de la masa
(1-α) es el intervalo siguiente (Figura 10):
lo que habitualmente escribiremos como:
• De este modo podemos afirmar que existe una probabilidad de 1-α de que
al extraer una muestra aleatoria de la variable en estudio, ocurra:
De este modo un intervalo de confianza al nivel 1-α para la esperanza de
una normal de varianza conocida es el comprendido entre los valores
Figura 10: Intervalo de confianza para la media.
Intervalo para la media (caso general)
Como hemos mencionado, los casos anteriores se presentarán poco en la práctica, ya que lo usual es que sobre una población quizás podamos conocer si
se distribuye normalmente, pero el valor exacto de los parámetros µ y α2 no son
conocidos. De ahí el interés en buscar intervalos de confianza para ellos.
El problema que tenemos en este caso es más complicado que el anterior, pues no es tan sencillo eliminar los dos parámetros a la vez. Para ello nos vamos a ayudar de lo siguiente:
Por el teorema de Cochran se sabe por otro lado que:
y que además estas dos últimas distribuciones son independientes. A partir de
estas relaciones podemos construir una distribución t de Student con n-1 grados
de libertad (figura11):
Figura 11: La distribución tn es algo diferente a N(0,1)
cuando n es pequeño, pero conforme éste aumenta,
ambas distribuciones se aproximan.
Dado el nivel de significación 1-α buscamos en una tabla de tn-1 el porcentual 100-(1-α/2), tn-1,1-α/2, el cual deja por encima de si la cantidad α/2 de la masa de
probabilidad (figura 12). Por simetría de la distribución de Student se tiene que
,
luego
Figura 12: La distribución de Student tiene las mismas propiedades de simetría que la normal tipificada.
Es decir, el intervalo de confianza al nivel 1-α para la esperanza de una distribución gaussiana cuando sus parámetros son desconocidos es:
Figura 13: Intervalo de confianza para µ cuando σ2 es desconocido (caso general).
Al igual que en el caso del cálculo del intervalo de confianza para µ cuando
σ2 es conocido, podemos en el caso σ2 desconocido, utilizar la función de
Ejemplo
Se quiere estimar un intervalo de confianza al nivel de significación α=0.05
para el peso medio al destete µ de becerros hereford. En principio sólo sabemos que la distribución de las alturas es una v.a. X de distribución normal. Para ello se
toma una muestra de n=25 becerros y se obtiene
X = 170 kg
S = 10 kg
Solución:
Si queremos estimar un intervalo de confianza para µ, es conveniente utilizar el estadístico
y tomar como intervalo de confianza aquella región en la que
o dicho de forma más precisa: Con un nivel de confianza del 95% podemos decir que la media poblacional está en el intervalo siguiente (Figura 15)
Figura 14: Cálculo del intervalo de confianza para la media usando para ello la distribución de Student y la función de verosimilitud asociada, la ..cual .ésta tiene su máximo en X, ya que esta
estimación puntual de µ es la máximo verosímil.
Intervalo de Confianza para la Varianza
Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la siguiente propiedad de la distribución X2
Consideremos dos cuantiles de esta distribución que nos dejen una probabilidad 1-α en la ``zona central'' de la distribución (cf. Figura 16):
Entonces un intervalo de confianza al nivel 1-α para la varianza de una distribución gaussiana (cuyos parámetros desconocemos) lo obtenemos teniendo
en cuenta que existe una probabilidad 1-α de que:
(Universidad de Malaga, 1999)
Ejemplo
En el se estudió el peso al destete de becerros Hereoford obteniéndose en una muestra de tamaño 25 los siguientes valores:
X = 170 kg
S = 10 kg
Calcular un intervalo de confianza con α=0.05 para la varianza σ2 de la
altura de los individuos de la ciudad.
Solución:
Para estimar un intervalo de confianza para α2 (varianza poblacional) el estadístico es:
Entonces el intervalo de confianza que buscamos lo obtenemos mediante (cf. Figura 16)
Por tanto, para el valor poblacional de la desviación típica tenemos que
con una confianza del 95%, que por supuesto contiene a las estimaciones
LITERATURA CITADA.
Bioestadística: Métodos y Aplicaciones. Universidad de Málaga.
http://www.bioestadistica.uma.es/libro/
Castillo P.J, J.G.Arias. 1998. Estadística inferencial básica. Grupo editorial Ibero América. México.
Cochran. G. William. 1980. Diseños experimentales. Editorial Trillas. México
Kreyszig Erwin. 1979. Introducción a la estadística matemática. Editorial Limusa. México
Montgomery D. C.1991.Diseño y análisis de experimentos. Grupo editorial Iberoamérica. México.
Ostle, B. 1965. Estadística aplicada. Primera edición. Editorial Limusa. México.
Rodríguez, D.A.J.M. 1991. Métodos de Investigación Pecuaria. 1ª Edición. Editorial Trillas. México.
Steel, R.G.D. 1986. Bioestadistica: Principios y Procedimientos. 1ª Edición. Editorial McGraw-Hill. México.
LITERATURA REVISADA
Bioestadística: Métodos y Aplicaciones. Universidad de Málaga.
http://www.bioestadistica.uma.es/libro/
Castillo P.J, J.G.Arias. 1998. Estadística inferencial básica. Grupo editorial Ibero América. México.
Cochran. G. William. 1980. Diseños experimentales. Editorial Trillas. México
Infante G. S. 1997. Métodos estadísticos. Editorial Trillas. México.
Kreyszig Erwin. 1979. Introducción a la estadística matemática. Editorial Limusa. México
Montgomery D. C.1991.Diseño y análisis de experimentos. Grupo editorial Iberoamérica. México.
Ostle, B. 1965. Estadística aplicada. Primera edición. Editorial Limusa. México.
Rodríguez del A. J. 1991. Métodos de investigación pecuaria. Editorial Trillas. México.
Snedecor W. George, W. G. Cochran. 1979 métodos estadísticos. Editorial Continental. México.
Steel G.D Robert, J. H. Torrie.1981. 2ª. Principles and procedures of statistics a biometrical approach. 2ª. Ed. Editorial Mc Graw-Hill. USA.
. MEDIDAS DE CENTRALIDAD Y DISPERSIÓN
INTRODUCCIÓN
En el trabajo estadístico es importante saber cuándo
estamos tratando con una población completa de observaciones,
o con una muestra de observaciones seleccionadas de una
población especificada.Una población se puede definir como la
totalidad de valores posibles (mediciones o conteos) de una
característica particular de un grupo especificado de objetos. Tal
grupo especificado de objetos se le conoce como un universo.
Obviamente, un universo puede tener varias poblaciones
asociadas con él.
Estos ejemplos son suficientes para indicar al lector de la importancia de definir claramente la población en investigación. El concepto de muestra, corresponde a una población, seleccionada de acuerdo con una regla o una estrategia. Las cosas importantes que se deben saber son:
a) Que estamos tratando con una muestra. b) Qué población ha sido muestreada.
Si tratamos con toda la población, nuestro trabajo estadístico será parcialmente descriptivo. Por el contrario, si tratamos con una muestra el trabajo estadístico no únicamente describe a la muestra sino que también proporciona información respecto a la población muestreada.
En la práctica se han encontrado varias clases o tipos de muestras. Las características que distinguen a un tipo de otro son:
• La manera de obtención de la muestra.
• El fin para que fue extraída la muestra.
Las dos últimas características se obtienen fácilmente en cualquier situación practica, aunque la última no es enunciada claramente y tal vez, olvida. La manera de obtener la muestra es muy importante y será discutida posteriormente.
Las muestras pueden agruparse en dos grandes clases, cuando se considera su método de selección, a saber, las que seleccionan por criterios y las que se seleccionan por medio de un mecanismo casual. Las muestras elegidas de acuerdo con el mecanismo casual, son llamadas muestras de probabilidad, si cada elemento de población tiene una probabilidad conocida de pertenecer a la muestra. En particular, si cada elemento tiene la misma probabilidad de pertenecer a la muestra, entonces ésta es conocida como una muestra al azar.
Las muestras al azar se prefieren a las muestras elegidas. Una buena muestra es aquella que a partir de la cual puede hacerse generalizaciones.
Para generalizar, de la muestra de población, se necesita estar capacitados para deducir, a partir de cualquiera de las suposiciones respecto a la población, cuándo la muestra observa está dentro del rango de variación del muestreo que puede ocurrir para dicha población, bajo el método dado de muestreo. Tales deducciones pueden hacerse, si y sólo si, se aplican las leyes de la probabilidad matemática. El objetivo de la naturaleza al azar de este tipo de muestreo. Tales deducciones pueden hacerse, si y sólo si, se aplican las leyes de la probabilidad matemática. El objetivo de la naturaleza al azar de este tipo de muestreo, es asegurar que esas leyes son aplicables.
El muestreo de diferentes poblaciones puede hacer de diferentes maneras:
• Una muestra al azar puede extraerse de una población especificada
• Una muestra al azar puede extraerse de una población infinita especificada, mediante una función discreta de densidad de probabilidad donde el muestreo se efectúa con reemplazamiento. El muestreo con reemplazamiento tiene por objeto hacer infinita a la población.
El conocer las características de una muestra es evidentemente necesario pero también es necesario analizar a través de medidas de tendencia central y dispersión.
Medidas de tendencia central.
Tendencia Central
• Las medidas de tendencia central son puntos en una distribución, los
valores medios o centrales de ésta y nos ayudan a ubicarla dentro de la escala de medición.
Las principales medidas de tendencia central son tres: moda, mediana y media.
La media
La media aritmética de una variable estadística es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es
X ni fi
x1 n1 f1
... ... ...
xk nk fk
Si los datos no están ordenados en una tabla, entonces
Observación
Hemos supuesto implícitamente en la definición de media que tratábamos
con una variable X discreta. Si la variable es continua tendremos que cambiar los
valores de xi por las marcas de clase correspondientes. En general, la media
aritmética obtenida a partir de las marcas de clase ci, diferirá de la media obtenida
con los valores reales, xi. Es decir, habrá una perdida de precisión que será tanto
mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las longitudes ai, de los intervalos.
Proposición
La suma de las diferencias de la variable con respecto a la media es nula, es
decir,
Demostración.
Basta desarrollar la sumatoria para obtener
Este resultado nos indica que el error cometido al aproximar un valor
cualquiera de la variable, por ejemplo x1, mediante el valor central , es