Tratamiento estad´ıstico de datos experimentales
• Caracterizaci´on de datos.
• Modelos estad´ısticos.
– Distribuci´on binomial – Distribuci´on de Poisson – Distribuci´on de Gauss
– Distribuci´on de chi-cuadrado
• Aplicaciones.
– Significado del error de una medida.
– Errores en medidas de radiaci´on.
– Modelado de datos experimentales y calidad de los ajus-
tes.
Caracterizaci´on de datos.
• Dado un conjunto x1, x2, ..., xn de n medidas independientes de una misma cantidad f´ısica se define el valor medio experimental o valor medio de la muestra ¯x como:
¯ x = 1
n
Xn i=1xi
• La llamada funci´on de distribuci´on de frecuencias F (x) proporciona las veces que se repite un mismo valor en la muestra, y caracteriza completamente cualquier colecci´on de datos.
x
1 2 3 4 5 6 7 8
F(x)
2 4 6 8 10 12 14
Numero de cuentas
0,035 0,070 0,105 0,140 0.,175 0,210
• Una estimaci´on de las fluctuaciones sobre el valor medio de la muestra viene dada por la llamada varianza de la muestra:
s2 = 1 n
Xn
i=1(xi − ¯x)2 que tambi´en puede calcularse como
Modelos estad´ısticos.
• Una buena parte de los problemas en F´ısica pueden ser descritos, al menos aproximadamente, con un peque˜no grupo de distribuciones es- tad´ısticas te´oricas caracterizadas por una funci´on densidad de proba- bilidad P (x) que proporciona la frecuencia esperada de que ocurra un determinado suceso aleatorio.
• El valor esperado de la variable aleatoria x se define como E[x] = Z xP (x)dx
y se le llama tambi´en media o valor medio de x µ = E[x]
y hace referencia a la distribuci´on te´orica P (x) y no debe confundirse con el valor medio experimental de una muestra ¯x.
• La varianza de la distribuci´on es:
σ2 = E[(x− µ)2] = Z (x − µ)2P (x)dx siendo su ra´ız cuadrada σ la llamada desviaci´on t´ıpica.
Distribuci´on binomial
• Se aplica a procesos de tipo binario en el que s´olo existen dos valores posibles de la variable aleatoria (p.e. desintegrarse o no desintegrarse) y en los que la probabilidad p de que la variable tome un valor o el otro es constante a lo largo del tiempo.
• Si N es el n´umero de ensayos y p es la probabilidad de que en cada ensayo el valor obtenido sea uno dado de los dos posibles, entonces la probabilidad de obtener n veces ese valor es:
P (n) = N !
n!(N − n)! pn(1 − p)N −n
que es la llamada f´ormula de Bernouilli cuya media es µ = Np y cuya varianza es σ2 = N p(1 − p).
Figura 1: Distribuci´on binomial con p = 2/3 y n = 10
Distribuci´on de Poisson
• Es una simplificaci´on matem´atica de la distribuci´on binomial para los casos en los que p << 1 y N muy grande, p.e., en la desintegraci´on ra- diactiva si se toman intervalos temporales de medida peque˜nos compa- rados con la vida media de las fuentes, en donde el n´umero de n´ucleos N es muy grande.
• La distribuci´on de P oisson es:
P (n) = µne−µ n!
y describe procesos discretos en los cuales la observaci´on de un ´unico suceso es muy improbable, pero el n´umero de ensayos es tan grande que queda un n´umero razonable de sucesos.
• Una propiedad importante de la distribuci´on de Poisson es que depende de un ´unico par´ametro µ. Puede demostrarse que E[n] = µ y que σ2 = µ.
Distribuci´on de Gauss
• Es la distribuci´on m´as universal ya que los errores instrumentales sue- len describirse bien por gaussianas.
• Es una distribuci´on continua y sim´etrica, cuya densidad viene dada por:
P (x) = 1 σ√
2πe−(x−µ)22σ2
en funci´on de dos par´ametros µ y σ2 que se corresponden con la media y con la varianza de esta distribuci´on.
• La distribuci´on de Gauss es tambi´en una simplificaci´on matem´atica de la binomial cuando N es grande y p no muy peque˜na (N ≥ 30 y p ≥ 0, 05).
• La desviaci´on t´ıpica σ es la anchura de la distribuci´on al 60% de la altura total.
• A veces se utiliza la anchura total a altura media (FWHM): F W HM = 2, 35σ.
Distribuci´on de Chi-cuadrado
• Es una distribuci´on especialmente ´util para estimar la llamada bondad de los ajustes de los datos experimentales con las f´ormulas te´oricas.
• Dado un conjunto de n variables aleatorias xi distribuidas de forma gaussiana, con valores medios te´oricos µi y desviaciones t´ıpicas σi, el valor de χ2 de este conjunto de datos, viene dado por:
χ2 = Xn
i=1(xi − µi σi )2
• Como cada xi es una variable aleatoria χ2 tambi´en lo es y puede pro- barse que se distribuye con densidad P (χ2),
P (χ2) = (χ22)ν2−1e−χ2/2 2Γ(ν/2)
donde ν es un entero y Γ(ν/2) es la funci´on Gamma.
• El entero ν es el ´unico par´ametro de la distribuci´on y por tanto su valor determina la forma de la distribuci´on. Representa el n´umero de grados de libertad de la distribuci´on.
• El valor medio de la distribuci´on de chi-cuadrado con ν grados de li- bertad es µ = ν y su varianza es σ2 = 2ν.
• Cada t´ermino que aparece en el sumatorio de la expresi´on de chi- cuadrado en promedio vale 1 si las variables est´an distribuidas en forma gaussiana, por lo que en promedio el valor de chi-cuadrado es igual al n´umero de datos, es decir, E[χ2] ' n ' ν.
Aplicaciones.
Significado del error de una medida.
• Consideremos una serie de resultados de medidas de una cierta can- tidad sobre la cual queremos estimar su valor y su error. Bajo la hip´otesis, casi siempre admisible, de que los valores de estas medidas se distribuyen conforme a una gaussiana de media µ y varianza σ2 , po- demos establecer que el mejor estimador de la media de la distribuci´on es el valor medio de nuestra muestra ¯x.
• Podemos utilizar diferentes criterios para dar el error de la medida en t´erminos de porcentajes de que el verdadero valor est´e en el intervalo [µ − , µ + ]
• De acuerdo con la funci´on cumulativa de la distribuci´on gaussiana que representa nuestros resultados, una nueva medida tendr´ıa probabilidad 0,683 de caer en el intervalo [µ − σ, µ + σ]. Por este motivo σ se llama tambi´en error de una ´unica medida.
• Cuando se tienen varias medidas se adopta el mismo criterio: Se toma como error aquella cantidad cuyo significado sea el mismo en t´erminos probabil´ısticos, es decir, que si repiti´eramos el experimento para en- contrar una nueva media, ´esta tenga una probalilidad de 0,683 de per- tenecer al intervalo [µ − , µ + ] .
• Este error es la ra´ız cuadrada de la varianza de la media de la muestra cuyo valor es igual a la varianza te´orica de la distribuci´on dividida por el tama˜no de la muestra:
σ2(¯x) = σ2/N
y se toma como varianza te´orica el mejor estimador que es la varianza de la muestra.
• Por tanto, asignaremos como resultado de una medida a x ±¯ s
√N
Errores en medidas de radiaci´on
• La desintegraci´on radiactiva es un proceso aleatorio que obedece la distribuci´on de Poisson, seg´un la cual la desviaci´on t´ıpica de la distri- buci´on de media verdadera µ es √µ.
• Si se dispone de una ´unica medida con resultado n cuentas, el mejor estimador de la media verdadera es este n´umero n, y por tanto su des- viaci´on t´ıpica ser´a √n
Modelado de datos experimentales y calidad de los ajustes
• A trav´es del proceso de minimizaci´on conocido como m´etodo de m´ınimos cuadrados podemos determinar el valor de los par´ametros de una funci´on te´orica f(x; a1, ..., am) a la que queremos ajustar un con- junto de n puntos experimentales {xi, yi, σi}.
• El m´etodo establece que los mejores valores de los aj son aqu´ellos para los cuales la funci´on
χ2 = Xn
i=1(yi − f(xi; aj) σi )2
es m´ınima, lo cual se calcula casi siempre por m´etodos num´ericos.
• Se hace necesario determinar en esta estimaci´on de los par´ametros de un ajuste, los errores o intervalos de confianza de ´estos, es decir, se necesita un control de calidad del ajuste.
• Teniendo en cuenta que los posibles valores del χ2 se distribuyen de acuerdo a la distribuci´on de chi − cuadrado, cuyo valor esperado es igual al n´umero de puntos experimentales n menos el n´umero de par´ametros m,
E(χ2) = ν = n − m y cuya desviaci´on t´ıpica es
σ = √ 2ν
se puede establecer un criterio de valoraci´on de la calidad del ajuste:
1. Si nuestro ajuste proporciona un χ2 a menos de tres desviaciones t´ıpicas de su valor esperado ν, podemos hablar de una ajuste acep- table.
2. Si se obtiene un χ2 mucho menor que su valor esperado, presumi- blemente se habr´an asignado unos errores σi sobredimensionados.
En este caso hay que repetir el experimento.
3. Si, por ´ultimo, el χ2 est´a a m´as de tres desviaciones t´ıpicas de su valor esperado puede suceder que
(a) El conjunto de medidas sea incorrecto
(b) Los errores asignados sean demasiado peque˜nos (c) La funci´on modelo sea inadecuada
• Un test m´as riguroso consiste en calcular la probabilidad de obtener un valor de χ2 mayor que el obtenido χ2ex, es decir:
p(χ2 > χ2ex) = Zχ∞2
ex P (u)du
Como criterio general se asume que si el valor de dicha probabilidad est´a comprendido entre 0,1 y 0,9 el ajuste es bueno.