Tratamiento estadístico de datos experimentales

(1)

Tratamiento estad´ıstico de datos experimentales

• Caracterizaci´on de datos.

• Modelos estad´ısticos.

– Distribución binomial – Distribución de Poisson – Distribución de Gauss

– Distribuci´on de chi-cuadrado

• Aplicaciones.

– Significado del error de una medida.

– Errores en medidas de radiaci´on.

– Modelado de datos experimentales y calidad de los ajus-

tes.

(2)

Caracterizaci´on de datos.

• Dado un conjunto x1, x₂, ..., x_n de n medidas independientes de una misma cantidad f´ısica se define el valor medio experimental o valor medio de la muestra ¯x como:

¯ x = 1

n

Xn i=1xi

• La llamada función de distribución de frecuencias F (x) proporciona las veces que se repite un mismo valor en la muestra, y caracteriza completamente cualquier colección de datos.

x

1 2 3 4 5 6 7 8

F(x)

2 4 6 8 10 12 14

Numero de cuentas

0,035 0,070 0,105 0,140 0.,175 0,210

• Una estimaci´on de las fluctuaciones sobre el valor medio de la muestra viene dada por la llamada varianza de la muestra:

s² = 1 n

Xn

i=1(xi − ¯x)² que tambi´en puede calcularse como

(3)

Modelos estad´ısticos.

• Una buena parte de los problemas en F´ısica pueden ser descritos, al menos aproximadamente, con un pequeño grupo de distribuciones es- tad´ısticas teóricas caracterizadas por una función densidad de proba- bilidad P (x) que proporciona la frecuencia esperada de que ocurra un determinado suceso aleatorio.

• El valor esperado de la variable aleatoria x se define como E[x] = ^Z xP (x)dx

y se le llama tambi´en media o valor medio de x µ = E[x]

y hace referencia a la distribuci´on te´orica P (x) y no debe confundirse con el valor medio experimental de una muestra ¯x.

• La varianza de la distribuci´on es:

σ² = E[(x− µ)²] = ^Z (x − µ)²P (x)dx siendo su ra´ız cuadrada σ la llamada desviaci´on t´ıpica.

(4)

Distribuci´on binomial

• Se aplica a procesos de tipo binario en el que s´olo existen dos valores posibles de la variable aleatoria (p.e. desintegrarse o no desintegrarse) y en los que la probabilidad p de que la variable tome un valor o el otro es constante a lo largo del tiempo.

• Si N es el n´umero de ensayos y p es la probabilidad de que en cada ensayo el valor obtenido sea uno dado de los dos posibles, entonces la probabilidad de obtener n veces ese valor es:

P (n) = N !

n!(N − n)! pⁿ(1 − p)^{N −n}

que es la llamada f´ormula de Bernouilli cuya media es µ = Np y cuya varianza es σ² = N p(1 − p).

Figura 1: Distribuci´on binomial con p = 2/3 y n = 10

(5)

Distribuci´on de Poisson

• Es una simplificación matemática de la distribución binomial para los casos en los que p << 1 y N muy grande, p.e., en la desintegración radiactiva si se toman intervalos temporales de medida pequeños compa- rados con la vida media de las fuentes, en donde el número de núcleos N es muy grande.

• La distribuci´on de P oisson es:

P (n) = µⁿe^−µ n!

y describe procesos discretos en los cuales la observación de un único suceso es muy improbable, pero el número de ensayos es tan grande que queda un número razonable de sucesos.

• Una propiedad importante de la distribución de Poisson es que depende de un único parámetro µ. Puede demostrarse que E[n] = µ y que σ² = µ.

(6)

Distribuci´on de Gauss

• Es la distribuci´on m´as universal ya que los errores instrumentales sue- len describirse bien por gaussianas.

• Es una distribuci´on continua y sim´etrica, cuya densidad viene dada por:

P (x) = 1 σ√

2πe⁻^(x−µ)2^2σ2

en función de dos parámetros µ y σ² que se corresponden con la media y con la varianza de esta distribución.

• La distribución de Gauss es también una simplificación matemática de la binomial cuando N es grande y p no muy pequeña (N ≥ 30 y p ≥ 0, 05).

• La desviaci´on t´ıpica σ es la anchura de la distribuci´on al 60% de la altura total.

• A veces se utiliza la anchura total a altura media (FWHM): F W HM = 2, 35σ.

(7)

Distribuci´on de Chi-cuadrado

• Es una distribución especialmente útil para estimar la llamada bondad de los ajustes de los datos experimentales con las fórmulas teóricas.

• Dado un conjunto de n variables aleatorias xⁱ distribuidas de forma gaussiana, con valores medios te´oricos µ_i y desviaciones t´ıpicas σ_i, el valor de χ² de este conjunto de datos, viene dado por:

χ² = ^Xⁿ

i=1(x_i − µⁱ σ_i )²

• Como cada xⁱ es una variable aleatoria χ² tambi´en lo es y puede pro- barse que se distribuye con densidad P (χ²),

P (χ²) = (^χ₂²)^ν²⁻¹e^−χ²^/2 2Γ(ν/2)

donde ν es un entero y Γ(ν/2) es la funci´on Gamma.

(8)

• El entero ν es el único parámetro de la distribución y por tanto su valor determina la forma de la distribución. Representa el número de grados de libertad de la distribución.

• El valor medio de la distribuci´on de chi-cuadrado con ν grados de libertad es µ = ν y su varianza es σ² = 2ν.

• Cada término que aparece en el sumatorio de la expresión de chi- cuadrado en promedio vale 1 si las variables están distribuidas en forma gaussiana, por lo que en promedio el valor de chi-cuadrado es igual al número de datos, es decir, E[χ²] ' n ' ν.

(9)

Aplicaciones.

Significado del error de una medida.

• Consideremos una serie de resultados de medidas de una cierta cantidad sobre la cual queremos estimar su valor y su error. Bajo la hip´otesis, casi siempre admisible, de que los valores de estas medidas se distribuyen conforme a una gaussiana de media µ y varianza σ² , podemos establecer que el mejor estimador de la media de la distribuci´on es el valor medio de nuestra muestra ¯x.

• Podemos utilizar diferentes criterios para dar el error de la medida en t´erminos de porcentajes de que el verdadero valor est´e en el intervalo [µ − , µ + ]

• De acuerdo con la función cumulativa de la distribución gaussiana que representa nuestros resultados, una nueva medida tendr´ıa probabilidad 0,683 de caer en el intervalo [µ − σ, µ + σ]. Por este motivo σ se llama también error de una única medida.

• Cuando se tienen varias medidas se adopta el mismo criterio: Se toma como error aquella cantidad cuyo significado sea el mismo en términos probabil´ısticos, es decir, que si repitiéramos el experimento para en- contrar una nueva media, ésta tenga una probalilidad de 0,683 de per- tenecer al intervalo [µ − , µ + ] .

(10)

• Este error es la ra´ız cuadrada de la varianza de la media de la muestra cuyo valor es igual a la varianza teórica de la distribución dividida por el tamaño de la muestra:

σ²(¯x) = σ²/N

y se toma como varianza te´orica el mejor estimador que es la varianza de la muestra.

• Por tanto, asignaremos como resultado de una medida a x ±¯ s

√N

Errores en medidas de radiaci´on

• La desintegración radiactiva es un proceso aleatorio que obedece la distribución de Poisson, según la cual la desviación t´ıpica de la distri- bución de media verdadera µ es √µ.

• Si se dispone de una única medida con resultado n cuentas, el mejor estimador de la media verdadera es este número n, y por tanto su des- viación t´ıpica será √n

(11)

Modelado de datos experimentales y calidad de los ajustes

• A través del proceso de minimización conocido como método de m´ınimos cuadrados podemos determinar el valor de los parámetros de una función teórica f(x; a₁, ..., a_m) a la que queremos ajustar un conjunto de n puntos experimentales {xi, y_i, σ_i}.

• El método establece que los mejores valores de los a^j son aquéllos para los cuales la función

χ² = ^Xⁿ

i=1(y_i − f(xⁱ; a_j) σ_i )²

es m´ınima, lo cual se calcula casi siempre por m´etodos num´ericos.

• Se hace necesario determinar en esta estimación de los parámetros de un ajuste, los errores o intervalos de confianza de éstos, es decir, se necesita un control de calidad del ajuste.

• Teniendo en cuenta que los posibles valores del χ² se distribuyen de acuerdo a la distribución de chi − cuadrado, cuyo valor esperado es igual al número de puntos experimentales n menos el número de parámetros m,

E(χ²) = ν = n − m y cuya desviaci´on t´ıpica es

σ = √ 2ν

se puede establecer un criterio de valoraci´on de la calidad del ajuste:

(12)

1. Si nuestro ajuste proporciona un χ² a menos de tres desviaciones t´ıpicas de su valor esperado ν, podemos hablar de una ajuste acep- table.

2. Si se obtiene un χ² mucho menor que su valor esperado, presumi- blemente se habr´an asignado unos errores σi sobredimensionados.

En este caso hay que repetir el experimento.

3. Si, por último, el χ² está a más de tres desviaciones t´ıpicas de su valor esperado puede suceder que

(a) El conjunto de medidas sea incorrecto

(b) Los errores asignados sean demasiado peque˜nos (c) La funci´on modelo sea inadecuada

• Un test m´as riguroso consiste en calcular la probabilidad de obtener un valor de χ² mayor que el obtenido χ²_ex, es decir:

p(χ² > χ²_ex) = ^Z_χ^∞₂

ex P (u)du

Como criterio general se asume que si el valor de dicha probabilidad est´a comprendido entre 0,1 y 0,9 el ajuste es bueno.