• No se han encontrado resultados

Tratamiento estadístico de datos experimentales

N/A
N/A
Protected

Academic year: 2021

Share "Tratamiento estadístico de datos experimentales"

Copied!
12
0
0

Texto completo

(1)

Tratamiento estad´ıstico de datos experimentales

• Caracterizaci´on de datos.

• Modelos estad´ısticos.

– Distribuci´on binomial – Distribuci´on de Poisson – Distribuci´on de Gauss

– Distribuci´on de chi-cuadrado

• Aplicaciones.

– Significado del error de una medida.

– Errores en medidas de radiaci´on.

– Modelado de datos experimentales y calidad de los ajus-

tes.

(2)

Caracterizaci´on de datos.

• Dado un conjunto x1, x2, ..., xn de n medidas independientes de una misma cantidad f´ısica se define el valor medio experimental o valor medio de la muestra ¯x como:

¯ x = 1

n

Xn i=1xi

• La llamada funci´on de distribuci´on de frecuencias F (x) proporciona las veces que se repite un mismo valor en la muestra, y caracteriza completamente cualquier colecci´on de datos.























































































































































 

               

                 































































 







x







1 2 3 4 5 6 7 8

F(x)

2 4 6 8 10 12 14

Numero de cuentas

0,035 0,070 0,105 0,140 0.,175 0,210

• Una estimaci´on de las fluctuaciones sobre el valor medio de la muestra viene dada por la llamada varianza de la muestra:

s2 = 1 n

Xn

i=1(xi − ¯x)2 que tambi´en puede calcularse como

(3)

Modelos estad´ısticos.

• Una buena parte de los problemas en F´ısica pueden ser descritos, al menos aproximadamente, con un peque˜no grupo de distribuciones es- tad´ısticas te´oricas caracterizadas por una funci´on densidad de proba- bilidad P (x) que proporciona la frecuencia esperada de que ocurra un determinado suceso aleatorio.

• El valor esperado de la variable aleatoria x se define como E[x] = Z xP (x)dx

y se le llama tambi´en media o valor medio de x µ = E[x]

y hace referencia a la distribuci´on te´orica P (x) y no debe confundirse con el valor medio experimental de una muestra ¯x.

• La varianza de la distribuci´on es:

σ2 = E[(x− µ)2] = Z (x − µ)2P (x)dx siendo su ra´ız cuadrada σ la llamada desviaci´on t´ıpica.

(4)

Distribuci´on binomial

• Se aplica a procesos de tipo binario en el que s´olo existen dos valores posibles de la variable aleatoria (p.e. desintegrarse o no desintegrarse) y en los que la probabilidad p de que la variable tome un valor o el otro es constante a lo largo del tiempo.

• Si N es el n´umero de ensayos y p es la probabilidad de que en cada ensayo el valor obtenido sea uno dado de los dos posibles, entonces la probabilidad de obtener n veces ese valor es:

P (n) = N !

n!(N − n)! pn(1 − p)N −n

que es la llamada f´ormula de Bernouilli cuya media es µ = Np y cuya varianza es σ2 = N p(1 − p).

Figura 1: Distribuci´on binomial con p = 2/3 y n = 10

(5)

Distribuci´on de Poisson

• Es una simplificaci´on matem´atica de la distribuci´on binomial para los casos en los que p << 1 y N muy grande, p.e., en la desintegraci´on ra- diactiva si se toman intervalos temporales de medida peque˜nos compa- rados con la vida media de las fuentes, en donde el n´umero de n´ucleos N es muy grande.

• La distribuci´on de P oisson es:

P (n) = µne−µ n!

y describe procesos discretos en los cuales la observaci´on de un ´unico suceso es muy improbable, pero el n´umero de ensayos es tan grande que queda un n´umero razonable de sucesos.

• Una propiedad importante de la distribuci´on de Poisson es que depende de un ´unico par´ametro µ. Puede demostrarse que E[n] = µ y que σ2 = µ.

(6)

Distribuci´on de Gauss

• Es la distribuci´on m´as universal ya que los errores instrumentales sue- len describirse bien por gaussianas.

• Es una distribuci´on continua y sim´etrica, cuya densidad viene dada por:

P (x) = 1 σ√

2πe(x−µ)22σ2

en funci´on de dos par´ametros µ y σ2 que se corresponden con la media y con la varianza de esta distribuci´on.

• La distribuci´on de Gauss es tambi´en una simplificaci´on matem´atica de la binomial cuando N es grande y p no muy peque˜na (N ≥ 30 y p ≥ 0, 05).

• La desviaci´on t´ıpica σ es la anchura de la distribuci´on al 60% de la altura total.

• A veces se utiliza la anchura total a altura media (FWHM): F W HM = 2, 35σ.

(7)

Distribuci´on de Chi-cuadrado

• Es una distribuci´on especialmente ´util para estimar la llamada bondad de los ajustes de los datos experimentales con las f´ormulas te´oricas.

• Dado un conjunto de n variables aleatorias xi distribuidas de forma gaussiana, con valores medios te´oricos µi y desviaciones t´ıpicas σi, el valor de χ2 de este conjunto de datos, viene dado por:

χ2 = Xn

i=1(xi − µi σi )2

• Como cada xi es una variable aleatoria χ2 tambi´en lo es y puede pro- barse que se distribuye con densidad P (χ2),

P (χ2) = (χ22)ν2−1e−χ2/2 2Γ(ν/2)

donde ν es un entero y Γ(ν/2) es la funci´on Gamma.

(8)

• El entero ν es el ´unico par´ametro de la distribuci´on y por tanto su valor determina la forma de la distribuci´on. Representa el n´umero de grados de libertad de la distribuci´on.

• El valor medio de la distribuci´on de chi-cuadrado con ν grados de li- bertad es µ = ν y su varianza es σ2 = 2ν.

• Cada t´ermino que aparece en el sumatorio de la expresi´on de chi- cuadrado en promedio vale 1 si las variables est´an distribuidas en forma gaussiana, por lo que en promedio el valor de chi-cuadrado es igual al n´umero de datos, es decir, E[χ2] ' n ' ν.

(9)

Aplicaciones.

Significado del error de una medida.

• Consideremos una serie de resultados de medidas de una cierta can- tidad sobre la cual queremos estimar su valor y su error. Bajo la hip´otesis, casi siempre admisible, de que los valores de estas medidas se distribuyen conforme a una gaussiana de media µ y varianza σ2 , po- demos establecer que el mejor estimador de la media de la distribuci´on es el valor medio de nuestra muestra ¯x.

• Podemos utilizar diferentes criterios para dar el error de la medida  en t´erminos de porcentajes de que el verdadero valor est´e en el intervalo [µ − , µ + ]

• De acuerdo con la funci´on cumulativa de la distribuci´on gaussiana que representa nuestros resultados, una nueva medida tendr´ıa probabilidad 0,683 de caer en el intervalo [µ − σ, µ + σ]. Por este motivo σ se llama tambi´en error de una ´unica medida.

• Cuando se tienen varias medidas se adopta el mismo criterio: Se toma como error aquella cantidad cuyo significado sea el mismo en t´erminos probabil´ısticos, es decir, que si repiti´eramos el experimento para en- contrar una nueva media, ´esta tenga una probalilidad de 0,683 de per- tenecer al intervalo [µ − , µ + ] .

(10)

• Este error es la ra´ız cuadrada de la varianza de la media de la muestra cuyo valor es igual a la varianza te´orica de la distribuci´on dividida por el tama˜no de la muestra:

σ2(¯x) = σ2/N

y se toma como varianza te´orica el mejor estimador que es la varianza de la muestra.

• Por tanto, asignaremos como resultado de una medida a x ±¯ s

√N

Errores en medidas de radiaci´on

• La desintegraci´on radiactiva es un proceso aleatorio que obedece la distribuci´on de Poisson, seg´un la cual la desviaci´on t´ıpica de la distri- buci´on de media verdadera µ es √µ.

• Si se dispone de una ´unica medida con resultado n cuentas, el mejor estimador de la media verdadera es este n´umero n, y por tanto su des- viaci´on t´ıpica ser´a √n

(11)

Modelado de datos experimentales y calidad de los ajustes

• A trav´es del proceso de minimizaci´on conocido como m´etodo de m´ınimos cuadrados podemos determinar el valor de los par´ametros de una funci´on te´orica f(x; a1, ..., am) a la que queremos ajustar un con- junto de n puntos experimentales {xi, yi, σi}.

• El m´etodo establece que los mejores valores de los aj son aqu´ellos para los cuales la funci´on

χ2 = Xn

i=1(yi − f(xi; aj) σi )2

es m´ınima, lo cual se calcula casi siempre por m´etodos num´ericos.

• Se hace necesario determinar en esta estimaci´on de los par´ametros de un ajuste, los errores o intervalos de confianza de ´estos, es decir, se necesita un control de calidad del ajuste.

• Teniendo en cuenta que los posibles valores del χ2 se distribuyen de acuerdo a la distribuci´on de chi − cuadrado, cuyo valor esperado es igual al n´umero de puntos experimentales n menos el n´umero de par´ametros m,

E(χ2) = ν = n − m y cuya desviaci´on t´ıpica es

σ = √ 2ν

se puede establecer un criterio de valoraci´on de la calidad del ajuste:

(12)

1. Si nuestro ajuste proporciona un χ2 a menos de tres desviaciones t´ıpicas de su valor esperado ν, podemos hablar de una ajuste acep- table.

2. Si se obtiene un χ2 mucho menor que su valor esperado, presumi- blemente se habr´an asignado unos errores σi sobredimensionados.

En este caso hay que repetir el experimento.

3. Si, por ´ultimo, el χ2 est´a a m´as de tres desviaciones t´ıpicas de su valor esperado puede suceder que

(a) El conjunto de medidas sea incorrecto

(b) Los errores asignados sean demasiado peque˜nos (c) La funci´on modelo sea inadecuada

• Un test m´as riguroso consiste en calcular la probabilidad de obtener un valor de χ2 mayor que el obtenido χ2ex, es decir:

p(χ2 > χ2ex) = Zχ2

ex P (u)du

Como criterio general se asume que si el valor de dicha probabilidad est´a comprendido entre 0,1 y 0,9 el ajuste es bueno.

Referencias

Documento similar

con claridad un sesgo en los valores propios de la muestra (Kim y Mueller, 1978b, p. La comunalidad h 2 de una variable es la proporción de varianza que puede ser reproducida

población), pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos..

La muestra en que se observó menor varianza después de la resina Bulk Fill fue la resina Filtek Z350 XT en cuyo caso solo 2 muestras denotaron valores altos, en el caso del 70 % de

Si x y s son la media y la desviación estándar de una muestra aleatoria de una población normal con varianza desconocida σ 2 , un intervalo de confianza del (1-α)100% para μ

• La mayoría de los elementos traza no muestra mayor variabilidad. Los más representativos para definir las zonas más ricas en caolín son el V. El contenido de

número de éxitos en la muestra, es μ = np y que su varianza es σ 2 = npq. Cuando pˆ es cercano a 0 ó 1 se debe tomar un tamaño de muestra más grande para mejorar