6.6. Base de datos Lanczos Base de datos Lanczos Base de datos MGH Base de datos Roszman

(1)

INDICE.

1. Introducción. ... 3

2. Elementos de Metrología. ... 4

2.1. Medidas. ... 5

2.2. Datos estadísticos de referencia del NIST. ... 5

2.2.1. Modelo de Regresión Lineal. ... 6

2.2.2. Modelo de Regresión No Lineal. ... 9

3. Estadística básica. ... 11

3.1. Mínimos Cuadrados. ... 11

3.2. Regresión Lineal. ... 13

3.2.1. Regresión lineal simple. ... 14

3.3. Regresión no lineal. ... 15

3.3.1. Regresión Exponencial. ... 16

4. Cálculos estadísticos con Excel. ... 17

4.1. Representación de números reales en computadoras. ... 17

4.2. Precisión numérica de Excel. ... 18

4.3. Visualización de números en Excel. ... 18

4.4. Análisis de los resultados de Excel con datos certificados. ... 19

4.4.1. Fórmulas directas de mínimos cuadrados. ... 19

4.4.2. Funciones estadísticas de Excel. ... 20

4.4.3. Fórmulas de matrices. ... 21

5. Validación del método de regresión lineal... 22

5.1. Base de datos Norris. ... 23

5.2. Base de datos Pontius... 32

5.3. Base de datos Longley. ... 36

5.4. Base de datos Wampler1. ... 40

6. Validación del método de regresión no lineal... 60

6.1. Base de datos Misra1a. ... 62

6.2. Base de datos Misra1b. ... 73

6.3. Base de datos Misra1c. ... 77

6.4. Base de datos Misra1d. ... 81

(2)

2

6.6. Base de datos Lanczos2. ... 89

6.7. Base de datos Lanczos3. ... 93

6.8. Base de datos MGH17. ... 97

6.9. Base de datos Roszman1. ... 101

6.10. Base de datos Rat42. ... 105

6.11. Base de datos Rat43. ... 109

7. Conclusiones. ... 114 7.1. Caso Lineal ... 114 7.2. Caso no Lineal ... 114 8. Bibliografía. ... 116 9. Tablas. ... 117 10. Gráficas. ... 119

(3)

1. Introducción.

Tenemos la idea que la utilización de las computadoras en diversos campos de la ciencia y la tecnología permite realizar cálculos matemáticos de una manera más sencilla, veloz y precisa. Sin embargo, es necesario elegir de manera adecuada los métodos y el software idóneo para cada tipo de trabajo. Asimismo, debemos tener en cuenta los posibles errores o desviaciones derivados de la misma tecnología.

En el área de metrología es una tarea común y laboriosa realizar el cálculo estadístico para de-terminar los valores de los estimandos así como la de sus incertidumbres asociadas por lo que el uso de la computadora y software especializado se ha convertido en una necesidad.

Esta tesis tiene como objetivo principal mostrar que utilizando un modelo matemático para el ajuste apropiado y un paquete sencillo de cálculo podemos obtener resultados precisos y confia-bles sin necesidad de utilizar herramientas complejas y equipos de supercómputo.

Para la realización de este trabajo hemos elegido la utilización de la hoja de cálculo de Microsoft Excel que, sin ser una herramienta especializada, tiene incorporadas funciones matemáticas que permiten al usuario final crear aplicaciones poderosas de manera sencilla y sin necesidad de co-nocimientos avanzados de programación corriendo sobre une equipo de cómputo personal. En particular, mediante el uso de matrices se enriquece de manera importante la información ob-tenida durante el proceso de cálculo al determinar la Matriz de Varianza-covarianza que nos permite conocer las incertidumbres asociadas a los coeficientes de las funciones matemáticas propuestas para el ajuste de los datos.

En este primer capitulo describimos el desarrollo general y los elementos que se tratan cada capí-tulo. En el segundo capítulo tratamos los elementos básicos de la metrología que sirven de con-texto para el planteamiento de la metodología de los modelos de regresión lineal y de regresión no lineal.

En el capítulo tres exponemos los elementos estadísticos básicos relacionados con la misma me-todología y en el capítulo cuatro tratamos los temas relacionados con la precisión de los equipos de cómputo y en particular de la hoja electrónica de cálculo Excel.

En el capítulo cinco desarrollamos los ejemplos de regresión lineal tomando como base las bases de datos certificadas por el National Institute of Standards and Technology y en el capítulo seis trabajamos, de igual forma, los ejemplos de regresión no lineal.

El capítulo siete lo dedicamos a las conclusiones del presente trabajo y en los tres últimos in-cluimos la bibliografía consultada, el índice de tablas contenidas y el índice de gráficas.

(4)

4

2. Elementos de Metrología.

La metrología es la ciencia de las mediciones y éstas son parte integral de nuestro mundo diario. Por medio de diversos aparatos e instrumentos de medición podemos determinar valores numéri-cos que nos permiten establecer la conformidad con las normas existentes para un producto o servicio y consecuentemente asegurar la calidad de los mismos.

Cada día es de mayor importancia la aplicación de la metrología al hacer énfasis en el proceso completo de medición donde se consideran todos los elementos participantes: instrumentos, con-trol de calidad, calibración, acreditación de laboratorios, la trazabilidad y la certificación.

En todo proceso de medición se generan desviaciones de las medidas respecto a los valores ver-daderos. Debido a estas desviaciones, es necesario establecer algoritmos y métodos estadísticos que nos permitan identificarlas, determinarlas y, consecuentemente, minimizarlas.

No obstante el avance en los métodos y sistemas de medición, los sistemas de manejo de datos y el creciente poder de cómputo, aún existe una tendencia errónea al presentar los resultados numéricos en toda clase de trabajos científicos sin considerar las incertidumbres asociadas.

Para ajustar los datos obtenidos de forma experimental se utiliza, principalmente, el Método de Mínimos Cuadrados, tanto para el caso de ecuaciones lineales como ecuaciones no lineales. El manejo de los datos adquiridos se convierte en un trabajo arduo ya que el volumen de infor-mación puede ser muy grande y los procedimientos matemáticos suelen ser complejos. Para faci-litar el análisis estadístico se utilizan equipos de cómputo y programas especializados. Sin em-bargo, es importante evaluar este tipo de programas en cuanto a sus resultados ya que en muchos casos, además de la incertidumbre presente en el proceso de medición, en el propio equipo de cómputo se generan desviaciones debido a los algoritmos utilizados y a las aproximaciones em-pleadas.

El National Institute of Standards and Technology (NIST), organismo federal de los Estados Unidos encargado de normar y establecer estándares para la industria y la tecnología, publica en su sitio de Internet (1), una serie de conjuntos de datos estadísticos (Statistical Reference

Data-sets, StRD), con resultados certificados que permiten una evaluación objetiva de cualquier tipo

de programa de cómputo estadístico (2).

De acuerdo a los estándares internacionales de metrología, en el desarrollo de este trabajo utiliza-remos la notación numérica en la cual el símbolo para separar la parte entera de la parte decimal es la coma “,”, y el símbolo de separación de millares es el punto “.”.

(5)

2.1. Medidas.

Los errores pueden originar que las mediciones sean incorrectas, si no existieran estos errores los valores obtenidos podrían ser exactos, sin embargo, aunque no existan errores nunca se obtienen los valores exactos. En metrología esta inexactitud se le llama incertidumbre y puede ser originada por diversas causas:

• Calidad del patrón de medición utilizado. • Instrumento de medición.

• Método de medición. • Factor humano.

Basados en el hecho de que no podemos obtener medidas exactas, es necesario determinar el valor de la incertidumbre para tener datos confiables y de calidad. Con este fin, la metrología se apoya en métodos estadísticos, ya comprobados matemáticamente, que permiten una es-tandarización en la determinación de las medidas y su incertidumbre asociada.

2.2. Datos estadísticos de referencia del NIST.

Actualmente existe una gran cantidad de programas especializados de cómputo para realizar el análisis estadístico de datos cuyos resultados pueden utilizarse en aplicaciones industriales o científicas de manera muy directa y sin necesidad de realizar paso a paso los diversos algo-ritmos asociados. Sin embargo, al momento de utilizar estas herramientas siguen presentán-dose problemas.

Debido a esta problemática, el National Institute of Standards and Technology (NIST), pu-blica en su sitio de Internet una serie de conjuntos de datos estadísticos (Statistical Reference

Datasets, StRD), con resultados certificados de los parámetros estadísticos que nos permiten

evaluar los resultados obtenidos al aplicar otras herramientas estadísticas (2).

Se presentan conjuntos de datos para casos de regresión lineal y otros para regresión no line-al, con diversos grados de dificultad de acuerdo a los algoritmos utilizados.

El hecho de que el software cumpla con los conjuntos de datos más complejos no significa que cumplirá necesariamente con los ejemplos más simples o los datos propios. Sin embargo nos ofrece un cierto grado de confianza en los resultados obtenidos al emplear dicho software en el análisis etadístico.

(6)

6

2.2.1. Modelo de Regresión Lineal.

El modelo estadístico general propuesto para el problema de regresión lineal de

míni-mos cuadrados es el siguiente:

Y = Xβ + ε

donde Y denota la variable dependiente, β denota el vector p de los parámetros descono-cidos que serán determinados y X denota la matriz n por p de las variables de predic-ción. La forma funcional específica para cada conjunto de datos se presenta al principio de la página correspondiente.

Metodología:

Para todos los conjuntos de datos, se realizaron cálculos de precisión múltiple (hasta 500 dígitos) usando el procesador y el paquete de subrutinas de FORTRAN de Bailey (1995, NETLIB). Los datos fueron tomados como números exactos de precisión múltiple y to-dos los cálculos fueron hechos con esta misma precisión. Los resultato-dos se obtuvieron en precisión múltiple y posteriormente se redondearon a 15 dígitos significativos. Estos re-sultados de precisión múltiple representan una idealización. Representan lo que se ob-tendría por medio de cálculos sin redondeo u otros errores. Cualquier algoritmo numérico típico introduciría inexactitudes computacionales y producirá resultados que serán lige-ramente diferentes de estos valores certificados.

Definiciones:

Las estimaciones de: β0, β1, …,βp-1

Los valores certificados de los estimadores: b = (b0, b1, … , bp-1 )T

De los parámetros reales, β = ( β0, β1, …,βp-1)T

Están definidos por los estimadores

ordinarios de mínimos cuadrados b = ( X T X )-1 X T Y

Suma Residual de los cuadrados y grados de libertad

El valor certificado de la suma residual de cuadrados está definida por:

SSE = y T y - b T X T y

Con el valor certificado para los grados de libertad residuales definidos por n-p.

Cuadrado promedio residual

El valor certificado del valor del cuadrado promedio residual está definido por:

(7)

Desviación estándar residual

El valor certificado para la desviación residual estándar está definido por:

s2 = MSE

Desviación Estándar de los Estimadores de β0, β1, …,βp-1

Los valores certificados para las desviaciones estándar de los estimadores de los paráme-tros del modelo son las raíces cuadradas de los elementos diagonales de la matriz de va-rianza-covarianza.

s2 ( X T X )-1 Coeficiente de determinación R2

Cuando se incluye el término de intercepción β0 en el modelo, el valor certificado del

coeficiente de determinación se define por

2 1 y n y y SS T E − −

Cuando no se incluye el término de intercepción β0 en el modelo, el valor certificado del

coeficiente de determinación se define por

y y SS T E − 1

Suma de los Cuadrados de Regresión y Grados de Libertad

Cuando se incluye el término de intercepción β0 en el modelo, el valor certificado para

la suma de regresión de los cuadrados se define por 2 ny y X b SSR= T T −

con el valor certificado para la regresión de los grados de libertad definido por p-1. Cuando no se incluye el término de intercepción β0 en el modelo, el valor certificado

para la suma de regresión de los cuadrados se define por

y X b SSR= T T

con el valor certificado para la regresión de los grados de libertad definido por p.

Mínimo cuadrado de la Regresión

(8)

8 REG REG REG f SS MS δ = Estadística F

El valor certificado para la estadística F esta definido como:

E REG

MS MS F =

Para realizar el análisis de los resultados obtenidos para el caso de regresión lineal se eligieron los siguientes conjuntos de datos de la StRD:

Sección Base Modelo Parámetros Datos

5.1 Norris Lineal 2 36 5.2 Pontius Cuadrático 3 40 5.3 Longley Multilineal 7 16 5.4 Wampler1 Polilineal 6 21 5.5 Wampler2 Polilineal 6 21 5.6 Wampler3 Polilineal 6 21 5.7 Wampler4 Polilineal 6 21 5.8 Wampler5 Polilineal 6 21

Tabla 2.1 Datos de regresión lineal certificados por el NIST.

Cada uno de estos conjuntos de datos presentan ciertas particularidades que son impor-tantes de tomar en cuenta en el análisis estadístico.

En cada una de las secciones se anexa la hoja descriptiva con las características de cada conjunto de datos incluyendo:

la función específica, los valores certificados de cada uno de los parámetros y la desvia-ción estándar respectiva, así como los valores residuales de la suma de cuadrados y la desviación estándar, las gráficas de los valores observados y de las diferencias de la va-riable contra el valor esperado y finalmente la tabla de datos.

A continuación se presenta el tipo de tabla utilizada por el NIST para reportar las estadís-ticas de regresión certificadas y la tabla de valores del análisis de varianza certificados.

(9)

Parámetros Estimador Desviación Estándar del Estimador β0 β0 σ0 … … … βp-1 βp-1 σp-1 Desviación Están-dar Residual σ R – Cuadrada R2

Tabla 2.2 Estadísticas de Regresión Certificadas (NIST).

Origen de Variación Grados de Libertad Sumas de Cuadrados Cuadrados Promedios Estadísticas F Regresión p-1

Residual n-p Σ(y - ycal)

2

σ2

Tabla 2.3 Análisis de Varianza Certificadas (NIST).

2.2.2. Modelo de Regresión No Lineal.

El modelo estadístico general propuesto para el problema de mínimos cuadrados de la re-gresión no lineal es

y = f (x;β) + ε

donde y denota la variable de respuesta (dependiente), x denota la variable de predicción (independiente) y β denota el vector de p parámetros desconocidos que serán determina-das. La forma específica funcional para cada grupo de datos se incluye en la información.

Metodología:

Los valores certificados para los problemas de regresión no lineal por mínimos cuadrados se obtuvieron usando una precisión de 128 bits, con los resultados reportados confirma-dos por al menos confirma-dos algoritmos diferentes y paquetes de software utilizando derivadas analíticas.

∑

− 2 ) (y ycal 1 ) ( 2 − − ∑ p y y cal 2 2 ) ( σ

∑

y− y_cal

(10)

10

Definiciones:

Los estimadores de: β0, β1, …,βp

Los valores certificados de los estimadores: b = (b0, b1, … , bp )T

De los parámetros reales del modelo, β0, β1, …,βp

Son aquellos que producen la suma

residual de cuadrados mínima: b = arg min β

{

Σi=1n [yi - f (xi ;β)]2

}

donde n denota el número de observaciones. Bajo la suposición de que

εi = [yi - f (xi ;β)] – N(0, σ2) ,

implica que estos son los estimadores más probables.

Desviación estándar de las estimaciones de β1, β2,…, βp

Los valores certificados para la desviación estándar de los estimadores de los parámetros del modelo son las raíces cuadradas de los elementos diagonales de la matriz asintótica de covarianza, V = s2 [ J´ J ]-1 donde

(

)

(

)

p n b x f y p n x f y s n i i i n i i i − − = − − =

∑

=

∑

=1 2 1 2 ) , ( ] ) , ( [ min_β β

J denota la matriz Jacobiana cuyo elemento ij-ésimo es:

j i ij x f J β β ) , ( ∂ = , i =1,…,n j =1,…,p

Evaluados en los valores actuales de los parámetros b1, b2, …, bp y donde n representa el

número de observaciones y p el número de parámetros.

Suma de cuadrados residuales

El valor certificado de la suma de cuadrados residuales se define por

(

)

_∑

(

)

∑

= − = = − = n i i i n i yi f xi y f x b SS 1 2 1 2 ) , ( ] ) , ( [ min_β β

(11)

Desviación estándar residual.

El valor certificado de la desviación estándar residual se define por

(

)

(

)

p n b x f y p n x f y s n i i i n i i i − − = − − =

∑

=

∑

=1 2 1 2 ) , ( ] ) , ( [ min_β β

donde n representa el número de observaciones y p el número de parámetros.

Grados de libertad residuales.

Los valores certificados de los grados de libertad residuales se define como n-p donde n representa el número de observaciones y p el número de parámetros.

Para el caso de regresión no lineal se analizaron los siguientes conjuntos de datos certifi-cados por el NIST:

Sección Base Modelo Parámetros Datos

6.1 Misra1a Exponencial 2 14 6.2 Misra1b Misceláneo 2 14 6.3 Misra1c Exponencial 2 14 6.4 Misra1d Exponencial 2 14 6.5 Lanczos1 Exponencial 6 24 6.6 Lanczos2 Exponencial 6 24 6.7 Lanczos3 Exponencial 6 24 6.8 MGH17 Exponencial 5 33 6.9 Roszman1 Misceláneo 4 21 6.10 Rat42 Exponencial 3 9 6.11 Rat43 Exponencial 4 15

Tabla 2.4 Datos de regresión no lineal certificados por el NIST.

3. Estadística básica.

3.1. Mínimos Cuadrados.

Dentro del Análisis numérico utilizamos la técnica de mínimos cuadrados para ajustar un conjunto de datos a la función que mejor se aproxime de acuerdo al criterio de mínimo error cuadrático.

(12)

12

En su forma más simple, se intenta minimizar la suma de cuadrados de las diferencias orde-nadas (residuos) entre los puntos generados por la función y los correspondientes en los da-tos.

Desde un punto de vista estadístico, un requisito implícito para que funcione el método de

mínimos cuadrados los errores de cada medida deben de estar distribuidos de forma aleatoria. También es importante que los datos recogidos estén bien escogidos, para que

permitan visibilidad en las variables que han de ser resueltas.

La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Supóngase un conjunto de n puntos ( xk, yk ), siendo k = 1, 2, …, n

y sea fj (x), con j = 1, 2, …, m una base de m funciones linealmente independientes.

Queremos encontrar una función f , combinación lineal de las funciones base, tal que

f ( xk ) ≈ yk, esto es:

∑

= = n j cjfj x x f 1 ( ) ) (

Es decir, se trata de hallar los m coeficientes cj que hagan que la función f (xk) sea la mejor

aproximación a los puntos (xk, yk). El criterio de mejor aproximación no está bien definido,

pero en general se basa en aquél que dé un menor error en la aproximación. Podemos definir el error, ek en un punto (xk, yk), como:

e

k

= y

k

-

f (x

k

)

Nuestro fin es de medir y minimizar el error total en conjunto de la aproximación. Podemos definir el error de diversas maneras, sobre todo cuando éste se aplica a un conjunto de puntos (y no sólo a uno), a una función, etc. Dicho error podrá ser:

Error Máximo:

E

_∞

( f ) = max ( | e

k

| )

Error Medio:

Error Cuadrático Medio:

n e f E n k k cm

∑

= = 1 2 ) ( ) ( n e f E n j k m

∑

= = 1 ) (

(13)

La aproximación de mínimos cuadrados se basa en la minimización del error cuadrático me-dio, es decir, en la minimización del radicando de dicho error, el llamado error cuadrático, que se define como:

Para determinar el error cuadrático medio, suponemos que la función f es de una forma par-ticular que contiene algunos parámetros desconocidos cuyo valor necesitamos determinar. Por ejemplo, supongamos que es una función polinomial de grado n, lo que significa que:

f ( x ) = βnxn + βn-1 xn-1 + … + β0 ,

donde aún desconocemos los valores de (βn , βn-1 , … , β0 ).

Debemos determinar los valores de (βn , βn-1 , … , β0 ), que minimicen la suma de los

cua-drados de los residuos (S):

S = Σi=1 ( yi – f (xi))2

La aproximación de mínimos cuadrados es la mejor aproximación al conjunto de puntos

(xk, yk), según el criterio del error mínimo cuadrático.

3.2. Regresión Lineal.

Desde el punto de vista estadístico la regresión lineal es un método matemático que nos permite modelar la relación entre una variable dependiente Y, y una o varias variables inde-pendientes Xi y un término aleatorio

ε

.

Este modelo puede ser expresado como:

Y = β0 + β1 X1 + β2 X2 + … + βn Xn +

ε

donde β0 es la intersección o término "constante", las βk son los parámetros respectivos a

cada variable independiente, y n es el número de parámetros independientes a tener en cuenta en la regresión.

El problema de la regresión consiste en elegir ciertos valores determinados para los paráme-tros desconocidos βk , de modo que la ecuación quede completamente especificada. Para ello

se realiza un conjunto de observaciones. En una observación cualquiera i-ésima se registra el comportamiento simultáneo de la variable dependiente Y, y las variables explicativas.

n e f E n k k c

∑

= = 1 2 ) ( ) (

(14)

14

Yi =

Σ

βk Xki +

ε

i

Los valores escogidos como estimadores de los parámetros βˆk , son los coeficientes de

re-gresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso genera-dor.

3.2.1. Regresión lineal simple.

El caso más sencillo, de dos variables explicativas, nos referimos a una recta:

Yi = β0 + β1 Xi +

ε

i

Para calcular la esperanza (valor esperado) del valor Y, se tiene:

E(y

i

) =

ŷ

i

= E(

β

0

) + E(

β

1

X

i

)

+ E(

ε

i

) =

β +ˆ0 βˆ1xi

Calculando β yˆ₀ βˆ₁

Para ello buscamos los parámetro que minimicen la sumatoria

Σ ( y

i

-

ŷ

i

)

2

= Σε

i 2

Derivando parcialmente respecto a β0 y β1 e igualando a cero, se obtiene:

0 ) ˆ ( 0 2 = ∂ − ∂

∑

β i i y y 0 ) ˆ ( 1 2 = ∂ − ∂

∑

β i i y y

Resolviendo estas ecuaciones simultáneamente obtenemos las, ecuaciones normales con las siguientes expresiones para cada caso:

∑

∑ ∑

∑

− − − = − − = ₂ ₂ ₂ 1 ) ( ) )( ( ) ( ˆ x x y y x x x n x xy n y x β x y n x y 1 1 0 ˆ ˆ ˆ β β β =

∑

−

∑

= −

(15)

2 ) ( 2 2 − − =

∑

n y y _cal σ 2 2 2 1 ) (

∑

− = x x n n σ σ 2 2 2 2 0 ) (

∑

− = x x n x σ σ

∑

− − = ₂ 2 2 ) ( ) ( cal y y y y R 2 2 ) ( σ

∑

− = y ycal F

3.3. Regresión no lineal.

El modelo de regresión no lineal es, en general, similar al de la regresión lineal. Cada obser-vación Yi se considera como la suma de la respuesta media de E(yi) basada en la función no

lineal de respuesta dada y el término de error aleatorio εi. Donde los εi se consideran

varia-bles aleatorias normales independientes con una varianza constante.

Una diferencia importante de los modelos de regresión no lineal es que el número de paráme-tros de regresión no está necesariamente relacionado de forma directa con el número de las variables X del modelo.

Por ejemplo, en el modelo de Regresión Exponencial:

Yi = β0 + β1 exp( β2 Xi )+

ε

i

existe una variable X contra tres coeficientes de regresión.

Las funciones de respuesta no lineales que pueden ser linealizadas por una transformación son llamadas funciones de respuesta linealmente intrínseca.

La función Y = β0 exp( β1 X)

puede linealizarse mediante una transformación logarítmica: Ln(Y ) = Ln( β0 ) + β1 X

(16)

16

El hecho de que una función no lineal sea intrínsecamente lineal no implica necesariamente que la regresión lineal sea apropiada. La razón es que la transformación para linealizar la función afectará el término de error en el modelo ya que el error ya no será normal con una varianza constante y por tanto, debemos utilizar un método de regresión no lineal.

3.3.1. Regresión Exponencial.

Uno de los casos más comunes de regresión no lineal es el caso de la regresión exponencial:

Yi = β0 exp( β1 Xi )+

ε

i

El criterio de mínimos cuadrados nos dice que debemos minimizar la sumatoria:

Σ ( y

i

-

ŷ

i

)

2

= Σε

i 2

derivando parcialmente respecto a β0 y β1 e igualando a cero,

0 ) exp( ) ˆ ( 1 0 2 = = ∂ − ∂

∑

i i i x y y β β 0 ) exp( ) ˆ ( 1 0 1 2 = = ∂ − ∂

∑

i i i i x x y y β β β Resolviendo simultáneamente:

Σ

Yi exp( β1 Xi ) –

Σ

β0 exp(β1 Xi)exp(β1Xi) = 0

Σ

Yiβ0 Xi exp( β1 Xi ) –

Σ

β0 Xi exp(β1 Xi) β0 Xi exp(β1 Xi) = 0

Simplificando se obtiene la ecuación normal:

Σ

Yi exp( β1 Xi ) – β0

Σ

exp(2β1 Xi) = 0

(17)

Estas ecuaciones normales no son lineales para a β0 y β1 y no existe una solución

ce-rrada. Por lo que se requiere aplicar un método numérico para encontrar la solución para las estimaciones de los mínimos cuadrados de manera iterativa.

4. Cálculos estadísticos con Excel.

4.1. Representación de números reales en computadoras.

Las computadoras por su arquitectura de circuitos digitales trabajan en forma binaria en con-juntos de señales finitas (bits) agrupadas en bytes de 8, 16 o mas bits. Por esta razón no pue-den almacenar los números reales en forma exacta y de manera similar con números irracio-nales (e, π, √2) y fracciones periódicas (1/3, 2/7) en el sistema decimal. La forma estandari-zada de almacenar números reales en la memoria de una computadora es mediante el método llamado de punto flotante. Uno de los sistemas más comunes es la representación de núme-ros reales en doble precisión utilizada en la convención IEEE 754 (3).

En dicho sistema un número de precisión doble ocupa 8 bytes (64 bits). Para representar un número con este sistema se divide en tres partes: 1 bit para representar el signo, 11 bits para representar el exponente y 52 bits para representar la mantisa del número.

Bit 63 62 52 51 0

Signo Exponente Mantisa

s E m

Tabla 4.1 Uso de bits para el sistema de precisión doble.

El número se forma de la siguiente manera:

n = (-1) s * m * 2e

La mantisa está normalizada lo que significa que su valor es mayor o igual a uno y menor de dos. Dado que la mantisa se compone de 52 bits y empezamos con 2 el mayor número binario que puede representarse es 253 lo que significa un valor decimal de 15 dígitos de precisión. El término precisión se refiere al número de dígitos significativos que puede representar a números muy pequeños o muy grandes ya que el punto decimal es flotante.

(18)

18

• Error de truncado. Debido a la representación binaria de acuerdo a los estándares de la

IEEE. Una vez que se ha realizado el truncamiento el error permanecerá constante y en el pero caso puede propagarse y aumentar.

• Error de cancelación. Este error se produce en el análisis de datos que tienen una

varia-ción relativamente pequeña. Es decir, cuando el número de dígitos constantes iniciales aumenta, los datos se van acercando a una constante y los cálculos de las desviaciones estándar se vuelven cada vez más difíciles

• Error de acumulación. Es el error directamente proporcional al número total de

opera-ciones aritméticas, y en este caso, es proporcional al número de observaopera-ciones. La acu-mulación de pequeños errores puede transformar los cálculos en una tarea difícil.

La estimación no lineal de parámetros es, quizás, el mejor ejemplo de que un resultado numérico obtenido por computadora, no significa por ese solo hecho que este sea correcto o razonable.

4.2. Precisión numérica de Excel.

Para realizar el análisis de datos por medio de Excel es necesario conocer las características básicas del programa que nos permitan determinar sus cualidades y defectos (4).

Al igual que la mayoría de los programas de cómputo, utiliza para la representación de núme-ros reales en memoria la aproximación de punto flotante de doble precisión utilizada en la convención IEEE (754) ya descrita con anterioridad. Sin embargo, Excel puede presentar en pantalla el número guardado en memoria con formatos diferentes por lo que no siempre, el número que vemos en pantalla es exactamente igual al que se encuentra en la memoria de trabajo del equipo. El número en memoria es el que utiliza el paquete para realizar las opera-ciones aritméticas programadas.

El hecho de trabajar con esta aproximación nos genera pequeñas diferencias que pueden in-crementarse paso a paso al operar los números entre sí. Es importante tener cuidado para

arrastrar los números resultantes de operaciones intermedias con la misma exactitud para

disminuir este tipo de errores de acumulación.

4.3. Visualización de números en Excel.

Es importante tomar en cuenta que Excel puede manejar la visualización de los números de manera general o particular, esto sin modificar la precisión del número en memoria. Es decir, para la presentación en pantalla, cada número puede formatearse para que muestre una canti-dad específica de dígitos decimales, un símbolo monetario, un signo negativo o un separador de millares sin que esto afecte el valor guardado en memoria.

(19)

Muchas veces esto puede generar confusión ya que al operar dos o más números, se trabaja con el valor real en memoria y los resultados pueden diferir a los resultados esperados respec-to a los números visibles en pantalla.

Sin embargo, una representación numérica que está fuera del control del propio Excel es la utilización de la coma decimal “,”. Para poder utilizar este tipo de notación es necesario acu-dir al sistema operativo del equipo de cómputo. En el caso del sistema operativo Windows, el cambio debe realizarse accediendo al “Panel de control” en la opción de “Configuración re-gional y de idioma”, donde podemos elegir el símbolo que deseemos para el separador de de-cimales y el separador de millares.

Cabe mencionar que un mismo archivo de Excel al ser abierto en diversos equipos mostrará este formato numérico de acuerdo a la configuración del propio equipo.

4.4. Análisis de los resultados de Excel con datos certificados.

Debido a sus características, la hoja de cálculo Excel es una herramienta útil que permite rea-lizar diversas operaciones aritméticas de manera sencilla y ordenada para todo usuario final sin necesidad de tener conocimientos avanzados de programación. Una de las principales vir-tudes de esta herramienta es que cuenta con una gran variedad de funciones matemáticas in-corporadas que pueden integrarse de manera sencilla a las aplicaciones desarrolladas.

Para mostrar la versatilidad de este paquete, hemos utilizado tres maneras diferentes para rea-lizar los cálculos numéricos en el método de mínimos cuadrados para el conjunto de datos de la sección 5.1.

1. Fórmulas directas del método de mínimos cuadrados 2. fórmulas estadísticas del propio paquete y

3. fórmulas de matrices.

4.4.1. Fórmulas directas de mínimos cuadrados.

La característica principal de la hoja de cálculo es utilizar celdas referenciadas que pue-den operarse matemáticamente con otras lo que nos permite incorporar las fórmulas por medio de los operadores comunes de Excel.

La primer forma de determinar los valores numéricos es organizando de una manera ta-bular los datos numéricos y utilizando las fórmulas desarrolladas para el cálculo de mínimos cuadrados las operaciones aritméticas se realizan de una manera sencilla y se obtienen resultados con una precisión aceptable de una manera sencilla.

Es importante mencionar que debido a que nuestras fórmulas utilizan diversas sumato-rias, es necesario utilizar una columna para cada una de ellas lo que nos genera una tabla

(20)

20

4.4.2. Funciones estadísticas de Excel.

El paquete Excel tiene incorporadas diversas funciones dentro de las cuales se encuentran las funciones gráficas y las funciones estadísticas.

Presentando los datos en forma tabular se pueden utilizar diversas funciones gráficas de manera directa que incluyen la propiedad de calcular las regresiones lineales asociadas a la misma gráfica.

Para utilizar las funciones gráficas basta señalar el rango de valores y solicitar en el menú correspondiente el tipo de gráfica que se desea aplicar así como sus características princi-pales y la información requerida.

Existe también la función llamada “estimación lineal”, esta función calcula las estadísti-cas de una línea utilizando el método de mínimos cuadrados en función de una matriz de valores X, Y.

Debido que el resultado no es un número único sino un conjunto de valores relacionados, estos se presentan en forma de matriz con dos columnas y cinco renglones, la función se debe aplicar en un grupo de celdas con esta característica.

En la tabla siguiente se presenta la matriz de resultados correspondiente a la función de estimación lineal con la descripción de cada una de las celdas:

m (pendiente) b (ordenada al origen)

σm (Desviación estándar de m) σb (Desviación estándar de b)

R2 σ (Desviación estándar)

Estadística F grados de libertad Suma de regresión de los

cuadrados

Suma residual de los cua-drados

Tabla 4.2 Matriz de resultados de la función “Estimación lineal” de Excel.

Otro complemento de Excel son las herramientas de análisis dentro de las cuales se en-cuentra la “Regresión lineal” que permite calcular una mayor cantidad de parámetros es-tadísticos asociados al conjunto de datos originales.

Al aplicar esta función a una tabla de datos, obtenemos un grupo de resultados de manera conjunta en tres tablas:

a. Las estadísticas de regresión, b. el análisis de varianza y c. diversos valores estadísticos.

(21)

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,999996873 Coeficiente de determinación R^2 0,999993746

R^2 ajustado 0,999993562

Error típico 0,884796396

Observaciones 36

ANÁLISIS DE VARIANZA

Grados de libertaduma de cuadradomedio de los cuadrad F Valor crítico de F

Regresión 1 4255954,132 4255954,132 5436385,541 4,65404E-90

Residuos 34 26,61739853 0,782864663

Total 35 4255980,75

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95.0% Superior 95.0%

Intercepción -0,262323074 0,232818234 -1,126729075 0,267746742 -0,735466649 0,210820502 -0,7354666 0,210820502

Variable X 1 1,002116818 0,000429797 2331,605786 4,65404E-90 1,001243366 1,00299027 1,00124337 1,00299027

Tabla 4.3 Resultados para la Regresión lineal de las Herramientas de análisis de Excel.

Es importante mencionar que esta herramienta es una adición al paquete básico y debe ser habilitada para su uso la función de Herramientas de análisis. Asimismo, se debe notar que los resultados obtenidos en este caso, a diferencia de las funciones básicas de Excel, no son interactivos, es decir, si se lleva al cabo alguna modificación en los datos se debe recalcular manualmente la regresión lineal.

4.4.3. Fórmulas de matrices.

Mediante el uso de matrices y de derivadas parciales para obtener los valores mínimos se simplifican de manera importante los cálculos numéricos como se ha mostrado en la

sec-ción 3.2.1.

La hoja de cálculo contiene las funciones adecuadas para el trabajo con matrices:

Función Descripción

mdeterm(matriz) Determinante de una matriz minversa(matriz) Matriz inversa

mmult(matriz 1, matriz 2 ) Multiplicación de dos matrices transponer(matriz) Matriz transpuesta

Tabla 4.4 Funciones de matrices en Excel.

La utilización de estas funciones simplifica los cálculos, sin embargo, cuando la cantidad de datos es grande, la tarea no es tan simple. Las celdas que contiene los valores de la matriz deben formar un rectángulo contínuo con igual número de y renglones que los co-rrespondientes a la matriz.

(22)

22

5. Validación del método de regresión lineal.

Para los conjuntos de datos que serán analizados se presentan, en primer lugar, las características principales presentadas por el NIST (1), de los mismos:

a) Nombre de la muestra,

b) número de variables de respuesta, c) número de variables de predicción, d) número de observaciones,

e) número de parámetros,

f) el modelo propuesto para el ajuste de mínimos cuadrados, g) la tabla de valores certificados por el NIST,

h) la tabla de análisis de varianza certificada, i) las gráficas principales del modelo y j) la tabla de valores de las variables.

En la segunda parte se presentan los cálculos matemáticos realizados en Excel.

Para el primer caso (5.1 Norris) se realizaron los cálculos por los tres métodos: el método direc-to, por el método de las funciones estadísticas de propias de Excel y el método de matrices. Para todos los otros casos solamente se realizó el método de matrices mediante el cual se deter-minan: la suma de cuadrados residual (Σ), el cuadrado promedio residual (σ2), la desviación estándar residual (σ), los estimadores de los parámetros (β0, … , βn) y, mediante la matriz de

va-rianza covava-rianza, la desviación estándar de los estimadores (σ0, … , σn).

Finalmente se incluyen comentarios sobre los resultados obtenidos en comparación de los pro-porcionados por el NIST.

(23)

5.1. Base de datos Norris.

Procedimiento: Regresión Lineal Mínimos Cuadrados.

(b) 1 variable de respuesta (y)

(c) 1 variable de predicción (x)

(d) 36 observaciones

(e) 2 parámetros ( β0 , β1 )

(f) y = β0+ β1X + ε

(g)

Parámetros Estimador Desviación Estándar del Estimador β0 -0,262323073774029 0,232818234301152 β1 1,00211681802045 0,429796848199937E-03 Desviación Están-dar Residual 0,884796396144373 R – Cuadrada 0,999993745883712

Tabla 5.1.1 Estadísticas de Regresión Certificadas (Norris).

(h) Origen de Variación Grados de Libertad Sumas de Cuadra-dos Cuadrados Prome-dios Estadísticas F Regresión 1 4255954,13232369 4255954,13232369 5436385,54079785 Residual 34 26,6173985294224 0,782864662630069

Tabla 5.1.2 Análisis de Varianza Certificada (Norris).

(i)

Gráfica 5.1.1 Valores Fijos vs Gráfica 5.1.2 Residuales vs Variable de Predicción Variable de Predicción

(24)

24 (j) n Y X 1 0,1 0,2 2 338,8 337,4 3 118,1 118,2 4 888,0 884,6 5 9,2 10,1 6 228,1 226,5 7 668,5 666,3 8 998,5 996,3 9 449,1 448,6 10 778,9 777,0 11 559,2 558,2 12 0,3 0,4 13 0,1 0,6 14 778,1 775,5 15 668,8 666,9 16 339,3 338,0 17 448,9 447,5 18 10,8 11,6 19 557,7 556,0 20 228,3 228,1 21 998,0 995,8 22 888,8 887,6 23 119,6 120,2 24 0,3 0,3 25 0,6 0,3 26 557,6 556,8 27 339,3 339,1 28 888,0 887,2 29 998,5 999,0 30 778,9 779,0 31 10,2 11,1 32 117,6 118,3 33 228,9 229,2 34 668,4 669,1 35 449,2 448,9 36 0,2 0,5

(25)

Método directo Norris y = β0 + β1 X +ε n Y X YX X2 Y cal (y - ycal)2 1 0,1 0,2 0,02 0,04 -0,06 0,0262 176150,42 176286,35 2 338,8 337,4 114311,12 113838,76 337,85 0,8989 6561,45 6715,95 3 118,1 118,2 13959,42 13971,24 118,19 0,0077 91024,57 90971,54 4 888 884,6 785524,80 782517,16 886,21 3,2033 219208,64 217535,90 5 9,2 10,1 92,92 102,01 9,86 0,4344 168594,64 168053,85 6 228,1 226,5 51664,65 51302,25 226,72 1,9123 36749,96 37282,06 7 668,5 666,3 445421,55 443955,69 667,45 1,1065 61850,31 61328,21 8 998,5 996,3 994805,55 992613,69 998,15 0,1248 334890,48 334481,65 9 449,1 448,6 201466,26 201241,96 449,29 0,0351 858,33 869,34 10 778,9 777,0 605205,30 603729,00 778,38 0,2679 128950,82 128579,38 11 559,2 558,2 312145,44 311587,24 559,12 0,0065 19431,59 19409,09 12 0,3 0,4 0,12 0,16 0,14 0,0261 175982,58 176118,09 13 0,1 0,6 0,06 0,36 0,34 0,0571 176150,42 175949,91 14 778,1 775,5 603416,55 601400,25 776,88 1,4902 128376,90 127503,62 15 668,8 666,9 446022,72 444755,61 668,05 0,5634 61999,62 61626,38 16 339,3 338,0 114683,40 114244,00 338,45 0,7171 6480,70 6617,76 17 448,9 447,5 200882,75 200256,25 448,18 0,5113 846,65 805,55 18 10,8 11,6 125,28 134,56 11,36 0,3161 167283,27 166823,68 19 557,7 556,0 310081,20 309136,00 556,91 0,6168 19015,64 18799,66 20 228,3 228,1 52075,23 52029,61 228,32 0,0004 36673,31 36665,45 21 998 995,8 993808,40 991617,64 997,65 0,1256 334312,03 333902,33 22 888,8 887,6 788898,88 787833,76 889,22 0,1735 219958,39 220349,30 23 119,6 120,2 14375,92 14448,04 120,19 0,3506 90121,71 89766,55 24 0,3 0,3 0,09 0,09 0,04 0,0685 175982,58 176202,21 25 0,6 0,3 0,18 0,09 0,04 0,3155 175730,97 176202,21 26 557,6 556,8 310471,68 310026,24 557,72 0,0135 18988,07 19020,15 27 339,3 339,1 115056,63 114988,81 339,56 0,0653 6480,70 6439,63 28 888 887,2 787833,60 787123,84 888,82 0,6654 219208,64 219973,14 29 998,5 999,0 997501,50 998001,00 1000,85 5,5337 334890,48 337618,64 30 778,9 779,0 606763,10 606841,00 780,39 2,2102 128950,82 130020,75 31 10,2 11,1 113,22 123,21 10,86 0,4372 167774,44 167233,24 32 117,6 118,3 13912,08 13994,89 118,29 0,4735 91326,52 90911,10 33 228,9 229,2 52463,88 52532,64 229,42 0,2734 36443,87 36244,52 34 668,4 669,1 447226,44 447694,81 670,25 3,4375 61800,58 62725,83 35 449,2 448,9 201645,88 201511,21 449,59 0,1505 864,20 887,15 36 0,2 0,5 0,10 0,25 0,2387 0,0015 176066,49 176033,99 15112,9 15090,4 10581955,92 10563553,36 26,6173985 4255980,7497 4255954,1323

ΣY ΣX ΣXY ΣX2 _{Σ(y - y}

cal) 2

∑

₋ 2 ) (y y

∑

− 2 ) (y ycal 2 ) (y− y (y−y_cal)2

De acuerdo a las fórmulas de la sección 3.2.1

y =

Σ

y / n = 419,803 2 ) ( 2 2 − − =

∑

n y y cal σ = 0,782864663 σ = 0,884796396 = − − =

∑

∑ ∑

∑

2 2 1 ) ( ˆ x n x xy n y x β 1,00211681802045 =

∑

−

∑

= n x y ₁ 0 ˆ ˆ β β - 0,2623230737739

(26)

26 2 2 2 1 ) (

∑

− = x x n n σ σ = 0,0004297968482 2 2 2 2 0 ) (

∑

− = x x n x σ σ = 0,2328182343012

∑

− − = ₂ 2 2 ) ( ) ( cal y y y y R = 0,9999937458837 ₂ 2 ) ( σ

∑

− = y ycal F = 5436385,5407977

Método de Funciones estadísticas de Excel

Gráfica

Norris. y = β0+ β1X + ε

Gráfica 5.1.3 Ajuste lineal mediante los gráficos de Excel (Norris).

Una propiedad de las gráficas de Excel es que se pueden incluir las fórmulas de regresión correspondientes a la línea de ajuste como se puede observar en el ejemplo anterior.

Como se mencionó en la sección 4.3.2, también podemos utilizar la función “estimación

(27)

Aplicando la fórmula a la tabla de datos obtenemos de manera directa los siguientes resul-tados: Estimación lineal 1,00211681802045 -0,26232307377427 0,00042979684820 0,23281823430115 0,999993746 0,884796396 5436385,541 34 4255954,132 26,61739853

Tabla 5.1.4 Valores estadísticos de la función Estimación Lineal de Excel.

Otra de las funciones estadísticas de Excel es la “Regresión lineal” mediante la cual obte-nemos, también de manera directa un conjunto de tablas con los resultados estadísticos co-rrespondientes a los datos de la tabla como se muestra a continuación:

Herramientas de análisis. Regresión lineal.

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,999996873 Coeficiente de determinación R^2 0,999993746

R^2 ajustado 0,999993562

Error típico 0,884796396

Observaciones 36

ANÁLISIS DE VARIANZA

Grados de libertaduma de cuadradomedio de los cuadrad F Valor crítico de F

Regresión 1 4255954,132 4255954,132 5436385,541 4,65404E-90

Residuos 34 26,61739853 0,782864663

Total 35 4255980,75

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95.0% Superior 95.0%

Intercepción -0,262323074 0,232818234 -1,126729075 0,267746742 -0,735466649 0,210820502 -0,7354666 0,210820502

Variable X 1 1,002116818 0,000429797 2331,605786 4,65404E-90 1,001243366 1,00299027 1,00124337 1,00299027

(28)

28

Método de matrices.

Para aplicar este método crearemos una tabla que contenga una columna para cada uno de los siguientes conceptos: variable dependiente (y); variable independiente (x); la derivada parcial de la función respecto a cada uno de los coeficientes de ajuste ( ∂ y/∂β₀, ∂y/∂β₁,…); el valor calculado de la variable (ycal); el valor de la diferencia del valor observado respecto

al calculado (y - ycal) y el cuadrado de la última diferencia (y - ycal) 2

.

Norris y = β0 + β1 X +ε ∂y / ∂β0 = 1 ∂y / ∂β1 = X

Y X _{∂y / ∂β}0 ∂y / ∂β1 Y cal y - ycal (y - ycal)

2 0,1 0,2 1 0,2 338,8 337,4 1 337,4 118,1 118,2 1 118,2 888 884,6 1 884,6 9,2 10,1 1 10,1 228,1 226,5 1 226,5 668,5 666,3 1 666,3 998,5 996,3 1 996,3 449,1 448,6 1 448,6 778,9 777 1 777,0 559,2 558,2 1 558,2 0,3 0,4 1 0,4 0,1 0,6 1 0,6 778,1 775,5 1 775,5 668,8 666,9 1 666,9 339,3 338 1 338,0 448,9 447,5 1 447,5 10,8 11,6 1 11,6 557,7 556 1 556,0 228,3 228,1 1 228,1 998 995,8 1 995,8 888,8 887,6 1 887,6 119,6 120,2 1 120,2 0,3 0,3 1 0,3 0,6 0,3 1 0,3 557,6 556,8 1 556,8 339,3 339,1 1 339,1 888 887,2 1 887,2 998,5 999 1 999,0 778,9 779 1 779,0 10,2 11,1 1 11,1 117,6 118,3 1 118,3 228,9 229,2 1 229,2 668,4 669,1 1 669,1 449,2 448,9 1 448,9 0,2 0,5 1 0,5

Debido a que desconocemos el valor de los coeficientes, no podemos todavía calcular las últimas tres columnas por lo que aplicaremos nuestro método matricial:

(29)

Las columnas correspondientes a las derivadas de la función respecto a cada uno de los co-eficientes formarán nuestra matriz inicial que llamaremos D (en la tabla se muestran los elementos de la matriz con sombreado).

A continuación determinamos la matriz transpuesta de D, a la que llamamos DT mediante la función transponer(matriz). Es importante mencionar que para utilizar la fórmulas ma-triciales de Excel, las celdas que conforman a cada una de las matrices deben de formar un rectángulo con un número de columnas y renglones iguales a los de la propia matriz, sin poderse seccionar. Aquí, por cuestiones del espacio de impresión, mostraremos la matriz

DT de manera seccionada aunque en la hoja de cálculo se encuentra contínua en un área de 36 X 2 celdas. DT 1 1 1 1 1 1 1 1 1 1 1 1 0,2 337,4 118,2 884,6 10,1 226,5 666,3 996,3 448,6 777,0 558,2 0,4 1 1 1 1 1 1 1 1 1 1 1 1 0,6 775,5 666,9 338,0 447,5 11,6 556,0 228,1 995,8 887,6 120,2 0,3 1 1 1 1 1 1 1 1 1 1 1 1 0,3 556,8 339,1 887,2 999,0 779,0 11,1 118,3 229,2 669,1 448,9 0,5

Como siguiente paso calculamos la matriz A como el producto DT D mediante la función mmult(matriz1, matriz2).

A = DT D

36 15090,4 15090,4 10563553

A continuación calculamos la matriz inversa de A, que llamaremos A-1, con la función

minversa(matriz) y también calcularemos el producto de DT Y .

A -1 6,92384429E-02 -9,89095016E-05 -9,89095016E-05 2,35960747E-07 DT Y 15112,9 10581955,92

Ahora calculamos la matriz de los coeficientes de ajuste mediante la multiplicación de las dos matrices anteriores, A-1, DTY. Los valores de esta matriz representan a cada uno de los

coeficientes buscados (β₀, β₁,…).

A-1 DT Y

β0 = -0,26232307377404

(30)

30

Con estos valores, ya podemos calcular el valor de la función y consecuentemente los valo-res de las columnas faltantes.

Y X ∂y / ∂β0 ∂y / ∂β1 Y cal y - ycal (y - ycal)

2 0,1 0,2 1 0,2 -0,0619 0,1619 0,0262 338,8 337,4 1 337,4 337,8519 0,9481 0,8989 118,1 118,2 1 118,2 118,1879 -0,0879 0,0077 888 884,6 1 884,6 886,2102 1,7898 3,2033 9,2 10,1 1 10,1 9,8591 -0,6591 0,4344 228,1 226,5 1 226,5 226,7171 1,3829 1,9123 668,5 666,3 1 666,3 667,4481 1,0519 1,1065 998,5 996,3 1 996,3 998,1467 0,3533 0,1248 449,1 448,6 1 448,6 449,2873 -0,1873 0,0351 778,9 777 1 777,0 778,3824 0,5176 0,2679 559,2 558,2 1 558,2 559,1193 0,0807 0,0065 0,3 0,4 1 0,4 0,1385 0,1615 0,0261 0,1 0,6 1 0,6 0,3389 -0,2389 0,0571 778,1 775,5 1 775,5 776,8793 1,2207 1,4902 668,8 666,9 1 666,9 668,0494 0,7506 0,5634 339,3 338 1 338,0 338,4532 0,8468 0,7171 448,9 447,5 1 447,5 448,1850 0,7150 0,5113 10,8 11,6 1 11,6 11,3622 -0,5622 0,3161 557,7 556 1 556,0 556,9146 0,7854 0,6168 228,3 228,1 1 228,1 228,3205 -0,0205 0,0004 998 995,8 1 995,8 997,6456 0,3544 0,1256 888,8 887,6 1 887,6 889,2166 -0,4166 0,1735 119,6 120,2 1 120,2 120,1921 -0,5921 0,3506 0,3 0,3 1 0,3 0,0383 0,2617 0,0685 0,6 0,3 1 0,3 0,0383 0,5617 0,3155 557,6 556,8 1 556,8 557,7163 -0,1163 0,0135 339,3 339,1 1 339,1 339,5555 -0,2555 0,0653 888 887,2 1 887,2 888,8157 -0,8157 0,6654 998,5 999 1 999,0 1000,8524 -2,3524 5,5337 778,9 779 1 779,0 780,3867 -1,4867 2,2102 10,2 11,1 1 11,1 10,8612 -0,6612 0,4372 117,6 118,3 1 118,3 118,2881 -0,6881 0,4735 228,9 229,2 1 229,2 229,4229 -0,5229 0,2734 668,4 669,1 1 669,1 670,2540 -1,8540 3,4375 449,2 448,9 1 448,9 449,5879 -0,3879 0,1505 0,2 0,5 1 0,5 0,2387 -0,0387 0,0015

El valor de la sumatoria correspondiente a la ultima columna es Σ, dividiendo este valor entre el número de parámetros independientes podemos calcular varianza σ2 y, finalmente, sacando la raíz cuadrada de este resultado obtenemos la desviación estándar σ.

Σ = 26,6173985294

σ2

= 0,7828646626

σ = 0,8847963961

Ahora podemos multiplicar la matriz A-1 por el valor de la varianza σ2 y obtenemos la ma-triz de varianza-covarianza:

(31)

σ2 A-1

5,42043302E-02 -7,74327536E-05 -7,74327536E-05 1,84725331E-07

De esta matriz, mediante los elementos de la diagonal principal obtenemos los valores de las desviaciones estándares de cada uno de los coeficientes de ajuste sacando la raíz cua-drada.

σ0= 0,2328182343011560

σ1= 0,0004297968481999

A continuación presentamos una tabla comparativa con los valores de los diversos paráme-tros estadísticos certificados por el NIST y los valores obtenidos por los tres métodos apli-cados.

Parámetros NIST Directo Funciones Matrices

β0 -0,262323073774029 -0,262323073773863 -0,262323073774269 -0,262323073774041 β1 1,00211681802045 1,00211681802045 1,00211681802045 1,00211681802045 σ0 0,232818234301152 0,232818234301156 0,232818234301154 0,232818234301156 σ1 0,000429796848199937 0,0004297968482 0,0004297968481999 0,0004297968481999 Σ 26,6173985294224 26,6173985294231 26,6173985294226 26,6173985294231 σ2 0,782864662630069 0,782864662630092 0,782864662630077 0,782864662630092 σ 0,884796396144373 0,884796396144385 0,884796396144377 0,884796396144385

Tabla 5.1.6 Comparación de valores obtenidos.

Podemos observar que los resultados obtenidos por los tres métodos son consistentes con los valores certificados por el NIST hasta al menos diez cifras significativas, sin embargo, los dos primeros métodos no son aplicables para regresión no lineal, adicionalmente, utili-zando el tercer método (matrices), obtenemos de manera sencilla la matriz de varianza co-varianza la cual indica la correlación entre los diversos parámetros y de la diagonal princi-pal se determina la varianza asociada a cada estimador sacando la raíz cuadrada. En los ejemplos subsecuentes solamente aplicaremos el método matricial.

(32)

32

5.2. Base de datos Pontius.

Procedimiento: Regresión Lineal Mínimos Cuadrados.

(b) 1 variable de respuesta (y)

(c) 1 variable de predicción (x) (d) 40 observaciones (e) 3 parámetros ( β0, β1,β2 ) (f) y = β0+ β1X + β2 X 2 + ε (g)

Parámetros Estimador Desviación Estándar del Estimador

β0 0,673565789473684E-03 0,107938612033077E-03

β1 0,732059160401003E-06 0,157817399981659E-09

β2 -0,316081871345029E-14 0,486652849992036E-16

Desviación

Están-dar Residual 0,205177424076185E-03

R – Cuadrada 0,999999900178537

Tabla 5.2.1 Estadísticas de Regresión Certificadas (Pontius).

(h)

Origen de Variación

Grados de

Libertad Sumas de Cuadrados Cuadrados Promedios Estadísticas F

Regresión 2 15,6040343244198 7,80201716220991 185330865,995752

Residual 37 0,155761768796992E-05 0,420977753505385E-07

Tabla 5.2.2 Análisis de Varianza Certificada (Pontius).

(i)

Gráfica 5.2.1 Valores Fijos vs Gráfica 5.2.2 Residuales vs Variable de Predicción Variable de Predicción

(33)

(j) n Y X 1 0,11019 150000 2 0,21956 300000 3 0,32949 450000 4 0,43899 600000 5 0,54803 750000 6 0,65694 900000 7 0,76562 1050000 8 0,87487 1200000 9 0,98292 1350000 10 1,09146 1500000 11 1,20001 1650000 12 1,30822 1800000 13 1,41599 1950000 14 1,52399 2100000 15 1,63194 2250000 16 1,73947 2400000 17 1,84646 2550000 18 1,95392 2700000 19 2,06128 2850000 20 2,16844 3000000 21 0,11052 150000 22 0,22018 300000 23 0,32939 450000 24 0,43886 600000 25 0,54798 750000 26 0,65739 900000 27 0,76596 1050000 28 0,87474 1200000 29 0,98300 1350000 30 1,09150 1500000 31 1,20004 1650000 32 1,30818 1800000 33 1,41613 1950000 34 1,52408 2100000 35 1,63159 2250000 36 1,73965 2400000 37 1,84696 2550000 38 1,95445 2700000 39 2,06177 2850000 40 2,16829 3000000

(34)

34 Pontius y = β0 + β1x + β2x 2 ∂y / ∂β0 = 1 ∂y / ∂β1 = X ∂y / ∂β2 = X 2

n Y X ∂y / ∂β0 ∂y / ∂β1 ∂y / ∂β2 ycal (y - ycal)2

1 0,1102 150000 1,0 150000 2,25E+10 1,104E-01 4,898E-08 2 0,2196 300000 1,0 300000 9,00E+10 2,200E-01 1,997E-07 3 0,3295 450000 1,0 450000 2,03E+11 3,295E-01 8,927E-10 4 0,4390 600000 1,0 600000 3,60E+11 4,388E-01 4,789E-08 5 0,5480 750000 1,0 750000 5,63E+11 5,479E-01 8,104E-09 6 0,6569 900000 1,0 900000 8,10E+11 6,570E-01 7,047E-10 7 0,7656 1050000 1,0 1050000 1,10E+12 7,659E-01 5,331E-08 8 0,8749 1200000 1,0 1200000 1,44E+12 8,746E-01 7,674E-08 9 0,9829 1350000 1,0 1350000 1,82E+12 9,832E-01 7,444E-08 10 1,0915 1500000 1,0 1500000 2,25E+12 1,092E+00 3,628E-08 11 1,2000 1650000 1,0 1650000 2,72E+12 1,200E+00 1,949E-09 12 1,3082 1800000 1,0 1800000 3,24E+12 1,308E+00 6,561E-09 13 1,4160 1950000 1,0 1950000 3,80E+12 1,416E+00 3,237E-08 14 1,5240 2100000 1,0 2100000 4,41E+12 1,524E+00 4,705E-09 15 1,6319 2250000 1,0 2250000 5,06E+12 1,632E+00 1,822E-08 16 1,7395 2400000 1,0 2400000 5,76E+12 1,739E+00 3,692E-09 17 1,8465 2550000 1,0 2550000 6,50E+12 1,847E+00 1,691E-07 18 1,9539 2700000 1,0 2700000 7,29E+12 1,954E+00 7,340E-08 19 2,0613 2850000 1,0 2850000 8,12E+12 2,061E+00 7,819E-09 20 2,1684 3000000 1,0 3000000 9,00E+12 2,168E+00 1,319E-09 21 0,1105 150000 1,0 150000 2,25E+10 1,104E-01 1,181E-08 22 0,2202 300000 1,0 300000 9,00E+10 2,200E-01 2,998E-08 23 0,3294 450000 1,0 450000 2,03E+11 3,295E-01 4,917E-09 24 0,4389 600000 1,0 600000 3,60E+11 4,388E-01 7,891E-09 25 0,5480 750000 1,0 750000 5,63E+11 5,479E-01 1,602E-09 26 0,6574 900000 1,0 900000 8,10E+11 6,570E-01 1,793E-07 27 0,7660 1050000 1,0 1050000 1,10E+12 7,659E-01 1,191E-08 28 0,8747 1200000 1,0 1200000 1,44E+12 8,746E-01 2,162E-08 29 0,9830 1350000 1,0 1350000 1,82E+12 9,832E-01 3,719E-08 30 1,0915 1500000 1,0 1500000 2,25E+12 1,092E+00 2,264E-08 31 1,2000 1650000 1,0 1650000 2,72E+12 1,200E+00 5,498E-09 32 1,3082 1800000 1,0 1800000 3,24E+12 1,308E+00 1,681E-09 33 1,41613 1950000 1,0 1950000 3,80E+12 1,416E+00 1,593E-09 34 1,52408 2100000 1,0 2100000 4,41E+12 1,524E+00 4,583E-10 35 1,63159 2250000 1,0 2250000 5,06E+12 1,632E+00 4,624E-08 36 1,73965 2400000 1,0 2400000 5,76E+12 1,739E+00 5,797E-08 37 1,84696 2550000 1,0 2550000 6,50E+12 1,847E+00 7,885E-09 38 1,95445 2700000 1,0 2700000 7,29E+12 1,954E+00 6,712E-08 39 2,06177 2850000 1,0 2850000 8,12E+12 2,061E+00 1,613E-07 40 2,16829 3000000 1,0 3000000 9,00E+12 2,168E+00 1,292E-08

Σ = 1,55761769E-06

σ2= 4,2097775351E-08

(35)

DT

1,00E+00 1,00E+00 1,00E+00 1,00E+00 1,00E+00 1,00E+00 1,00E+00 1,00E+00 1,00E+00 1,00E+00

1,50E+05 3,00E+05 4,50E+05 6,00E+05 7,50E+05 9,00E+05 1,05E+06 1,20E+06 1,35E+06 1,50E+06

2,25E+10 9,00E+10 2,03E+11 3,6E+11 5,625E+11 8,1E+11 1,1025E+12 1,44E+12 1,8225E+12 2,25E+12

1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00

1,650E+06 1,800E+06 1,950E+06 2,100E+06 2,250E+06 2,400E+06 2,550E+06 2,700E+06 2,850E+06 3,000E+06

2,723E+12 3,240E+12 3,803E+12 4,410E+12 5,063E+12 5,760E+12 6,503E+12 7,290E+12 8,123E+12 9,000E+12

1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00

1,500E+05 3,000E+05 4,500E+05 6,000E+05 7,500E+05 9,000E+05 1,050E+06 1,200E+06 1,350E+06 1,500E+06

2,250E+10 9,000E+10 2,025E+11 3,600E+11 5,625E+11 8,100E+11 1,103E+12 1,440E+12 1,823E+12 2,250E+12

1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00 1,000E+00

1,650E+06 1,800E+06 1,950E+06 2,100E+06 2,250E+06 2,400E+06 2,550E+06 2,700E+06 2,850E+06 3,000E+06

2,723E+12 3,240E+12 3,803E+12 4,410E+12 5,063E+12 5,760E+12 6,503E+12 7,290E+12 8,123E+12 9,000E+12

A = DT D DT Y

4,000000E+01 6,300000E+07 1,291500E+14 45,73845

6,300000E+07 1,291500E+14 2,976750E+20 93646978,5

1,291500E+14 2,976750E+20 7,316993E+26 2,1569E+14

A -1 A-1 DT Y

2,767544E-01 -3,596491E-07 9,746589E-14 β0 = 6,7356578949784E-04

-3,596491E-07 5,916306E-13 -1,772107E-19 β1 = 7,3205916040100E-07

9,746589E-14 -1,772107E-19 5,625737E-26 β2 = -3,1608187134482E-15

σ2

A-1 Matriz de Varianza-Covarianza

1,165074E-08 -1,514043E-14 4,103097E-21 σβ0= 1,0793861203307E-04

-1,514043E-14 2,490633E-20 -7,460176E-27 σβ1= 1,5781739998165E-10

4,103097E-21 -7,460176E-27 2,368310E-33 σβ2= 4,8665284999199E-17