ÍNDICE. Índice 1. Introducción 2. Regresión Lineal Simple 3. Método de los mínimos cuadrados 4

(1)

ÍNDICE

Índice 1

Introducción 2

Regresión Lineal Simple 3

Método de los mínimos cuadrados 4

Correlación Lineal Simple

Aplicación Práctica

Regresión Lineal Múltiple

Estimación de coeficientes

Correlación Lineal Múltiple

Aplicación Práctica

Conclusiones

(2)

INTRODUCCIÓN

En la industria con mucha frecuencia es necesario resolver problemas que implican conjuntos de variables, cuando se sabe que existe alguna relación inherente entre ellas. A partir de lo anterior, es necesario establecer modelos que expliquen dicha relación.

Cuando, simultáneamente, contemplamos dos variables continuas, aunque por extensión se pueden emplear para variables discretas cuantitativas, surgen preguntas y problemas específicos. Esencialmente, se emplearán estadísticos descriptivos y técnicas de estimación para contestar esas preguntas, y técnicas de contraste de hipótesis específicos para resolver dichos problemas. La mayoría de estos métodos están encuadrados en las técnicas regresión y correlación

En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una población. El análisis de correlación produce un número que resume el grado de la fuerza de relación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación.

La técnica de regresión lineal simple está indicada cuando se pretende explicar una variable respuesta cuantitativa en función de una variable explicativa cuantitativa también llamada variable independiente, variable regresora o variable predictora. Por ejemplo, se podría intentar explicar el peso en función de la altura. El modelo intentaría aproximar la variable respuesta mediante una función lineal de la variable explicativa.

A partir de la presente investigación, se pretende mostrar la aplicación práctica de la regresión y correlación lineal simple y múltiple en la industria. Ya que la aplicación

(3)

REGRESIÓN LINEAL SIMPLE

La finalidad de una ecuación de regresión es estimar los valores de una variable con base en los valores conocidos de la otra. Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en términos de otra. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Las suposiciones que se realizan al aplicar las técnicas de regresión lineal son:

• El modelo propuesto es lineal (es decir existe relación entre la variable explicativa y la variable explicada, y esta relación es lineal). Es decir se asume que:

Var respuesta = βo+ variable explicativa . β1+ ε

siendo β0 el término independiente (constante) β1el coeficiente de regresión de la variable explicativa (pendiente) y εes una variable aleatoria que se llama error residual. • La variable explicativa se ha medido sin error.

• El valor esperado de e del modelo es cero.

• La varianza de e (y por lo tanto de la variable respuesta) es constante. • Los εson independientes entre sí.

• Si se desean realizar contrastes de hipótesis sobre los parámetros (coeficientes) o sobre el modelo, también es necesario que la distribución de εsea normal.

Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediante el estudio de los residuos (valores observados - valores predichos): normalidad, tendencias, etc. Cuando no se cumplen los criterios de aplicación es necesario realizar transformaciones a las variables, o bien para obtener una relación lineal o bien para homogeneizar la varianza.

La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describa la relación entre dos variables. La regresión puede ser utilizada de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo.

Ecuación Lineal Simple Dos características importantes de una ecuación lineal: • La independencia de la recta

(4)

Forma general de la ecuación de regresión linealsimple Y´= a + Bx

Donde:

Y

Y´ se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionado ´

de X.

a

a es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y cuando X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde la recta de regresión cruza el eje Y, cuando X = 0.

B

B es la pendiente de la recta, o el cambio promedio en Y´ por unidad de cambio (incremento o decremento) en la variable independiente X.

x

x es cualquier valor seleccionado de la variable independiente.

Con esta expresión se hace referencia al proceso matemático que sirve para ajustar una línea recta a través de un conjunto de datos bivariables asentados en una gráfica de dispersión. Dicha línea se conoce como línea de regresión simple.

El primer paso es recoger datos experimentales correspondientes a n individuos con información de dos variables cuantitativas: una de ellas se considera variable explicativa (Variable x) y la otra se considera variable respuesta (Variable y). El modelo que se asume es:

y = βo+ xβ1 + ε

Los coeficientes βo y β1 se estiman por b₀ y por b₁ a través del método de mínimos cuadrados.

Método de mínimos cuadrados

Es el procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2 característica importantes:

• Es nula la suma de desviaciones verticales en los puntos a partir de la recta • Es mínima la suma de los cuadrados de dichas desviaciones

(5)

De todas las curvas de aproximación a una serie de datos puntuales la curva que tiene la propiedad de que: DD22₁₁ ₊₊ _D_D22₂₂₊₊ _._. _._. _._.₊₊ _D_D22_N_N_{Se conoce como Mejor curva de}

ajuste

La suma de cuadrados de desviación se le llama ssuummaaddeeccuuaaddrraaddoossppoorrffaallllaa (

(SSCCFF). Esta suma de cuadrados proporciona la medida de que tan bien se ajusta la )

línea al conjunto completo de puntos.

Si la SCF es cero, implica que los puntos caen exactamente sobre la línea. Por el contrario entre más grande es SCF respecto de cero, menor es el ajuste. La recta que tenga una suma de cuadrados menor para un conjunto de puntos, que cualquier otra línea recta es la línea recta llamada línea de regresión de los mínimos cuadrados.

Las ecuaciones normales son un conjunto de ecuaciones cuya solución produce un valor único para la pendiente B y la ordenada a asociada con los datos bivariables. Obteniéndose así:

El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un conjunto de n observaciones:

(X1, Y1) (X2, Y2)

. . . (XN, YN)

De forma que se minimice el error. Las etapas en que se divide el proceso que se va a desarrollar son de forma esquemática, las que siguen:

1. Dadas dos variables X, Y, sobre las que se define:

( (XX11,,YY11)) D D11 ( (XX_NN,,YYNN)) D DNN ( (XX22,,YY22)) D D₂2 X X1₁ XX22 XXNN C

(6)

Se mide el error que se comete al aproximar Y mediante calculando la suma de las diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y no se compensen los errores):

2. Una aproximación de Y, se define a partir de dos cantidades a y b. Se va a calcular aquellas que minimizan la función

3. Posteriormente se encontraran las fórmulas para el cálculo directo de a y b que sirvan para cualquier problema.

Ordenada al origen Pendiente de la recta

n

x

m

yi

a

n i n i i

∑

₌

−

∑

₌

=

1 1

∑

= = = = =

−

=

_n i n i i i n i n i n i i i i i

x

n

y

x

y

x

n

B

1 1 1 1 1

)

(

)

)(

(

(7)

DIAGRAMA DE DISPERSIÓN

La correlación, método por el cual se relacionan dos variables se pude graficar con un diagrama de dispersión de puntos, a la cual muchos autores le llaman nubes de puntos, encuadrado dentro de un gráfico de coordenadas X Y en la cual se pude trazar una recta y cuyos puntos mas cercanos de una recta hablaran de una correlación mas fuerte, a esta recta se le denomina recta de regresión, que puede ser positiva o negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente.

También se puede describir un diagrama de dispersión en coordenadas cartesianas valores, en donde la nube de puntos representa los pares de valores.

Gráficos de recta de regresión

Regresión Positiva Regresión Negativa

(8)

CORRELACION

La correlación, o el grado de relación entre las variables, se estudia para determinar en que medida una ecuación lineal o de otro tipo describe o explica de una forma adecuada la relación entre variables.

El análisis de correlación intenta medir la fuerza de las relaciones entre dos variables por medio de un solo número llamado coeficiente de correlación.

Si todos lo valores de las variables satisfacen exactamente una ecuación, se dice que las variables están correlacionadas perfectamente o que hay una correlación perfecta entre ellas.

Cuando se trata de dos variables solamente, se habla de correlación simple y de regresión simple. Cuando se trata de más de dos variables se habla de correlación múltiple y de regresión múltiple.

CORRELACION LINEAL SIMPLE

Si “X” y “Y” denotan las dos variables que se consideran, un diagrama de dispersión muestra la localización de los puntos (X, Y) en un sistema de coordenadas rectangulares. Si todos los puntos en este diagrama de dispersión parecen encontrarse cerca de una recta, como en (a) y (b) de la figura 1, la correlación se dice lineal. En tales casos es adecuada una ecuación lineal.

Si “Y” tiende a incrementarse cuando se incrementa “X”, como en (a), la correlación se dice positiva o correlación directa. Si “Y” tiende a disminuir cuando se incrementa “X”, como en (b) la correlación se dice negativa o correlación inversa.

Si todos los puntos parecen estar cerca de alguna curva, la correlación se dice no lineal y una ecuación no lineal es la apropiada para la regresión o estimación. Es evidente que una correlación no lineal puede ser a veces positiva y a veces negativa.

Si no hay ninguna relación entre las variables, como la figura 1(c), se dice que no hay correlación entre ellas, es decir, no están correlacionadas.

(9)

Medidas de correlación

Una forma de determinar de una manera cualitativa, lo bien que una recta o curva dada describe la relación entre variables es la observación directa del diagrama de dispersión. Por ejemplo se ve que para los datos de la fig.-1(a) la recta representada describe mucho mejor la relación entre “X” y “Y” que la de la fig.-1(b) lo hace para los suyos, debido al hecho de que hay menos dispersión alrededor de la recta de la fig.1(a). Si se trata el problema de la dispersión de los datos muestrales alrededor de rectas o curvas de una manera cuantitativa, será necesario definir unas medidas de correlación.

Error típico de la estimación

Si Yest.. representa el valor de Y estimado de la ecuación de regresión lineal simple para valores de X dados, una medida de la dispersión alrededor de la recta de regresión de Y sobre X viene dada por la cantidad:

que se llama error típico de la estimación de Y sobre X.

Variación explicada y no explicada

La variación total de Y se define como:

es decir, la suma de los cuadrados de las desviaciones de los valores de Y de su media lo cual puede escribirse como:

X

Y

X

(a) Correlación lineal positiva

Y

X

(b) Correlación lineal negativa

Y

(c) No hay correlación Figura 1 Σ(Y - Y )2 Y Σ(Y - Yest.)2 N sY.X =

(10)

Siendo Yest. el valor de Y estimado de la ecuación de regresión de la recta de mínimos cuadrados para valores de X dados: Y´= a + Bx

El primer término del segundo miembro se llama variación no explicada, mientras que el segundo término se llama variación explicada, y esto es así, porque las desviaciones de “Y estimada” menos “Y media” tienen un patrón definido, mientras que las desviaciones “Y” menos “Y estimada” se comportan de una forma aleatoria o no previsible.

Coeficiente de correlación

La razón de la variación explicada a la variación total se llama coeficiente de determinación. Si la variación explicada es cero, es decir, la variación total es toda no explicada, esta razón es cero. Si la variación no explicada es cero, es decir, la variación total es toda explicada, la razón es uno. En los demás casos la razón se encuentra entre cero y uno. Puesto que la razón es siempre no negativa, se denota por r2. La cantidad r se llama coeficiente de correlación y esta dado por:

y varía entre -1 y +1, los signos ± se utilizan para la correlación lineal positiva y la correlación lineal negativa, respectivamente. Nótese que r es una cantidad sin dimensiones, es decir, no depende de las unidades empleadas. De esta manera un valor de r igual a +1 implica una relación lineal perfecta con una pendiente positiva, mientras que un valor de r igual a -1 resulta de una relación lineal perfecta con pendiente negativa. Se puede decir entonces que las estimaciones muestrales de r cercanas a la unidad en magnitud implican una buena correlación o una asociación lineal entre X y Y, mientras que valores cercanos a cero indican poca o ninguna correlación.

Otra forma de medir el coeficiente de correlación muestral es:

Ecuaciones similares se obtienen cuando se intercambian X y Y.

Σ(Y - Y )2 = Σ(Y - Yest.)2 + Σ(Yest. - Y )2 Σ(Y - Y)2 variación explicada variación total r = ± = ± Σ(Yest. - Y) 2 r = 1 - S 2 Y .X S2Y

(11)

Para el caso de una correlación lineal la cantidad r es la misma, tanto si es X como Y considerada como variables independientes. Así, pues, r es una medida muy buena de la correlación lineal entre dos variables.

Las dos definiciones anteriores de r “coeficiente de correlación” son completamente generales y pueden utilizarse para relaciones no lineales, tanto como para lineales, las únicas diferencias, son que Yest. Se calcula en aquel caso, a partir de una ecuación de regresión no lineal en lugar de una ecuación de regresión lineal y los signos ± se omiten.

El coeficiente de determinación muestral r2 expresa la proporción de la variación total en los valores de la variable Y que dan razón o se pueden explicar mediante una relación lineal con los valores de la variable aleatoria X. De esta manera una correlación de 0.6 significa que 0.36, o 36%, de la variación total de los valores de Y en nuestra muestra se explican mediante una relación lineal con los valores de X.

Se debe señalar que en estudios de correlación, como en problemas de regresión lineal, los resultados que se obtienen sólo tan buenos como el modelo que se supone. En la técnica de correlación de nuestro caso se supone una densidad normal bivariada para las variables X y Y, con el valor medio de Y en cada valor x linealmente relacionado con x. Para observar la conveniencia de la suposición de linealidad, a menudo es útil una graficación preliminar de los datos experimentales. Un valor del coeficiente de correlación muestral cercano a cero resultará de datos que muestren un efecto estrictamente aleatorio, lo que implica poca o ninguna relación causal. Es importante recordar que el coeficiente de correlación entre dos variables es una medida de su relación lineal, y que un valor de r igual con cero implica una falta de linealidad y no una falta de asociación. Por ello, si existe una fuerte relación cuadrática entre X y Y, podemos aún obtener una correlación cero que indique una relación no lineal.

(12)

APLICACIÓN PRÁCTICA

En la industria de las Artes Gráficas es importante el tiempo de secado una vez que el impreso sale de la prensa Offset, ya que de la rapidez de lo anterior dependerá la agilización del proceso posterior y la eliminación de cuellos de botella innecesarios.

Durante el mes de Julio de 2005; en la empresa Surtidora Gráfica S.A. de C.V., se desarrollo un muestreo a partir de un impreso estándar en PMS con un área de impresión gráfica aproximada del 75%, ya que generalmente este impreso responde al formato común a producir. El objetivo de dicho estudio, fue determinar la relación existente entre gramaje y tiempo de secado.

Conocimiento Teórico.-

El mecanismo de secado de la tinta se refiere a la forma en que la tinta impresa húmeda se transforma en película permanente sobre la superficie de impresión.

Especificaciones del proceso Offset: Máquina.- Speed Master CD (5 colores)

Proveedor Papel.- Pochteca (Couche Brillante) Proveedor Tinta.- Sun Chemical

Ganancia de Punto.- 72% Solución de la fuente: PH.- 3.0-4.5Conductividad.- 800-1200 microhms Temperatura.- 120o_C Medida Gramaje Tiempo de Secado (Min) Medida Gramaje Tiempo de Secado (Min) Medida Gramaje Tiempo de Secado (Min) 57X87 90 13061x90 90 140 70X95 90 180 57X87 100 11061X90 100 120 70X95 100 120 57X87 115 15061X90 115 150 70X95 115 180 57X87 135 18061X90 135 145 70X95 135 210 58X88 150 16861X90 150 180 70X95 150 200 58X88 200 24061X90 200 280 70X95 200 260 58X88 250 20061X90 250 250 70X95 250 289 58X89 300 26061X90 300 280 70X95 300 320

(13)

A partir del software Statgraphics es posible definir el modelo y la correlación correspondiente de la relación entre gramaje y tiempo de secado.

Regression Analysis - Linear model: Y = a + b*X Parameter

Estímate Error P-Value

Intercept 72.8425 15.6932 0.0001

Slope 0.744722 0.0862982 0.0000

Dependent variable: Tiempo

Independen variable: Gramaje Correlation Coefficient = 0.878607 R-squared = 77.1951 %Standard

Error of Est. = 29.9319

Análisis de Resultados

A continuación se muestran los resultados apropiados del modelo lineal que se describe:

a) La ecuación del modelo establece la relación entre el Tiempo de secado y el gramaje

Tiempo = 72.8425 + 0.744722*Gramaje

b) La r-cuadrada indica estadísticamente al modelo como apto para explicar con 77.1951% la variabilidad en relación al gramaje.

DIAGRAMA DE DISPERSIÓN y = 0.7447x + 72.842 0 50 100 150 200 250 300 350 0 50 100 150 200 250 300 Gramaje T ie m p o d e s e c a d o

(14)

c) El coeficiente de correlación igual a 0.878607 indica una relación moderadamente fuerte entre las variables.

d) El error estándar de la estimación muestra la desviación estándar de 29.9319. Este valor puede ser usado para construir límites de predicción en nuevas observaciones para elaborar pronósticos.

e) El p-value muestra que efectivamente no se rechaza la hipótesis del modelo que explica la relación moderadamente fuerte del tiempo de secado con el gramaje.

Software Statgraphic

Fig. 1 Pantalla Central del Software Statgraphic.

Fig. 2 Pantalla en la que se muestran los cálculos obtenidos a partir del software.

(15)

REGRESIÓN LINEAL MÚLTIPLE

En la mayor parte de los problemas que se generan en la industria en que se aplica el análisis de regresión, se requiere más de una variable independiente en el modelo de regresión. La complejidad de la mayoría de los mecanismos científicos es tal que, con objeto de estar en condiciones de pronosticar una respuesta, se necesita un modelo de regresión múltiple..

La regresión múltiple comprende tres o más variables. Existe solo una variable dependiente, pero hay dos o más de tipo independiente. En esta operación se desarrolla una ecuación la cual se puede utilizar para predecir valore de y, respecto a valores dados de la diferencia de variables independientes adicionales a través de incrementar la capacidad predicativa sobre la de la regresión lineal simple.

Aunque hay muchos problemas en los cuales una variable puede predecirse con bastante exactitud en términos de otra, parece razonable que las predicciones deban mejorar si adicionalmente se considera información relevante.

Estimación de los coeficientes por el método de mínimos cuadrados En el caso de la regresión múltiple la ecuación se amplía y puede tener más variables independientes adicionales. Esto puede ampliarse a cualquier número (k) de variables independientes, siendo la ecuación general de regresión múltiple:

Forma general de la ecuación de regresión lineal múltiple

Y₁= a + B₁_x_1i + B₂_x_2i + . . . + B_k_x_ki₊ε_i Donde:

X

X₁₁_,_,XX_k_k son las variables independientes.

a

a es la intersección con el eje Y. Es la ordenada del punto de intersección con el eje Y.

B

B₁₁_{es la variación neta en Y por cada unidad de variación en X1 manteniendo X2} constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta, o simplemente coeficiente de regresión.

B

B_k_k_{es el cambio neto en Y para cada cambio unitario en Xk manteniendo X1 constante.} También se le conoce como coeficiente de regresión parcial, coeficiente de regresión neta, o simplemente coeficiente de regresión.

(16)

Se pueden aplicar técnicas de mínimos cuadrados similares para estimar los coeficientes cuando los modelos lineales involucran potencias y productos de las variables independientes. nbo+b1

∑

₌ n i 1X1i+b2

∑

= n i 1X2i+ . . . + bk

∑

= n i 1Xki=

∑

= n i 1Yi bo

∑

₌ n i 1X1i+b1

∑

= n i 1X1i+b2

∑

= n i 1X2i+ . . . + bk

∑

= n i 1X1XK=

∑

= n i 1XiYi bo

∑

₌ n i 1XKi+b1 i n i 1XKiX1

∑

₌ +b2 i n i 1XkiX2

∑

₌ + . . . + bk

∑

₌ n i 1X2 = Ki

∑

= n i 1XkiYi

La solución de este conjunto de ecuaciones de las estimaciones únicas produce los coeficientes b0, b1, b2,...bk.

Regresión lineal matricial

Al ajustar un modelo de regresión lineal múltiple, en particular cuando el número de variables excede de 2, el conocimiento de la teoría matricial puede facilitar las manipulaciones matemáticas. Supóngase que el experimentador tiene k variables independientes X1, X2 . . ., XK, y n observaciones y1, y2 . . ., y yn, cada una de las cuales se puede expresar por la ecuación:

Y1= a + B1 x1i + B2 x2i + . . . + Bk xki + ⌡⌡⌡⌡i

Este modelo representa n ecuaciones que describen cómo se generan los valores de respuesta. Con la notación matricial, se pueden escribir las ecuaciones.

Dada la complejidad de las matrices, de acuerdo al número de variables independientes, es conveniente resolverlas a través de un software.

                    = n y y y y . . . 2 1                     = kn n n k k X X X X X X X X X X ... 1 . . . ... 1 ... 1 2 1 2 22 12 1 21 11                       = k β β β β β . . . 2 1 0

(17)

CORRELACION MULTIPLE

El grado de relación existente entre tres o más variables se llama correlación múltiple. Los principios fundamentales implicados en los problemas de correlación múltiple son análogos a los de la correlación simple tratada con anterioridad.

Como se observó en la parte de regresión lineal múltiple, existe una ecuación de regresión para estimar una variable dependiente, a partir de variables independientes.

También, como observamos en la parte de regresión lineal múltiple, análogamente a como existen las rectas de regresión de mínimos cuadrados de aproximación a una serie de N datos puntuales (X, Y) en un diagrama de dispersión de dos dimensiones, existen los planos de regresión de mínimos cuadrados que se ajustan a una serie de N datos puntuales (X1, X2, X3) en un diagrama de dispersión de tres dimensiones.

La base del cálculo de la correlación múltiple se basa en la teoría de la regresión múltiple, ya sea por mínimos cuadrados o matricialmente, de acuerdo a nuestra parte de regresión lineal múltiple.

Planos de regresión y coeficientes de correlación

Vamos a suponer una ecuación de regresión para el caso de tres variables, como a continuación se indica:

X1 = b1.23 + b12.3 X2 + b 13.2 X3

Esta ecuación se llama ecuación de regresión lineal de X1 sobre X2 y X3; con b1.23, b12.3, y b13.2 los coeficientes de regresión parcial de acuerdo a la teoría de regresión múltiple. Como observamos, tenemos una variable dependiente X1 y dos variables independientes X2 y X3.

Tomando como referencia esta ecuación, si los coeficientes de correlación lineal entre las variables X1 y X2, X1 y X3, X2 y X3 se calculan como en la parte de correlación lineal simple y se denotan, respectivamente, por r12, r13, r23 (también llamados coeficientes de correlación de orden cero), el plano de regresión de mínimos cuadrados tiene la ecuación: donde: s1 x1 = r12 - r13r23 1 - r2₂₃ s2 x2 + r13 - r12r23 1 - r2₂₃ s3 x3

x₁ = X₁ - X₁, x₂ = X₂ - X₂, x₃ = X₃ - X₃, y s₁, s₂ y s₃ son las desviaciones típicas de X₁, X₂ y X₃, respectivamente

(18)

Error típico de la estimación

Tomando como base la teoría de la regresión lineal simple como una generalización de esta definimos al error de la siguiente manera:

donde X1 est. Indica los valores de X1 estimados en la recta de regresión.

En términos de los coeficientes de correlación r12, r13, y r23, el error típico de la estimación puede calculares por medio de:

Coeficiente de correlación múltiple

Por analogía con la teoría de correlación simple, el coeficiente de correlación múltiple queda defino por una extensión de la ecuación del coeficiente en correlación simple. En el caso, por ejemplo, de dos variables independientes, el coeficiente de correlación múltiple esta dado por:

Donde s1 es la desviación típica de la variable X1 y s1.23 se calcula de acuerdo a la fórmula vista en la parte de error típico de la estimación. La cantidad R21.23 se llama coeficiente de determinación múltiple.

Cuando se utiliza una ecuación de regresión lineal, el coeficiente de correlación múltiple se llama coeficiente de correlación múltiple lineal. A menos que se especifique de otro modo, siempre que se refiera a correlación múltiple se tratará de correlación múltiple lineal.

En términos de r12, r13, y r23, la ecuación anterior puede escribirse como:

Σ(X1 - X1 est.)2 N s_1.23 = 1 - r212 +r213 - r223 + 2r12r13r23 1 - r223 s1.23 = R_1.23 = 1 - s 2 1.23 s2₁ r212 +r213 - 2r12r13r23 1 - r223 R1.23 =

(19)

Un coeficiente de correlación múltiple, tal como R1.23, se encuentra entre 0 y 1. Cuanto más se acerque a 1 mejor es la relación lineal entre las variables. Cuanto más cerca se encuentra de cero la relación lineal es peor. Si el coeficiente de correlación múltiples 1, la correlación se dice perfecta. Aunque un coeficiente de correlación con valor 0 indica que no existe relación lineal entre las variables, es posible que exista entre ellas una relación no lineal.

(20)

APLICACIÓN PRÁCTICA

En la empresa Surtidora Gráfica S.A. de C.V. Se desea saber si se relacionan las variables de lineatura de trama de PMS con la ganancia de punto, cómo se relacionan y el grado en el que las variables se relacionan. Para tal efecto se realizo un estudio del impreso “Carta Bienvenida Bancomer” impreso en selección de color en papel couche de 120 grs. La máquina Offset proporciona las medidas de lineatura por pulgada, mientras que el densitómetro es empleado para determinar la ganancia de punto correspondiente.

En una corrida de 1000T/L se realizo a cabo el siguiente estudio con un n= 20 impresos

Conocimiento Teórico.-

La definición de ganancia de punto trata del incremento en los valores tonales del punto de trama (es decir, la superficie relativa que ocupa en la trama) que experimenta en los diversos procesos gráficos por los que atraviesa

L i n e a t u r a s N e g r o X1 L i n e a t u r a s M a g e n t a X2 L i n e a t u r a s C y a n X3 L i n e a t u r a s Y e l l o w X4 G a n a n c i a d e p u n t o Y1 % 7 5 8 5 9 0 9 5 7 . 5 9 0 8 9 1 2 8 1 5 0 2 5 9 0 8 5 8 9 9 6 7 . 5 1 6 5 1 3 5 1 4 0 1 5 0 3 0 1 0 0 9 5 1 2 0 1 0 0 2 5 1 2 5 1 6 5 1 8 5 1 0 0 3 0 1 2 8 1 5 0 1 4 0 1 1 0 2 5 1 0 0 1 2 5 2 0 0 1 6 0 3 0 1 1 0 1 3 0 2 1 0 2 1 0 3 0 1 1 5 1 2 5 1 2 8 1 3 0 2 5 1 2 0 1 9 0 2 0 0 1 6 9 3 0 1 8 0 1 6 0 1 9 0 2 0 0 3 0 2 5 0 1 8 9 2 2 0 2 0 0 4 0 1 4 0 2 0 0 2 5 0 2 8 0 4 2 2 8 0 2 5 0 2 0 0 2 4 0 4 3 3 0 0 3 2 0 2 9 0 2 6 0 4 5 3 5 0 2 9 0 2 8 0 2 9 0 4 9 3 0 0 3 2 0 3 5 0 3 0 0 5 0 3 2 0 3 5 0 3 6 0 3 2 0 5 0 3 1 0 3 5 0 3 2 0 3 1 0 5 0 L I N E A S P O R P U L G A D A

(21)

A partir del software Statgraphics es posible definir el modelo y la correlación correspondiente de la relación entre gramaje y tiempo de secado.

Regression Analysis - Linear model: Y = a + b1*X1 + b2*X2+ b3*X3 + b4*X4 Parameter

Estímate Error P-Value

CONSTANT 3.711982 3.06246 0.2433 Negro 0.0510435 0.0341314 0.1555 Magenta -0.0224212 0.0518854 0.6718 Cyan 0.0870096 0.0503742 0.1046 Yellow 0.0343141 0.0404302 0.4094 Correlation Coefficient = 0.94403 R-squared = 89.1202 %

Dependent variable: Ganancia Punto Independen variable: Lineatura de trama Error of Est. = 4.74695

Análisis de Resultados

A continuación se muestran los resultados apropiados del modelo lineal que se describe:

La ecuación del modelo establece la relación entre la ganancia de punto y las lineaturas de trama del PMS.

Ganancia Punto =3.71982+0.0510435*Negro – 0.0224212*Magenta + 0.870096*Cyan + 0.0343141*Yellow

b) La r-cuadrada indica estadísticamente al modelo como apto para explicar con 89.1202 % la variabilidad en relación al gramaje.

c) El coeficiente de correlación igual a 0.94403 indica una relación fuerte entre las variables.

d) El error estándar de la estimación muestra la desviación estándar de 4.74695. Este valor puede ser usado para construir límites de predicción en nuevos experimentos. Se observa que el margen de error es reducido.

e) El p-value muestra que efectivamente no se rechaza la hipótesis del modelo que explica la relación fuerte de la lineatura del tramado de selección de color con la ganancia de punto. A partir de lo anterior, el color magenta tiene un p-value lo cual significa que este color representa de manera efectiva la correlación existente.

(22)

CONCLUSIONES

El análisis de regresión y correlación lineal constituyen métodos que se emplean para conocer las relaciones y significación entre series de datos. Lo anterior, es de suma importancia para la industria ya que es aquí en donde se presentan variables de respuesta e independientes las cuales interactúan para originar las características de un proceso en particular y por ende; analizar, predecir valores de la variable dependiente y examinar el grado de fuerza con que se relacionan dichas variables.

La regresión lineal simple y la regresión múltiple, analiza la relación de dos o mas variables continuas, cuando analiza dos variables a esta se el conoce como variable bivariantes que pueden corresponder a variables cualitativas. La finalidad de una ecuación de regresión es la de estimar los valores de una variable con base en los valores conocidos de la otra. Del mismo modo, una ecuación de regresión explica los valores de una variable en términos de otra. Es decir, se puede intuir una relación de causa y efecto entre dos o más variables. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una.

Por otro lado, Al ajustar un modelo de regresión simple o múltiple a una nube de observaciones es importante disponer de alguna medida que permita medir la bondad del ajuste. Esto se consigue con los coeficientes de correlación. Si el modelo que se ajusta es un modelo de regresión lineal, a R se le denomina coeficiente de correlación y representa el porcentaje de variabilidad de la Y que explica el modelo de regresión.

Estas técnicas estadísticas constituyen una herramienta útil para el análisis de las variables de un proceso ya que a través de la aplicación de éstas, es posible conocer el modelo que siguen y la fuerza con que se encuentran relacionadas. Asimismo, es posible explicar la relación que guardan dos o más causas de un posible

(23)

BIBLIOGRAFÍA

1. Ronald E. Walpole y Raymond H Myers. PROBABILIDAD Y ESTADÍSTICA, Sexta Edición. 1998.

2. William Mendenhall y Dennos D. Wackerly. ESTADÍSTICA MATEMÁTICA CON APLICACIONES, Segunda Edición. 1994 Editorial Iberoamericana.

3. Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2005), CONTROL ESTADÍSTICO DE CALIDAD Y SEIS SIGMA, Primera Edición. 2005 Editorial McGraw-Hill, México.

4. Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2003), DISEÑO Y ANÁLISIS DE EXPERIMENTOS, McGraw-Hill, México.