• No se han encontrado resultados

IMT2200 INTRODUCCIÓN A CIENCIA DE DATOS REGRESIÓN LINEAL CLASE 18

N/A
N/A
Protected

Academic year: 2021

Share "IMT2200 INTRODUCCIÓN A CIENCIA DE DATOS REGRESIÓN LINEAL CLASE 18"

Copied!
13
0
0

Texto completo

(1)

REGRESIÓN LINEAL

CLASE 18

IMT2200 INTRODUCCIÓN A CIENCIA DE DATOS 2021-2

(2)

REGRESIÓN LINEAL

Regresión lineal: modelo estadístico basado en la idea de que la relación entre dos variables puede explicarse mediante la fórmula

𝒚 = 𝜷𝒙 + 𝜺, donde

• 𝑦: variable dependiente

• 𝑥: variable independiente o predictora

• 𝛽: coeficientes de la regresión

• 𝜀 = +𝑦 − 𝛽𝑥: error, o diferencia entre valor predicho y valor real.

• Inferencia è la regresión lineal permite entender mejor las relaciones entre variables, y qué variable predictora es capaz de predecir una proporción importante de los cambios en la variable dependiente. Por ahora, no buscamos predecir y .

• Correlación èç causalidad: el que se detecte una correlación entre dos variables, no implica

que haya una relación causal.

(3)

REGRESIÓN LINEAL SIMPLE

!𝑦 = $𝛽

!

+ $𝛽

"

𝑥

𝜀 = |𝑦 − !𝑦|

Error cuadrático medio:

Estimación de coeficientes de la regresión:

Si asumimos un modelo lineal para dos

variables (x,y), entonces éstas cumplen

las ecuaciones:

(4)

REGRESIÓN LINEAL SIMPLE

!𝑦 = $𝛽

!

+ $𝛽

"

𝑥

𝜀 = |𝑦 − !𝑦|

¿Qué representan los coeficientes 𝜷?

• 𝑥: variable independiente o predictora

• 𝑦: variable dependiente o respuesta

• 𝛽

!

: intercepto

• 𝛽

"

: pendiente, representa el cambio

en 𝑦 para un cambio unitario en 𝑥

¿Qué tan bueno es el ajuste del modelo lineal?

• MSE: mean squared error è se minimiza

• R

2

: coeficiente de correlación, indica la fracción de la variación en 𝑦 que queda explicada por la variación en 𝑥.

R

2

=

1

è ajuste perfecto

R

2

=

0

è ajuste ~ promedio de 𝑦

+𝑦

(5)

REGRESIÓN LINEAL MÚLTIPLE

¿Qué representan los coeficientes 𝜷?

• 𝑥: variable independiente o predictora

• 𝑦: variable dependiente o respuesta

• 𝛽: contribución de cada variable 𝑥 al cambio en 𝑦

¿Qué tan bueno es el ajuste del modelo lineal? è hay varias métricas

• MSE: mean squared error

• RMSE: root-mean squared error

• R

2

: coeficiente de correlación, indica la fracción de la

variación en 𝑦 que queda explicada por la variación en 𝑥.

(6)

ALGORITMOS DE ML

(7)

ALGORITMOS

Tipos de algoritmos en Ciencia de Datos:

❖ Algoritmos de preparación y procesamiento de datos (ing. de datos)

• Ej: sorting, MapReduce, Pregel

❖ Algoritmos de optimización para estimación de parámetros

• Ej: descenso de gradiente, Newton, mínimos cuadrados

❖ Algoritmos de aprendizaje de máquina: para predecir, clasificar, o clusterizar.

❖ Para una tarea dada, pueden proponerse múltiples algoritmos posibles

• Hay un que puede identificarse como “mejor”, en base a métricas de eficiencia y tiempo computacional.

❖ Desafíos:

❖ Comprender qué tipo de algoritmo usar dependiendo del contexto del problema y las suposiciones de base.

❖ Implementarlo

Procedimiento, o conjunto de pasos o reglas para lograr una tarea

(ordenar, buscar, clasificar, etc.)

(8)

MACHINE LEARNING: TAREAS COMUNES

Regresión: predicción de un valor real para cada ítem

❖ Clasificación: asignación de una categoría a cada ítem de un conjunto

❖ Clustering: particionar un set de ítems en subconjuntos homogéneos

Ranking: aprender a ordenar ítems de acuerdo a algún criterio

• Ej: buscadores web

❖ Reducción de dimensionalidad: transformar una representación de ítems en una representación con menos dimensiones, pero preservando algunas propiedades de la representación inicial.

• Ej: preprocesamiento de imágenes digitales para tareas de visión de computador (computer

vision)

(9)

Aprendizaje Supervisado

Métodos de Regresión

(10)

Predictores y Outcomes

Ejemplo:

Predecir el consumo de combustible de un auto a partir de sus características de diseño.

variables usadas para la predicción predictores

variable independiente covariates

𝑋 = 𝑋!, … , 𝑋"

𝑋# = 𝑥!#, … , 𝑥$#, … , 𝑥%#

variable a predecir outcome variable dependiente Respuesta 𝑌 = 𝑦!, … , 𝑦%

n observaciones i=1,2,…n

p predictores

j=1,2,…,p 𝑋!

(11)

Predictores y Outcomes

v Para predecir 𝑌, asumimos que se relaciona con 𝑋 mediante una función desconocida 𝑓 :

v Problema de inferencia ⇒ encontrar 2 𝑓 , la estimación de 𝑓

v Problema de predicción ⇒ predecir el valor de 𝑌 para distintos sets de observaciones 𝑥

0,"

, … , 𝑥

0,1

.

v

No nos interesa la forma de 𝑓, sino sólo las predicciones +𝑦

0

: +𝑦

0

= 6𝑓(𝑥

0,"

, … , 𝑥

0,1

).

𝑌 = 𝑓 𝑋 + 𝜀

(12)

Regresión k-Nearest Neighbors (kNN)

❖ Una forma simple de predecir una respuesta cuantitativa para una observación:

usamos el promedio de las respuestas a otras observaciones más cercanas a ella è los k- nearest neighbors

ˆ

y

n

= 1 k

X

k i=1

y

ni

Donde 𝑥!", … , 𝑥!# son las k observaciones más similares

(cercanas) a 𝑥$

(13)

Resumen de Algoritmos de ML

Aprendizaje Tarea Algoritmo Métrica Parámetros

Supervisado Regresión Regresión kNN Regresión lineal

RMSE R2

k(nº de vecinos)

Clasificación Regresión logística Clasificación kNN

Accuracy Recall Precision F-score

k(nº de vecinos)

No supervisado Clustering k-means Aglomerativo

SSE (inercia) k(nº de clusters)

Reducción de dimensionalidad

PCA Varianza

explicada

Nº de componentes

Referencias

Documento similar

Éstos son fuertes predictores de la presencia de alteraciones de la salud en los niños que han vivido la ruptura de los progenitores (Overbeek et al., 2006). En este

• Ejemplo: Con los datos del ejemplo anterior determina la recta de regresión de Test sobre Edad, el coeficiente de correlación lineal de Pearson y. Coeficiente

También comprobamos la influencia que en los resultados de la regresión tiene la introducción de otras variables que se emplean frecuentemente para explicar como varían

Se realizó una regresión lineal para determinar la relación causa-efecto entre las dos variables de carga neuromuscular Player Load y AcelT en función de la ubicación

Se llega así a una doctrina de la autonomía en el ejercicio de los derechos que es, en mi opinión, cuanto menos paradójica: el paternalismo sería siempre una discriminación cuando

El análisis de Regresión es una técnica estadística que estudia la naturaleza de las relaciones entre un conjunto de variables con el objetivo de hacer predicciones; tra-

En el estudio de regresión lineal por pasos se intenta calcular una ecuación predictiva tomando como variable independiente las variables de crecimiento

Estos planes de recolo- cación deben garantizar a las personas despedi- das un servicio continuado durante un periodo mínimo de seis meses que incluya medidas de formación