CROSS VALIDATION CLASIFICACIÓN

(1)

CROSS VALIDATION CLASIFICACIÓN

CLASE 23

IMT2200 INTRODUCCIÓN A CIENCIA DE DATOS 2021-2

(2)

15:10

ALGORITMOS DE REGRESIÓN

Modelo de

regresión Función Función de pérdida Hiper-

parámetro

kNN No hay

ℒ = 1 𝑛%

!"#

$

𝑦_! − (𝑦_! ² k

Lineal 𝑌 = 𝛽_&+ 𝛽_#𝑋

ℒ 𝛽 =1 𝑛%

!"#

$

𝑦_!− (𝑦_! ² =1 𝑛%

!"#

$

|𝑦_! − 𝛽^T𝑋𝑖|² Multilineal 𝑌 = 𝛽_&+ 𝛽_#𝑋_#+ ⋯ + 𝛽₍𝑋₍

Polinomial 𝑌 = 𝛽_& + 𝛽_#𝑋 + 𝛽₎𝑋⁾ + ⋯ + 𝛽_*𝑋^* M

Lasso Y = 𝛽𝑋 𝐿𝐿𝐴𝑆𝑆𝑂 𝛽 = ^#_$∑_!"#^$ 𝑦_!− 𝛽^T𝑋𝑖 ²+α ∑_/"#^* |𝛽_/| α Ridge Y = 𝛽𝑋 𝐿𝑅𝑖𝑑𝑔𝑒 𝛽 = ^#_$∑_!"#^$ |𝑦_! − 𝛽^T𝑋𝑖|2+α ∑_/"#^* 𝛽_/² α

Para un conjunto de datos dado, ¿qué modelo elegimos?

(3)

15:10

SELECCIÓN DE MODELOS

• Método para determinar la complejidad del modelo a utilizar, y/o el valor óptimo de los hiperparámetros

• El objetivo es seleccionar el modelo con mejor capacidad de generalización, es decir, de entregar predicciones correctas para nuevos datos.

• Para ello, se evalúa alguna métrica de rendimiento (MSE, R², etc.) de los posibles modelos, y se elige aquél que optimiza la métrica para los datos de prueba:

Modelo 1

Modelo 2

Modelo n 𝒟_!"#$%

𝒟_!&'!

train

MSE₁

test evaluación

𝒟_!&'! MSE₂

𝒟_!&'! MSE₃

Min(MSE)

.. . .. . .. .

Hiper-parámetros / features

(4)

15:10

SELECCIÓN DE MODELOS: GRID SEARCH

• Método para determinar la complejidad del modelo a utilizar, y/o el valor óptimo de los hiperparámetros

• El objetivo es seleccionar el modelo con mejor capacidad de generalización, es decir, de entregar predicciones correctas para nuevos datos.

• Para ello, se evalúa alguna métrica de rendimiento (MSE, R², etc.) de los posibles modelos, y se elige aquél que optimiza la métrica para los datos de prueba:

Modelo 1

Modelo 2

Modelo n 𝒟_!"#$%

𝒟_!&'!

train

MSE₁

test evaluación

𝒟_!&'! MSE₂

𝒟_!&'! MSE₃

Min(MSE)

.. . .. . .. .

Hiper-parámetros / features

(5)

15:10

VALIDACIÓN CRUZADA (CROSS VALIDATION, CV)

• Por otra parte, usar una única validación para seleccionar un modelo puede ser

problemático, ya que dependiendo de la partición de datos de entrenamiento / prueba, podemos llegar a distintos resultados.

• Ejemplo: ^{𝑌 = 𝛽}⁽ ^{+ 𝛽}⁾^{𝑋 + 𝛽}^*^𝑋^*^{+ ⋯ + 𝛽}⁺^𝑋⁺

(6)

15:10

VALIDACIÓN CRUZADA (CROSS VALIDATION, CV)

k-fold cross validation:

• Los datos se dividen en k subconjuntos o

“folds”(k~5-10).

• Para cada iteración:

• Se entrena un modelo utilizando un fold como 𝒟_!"#$%, y los otros como

𝒟_!&'!.

• Se evalúa la precisión de la predicción para 𝒟_!&'!.

• Finalmente, se calcula la precisión promediopara todas las iteraciones .

Validación cruzada èmétodo estadístico para evaluar la generalización de un modelo de manera más estable que usando un conjunto de datos de entrenamiento/prueba.

(7)

15:10

GRID-SEARCH CROSS-VALIDATION (GridSearchCV)

𝒟_!"#$% ^𝒟5675

𝒟_589:; 𝒟₅₆₇₅

𝒟_589:; 𝒟₅₆₇₅ 𝒟₅₆₇₅ 𝒟_589:;

Modelo 1

Modelo 2

Modelo n

Min(MSE)

MSE¹₁

MSE²1 MSE₁ = 1 5-

,-.

/

MSE^𝑘₁

MSE⁵₁

..

MSE¹2

MSE²₂ MSE₂ = 1 5-

,-.

/

MSE^𝑘₂

MSE

..

⁵₂

MSE¹_n

MSE²_n MSE_n = 1 5 -

,-.

/

MSE^𝑘_𝑛

MSE⁵_n

..

Selección del mejor modelo Precisión promedio para

cada modelo

.. .

(8)

Aprendizaje Supervisado Métodos de Clasificación

Clasificación kNN

(9)

15:10

CLASIFICACIÓN kNN

kNN para regresión èusamos como predictores, las observaciones disponibles (x,y) más similares a la observación (x) que queremos predecir.

!𝑦

₇

= 1 𝑘 &

89:

;

𝑦

₇_'

𝑦

₇_'

son los k vecinos más cercanos a

(𝑥𝑖, 𝑦

₇

)

(10)

15:10

CLASIFICACIÓN kNN

kNN para regresión èusamos como predictores, las observaciones disponibles (x,y) más similares a la observación (x) que queremos predecir.

!𝑦

₇

= 1 𝑘 &

89:

;

𝑦

₇_'

𝑦

₇_'

son los k vecinos más cercanos a

(𝑥𝑖, 𝑦

₇

)

(11)

15:10

CLASIFICACIÓN kNN

kNN para clasificación èclasificamos una observación específica, en base a las categorías de sus vecinos más cercanos.

Para un dato 𝑥₀ :

1. Se calcula la distancia a todos los demás puntos 𝒙₁:

𝐷² 𝒙₁, 𝒙₀ = -

3-.

4

𝑥_1,3 − 𝑥_0,3 ²

2. Se identifican los k puntos del dataset de entrenamiento más cercanos a 𝑥₀ è 𝒩₀

𝒩₍

(12)

15:10

CLASIFICACIÓN kNN

kNN para clasificación èclasificamos una observación específica, en base a las categorías de sus vecinos más cercanos.

𝒩₍

3. Se estima la probabilidad condicional de la clase 𝑗, como la fracción de puntos en 𝒩₀ cuya

respuestas son 𝑗

4. Se aplica la regla de Bayes y se clasifica la

observación de prueba 𝑥₀ a la clase con la mayor probabilidad estimada.

𝑃 𝑌 = 𝑗 𝑋 = 𝑥₀ = 1

𝑘 -

1∈𝒩_,

𝐼(𝑦₁ = 𝑗)

𝑘 = 3: para

𝑃(𝑌 = 𝐴|𝑋₁, 𝑋₂) = ⁾_-,𝑃 𝑌 = 𝐵 𝑋_1,𝑋₂ =^*_- è 𝑌 = 𝐵

(13)

15:10

CLASIFICACIÓN kNN: NORMALIZACIÓN

Si hay múltiples predictores: se define una medida de distancia multidimensional para identificar las observaciones más similares o “vecinos”.

• Distancia euclideana: 𝐷 𝒙₁, 𝒙₀ = ∑_3-.⁴ 𝑥_1,3 − 𝑥_0,3 ²

• Si los predictores tienen diferentes escalas y variabilidad è se introducen efectos de escala en la medición de distancia.

• Por lo tanto, para 𝑝 > 1, es necesario estandarizar los predictores.

• Normalización z:se resta la media, y se divide por la desviación estándar.

𝑥_89:;<= = 𝑥 − 𝜇 𝜎

(14)

15:10

CLASIFICACIÓN kNN: NORMALIZACIÓN

Ejemplo: Predicción de comportamiento de compra de clientes de una RS en base a su edad e ingresos.

Datos normalizados

(15)

15:10

CLASIFICACIÓN kNN: Ejemplo

Purchased=0 (Negative) Purchased=1 (Positive)

(16)

15:10

CLASIFICACIÓN: EVALUACIÓN DEL MODELO

Matriz de confusión: es usada para evaluar los resultados de la clasificación

• 𝑪_𝒊,𝒋: número de observaciones que se sabe están en el grupo 𝑖, y son clasificadas en el grupo 𝑗

Real

0

𝑪_𝟎,𝟎 Verdaderos

negativos (TN)

𝑪_𝟎,𝟏

Falso positivo (FP)

1

𝑪_𝟏,𝟎

Falso negativo (FN)

𝑪_𝟏,𝟏 Verdaderos

positivos (TP)

0 1

Predicción

Accuracy/ Exactitud: fracción de aciertos (en el dataset de prueba)

accuracy = 𝑡𝑝 + 𝑡𝑛

𝑡𝑝 + 𝑓𝑝 + 𝑡𝑛 + 𝑓𝑛 Precision/Precisión:capacidad de no clasificar como “positivo” un negativo

precision = 𝑡𝑝 𝑡𝑝 + 𝑓𝑝

(17)

15:10

Matriz de confusión: es usada para evaluar los resultados de la clasificación

• 𝑪_𝒊,𝒋: número de observaciones que se sabe están en el grupo 𝑖, y son clasificadas en el grupo 𝑗

CLASIFICACIÓN: EVALUACIÓN DEL MODELO

Recall / Sensibilidad: capacidad del clasificador de identificar todos los “positivos”

recall = 𝑡𝑝 𝑡𝑝 + 𝑓𝑛

F-score: promedio ponderado de precisión y recall

𝐹 = 2 ∗ B"&C$'$D%∗"&C#FF B"&C$'$D%G"&C#FF

Real

0

𝑪_𝟎,𝟎 Verdaderos

negativos (TN)

𝑪_𝟎,𝟏

Falso positivo (FP)

1

𝑪_𝟏,𝟎

Falso negativo (FN)

𝑪_𝟏,𝟏 Verdaderos

positivos (TP)

0 1

Predicción

(18)

15:10

CLASIFICACIÓN kNN: Ejemplo

Purchased=0 (Negative) Purchased=1 (Positive)