• No se han encontrado resultados

Etiquetamiento de jets de radiación de estado inicial con redes neuronales

N/A
N/A
Protected

Academic year: 2020

Share "Etiquetamiento de jets de radiación de estado inicial con redes neuronales"

Copied!
81
0
0

Texto completo

(1)

Etiquetamiento de jets de radiaci´

on de

estado inicial con redes neuronales

Jes´

us Alberto Solano Gomez

Universidad de los Andes

Facultad de Ciencias, Departamento de F´ısica Bogot´a, Colombia

(2)
(3)

Etiquetamiento de jets de radiaci´

on de

estado inicial con redes neuronales

Jes´

us Alberto Solano Gomez

Tesis presentada como requisito parcial para optar al t´ıtulo de: F´ısico

Director:

Ph.D. Carlos ´Avila Bernal

Grupo de Investigaci´on: Grupo de altas energ´ıas experimental

Universidad de los Andes

Facultad de Ciencias, Departamento de F´ısica Bogot´a, Colombia

(4)
(5)

i

Resumen

Una de las preguntas m´as importantes en las investigaciones actuales de se˜nales SUSY es si la escala de la f´ısica mas all´a del modelo est´andar est´a dentro del rango de las energ´ıas de colisi´on actuales del LHC. Hasta el momento las b´usquedas experimentales de se˜nales SUSY han sido infructuosas y una de las posibles alternativas en los experimentos actuales es estudiar el squark m´as liviano, es decir, el stop ˜t. La presente investigaci´on se concentra en el estudio y etiquetamiento de jets de radiaci´on de estado inicial(ISR) en la producci´on de pares de stops que decaen en dos cuerpos ˜t→tχ0

1. En especial se realizan an´alisis sobre

eventos enriquecidos con un jet de ISR donde se espera que el evento haya sido empujado por la emisi´on de un jet de ISR. Tal empuje provoca un incremento de la energ´ıa transversa faltante y podria facilitar la discriminaci´on entre las se˜nales de sTops con respecto a los

backgrounds provenientes del modelo est´andar. Como resultado, se pretende desarrollar una herramienta computacional basada enmachine learning para la identificaci´on de jets de ISR en un evento de producci´on de pares quark Top - AntiTop. Para ello se utiliza el m´etodo de circuitos neuronales en el paradigma de aprendizaje supervisado y se muestran resultados de clasificaci´on de jets de ISR con la red neuronal para eventos de producci´on t¯ty ˜tt˜?.

Abstract

The current searches for SUSY evidence have not been successful yet. One possibility is to search for the lightest squark, the stop ˜t. A common scenario is the analysis of events which have been boosted by the emission of an initial state radiation(ISR) jet. Particularly, we focus on the signal process in which a pair of stops are produced in association with an ISR jet. The boost generated by hard ISR jets could help in the search for SUSY because it increases the transverse missing energyE/T. In this project, we develop a computational tool that uses machine learning techniques to tag ISR jets in stop pair production (˜t˜t?). To achieve an efficient tag, we propose the use of neural networks with supervised learning. Finally, we show results of tagging of ISR jets with the neural network tool for events fromt¯tand ˜t˜t?.

(6)
(7)

´Indice general

´Indice general III

´Indice de figuras V

´Indice de cuadros VIII

1 Introducci´on 1

2 B´usquedas de SUSY 5

2.1. Introducci´on . . . 5

2.2. B´usquedas de sTops en el LHC . . . 6

2.3. Espectros comprimidos . . . 8

3 Radiaci´on de estado Inicial 11 3.1. Producci´on de Jets . . . 11

3.2. Radiaci´on de Estado Inicial . . . 13

3.3. Evento empujado por jet de ISR . . . 15

3.4. Etiquetamiento de jets de ISR en la b´usqueda de sTops . . . 16

4 Redes Neuronales 19 4.1. Introducci´on . . . 19

Definici´on . . . 19

Partes de una red Neuronal . . . 19

Tipos de Arquitectura de la red neuronal . . . 21

Redes de propagaci´on hacia adelante . . . 21

Redes Recurrentes . . . 21

Procesos de aprendizaje . . . 22

Aprendizaje Supervisado . . . 22

Aprendizaje No Supervisado . . . 23

4.2. Redes Neuronales Monocapa . . . 23

Discriminadores Lineales . . . 23

T´ecnicas con M´ınimos Cuadrados . . . 24

Descenso de gradiente . . . 25

El Perceptron . . . 26

(8)

Descripci´on . . . 26

Teorema de Convergencia del perceptr´on . . . 27

Limitaciones . . . 27

4.3. Redes Multicapa - MultiLayer Perceptr´on . . . 27

Definici´on . . . 27

T´ecnicas de Aprendizaje . . . 29

Algoritmo de aprendizaje Back Propagation . . . 29

5 An´alisis Computacional 35 5.1. Implementaci´on de redes neuronales en ROOT . . . 35

5.2. Preparaci´on de datos . . . 36

Generaci´on de los datos . . . 36

MadGraph . . . 36

Pythia . . . 37

Delphes . . . 37

Etiquetamiento de ISR . . . 37

Ingreso de los datos a la red neuronal . . . 37

5.3. Variables de entrenamiento . . . 38

Pseudorapidezη . . . 38

´ Angulo azimutalφ . . . 38

Deltaη . . . 38

Deltaφ . . . 39

Momento Transversal . . . 40

CocienteRM i . . . 41

Deltaη promedio . . . 42

Deltaφpromedio . . . 42

DeltaPT promedio . . . 42

DeltaR promedio . . . 43

DeltaR−PT promedio . . . 44

B-Tag del jet . . . 44

5.4. Construcci´on Red Neuronal . . . 45

M´etodo de Entrenamiento . . . 46

Neuronas en las capas ocultas . . . 46

Estructura Final . . . 47

6 Resultados y Conclusiones 49 6.1. An´alisis del canal de modelo est´andar . . . 50

6.2. An´alisis del canal de SUSY . . . 55

Se˜nal SUSY m˜t= 400GeV ,mχ01 = 235GeV . . . 56

Se˜nal SUSY m˜t= 200GeV ,mχ0 1 = 20GeV . . . 59

6.3. Comparaci´on con otras herramientas de clasificaci´on . . . 62

M´etodos probabilisticos de identificaci´on de jets de ISR . . . 62

6.4. Conclusiones . . . 64

(9)

´Indice de figuras v

Bibliograf´ıa 67

´Indice de figuras

2.1. Resumen de las b´usquedas directas de la producci´on de pares de stop por parte de la colaboraci´on ATLAS durante la corrida uno. Las lineas punteadas representan los limites de exclusi´on esperados mientras que las lineas solidas representan los limites observados. En la figura, se muestran resultados para posibles decaimientos del stop en dos,tres y cuatros cuerpos. Imagen tomada de [1] . . . 6 2.2. Diagrama con los posibles decaimientos del stop en el plano generado por la masa

del stop y del neutralino. Figura tomada de [1]. . . 7 2.3. Diagramas de Feynman para lo producci´on de pares t¯ty ˜t˜t∗. . . 9

3.1. Diagramas de Feynman para las interacciones fundamentales de QCD. Arriba Izquierda: Emisi´on de un glu´on. Arriba Derecha: Emisi´on de un glu´on. Abajo Izquierda:Acoplamiento de tres gluones. Abajo Derecha: Acoplamiento de cuatro gluones. Imagen tomada de [2]. . . 12 3.2. Esquema del proceso de hadronizaci´on de los quarks y gluones en hadrones con

carga de color neutra. Imagen tomada de [2]. . . 13 3.3. Dibujo esquem´atico de un evento t¯t con multiples jets. Imagen tomada de [2]. . 14 3.4. Diagramas representativos del empuje de los jets en el estado final debido a la

emisi´on de un jet de ISR. . . 15 3.5. Diagrama ilustrativo de la concentraci´on de energ´ıa transversa faltante cuando el

evento es empujado por un jet de ISR de alto momento. . . 16

4.1. Esquema de una neurona en un circuito neuronal. Imagen tomada de [3] . . . 20 4.2. Representaci´on gr´afica de algunas funciones de activaci´on. De izquierda a derecha

se puede encontrar la funci´on de activaci´on umbral, la log´ıstica y la tangente hiperb´olica. Imagen tomada de [4]. . . 21 4.3. Esquema de una red neuronal con propagaci´on hacia adelante con una capa oculta.

Imagen tomada de [3]. . . 22 4.4. Esquema de una red neuronal recurrente con capas ocultas. Imagen tomada de [3]. 23 4.5. Representaci´on de multiples funciones discriminante linealesy~k en una red

neuro-nal con cneuronas de salida. Imagen tomada de [5] . . . 24 4.6. Representaci´on gr´afica de las fronteras de decisi´on para diferentes patrones de

datos. a) Separable linealmente. b) Linealmente Inseparable. c) Clasificaci´on se-parable no-linealmente en el espacio 2-dimensional.[4] . . . 25

(10)

vi ´Indice de figuras

4.7. Esquema del perceptr´on b´asico con una sola neurona de salida. En ella xi son las entradas a la red neuronal, wi los pesos asociados a cada entrada;y la salida de la red neuronal. Imagen tomada de [3] . . . 26 4.8. Arquitectura gr´afica de un perceptr´on multicapa con dos capas ocultas. [3] . . . 28 4.9. Figura que muestra el flujo de se˜nales dentro de la red neuronal. Propagaci´on

hacia adelante de la se˜nal de entrada y propagaci´on hacia atr´as de los errores. [3] 29

5.1. Histograma normalizado de la variable η para los jets del canal del background

p p → t¯tsemileptonico. En rojo la distribuci´on obtenida para los jets de ISR y en azul para otros jets. . . 39 5.2. Histograma normalizado de la variable φ para los jets del canal del background

p p → t¯tsemileptonico. En rojo la distribuci´on obtenida para los jets de ISR y en azul para otros jets. . . 39 5.3. Histograma normalizado de la variable ∆η para los jets del canal del background

p p → t¯tsemileptonico. En rojo la distribuci´on obtenida para los jets de ISR y en azul para otros jets. . . 40 5.4. Histograma normalizado de la variable ∆φ para los jets del canal el canal del

background p p → t¯t semileptonico. En rojo la distribuci´on obtenida para los jets de ISR y en azul para otros jets. . . 40 5.5. Histograma normalizado del momento transversal para los jets del canal del

back-ground p p → t¯tsemileptonico. En rojo la distribuci´on obtenida para los jets de ISR y en azul para otros jets. . . 41 5.6. Histograma normalizado de la variable E/T

Pti para los jets del canal del background

p p → t¯tsemileptonico. En rojo la distribuci´on obtenida para los jets de ISR y en azul para otros jets. . . 41 5.7. Histograma de la variable ∆η para el canal del background p p → t¯t

semilep-tonico. En rojo la distribuci´on obtenida para los jets de ISR y en azul para otros jets. . . 42 5.8. Histograma normalizado de la variable ∆φpara los jets del canal del background

p p → t¯tsemileptonico. En rojo la distribuci´on obtenida para los jets de ISR y en azul para otros jets. . . 43 5.9. Histograma normalizado de la variable ∆PT para los jets del canal del background

p p → t¯tsemileptonico. En rojo la distribuci´on obtenida para los jets de ISR y en azul para otros jets. . . 43 5.10. Histograma de la variable ∆R para los jets del canal del background p p → t¯t

semileptonico. En rojo la distribuci´on obtenida para los jets de ISR y en azul para otros jets. . . 44 5.11. Histograma de la variable ∆RPt para los jets del canal del backgroundp p → t¯t

semileptonico. En rojo la distribuci´on obtenida para los jets de ISR y en azul para otros jets. . . 45 5.12. Histograma que representa la asociaci´on del jet a un quark b para los jets del

canal del background p p → t¯t semileptonico. En rojo la distribuci´on obtenida para los jets de ISR y en azul para otros jets. . . 45 5.13. Representaci´on gr´afica de la estructura de red neuronal utilizada en el algoritmo

(11)

6.1. Diagrama de Feynman para la producci´on de pares t¯t que corresponde al back-ground para la producci´on de pares ˜tt˜∗. . . . 50 6.2. Histograma con los resultados obtenidos al evaluar un conjunto de jets

asocia-dos al canal semilept´onico de producci´on de pares tt¯para la neurona de sali-da(Discriminador de ISR). Para observar la separaci´on dada por la red neuronal se grafican en rojo los jets de ISR y en azul los otros jets. . . 51

6.3. Eficiencia de la red neuronal para como funci´on del threshold m´ınimo exigido al discriminador de la red para el canal SM semilept´onico. En la gr´afica, se muestran el porcentaje de eventos en los que hubotags,misstags yrejected. . . 52

6.4. Eficiencia de la red neuronal para diferentesthreshold m´ınimos exigidos al discri-minador de la red cuando se analiza una muestra de datos que presenta un corte en HT >400GeV yPTLeading >200GeV. . . 53 6.5. Eficiencia de la red neuronal para diferentesthreshold m´ınimos exigidos al

discri-minador de la red cuando se analiza una muestra de datos que presenta un corte en HT >500GeV yPTLeading >300GeV. . . 54 6.6. Histograma con los resultados obtenidos al evaluar un conjunto de jets asociados

al canal semilept´onico de producci´on de pares t¯t, con un corte de HT >500GeV y PTLeading > 300GeV, para la neurona de salida(Discriminador de ISR). Para observar la separaci´on dada por la red neuronal se grafican en rojo los jets de ISR y en azul los otros jets. . . 55

6.7. Diagrama de Feynman para la producci´on de pares ˜t˜¯t. . . 56 6.8. Histograma con los resultados obtenidos al evaluar al evaluar un conjunto de jets

asociados al canal SUSY para la neurona de salida(Discriminador de ISR). Para observar la separaci´on dada por la red neuronal se grafican en rojo los jets de ISR y en azul los otros jets. . . 57

6.9. Eficiencia de la red neuronal para como funci´on del threshold m´ınimo exigido al discriminador de la red neuronal para el canal SUSY de mt˜= 400GeV , mχ0

1 = 235GeV. En la gr´afica, se muestran el porcentaje de eventos en los que hubotags, misstags yrejected. . . 57

6.10. Eficiencia de la red neuronal como funci´on del threshold m´ınimo exigido al discri-minador de la red neuronal para el canal SUSY dem˜t= 400GeV ,mχ0

1 = 235GeV con un corte en HT >400GeV yPTLeading >200GeV. En la gr´afica, se muestran el porcentaje de eventos en los que hubotags,misstags yrejected.. . . 58

6.11. Histograma con los resultados obtenidos al evaluar al evaluar un conjunto de jets asociados al canal SUSY para la neurona de salida(Discriminador de ISR). Para observar la separaci´on dada por la red neuronal se grafican en rojo los jets de ISR y en azul los otros jets. . . 60

6.12. Eficiencia de la red neuronal para diferentesthreshold m´ınimos exigidos al discri-minador de la red. En la gr´afica, los clasificados con seguridad corresponden a los eventos donde el jet con m´aximo discriminador superoα; los clasificados correcta-mente es la porci´on de aquellos clasificados con seguridad que fueron clasificados correctamente por la red neuronal. . . 61

(12)

viii ´Indice de cuadros

6.13. Eficiencia de la red neuronal para como funci´on del threshold m´ınimo exigido al discriminador de la red neuronal para el canal SUSY de mt˜= 200GeV , mχ0

1 = 20GeV. En la gr´afica, se muestran el porcentaje de eventos en los que hubotags, misstags yrejected. . . 62

´Indice de cuadros

5.1. Resultados num´ericos de los criterios de evaluaci´on para la elecci´on del m´etodo de entrenamiento de la red neuronal. . . 46 5.2. Resultados num´ericos de los criterios de evaluaci´on asociados al n´umero de

neu-ronas presentes en cada una de las capas ocultas de la red neuronal. . . 47

6.1. Resumen de porcentajes detags,misstags yrejected para tres cortes diferentes de

HT yPTLeading para el canal de SM semilept´onico. . . 54 6.2. Resumen de porcentajes detags,misstags yrejected para dos cortes diferentes de

HT yPTLead. para el canal de SUSY conm˜t= 400GeV ,mχ0

1 = 235GeV. . . 59 6.3. Resumen de porcentajes detags,misstags yrejected para dos cortes diferentes de

HT yPTLeading para el canal de SUSY con m˜t= 200GeV,mχ0

1 = 20GeV. . . 61 6.4. Comparaci´on de lostags ymisstags m´aximos y m´ınimos, para ambas

herramien-tas, cuando estas analizan el canal SM con un corte deP T >200GeV. . . 63 6.5. Comparaci´on de lostags ymisstags m´aximos y m´ınimos, para ambas

(13)

Introducci ´

on

1

Despu´es del descubrimiento del bos´on de Higgs, en el gran colisionador de hadrones (LHC), una de las preguntas de gran influencia en los experimentos actuales es si la es-cala de la f´ısica mas all´a del modelo est´andar est´a dentro del rango de energ´ıas de colisi´on actuales del LHC. Al referirse a f´ısica mas all´a del modelo est´andar, uno de los planteamientos mas s´olidos y elaborados es la teoria de la supersim´etria (SUSY). La Supersimetr´ıa(SUSY) es una teor´ıa de f´ısica mas all´a del modelo est´andar que resuelve naturalmente el problema de la jerarqu´ıa y establece un candidato para la materia oscura en el universo[6]. Desde hace algunos a˜nos varios experimentos han concentrado su investigaci´on en la b´usqueda de eviden-cia experimental de las part´ıculas supersim´etricas. Sin embargo, durante la primera corrida del LHC las b´usquedas fueron infructuosas y no fue posible hallar evidencia de se˜nal SUSY en los canales buscados. Lo que s´ı se logro con los datos de la corrida uno fue determinar regiones de exclusi´on con cotas m´ınimas para las masas de los compa˜neros supersim´etricos de los quarks del modelo est´andar(SM). En estas cotas, se excluyen, por lo menos con la energ´ıa de centro de masa actual, la posibilidad de encontrar squarks en los experimentos del LHC a excepci´on de los squarks asociados a los quarks de tercera generaci´on byt, que son los mas livianos.

Se espera que los squarks de tercera generaci´on tengan una masa por debajo de 1 TeV por lo que es posible encontrar su evidencia en los experimentos realizados a 13 TeV en la segunda corrida del LHC. En el presente estudio se hace ´enfasis en la b´usqueda de stops(˜t) en escenarios donde la masa del top(t), la masa del stop(˜t) y la masa del neutralinoχ10 est´en cercanas a la linea de compresi´on del topm˜t−mχ˜0

1 =mt. En particular, se busca profundizar en estudios para escenarios en los cuales la masa del stop sea cercana la del stop, dando lugar a que los neutralinos tengan poca masa. Los modelos de SUSY que predicen que la masa de los neutralinos sea muy baja (unos pocos GeV) se conoce como espectros comprimidos. En estas circunstancias, la contribuci´on a la energ´ıa transversa faltante( E/T) proveniente de la producci´on de pares ˜t˜t? es muy similar a la de la producci´on de pares t¯tpor lo que existe la posibilidad de que la se˜nal experimental de SUSY se haya confundido con el background del modelo est´andar.

La detecci´on experimental de las part´ıculas supersim´etricas est´a relacionada con la energ´ıa transversa faltante de la colisi´on, y en estos escenarios es muy baja, por lo que su detecci´on no es tarea f´acil. Por consiguiente, es necesario el desarrollo de herramientas que permitan facilitar la detecci´on de la energ´ıa transversa faltante. Una de las posibilidades es la b´ usque-da de stops, a las energ´ıas de centro de masa actuales, analizando eventos con condiciones

(14)

2 CAP´ITULO 1. INTRODUCCI ´ON

cinem´aticas favorables. Al hablar de condiciones cinem´aticas favorables para la detecci´on de las part´ıculas supers´ımetricas se hace referencia a eventos cuya topolog´ıa permita reconocer la se˜nal de SUSY sobre la se˜nal de background. Concretamente, una de las posibilidades es analizar eventos que han sido empujados en cierta direcci´on debido a la radiaci´on de un jet previo a la interacci´on entre partones en la colisi´on prot´on - prot´on, es decir, eventos con la presencia de un jet de radiaci´on de estado inicial(ISR).

En este orden de ideas, cuando el jet de radiaci´on de estado inicial(ISR) tiene un alto momento, el evento sufre un empuje - event boosting - en la direcci´on opuesta al punto de detecci´on del jet de ISR en el detector. De este modo, la presencia de un jet de ISR en el evento ocasiona que el resto del evento se concentre en la zona opuesta a la detecci´on del jet de ISR. Lo anterior resulta ser una ventaja en la detecci´on de producci´on de part´ıculas supers´ımetricas dado que concentra la energ´ıa transversa faltante E/T en una zona del detector, la cual est´a asociada a la producci´on de la part´ıcula supers´ımetrica mas liviana(LSP)[7], de acuerdo a modelos que garantizan la conservaci´on de la paridad R. Ahora bien, la labor de identificaci´on de los jets de ISR en un evento es una una tarea compleja pues en las colisiones prot´on- prot´on, como las del LHC, se producen m´ultiples jets. En especial, la tarea de discriminaci´on entre los jets de ISR y los de radiaci´on de estado Final(FSR) resulta en un trabajo no trivial. De este modo, el desarrollo de herramientas que permitan el correcto etiquetamiento de los jets de ISR en un evento abren la posibilidad a la b´usqueda de se˜nales de supersimetr´ıa, a las energ´ıas de colisi´on actuales en el LHC.

En el presente proyecto de investigaci´on se desarrolla una herramienta computacional que etiqueta jets de ISR en un evento. La construcci´on de esta herramienta de etiquetamiento de jets utiliza el m´etodo de circuitos neuronales para clasificar los jets de un evento. Las redes neuronales son un m´etodo de aprendizaje supervisado dentro del ´area de Machine Learning en ciencias de la computaci´on. En este campo de la ciencia, el enfoque es la producci´on de algoritmos computacionales con posibilidad de reconocer patrones dentro de un conjunto de datos, para generar un aprendizaje en la maquina que procesa los datos[5]. Las redes neuronales son un circuito de procesadores simples conectados por canales de comunicaci´on que usualmente albergan informaci´on que puede cifrar cierto significado [8], en nuestro caso, el significado est´a relacionado con las propiedades f´ısicas de los jets de ISR en el evento. En un circuito neuronal, el objetivo es que las conexiones entre las neuronas (procesadores simples) tengan ciertas restricciones que den prioridad a ciertas conexiones seg´un el flujo de la informaci´on almacenada (“aprendizaje”), lo cual define una estructura propia de la red que se traduce en un discriminador final para cada entrada de datos[9] que permite evaluar s´ı el jet analizado es un jet de ISR.

En resumen, durante este proyecto de investigaci´on se desarrolla una herramienta compu-tacional para el etiquetamiento de jets de ISR y se eval´ua la eficiencia de etiquetamiento de la red neuronal para diferentes canales. Entre los canales estudiados se encuentranp p→t¯tj

yp p→ ˜t¯˜tj, donde j es el jet adicional al par top-antitop y par de squarks producidos, res-pectivamente. El presente documento se encuentra organizado de la siguiente manera. En el cap´ıtulo 2 se realiza una introducci´on a las b´usquedas de SUSY en el LHC, haciendo ´enfasis en estudios de stops en espectros comprimidos. En el cap´ıtulo 3 examina la teor´ıa en la pro-ducci´on de jets y el empuje que puede ocasionar un jet de ISR de alto momento a un evento. En el cap´ıtulo 4 se expone un marco introductorio a la teor´ıa de las redes neuronales y los m´etodos de aprendizaje de las mismas. En el cap´ıtulo 5 se describe en detalle la estructura de

(15)

3

la red neuronal construida en la investigaci´on y se expone de manera general la simulaci´on de Monte Carlo de los datos para el entrenamiento y prueba de la red neuronal. Para finalizar, en el cap´ıtulo 6 se analizan los resultados obtenidos al utilizar la red neuronal para identificar jets de ISR en el canal del modelo est´andar y los canales SUSY; al igual que se realiza una discusi´on acerca de la eficiencia del m´etodo propuesto con respecto a otros herramientas de etiquetamiento de jets de ISR.

(16)
(17)

B ´

usquedas de SUSY

2

2.1.

Introducci´

on

El modelo est´andar ha sido una teor´ıa exitosa al momento de describir los fen´omenos que ocurren en f´ısica de part´ıculas. No obstante, el modelo est´andar(SM) tiene graves deficien-cias como el problema de la jerarqu´ıa. La Supersimetr´ıa(SUSY) es una teor´ıa de f´ısica mas all´a del modelo est´andar que resuelve naturalmente el problema de la jerarqu´ıa y establece un candidato para la materia oscura en el universo[6]. SUSY es una extensi´on del SM que postula una simetr´ıa entre los fermiones y los bosones. Esta teor´ıa predice la existencia de un supercompa˜nero para cada una de las part´ıculas del SM, cada una de ellas con los mismos n´umeros cu´anticos excepto que el spin de la part´ıcula difiere por media unidad.

Los modelos SUSY pueden conservar o violar la paridad-R. La paridad R se define como

Rp = (−1)3(B−L)+2s donde B es el numero barionico, L es el numero lept´onico y s es el spin de la part´ıcula. Es importante notar que para las part´ıculas del modelo est´andar la paridad es igual a +1 mientras que para las part´ıculas SUSY la paridad es −1. En los modelos donde se conserva la paridad R, las part´ıculas supersim´etricas decaen en pares y la part´ıcula supersim´eticra mas liviana(LSP) es estable. Esta part´ıcula supersim´etrica mas liviana es el neutralino ˜χ0

1, y en conexi´on con cosmolog´ıa se convierte en un excelente candidato para la materia oscura dado que es estable y neutra.

Adicionalmente, las teor´ıas SUSY proveen una soluci´on al problema de la jerarqu´ıa me-diante la cancelaci´on de las divergencias cuadr´aticas de las correcciones de los bucles del top y el stop a la masa del bos´on de Higgs. Ahora bien, las masas de las part´ıculas supersim´etricas no pueden ser arbitrariamente grandes y se espera que el stop (˜t) sea la superpart´ıcula mas liviana para mantener los nivelesnaturales de fine-tuning [10]. De hecho, en Natural SUSY los quarks de tercera generaci´on son los mas livianos, mientras que los otros squarks pueden ser bastante pesados. Como resultado, las b´usquedas de SUSY y en detalle la producci´on de pares de stops son de gran inter´es en el campo de f´ısica de part´ıculas. No obstante, las b´usquedas de SUSY durante la corrida uno del gran colisionador de hadrones (LHC) fueron infructuosas pues no se encontr´o evidencia de f´ısica mas all´a del modelo est´andar.

(18)

6 CAP´ITULO 2. B ´USQUEDAS DE SUSY

Figura 2.1: Resumen de las b´usquedas directas de la producci´on de pares de stop por parte de la colaboraci´on ATLAS durante la corrida uno. Las lineas punteadas representan los limites de exclusi´on esperados mientras que las lineas solidas representan los limites observados. En la figura, se muestran resultados para posibles decaimientos del stop en dos,tres y cuatros cuerpos. Imagen tomada de [1]

2.2.

usquedas de sTops en el LHC

Aun cuando en la corrida uno del LHC no se encontr´o evidencia de se˜nal SUSY, los resultados experimentales fueron relevantes para fijar cotas para las masas de las part´ıculas supersim´etricas. Por ejemplo, para el stop ˜t se encontraron escenarios donde la masa del stop debe superar los 775 GeV [1, 11]. En la figura 2.1 se resumen los limites de exclusi´on encontrados por el experimento ATLAS con una energ´ıa de colisi´on en el centro de masas de 8 TeV.

De este modo, las b´usquedas de stops experimentales en el LHC se han convertido en uno de los grandes focos de investigaci´on por parte de los grupos experimentales. Tal como se menciono anteriormente, los squarks de tercera generaci´on son los mas livianos y se espera que tengan una masa por debajo de l TeV por lo que su estudio y hallazgo puede realizarse a las energ´ıas de colisi´on de la segunda corrida del LHC. Dependiendo de la masa del stop los posibles decaimientos del stop pueden ser:

˜

(19)

2.2. B ´USQUEDAS DE STOPS EN EL LHC 7

Figura 2.2: Diagrama con los posibles decaimientos del stop en el plano generado por la masa del stop y del neutralino. Figura tomada de [1].

˜

t→bWχ˜01 (2.1b)

˜

t→bf f0χ˜01 (2.1c)

˜

t→cχ˜01 (2.1d)

Todos los posibles decaimientos mostrados en 2.1 pueden ser resumidos en el plano ge-nerado por la masa del stop ˜t y la masa del neutralino ˜χ01 como se muestra en la figura 2.2.

Es importante notar que tanto en la figura 2.1 como en la figura 2.2 existen fronteras que determinan el numero de part´ıculas luego del decaimiento. En primer lugar, se tiene la frontera:

m˜t−mχ˜0

1 = 0 (2.2)

La cual delimita entre la regi´on prohibida (mt˜−mχ˜0

1 <0) y el decaimiento en 4 cuerpos, es decir, un decaimiento como el mostrado en 2.1c dondef f0 denotan un par de fermiones. Esta frontera se conoce como la linea de compresi´on final del stop y ha sido protagonista de constantes b´usquedas en investigaciones en el LHC determinando limites de exclusi´on de hasta 260 GeV para la masa del stop ˜t [12]. Por otro lado, se tiene la frontera:

t−mχ˜0

(20)

8 CAP´ITULO 2. B ´USQUEDAS DE SUSY

Esta linea delimita la frontera entre el decaimiento en 3 o 4 cuatro cuerpos. En particular, si el chargino ˜χ±1 es mas pesado que el sTop y mt > m˜t−mχ˜0

1 > mW +mb el decaimiento dominante sera el mostrado en 2.1b. Se han realizado varias b´usquedas en estos canales tanto a 7 TeV y 8 TeV con resultados infructuosos [13]. Finalmente, se tiene la frontera dada por la relaci´on:

m˜t−mχ˜0

1 =mt (2.4)

Esta ultima linea de compresi´on marca la frontera entre el decaimiento de dos cuerpos y tres cuerpos. Esencialmente, cuandomt> m˜t−mχ˜0

1 > mtcada uno de los stops decae en dos part´ıculas, mediante un topon-shell y un neutralino. En estos casos, las investigaciones han determinado que para neutralinos de masa cercana a los 250 GeV, los resultados encontrados en el LHC excluyen masas por debajo de 600 - 750 GeV como se muestra en la figura 2.1. La presente investigaci´on enfoca sus esfuerzos en desarrollar una herramienta computacional basada en circuitos neuronales para facilitar el estudios de escenarios donde las masas del stop y el nuetralino est´en muy cercanas a la linea de compresi´on mostrada en la ecuaci´on 2.4.

2.3.

Espectros comprimidos

La b´usqueda de stops con una masa por debajo de 1 TeV en el LHC ha tomado gran fuerza y ha sido el centro de investigaci´on de muchos estudios en f´ısica de altas energ´ıas[12, 14, 15]. Estos estudios se han concentrado en el an´alisis de varias topolog´ıas de decaimiento. En la presente investigaci´on se analiza el escenario mas minimalista, en el cual los stops son producidos directamente en pares mediante QCD y cada stop decae en un neutralino invisible LSP y unon-shell ooff-shell quark top:

pp→˜tt˜∗ donde ˜t→t+ ˜χ01

Donde seg´un el caso,

˜

t→t+ ˜χ01 caso top on-shell

˜

t→b+W + ˜χ01 caso top off-shell

Estos decaimientos son id´enticos experimentalmente a los observados para la producci´on de pares tt¯solo que posee una adici´on de energ´ıa transversa faltante (E/T). Esta adici´on de

/

ET proviene de la presencia del neutralino ˜χ01. Se define la energ´ıa transversa faltante como la magnitud del momento trasversal faltante~p/T, donde este se define como:

~ /

pT =−X

n∈N

~

PT n (2.5)

Donde n son todas las part´ıculas reconstruidas en el plano perpendicular al eje de colision de los dos haces de protones en el LHC. Como resultado, el decaimientot¯tse convierte en el background para nuestro an´alisis de la producci´on de pares ˜t˜t∗. En particular, el diagrama de Feynman asociado al canal SUSY estudiado se muestra en la figura 2.3b. Asimismo, el canal

(21)

2.3. ESPECTROS COMPRIMIDOS 9

(a) Diagrama de Feynman para la producci´on de pares tt¯ semileptonico que corresponde al back-ground para la producci´on de pares ˜t˜t∗ .

(b) Diagrama de Feynman para la producci´on de pares ˜tt˜∗en el escenario en el quemt'mt˜−mχ˜0

1 >

mt.

Figura 2.3: Diagramas de Feynman para lo producci´on de pares tt¯y ˜t˜t∗.

del modelo est´andar asociado a nuestro estudio sera el canal semileptonico que se muestra en la figura 2.3a y sera elbackground del canal SUSY mostrado anteriormente.

Ahora bien, las b´usquedas de se˜nal SUSY representan un reto mayor cuando se analizan escenarios donde la masa del stop es baja O(GeV). En estos casos la energ´ıa transversa faltanteE/T tiende a eliminarse, dado que laE/T proviene en su mayor´ıa de los neutralinos, y en estos casos son poco masivos. El caso critico de sensibilidad experimental se presente en el punto ”Stealth”, el cual se caracteriza porque m˜t≈mt ymχ˜0

1 ≈0. De all´ı, se observa que debido a la poca contribuci´on de E/T hay limitaciones experimentales para analizar puntos en esta regi´on, sin embargo, es de gran inter´es analizar estos puntos puesto que una soluci´on natural para resolver el problema de la jerarqu´ıa es que la masa del top sea muy cercana a la del stop[16]. En este sentido, la presente investigaci´on se enfoca en estudios con puntos de masa cercanos a lo que se conoce como lalinea de compresi´on del top en la cual:

mt'm˜t−mχ˜0

1 (2.6)

Realizar estudios en esta regi´on es importante pues como se puede notar en la figura 2.1 los limites de exclusi´on en regiones muy cercanas a la linea de compresi´on aun no han sido fijados. En este orden de ideas, en el presente trabajo se har´an estudios para dos puntos de masas cercanos a la linea de compresi´on:

mχ˜0

1 = 20GeV m˜t= 200GeV

mχ˜0

1 = 235GeV m˜t= 400GeV

Es fundamental resaltar que se escogen estos dos puntos de masas para la investigaci´on pues uno de ellos representa el decaimiento en un quark top on-shell y otro en un quark top off-shell. En particular, el punto de masa (mχ˜0

1 , m˜t) = (20GeV,200GeV) representa el caso on-shell y el punto (mχ˜0

1 , m˜t) = (235 GeV,400GeV) el caso off-shell en el cual se produce un top virtual.

(22)
(23)

Radiaci ´

on de estado Inicial

3

El presente trabajo de investigaci´on se enfoca en desarrollar una herramienta computacio-nal para etiquetar jets de radiaci´on de estado inicial en un evento de una colisi´on prot´on -prot´on. Por lo tanto, el entendimiento de la f´ısica detr´as de los jets resulta en un elemento fundamental para el desarrollo del trabajo. En este sentido, el presente capitulo busca exa-minar la formaci´on de jets; describir el empuje que puede ocasionar un jet de radiaci´on de estado inicial de alto momento y comentar la utilidad del empuje ocasionado por el jet en la b´usqueda de stops.

3.1.

Producci´

on de Jets

Las colisiones a muy altas energ´ıas, como las ocurridas en el LHC, dan lugar a interacciones entre los constituyentes de los protones. Los protones est´an compuestos de quarks y gluones. En el caso ideal, existe solo una colisi´on altamente energ´etica entre un part´on de un prot´on con un parton del otro proton. A este tipo de colisiones se le conoce como unacolisi´on dura. La cromodin´amica cu´antica(QCD) es la teor´ıa cu´antica de campos que describe la interacci´on fuerte de los quarks y los gluones. La interacci´on fuerte contempla tres tipos de cargas que han sido denotadas por los colores rojo(r), azul (b) y verde(g) con sus correspondientes anticolores(¯r,¯b,g¯). La teor´ıa QCD describe la interaccci´on de la part´ıculas que tienen carga de color, y al ser una teor´ıa gauge, implica la existencia de un campo gauge conocido como el campo de gluones. Los portadores de carga de color interaccionan entre ellos intercambiando gluones. En la figura 3.1 se muestran los diagramas de Feynman para las interacciones fuertes fundamentales.

La fuerza resultante de la interacci´on fuerte entre dos part´ıculas es causante de interesantes consecuencias en la naturaleza, una de ellas el confinamiento de la carga de color. Al analizar el potencial asociado a esta interacci´on se ha determinado [17] que a distancias menores a 1 fm la interacci´on es dominada por el intercambio de un glu´on y por tanto se espera un potencial tipo Coulumb :

V(r) =−4

3

αs

r (3.1)

dondeαs es la constante de acoplamiento de la fuerza fuerte, que tambi´en depende de las distancia. Esta constante de acoplamiento se define como αs= g

2

s

4π. Ahora bien, al aumentar

(24)

12 CAP´ITULO 3. RADIACI ´ON DE ESTADO INICIAL

Figura 3.1: Diagramas de Feynman para las interacciones fundamentales de QCD. Arri-ba Izquierda: Emisi´on de un glu´on. Arriba Derecha: Emisi´on de un glu´on. Abajo Izquier-da:Acoplamiento de tres gluones. Abajo Derecha: Acoplamiento de cuatro gluones. Imagen tomada de [2].

la distancia de interacci´on la fuerza de interacci´on crece r´apidamente y seg´un los c´alculos realizados con la teor´ıa gauge de red [17] el potencial asociado a la interacci´on es de la forma:

V(r)≈λr (3.2)

en el cual la constante λ no puede ser calculada con precisi´on pero su valor es del or-den de 1 GeV f m−1. Como resultado, el comportamiento descrito por la teor´ıa QCD en la ecuaci´on 3.1 implica el confinamiento de la part´ıculas con carga de color pues de otro mo-do seria necesario una energ´ıa infinita para que mo-dos part´ıculas con carga de color existan libremente[18].

En consecuencia, existe un confinamiento de la carga que color que afirma que solo pueden existir estados con carga de color nula. Esto implica que los quarks y los gluones no pueden existir individualmente sino que se asocian en hadrones con carga de color neutra. As´ı, los quarks y gluones se asocian para formar mesones, los cuales involucran un par de quark y antiquark; y bariones, que est´an compuestos de tres quarks. El proceso de formaci´on de part´ıculas con color neutro se conoce comohadronizaci´on. A causa de esto, los quarks y los gluones se unen con las part´ıculas de color cargadas formadas en la colisi´on dura para formar hadrones como se muestra en la figura 3.2. Hasta el momento no existe un c´alculo expl´ıcito referente a la hadronizaci´on puesto que el confinamiento no puede ser descrito mediante teor´ıa de perturbaciones. Por lo tanto, el proceso de hadronizaci´on se entiende desde complejos modelos fenomenol´ogicos, entre ellosThe cluster modelyThe Lund String model. Finalmente, al conjunto de hadrones formados a partir de un quark o gluon se le conoce en f´ısica de part´ıculas como unjet.

En las colisiones duras, los dos partones son dispersados a un gran ´angulo con respeto al eje de colisi´on de los protones. Luego de su formaci´on, los dos partones comienzan a radiar

(25)

3.2. RADIACI ´ON DE ESTADO INICIAL 13

Figura 3.2: Esquema del proceso de hadronizaci´on de los quarks y gluones en hadrones con carga de color neutra. Imagen tomada de [2].

gluones y quarks, los cuales emiten mas gluones que se desdoblan en pares de quarks y antiquarks. De manera que se induce una lluvia de partones que forma un haz altamente energ´etico de partones(quarks y gluones), estos se conocen como losjets de partones. Debido al confinamiento de la carga de color los partones constituyen part´ıculas con carga de color nula formando los jets de part´ıculas tal como se muestra en el dibujo esquem´atico de la figura 3.3. Asimismo, en la evoluci´on temporal del evento un jet pasa por varias fases. Al principio, el jet consiste de partones luego mediante el proceso de hadronizacion el jet se forman part´ıculas estables y con tiempos de vida largos, por lo que esta fase se conoce como los jets de part´ıculas. En la ultima fase los jets est´an hechos de objetos medidos en el calor´ımetro por lo se conocen comojets de calor´ımetro. En este sentido, si se busca localizar la contribucion energ´etica de las part´ıculas en el calor´ımetro es necesario algoritmos de reconstrucci´on del jet. Entre estos algoritmos encontramos elalgoritmoKT, elalgoritmo anti-KT y el algoritmo dereconstrucci´on en cono.

3.2.

Radiaci´

on de Estado Inicial

En lo que respecta a esta investigaci´on se tiene como objetivo analizar colisiones prot´ on-prot´on a muy altas energ´ıas, como las ocurridas en el LHC. Los protones son hadrones compuestos de tres quarks(uud), sin embargo, tambi´en es posible que contenga quarks y gluones virtuales. Al conjunto de part´ıculas que conforman un prot´on se les conoce como partones. Dadas las escalas de energ´ıa de la colisi´on entre protones en el LHC se conoce que las interacciones son efectivamente entre partones[19]. Tal como se describi´o en la secci´on anterior, estas son el tipo de colisiones que se conocen comoduras. En este tipo de colisiones

(26)

14 CAP´ITULO 3. RADIACI ´ON DE ESTADO INICIAL

Figura 3.3: Dibujo esquem´atico de un evento tt¯con multiples jets. Imagen tomada de [2].

donde gran parte de la energ´ıa del evento se concentra en una interacci´on es posible la generaci´on de part´ıculas masivas como las esperadas en la f´ısica mas all´a del modelo est´andar. Sin embargo, existe la posibilidad de antes de la colisi´on se presente la emisi´on de un part´on libre no asociado. Al estar libre, el part´on emitido antes de la colisi´on debe recombinarse mediante el proceso de hadronizaci´on, explicado anteriormente, generando un conjunto de hadrones. Este tipo de radiaci´on se conoce como radiaci´on de estado inicial(ISR) pues ocurre antes de la interacci´on principal de la colisi´on.

Los jets de ISR generalmente complican el an´alisis de un proceso pues estos pueden sobrelaparse con los jets radiados por part´ıculas en el estado final, despu´es de la colisi´on dura - Radiaci´on de estado final (FSR) [20]. Dado que las part´ıculas en el estado final son las de principal inter´es, pues son la firma de las part´ıculas originadas luego de la colisi´on, son los jets de FSR los que han capturado el foco de investigaci´on durante muchos a˜nos. Sin embargo, en estudios recientes [20, 21, 22, 23, 24] se puede observar que el estudio de la radiaci´on de estado inicial puede ser una herramienta ´util en el estudio de f´ısica mas all´a del modelo est´andar puesto que la presencia de jets de ISR puede generar condiciones sobre los estados finales que permitan afinar la detecci´on de f´ısica predicha en modelos m´as all´a del modelo est´andar (BSM).Estas investigaciones utilizan la metodolog´ıa de buscar se˜nal SUSY mediante el aumento de la energ´ıa transversa(E/T) mediante el uso de un jet de ISR que empuje el evento.

(27)

3.3. EVENTOEMPUJADOPOR JET DE ISR 15

3.3.

Evento

empujado

por jet de ISR

Una de las posibilidades es que el jet de ISR empuje el evento en cierta direcci´on. Esto ocurre porque en una colisi´on prot´on-prot´on, tal como las del LHC, el momento lineal total debe ser el mismo antes y despu´es de la colisi´on. En especial, recuerde que en el momento inicial en el centro de masas de una colisi´on prot´on-prot´on es cero, luego en los estados finales la sumatoria de los momentos de todas las part´ıculas debe ser cero. Sin embargo, al considerar un escenario con la presencia de un jet de ISR, dada la conservaci´on del momento, el jet de ISR debe tener un momento opuesto a la suma de momentos de las otras part´ıculas.

~

PTISR =− X

n

~

PTn (3.3)

donde n ∈ N el conjunto de part´ıculas resultantes luego de la colisi´on. Ahora bien, s´ı el momento del jet de ISR es alto, por la ecuaci´on 3.3, el evento es empujado en la direcci´on contraria a la zona de detecci´on del jet de ISR en el detector. En la figura 3.4 puede observarse un diagrama representativo del empuje generado por jets de bajo y alto momento.

(a) Empuje del evento con un jet de ISR con bajo momento.

(b) Empuje del evento con un jet de ISR con bajo momento.

Figura 3.4: Diagramas representativos del empuje de los jets en el estado final debido a la emisi´on de un jet de ISR.

Recordando del capitulo 2 que la se˜nal proveniente del neutralino ˜χ01 est´a relacionada con la energ´ıa transversa faltante, es posible notar que empuje del evento generado por el jet de ISR resulta en una ventaja en la detecci´on de producci´on de part´ıculas supersim´etricas. En esencia, esto ocurre porque se incrementa la energ´ıa transversa faltante E/T asociada al decaimiento de las part´ıculas supersim´etricas en una regi´on del detector[7], como consecuencia del empujeboost que sufre la energ´ıa transversa faltante por la emisi´on del jet de ISR en el evento tal como se puede notar en el esquema representativo de la figura 3.5.

(28)

16 CAP´ITULO 3. RADIACI ´ON DE ESTADO INICIAL

Figura 3.5: Diagrama ilustrativo de la concentraci´on de energ´ıa transversa faltante cuando el evento es empujado por un jet de ISR de alto momento.

3.4.

Etiquetamiento de jets de ISR en la b´

usqueda de sTops

El hecho de que un evento pueda serempujado en una direcci´on brinda la posibilidad de producir una reconstrucci´on m´as precisa del evento, puesto que las variables f´ısicas del jet de ISR est´an correlacionadas con las variables f´ısicas de la topolog´ıa del evento. En la presente secci´on, se explicar´a la utilidad del etiquetamiento de jets de ISR en la b´usqueda de se˜nales de stops(˜t). Al estudiar decaimientos en los canales fuertes es posible analizar eventos donde se incluyen condiciones cinem´aticas que favorecen la detecci´on de las part´ıculas supersim´etricas debido a la presencia de un jet de ISR.

Tal como se mencion´o anteriormente, en los detectores ATLAS y CMS la informaci´on f´ısica de la generaci´on de estas part´ıculas supersimetricas puede estar contenida en la energ´ıa transversa faltante E/T. En este orden de ideas, es posible analizar eventos que est´en empu-jados por un jet de ISR para concentrar la energ´ıa transversa en una regi´on del detector. En estos escenarios, la radiaci´on de un jet de alto momentum en el estado inicial provocar´ıa que, por conservaci´on del momento en el proceso, las part´ıculas nuevas generadas sean empujadas en la direcci´on opuesta al jet de ISR. Como resultado, el empuje provocado permitir´ıa con-centrar la energ´ıa transversa faltante en un cono opuesto a la direcci´on donde fue detectado el jet de ISR y ser´ıa posible facilitar las b´usquedas de se˜nales de los squarks mas livianos (top , bottom) a las energ´ıas de colisi´on actuales en el LHC.

En lo que concierne a esta investigaci´on, se busca estudiar se˜nales de la producci´on de pares de stops cerca a la linea de compresi´on mt ' m˜t−mχ˜0

1. En este escenario, tal como se describi´o en el cap´ıtulo 2 el stop decae en un par top(t) y neutralino ( ˜χ01). Debido a la naturaleza de los escenarios comprimidos, en el marco de referencia del ˜t, el neutralino y el top est´an casi en reposo [25]. Como resultado, en el marco de referencia del laboratorio se cumple la siguiente relaci´on:

(29)

3.4. ETIQUETAMIENTO DE JETS DE ISR EN LA B ´USQUEDA DE STOPS 17

~

pT( ˜χ01)' −~pT(˜t)

mχ0 1

t

(3.4)

As´ı, en la producci´on de pares ˜tla contribucion de a la energ´ıa transversa faltanteE/T es aproximadamente nula. Por lo tanto, la cinem´atica de la producci´on de pares de stops resulta muy similar a la producci´on de pares de tops, aumentando la dificultad en las b´usquedas de se˜nal SUSY [25]. Ahora bien, s´ı se analizan eventos que contengan un jet adicional de ISR de alto momento puede contribuir a la detecci´on del neutralino pues por conservaci´on del momento se tiene:

~

pT(jetISR)' −

~

pT(˜t1) +~pT(˜t2)

(3.5)

donde ˜t1 y ˜t2 son los stops generados en el proceso. En consecuencia, es posible reescribir la ecuaci´on 3.4 de la forma:

/

ET ' −~pT(jetISR)

mχ0 1

m˜t

(3.6)

En esta ultima relaci´on, se observa de manera clara la utilidad del empuje generado por un jet de ISR en el aumento de la energ´ıa transversa faltante, mediante la concentraci´on del evento en la zona opuesta a la detecci´on del jet de ISR. No obstante, la clasificacion de jets de ISR en un evento no es un tarea trivial por lo que el desarrollo de herramientas para su clasificaci´on se torna en una tarea primordial para utilizar esta estrategia en la b´usqueda de se˜nal SUSY. En el siguiente cap´ıtulo se realiza una introducci´on a las redes neuronales, la cual ser´a la herramienta utilizada en la presente investigaci´on para etiquetar jets de ISR en un evento.

(30)
(31)

Redes Neuronales

4

4.1.

Introducci´

on

Definici´on

Una red neuronal es un sistema complejo compuesto de unidades simples de procesa-miento que est´an interconectadas entre ellas con una estructura de red, intensidad entre las conexiones y funciones de activaci´on propias. Cada una de estas unidades simples se conocen como neuronas y la intensidad de interconexi´on entre las neuronas posibilita el almacena-miento de conocialmacena-miento en la red neuronal [3]. Este conocialmacena-miento permite a la red neuronal ser una herramienta para realizar tareas de clasificaci´on, reducci´on de ruido, predicci´on de valores y aproximaci´on de funciones[9]. En particular, el inter´es de la presente investigaci´on se concentra en explotar las propiedades de las redes neuronales en procesos de clasificaci´on para clasificar jets de ISR dentro de un conjunto de jets. Antes de proceder a explicar el fun-cionamiento de una red neuronal es necesario comprender las partes que integran un circuito neuronal, la arquitectura de la red y los posibles m´etodos de aprendizaje.

Partes de una red Neuronal

En una red neuronal pueden distinguirse un conjunto de unidades interconectadas entre si. Las unidades ubicadas en los extremos de la red se conocen como Entradas y salidas. Estas unidades son las que tienen contacto directo con la informaci´on externa(datos).

Las unidades intermedias de la red neuronal se conocen comoneuronas y se caracterizan porque no tienen una conexi´on directa con la informaci´on de entrada o salida(ver figura 4.1) Cuando un conjunto de neuronas tienen entradas de una misma procedencia se forma una capa de la red neuronal. En un circuito neuronal existen las capas de entrada(Inputs Layers), las capas intermedias(Hidden Layers) y las capas de salida(Outputs Layers). Ahora bien, las conexiones entre neuronas poseen intensidades especificas que se conocen como pesos y son estos los que se asocian al aprendizaje de la red neuronal [3]. Asimismo, cada una de las neuronas de la red tiene una funci´on de activaci´on (g(·)) que limita la salida de una neurona dado el patr´on de aprendizaje. Los tipos de funciones de activaci´on m´as comunes son ilustradas en la figura 4.2 y a continuaci´on se realiza una breve descripci´on de cada cada una de ellas:

Funci´on de Umbral

(32)

20 CAP´ITULO 4. REDES NEURONALES

Figura 4.1: Esquema de una neurona en un circuito neuronal. Imagen tomada de [3]

La funci´on umbral es el discriminante mas simple y busca fijar un umbral, de modo que si la entrada de la neurona es mayor a cierto umbral, la neurona se activa.

g(a) = (

1,Si a >0

0,Si a ≤0 (4.1)

Funci´on Sigmoide

Tambi´en conocida como la funci´on log´ıstica, es en la actualidad la funci´on de activa-ci´on de mayor utilizaci´on en las capas ocultas de una red neuronal. En particular, su uso permite que las salidas asociadas a estas neuronas puedan ser interpretadas como probabilidades [5]. En la ecuaci´on 4.2 se escribe la funci´on matem´atica que representa la tasa de encendido para una neurona.

g(a) = 1

1 +e−a (4.2)

La funci´on log´ıstica o sigmoide descrita en la ecuacion 4.2 cumple con las condiciones de ser diferencial, tal como se exige para las funciones de activacion. Adicionalmente, el rango de salida para esta funcion comprende entre 0≤g(a) ≤1 para todo valor de

a. Adicionalmente, si se computa la derivada de esta funci´on es posible encontrar que el valor m´aximo de la derivada se presenta cuando la neurona esta en su rango medio, es decir, g(a) = 0,5. Lo anterior es justamente la caracter´ıstica que contribuye a la estabilidad en el proceso de aprendizaje de redes neuronales con funci´on de activaci´on sigmoide.

(33)

4.1. INTRODUCCI ´ON 21

Figura 4.2: Representaci´on gr´afica de algunas funciones de activaci´on. De izquierda a derecha se puede encontrar la funci´on de activaci´on umbral, la log´ıstica y la tangente hiperb´olica. Imagen tomada de [4].

Tipos de Arquitectura de la red neuronal

Entre los principales tipos de arquitectura de las redes neuronales se encuentran las redes SingleLayer Feed-Foward,MultiLayer Feed-Foward y las redes neuronales Recurrentes.

Redes de propagaci´on hacia adelante

Las redes de propagaci´on hacia adelante (Feedfowards Networks) son aquellas en la cual la informaci´on se mueve en un ´unico sentido, generalmente hacia adelante. En la figura 4.3 se observa esta caracter´ıstica de flujo en una ´unica direcci´on, pues a cada una de las neuronas entra informaci´on de capas anteriores y sale informaci´on hacia capas siguientes en la red neuronal. Esto implica que cada una de las neuronas solo se ve afectada por neuronas en capas anteriores a su capa en el proceso de aprendizaje[3]. En este sentido, las redes de propagaci´on hacia adelante pueden dividirse en multicapa o monocapa seg´un el n´umero de capas ocultas que tenga la red.

Redes Recurrentes

Las redes recurrentes son aquellas en las cuales una neurona se activa basados en infor-maci´on de las neuronas en capas posteriores, neuronas en la capa anterior y en su propia retroalimentaci´on de iteraciones pasadas[3]. En la figura 4.4 se observa gr´aficamente el dia-grama de una red neuronal recurrente con solo una capa oculta.

Con todas las partes de las redes neuronales en mente y los tipos de arquitectura que puede tener una red neuronal es posible comprender el modo de operaci´on de una red neuronal para realizar tareas de clasificaci´on. El funcionamiento de una red neuronal se divide en dos procesos, generalmente no simult´aneos, los cuales son el entrenamiento y la generalizaci´on - validaci´on - de la red neuronal[4]. El entrenamiento corresponde a la adaptaci´on de los par´ametros(“pesos”) de la red neuronal para lograr una clasificaci´on exitosa. En particular, la presente investigaci´on se enfoca en el uso de de redes neuronales de propagaci´on hacia adelante y se hablar´a que para cada una de las neuronas existe una funci´on objetivo:

(34)

22 CAP´ITULO 4. REDES NEURONALES

Figura 4.3: Esquema de una red neuronal con propagaci´on hacia adelante con una capa oculta. Imagen tomada de [3].

En la cual ~x es el vector con los valores de entrada a esa neurona y w~ son los pesos de cada una de esas entradas. En este sentido, al modelar la red neuronal es necesario deter-minar el valor de cada uno de estos pesos, este proceso se se conoce como entrenamiento o aprendizaje[5]. La intenci´on es que mediante un proceso iterativo se escojan los ”pesos”que mejor se ajusten a la clasificaci´on real. Para el proceso de aprendizaje es posible suministrar a la red neuronal datos en los cuales se conoce la clasificaci´on correcta para la muestra, en la siguiente secci´on se explican a groso modo los diferentes procesos de aprendizaje de las redes neuronales.

Procesos de aprendizaje

Aprendizaje Supervisado

En el aprendizaje supervisado se le suministra a la red neuronal un conjunto de datos de los cuales se conoce con exactitud sus valores de entrada y sus valores de salida deseados. Al conocer el valor de su funci´on objetivo(neurona de salida), es posible comparar la funci´on objetivo determinada con los pesos ajustados por la red neuronal con el valor real de la funci´on tras cada iteraci´on. Posterior a esta comparaci´on, se ajustan gradualmente los pesos durante varias iteraciones hasta minimizar el error. Algunos ejemplos de redes neuronales con aprendizaje supervisado son elPerceptr´on y el Multilayer perceptr´on, ambos se describen en detalle en la secci´on en la secci´on 4.2 y 4.3, respectivamente, del presente documento.

(35)

4.2. REDES NEURONALES MONOCAPA 23

Figura 4.4: Esquema de una red neuronal recurrente con capas ocultas. Imagen tomada de [3].

Aprendizaje No Supervisado

En el aprendizaje no supervisado, no se le brinda a la red neuronal los resultados correctos para el conjunto de datos al cual se le busca realizar la clasificaci´on. La red se encarga por si misma de extraer informaci´on de los datos y crear autom´aticamente clases que le permitan clasificar correctamente[27].

4.2.

Redes Neuronales Monocapa

Discriminadores Lineales

Una de las posibilidades al usar una red neuronal monocapa reside en la posibilidad de clasificar un vector de entrada~xenkclases. Para lograr tal clasificaci´on se define un conjunto de funciones discriminantes y1, ..., yc tal que un vector de entrada ~x es asignado a la clase

Ck si

yk> yi ∀i6=j (4.4) Ahora bien, cada una de estas funciones discrimintantes puede ser escrita en t´erminos de los pesos asociados a cada variable de entrada y el vector de par´ametros(w~) - pesos dentro de la red neuronal - de la siguiente forma:

yk(~x) = w~kT~x+w0 (4.5) La expresi´on 4.5 puede entenderse geom´etricamente como una frontera de decisi´on que corresponde a un hiperplano (d−1)-dimensional en un espacio d-dimensional. Asimismo, las funciones discriminantes de la ecuaci´on 4.5 puede ser expresadas como las funciones objetivo de las capas de salida en la red, tal como se muestra en la figura 4.5 [5]. Como resultado,

(36)

24 CAP´ITULO 4. REDES NEURONALES

cada uno de las neuronas de salida de la red neuronal se expresa en t´erminos de los pesos asociados a esa neurona (w~k), es decir:

yk(~x) = d X

i=0

wkixi (4.6)

Dondedrepresenta la dimensi´on del vector de entrada ywk0 esta relacionado con el bias para esa neurona.

Figura 4.5: Representaci´on de multiples funciones discriminante lineales y~k en una red neu-ronal conc neuronas de salida. Imagen tomada de [5]

No obstante, es bueno observar que de forma general la frontera de decisi´on no es lineal. Como se indica en la figura 4.6, pueden existir casos en los cuales no es posible definir una frontera de decisi´on lineal que permita clasificar los datos de entrada. Sin embargo, existe la posibilidad de clasificarlos mediante una frontera de decisi´on no lineal. De este modo, surge la necesidad de plantear una forma generalizada para los discriminadores lineales[4]. Para ello se puede tomar un conjunto de funciones no lineales φj(~x), tambi´en conocidas como Basis functions, con las cuales se transforma el vector de entrada ~x con el fin de representar el resultado de la neuronak como:

yk(~x) = M X

j=0

wkjφ(~x) (4.7)

En general, esto representa un rango mas amplio de discriminadores para lograr solucionar el problema de clasificaci´on para muestras de datos mas complejas, en la secci´on 4.3 puede encontrar un tratamiento mas profundo de la generalizaci´on de los discriminadores lineales con funciones de base.

Con lo desarrollado anteriormente ya se conoce la estructura exacta de las redes neuronales de una sola capa. En lo que queda de la secci´on se explicara algunos m´etodos de entrenamiento que permitan almacenar informaci´on en los pesos para obtener la clasificaci´on deseada.

T´ecnicas con M´ınimos Cuadrados

Las t´ecnicas de m´ınimos cuadrados son una t´ecnica sencilla y eficaz para el entrenamiento de redes neuronales que consiste en la minimizaci´on de la suma de cuadrados de los errores.

(37)

4.2. REDES NEURONALES MONOCAPA 25

Figura 4.6: Representaci´on gr´afica de las fronteras de decisi´on para diferentes patrones de datos. a) Separable linealmente. b) Linealmente Inseparable. c) Clasificaci´on separable no-linealmente en el espacio 2-dimensional.[4]

Esta t´ecnica busca minimizar el error entre el discriminador arrojado por la red neuronal y el valor objetivo de clasificaci´on para ese patr´on de entrenamiento(Recuerde que estamos con-siderando m´etodos de entrenamiento supervisados). La suma de cuadrados puede escribirse matem´aticamente como:

E(w~) = 1 2 N X n=1 c X k=1

yk(xn;w~)−tnk 2

(4.8)

Donde yk(xn;w~) es el discriminador arrojado en la salida k por la red neuronal para el patr´on de entrenamiento n entre los N de la muestra. Por otro lado, tnk es el valor objeti-vo conocido para la salida k. Esta funci´on de error tiene un comportamiento cuadr´atico y su proceso de minimizaci´on puede efectuarse por varias t´ecnicas, entre ellas el descenso de gradiente [5].

Descenso de gradiente

La t´ecnica del descenso del gradiente para minimizar la suma cuadr´atica de los errores es especialmente importante cuando la funci´on de activaci´on de las neuronas no es lineal[5]. En particular, si las funciones de activaci´on son derivables es posible ajustar los pesos mediante iteraciones consecutivas donde el vector de pesos converja a su m´ınimo. Matem´aticamente este proceso puede asociarse al m´etodo mas sencillo de optimizaci´on basado en la b´usqueda de gradiente conocido como descenso de gradiente. En este m´etodo se actualizan los pesos mediante la ecuaci´on:

wkjτ+1=wkjτ −η ∂E ∂wkj

w~(τ)

(4.9)

Donde η es conocido como la rata de aprendizaje y representa uno de los aspectos mas cr´ıticos en el entrenamiento de redes neuronales puesto que su mala elecci´on puede repercutir en oscilaciones, divergencias o converger muy lentamente[5].

(38)

26 CAP´ITULO 4. REDES NEURONALES

El Perceptron

Descripci´on

El perceptr´on es la forma mas simple de red neuronal para clasificar patrones que son linealmente separables [3]. El Perceptr´on es una red neuronal de una capa estudiada ini-cialmente por Rosenblatt en 1962, con una funci´on de activaci´on umbral. Esta red neuronal consiste de una neurona que es resultado de la combinaci´on lineal de los par´ametros de entra-da (xi) con ciertos pesos(wi) asociados a estos par´ametros, tal como se muestra en la figura 4.7.

Figura 4.7: Esquema del perceptr´on b´asico con una sola neurona de salida. En ella xi son las entradas a la red neuronal, wi los pesos asociados a cada entrada; y la salida de la red neuronal. Imagen tomada de [3]

A la combinaci´on lineal resultante se le aplica un limitante duro(hard limiter) que en el caso del perceptr´on es una funci´on umbral:

g(a) = (

−1, Si a <0

+1, Si a ≥0 (4.10)

Del modelo se define que la entrada para esta funci´on umbral sera la combinaci´on lineal mencionada anteriormente, mas conocida como elcampo local inducido v(~x), que se escribe:

v(~x) = m X

j=0

wjxj (4.11)

De lo cual resulta:

y(~x) =g v(~x) =g

m X

j=0

wjxj

(39)

4.3. REDES MULTICAPA - MULTILAYER PERCEPTR ´ON 27

Asi, el objetivo del perceptr´on es clasificar un conjunto de datos externos x~1, ~x2, ... , ~xn en dos clases, C1 o C2 . La regla de clasificaci´on para una entrada x1, x2, ..., xm ser´a a la claseC1 si la salida del perceptr´on es +1 y a la claseC2 si esta es -1. [3]

Teorema de Convergencia del perceptr´on

El proceso de aprendizaje del perceptr´on se fundamenta en minimizar la funci´on error dadas las clasificaciones equivocadas realizadas por la red neuronal, para ello se define la funci´on de error para el perceptr´on, tambi´en llamada the Perceptron Criterion:

EP erceptron(w~) =

X

~ x∈χ¯

−w~T~x

(4.13)

Donde ¯χ es el conjunto de patrones clasificados incorrectamente con los valores actuales dew~. Ahora aplicando la regla del descenso del gradiente al criterio del perceptr´on se obtiene el algoritmo b´asico de aprendizaje para el Perceptr´on:

w(τ+1)j = w(τ)j +ηxjtn (4.14) Recordando que tnes el valor objetivo de clasificaci´on para el en´esimo vector de entrada

~xnyηes un valor peque˜no conocido como latasa de aprendizaje. De modo que,tn= 1 cuando

~x ∈C1 y tn =−1 cuando ~x ∈C2. En particular, note que el procedimiento de aprendizaje tiende a reducir el error pues ||xjtn||2 > 0 y η > 0 [5]. Asimismo, en un tiempo finito este m´etodo de aprendizaje permitir´a obtener el vector w~ mas optimo. De hecho, Rosenblatt demostr´o en 1962 el teorema de convergencia para el perceptr´on que afirma que partiendo desde un punto arbitrario el algoritmo de aprendizaje del perceptr´on siempre converge y genera un hiperplano de decisi´on en un tiempo finito [28].

Limitaciones

Los primeros estudios experimentales realizados con el modelo del perceptr´on dejaron ver que el perceptr´on pod´ıa resolver muchos problemas rapidamente, pero algunos problemas de baja dificultad resultaron siendo imposibles de solucionar con el m´etodo [5]. En esencia, el gran problema del perceptr´on es su caracter´ıstica mono capa, debido a que redes neuronales con una sola capa solo pueden clasificar un set de datos que sea linealmente separable [29]. En la secci´on 4.3 se discute acerca de redes neuronales multicapa como elMultilayer Perceptron que surge con el animo de solucionar problemas de mayor complejidad donde el set de datos no sea separable linealmente.

4.3.

Redes Multicapa - MultiLayer Perceptr´

on

Definici´on

El multilayer Perceptr´on(MLP) es una estructura de red neuronalfeed foward que contiene una serie de capas ocultas de neuronas entre la capa de entrada y la capa de salida. Las principales caracter´ısticas del MLP es que cada una de sus neuronas incluyen una funci´on de activaci´on no lineal que es diferenciable y que la red neuronal presenta un alto grado de

(40)

28 CAP´ITULO 4. REDES NEURONALES

conectividad entre sus neuronas[3]. La estructura de un MLP se muestra en la figura 4.8 donde se tiene una red neuronal con dos capas ocultas y tres se˜nales de salida. Tal como se observa en la figura, la red se encuentra totalmente conectada y las se˜nales fluyen de izquierda a derecha.

Figura 4.8: Arquitectura gr´afica de un perceptr´on multicapa con dos capas ocultas. [3]

Ahora bien, si analizamos en detalle el MLP es posible observar que existen dos tipos de se˜nales en la red: se˜nales de estimulo y se˜nales de error[3]. Las se˜nales de est´ımulo corresponde al conjunto de se˜nales de entrada que recibe una neurona para luego determinar su activaci´on y su propagaci´on es hacia adelante. Por otro lado, las se˜nales de error se originan en la neurona de salida y se propaga hacia atras en la red, tal como se muestra en la figura 4.9.

Dentro del MLP las capas ocultas se desempe˜nan como detectores de propiedades. Es decir, que durante el proceso de aprendizaje las capas ocultas se encargan de descubrir aque-llos rasgos caracter´ısticos del set de datos que permiten clasificar la muestra en varias clases. Como resultado, en cada una de las neuronas ocultas se llevan a cabo dos c´alculos[3]:

1. El c´alculo de la salida de la neurona que es expresado en t´erminos de las funciones no lineales sobre las entradas a esa neurona y sus respectivos pesos.

2. El c´alculo del gradiente asociado al error con respecto a los pesos relacionados a esa neurona oculta.

El MLP es un aproximador universal con un gran desempe˜no que surge de la no lineali-dad en sus nodos. De hecho, ha sido demostrado matem´aticamente que un MLP con 3 capas usando funciones de activaci´on sigmoide puede aproximar cualquier funci´on cont´ınua multi-variable a cualquier nivel de precisi´on [30]. Adicionalmente, la convergencia en el error para el MLP es independiente de la dimensionalidad de los datos de entrada por lo que el algoritmo no sufre de problemas de convergencia en el error al aumentar la muestra de entrenamiento, tal problema es conocido como el curso de la dimensionalidad y es una de las ventajas del MLP[4]. Es importante resaltar que el hecho de que el MLP incluya funciones de activaci´on no lineales; que contenga capas “ocultas” y que est´e completamente interconectado son la premisa que mejora el rendimiento de la red neuronal pero tambi´en es el responsable de las deficiencias en el entendimiento real del comportamiento de la red neuronal [3].

(41)

4.3. REDES MULTICAPA - MULTILAYER PERCEPTR ´ON 29

Figura 4.9: Figura que muestra el flujo de se˜nales dentro de la red neuronal. Propagaci´on hacia adelante de la se˜nal de entrada y propagaci´on hacia atr´as de los errores. [3]

T´ecnicas de Aprendizaje

Algoritmo de aprendizaje Back Propagation

El m´etodo de aprendizaje Backpropagation es un m´etodo que utiliza la b´usqueda de gradiente para minimizar la funci´on de costo, esta funci´on de costo corresponde al error cuadr´atico medio entre el resultado deseado y el valor computado para la neurona de salida en la iteraci´on actual [4]. El algoritmo de aprendizaje realiza constantemente una comparaci´on entre la el valor de salida de la red neuronal y el valor objetivo conocido para ese set de datos, de tal modo que calcula un error asociado a la diferencia entre estos valores. Este error se propaga hacia atr´as en la red neuronal y se establece un ciclo de control en el cual los pesos son ajustados mediante un algoritmo de descenso de gradiente. El m´etodo de aprendizaje es c´ıclico y pueden distinguirse las siguientes etapas para todo vector de datos de entrada en la muestra de entrenamiento:

1. Inicializaci´on

Asumiendo que no hay informaci´on inicial disponible, el algoritmo de entrenamiento inicia obteniendo los pesos iniciales entre neuronas de una distribuci´on uniforme de media cero y cuya varianza asegura que la desviaci´on est´andar de los campos locales inducidos para la primera iteraci´on se encuentre en la frontera de transici´on de la funci´on sigmoide. Cuando hay informaci´on inicial de los pesos, el entrenamiento de la red neuronal inicia presentando una muestra de prueba al circuito neuronal. Tal muestra de datos de prueba, busca inicializar y verificar los pesos - conexiones- entre las neuronas de la primera iteracion.

2. Computo hacia adelante

En esta etapa, se toma un set de de datosx(~n), ~d(n)dondex(~n) es el vector de entrada a la red neuronal yd(~n) es el vector que contiene los valores deseados para ese vector de entrada en la neuronas de salida de la red neuronal. En esta parte del proceso lo

(42)

30 CAP´ITULO 4. REDES NEURONALES

que se busca es calcular los campos locales inducidos en cada neurona, es decir, para la neurona j in la capa l y el patr´on de ejemplo n ∈ N , con N el set de datos de entrenamiento, su campo inducido sera:

vjl(n) =X i

wji(l)(n)y(li−1)(n) (4.15)

Dondeyi(l−1)(n) es la se˜nal de salida de la neurona ien la capa previa a esa neurona y

wji(l) es el peso asociado a la sinapsis de la neuronaj en la capal que se alimenta de la neuronaien la capal−1. Es importante notar que el indicei= 0 corresponde al bias para cada una de las capas. De esta manera, si consideramos una funci´on sigmoide de la forma:

g(x) = 1

1 +e−ax o g(x) =atanh(bx) con a, b >0 (4.16) La se˜nal de salida para la neurona j en la capal ser´a:

y(l)l =gj(vj(n)) (4.17)

En particular, si la neuronaj est´a en la primera capa oculta y(0)l =xj(n)). Pero si la neurona esta en la capa de salida se tendr´a:

yl(L) =oj(n) (4.18) ConLla ´ultima capa de la red neuronal. Con todo esto es posible calcular el error para el j-´esimo elemento del set de datos de entrenamiento:

ej(n) =dj(n)−oj(n) (4.19) En el cualdj(n) es el j-´esimo elemento del valor objetivo para el patr´on de entrada de entrenamiento.

3. C´omputo hacia atr´as

Con el c´alculo de los errores propagados hacia adelante(se˜nales de error) ya es posi-ble comenzar el flujo de informaci´on hacia atr´as en la red neuronal para calcular los gradientes locales recursivamente. Este proceso recursivo permite actualizar los pesos acorde con la regla del descenso de gradiente. En este sentido, los gradientes locales ser´an:

δ(l)j (n) =   

 

e(L)j (n)gj0 vj(L)(n), para neurona j en la capa de salida L

gj0 v(L)j (n) Pkδj(l+1)(n)w(l+1)j (n), para neurona j en la capa oculta l (4.20)

Referencias

Documento similar

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

You may wish to take a note of your Organisation ID, which, in addition to the organisation name, can be used to search for an organisation you will need to affiliate with when you

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

No había pasado un día desde mi solemne entrada cuando, para que el recuerdo me sirviera de advertencia, alguien se encargó de decirme que sobre aquellas losas habían rodado

Por lo tanto, en base a su perfil de eficacia y seguridad, ofatumumab debe considerarse una alternativa de tratamiento para pacientes con EMRR o EMSP con enfermedad activa

The part I assessment is coordinated involving all MSCs and led by the RMS who prepares a draft assessment report, sends the request for information (RFI) with considerations,