DE LOS

(1)

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

(2)

DIRECCIÓN‍‍‍‍ADJUNTA‍‍‍‍DE‍‍‍‍INNOVACIÓN‍‍‍‍Y‍‍‍‍

CONOCIMIENTO‍‍‍‍

GERENCIA‍‍‍‍DE‍‍‍‍CAPITAL‍‍‍‍HUMANO POSGRADOS

INFOTEC‍‍‍‍CENTRO‍‍‍‍DE‍‍‍‍INVESTIGACIÓN‍‍‍‍E‍‍‍‍

INNOVACIÓN‍‍‍‍EN‍‍‍‍TECNOLOGÍAS‍‍‍‍DE‍‍‍‍LA‍‍‍‍

INFORMACIÓN‍‍‍‍Y‍‍‍‍COMUNICACIÓN

“SISTEMA DE RECOMENDACIÓN

BASADO EN LA DETECCIÓN DE

TÓPICO Y

ASIGNACIÓN DE TÉRMINOS CLAVES

DE LOS

DOCUMENTOS ASOCIADOS A REPOSITORIOS INSTITUCIONALES”

PROPUESTA‍‍‍‍DE‍‍‍‍INTERVENCIÓN,

Que‍‍‍‍para‍‍‍‍obtener‍‍‍‍el‍‍‍‍grado‍‍‍‍de‍‍‍‍MAESTRO‍‍‍‍EN‍‍‍‍CIENCIA‍‍‍‍

DE‍‍‍‍DATOS‍‍‍‍E‍‍‍‍INFORMACIÓN‍‍‍‍

Presenta:

Ing. René Gerardo Jara Sixtos

Asesor:

Dr. Dagoberto Armenta Medina

(3)

Autorización de impresión

‍‍‍‍‍‍‍‍

(4)

Tabla de contenido

Capítulo‍‍‍‍1.‍‍‍‍Introducción...1

1.1‍‍‍‍Motivación...1

1.2‍‍‍‍Problemática... 2

1.3‍‍‍‍Objetivos... 2

1.3.1‍‍‍‍Objetivo‍‍‍‍General...2

1.3.2‍‍‍‍Objetivos‍‍‍‍Específicos...2

1.4‍‍‍‍Contribución...3

Capítulo‍‍‍‍2.‍‍‍‍Marco‍‍‍‍Teórico...5

2.1‍‍‍‍Repositorio‍‍‍‍institucional...5

2.2‍‍‍‍Sistema‍‍‍‍de‍‍‍‍recomendación...5

2.3‍‍‍‍Modelado‍‍‍‍de‍‍‍‍tópico...6

2.3.1‍‍‍‍TF-IDF...7

2.3.2‍‍‍‍Punto‍‍‍‍de‍‍‍‍transición‍‍‍‍de‍‍‍‍Goffman...8

2.3.3‍‍‍‍Entropía... 8

2.3.4‍‍‍‍LSA... 9

Capítulo‍‍‍‍3.‍‍‍‍Metodología... 12

3.1‍‍‍‍Descripción‍‍‍‍General...12

3.2‍‍‍‍Exploración‍‍‍‍y‍‍‍‍preparación‍‍‍‍de‍‍‍‍los‍‍‍‍datos...12

3.2.1‍‍‍‍Conjunto‍‍‍‍de‍‍‍‍Datos...12

3.2.2‍‍‍‍Cosecha...13

3.2.3‍‍‍‍Análisis‍‍‍‍exploratorio...13

3.3‍‍‍‍Preprocesamiento...13

3.4‍‍‍‍Modelado‍‍‍‍y‍‍‍‍asignación‍‍‍‍de‍‍‍‍palabras‍‍‍‍clave...14

3.5‍‍‍‍Recomendación‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados...15

3.5.1‍‍‍‍Sistema‍‍‍‍de‍‍‍‍recomendaciones...15

3.6‍‍‍‍Tecnologías‍‍‍‍y‍‍‍‍librerías‍‍‍‍utilizadas...16

3.6.1‍‍‍‍Sickle... 16

3.6.2‍‍‍‍Langdetect...16

(5)

4.1‍‍‍‍Exploración‍‍‍‍y‍‍‍‍preparación‍‍‍‍de‍‍‍‍los‍‍‍‍datos...18

4.1.1‍‍‍‍Cosecha...18

4.1.2‍‍‍‍Análisis‍‍‍‍exploratorio...18

4.2‍‍‍‍Preprocesamiento...23

4.3‍‍‍‍Modelado‍‍‍‍y‍‍‍‍Asignación‍‍‍‍de‍‍‍‍palabras‍‍‍‍clave...27

4.3.1‍‍‍‍Title... 28

4.3.2‍‍‍‍Description...29

4.3.3‍‍‍‍Title+Description...31

4.3.4‍‍‍‍Subject...31

4.4‍‍‍‍Recomendación‍‍‍‍de‍‍‍‍recursos...34

4.5‍‍‍‍Agrupación‍‍‍‍de‍‍‍‍recursos...40

4.6‍‍‍‍Comparación‍‍‍‍con‍‍‍‍otros‍‍‍‍repositorios...43

4.7‍‍‍‍Prueba‍‍‍‍de‍‍‍‍concepto...46

4.7.1‍‍‍‍Extractor‍‍‍‍de‍‍‍‍tópicos...46

4.7.2‍‍‍‍Base‍‍‍‍de‍‍‍‍datos...46

4.7.3‍‍‍‍Aplicación‍‍‍‍(Repositorio)...47

Capítulo‍‍‍‍5.‍‍‍‍Conclusiones‍‍‍‍y‍‍‍‍Trabajo‍‍‍‍Futuro...49

5.1‍‍‍‍Conclusiones...50

5.2‍‍‍‍Trabajo‍‍‍‍Futuro...50

Referencias... 52

Anexos... 56

ANEXO‍‍‍‍I:‍‍‍‍Resultados‍‍‍‍con‍‍‍‍el‍‍‍‍repositorio‍‍‍‍de‍‍‍‍INFOTEC‍‍‍‍en‍‍‍‍Inglés...56

ANEXO‍‍‍‍II:‍‍‍‍Comparación‍‍‍‍de‍‍‍‍resultados‍‍‍‍con‍‍‍‍el‍‍‍‍repositorio‍‍‍‍CIDE...59

ANEXO‍‍‍‍III:‍‍‍‍Comparación‍‍‍‍de‍‍‍‍resultados‍‍‍‍con‍‍‍‍el‍‍‍‍repositorio‍‍‍‍CIBNOR...65

(6)

Índice de figuras

Figura‍‍‍‍1:‍‍‍‍Pasos‍‍‍‍a‍‍‍‍seguir...12

Figura‍‍‍‍2:‍‍‍‍Preprocesamiento...24

Figura‍‍‍‍3:‍‍‍‍Modelado‍‍‍‍y‍‍‍‍asignación‍‍‍‍de‍‍‍‍palabras...28

Figura‍‍‍‍4:‍‍‍‍Modelo‍‍‍‍propuesto...46

(7)

Índice de gráficos

Gráfico‍‍‍‍1:‍‍‍‍Recursos‍‍‍‍con‍‍‍‍múltiples‍‍‍‍títulos...19

Gráfico‍‍‍‍2:‍‍‍‍Palabras‍‍‍‍en‍‍‍‍el‍‍‍‍título...19

Gráfico‍‍‍‍3:‍‍‍‍Recursos‍‍‍‍con‍‍‍‍múltiples‍‍‍‍descripciones...20

Gráfico‍‍‍‍4:‍‍‍‍Palabras‍‍‍‍en‍‍‍‍la‍‍‍‍descripción...21

Gráfico‍‍‍‍5:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍del‍‍‍‍título‍‍‍‍entre‍‍‍‍técnicas...29

Gráfico‍‍‍‍6:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍de‍‍‍‍la‍‍‍‍descripción‍‍‍‍entre‍‍‍‍técnicas...30

Gráfico‍‍‍‍7:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍del‍‍‍‍título‍‍‍‍+‍‍‍‍descripción‍‍‍‍entre‍‍‍‍técnicas...31

Gráfico‍‍‍‍8:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍extraídos‍‍‍‍del‍‍‍‍título‍‍‍‍y‍‍‍‍el‍‍‍‍Subject...32

Gráfico‍‍‍‍9:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍extraídos‍‍‍‍de‍‍‍‍la‍‍‍‍descripción‍‍‍‍y‍‍‍‍el‍‍‍‍Subject...33

Gráfico‍‍‍‍10:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍extraídos‍‍‍‍del‍‍‍‍título+descripción‍‍‍‍y‍‍‍‍el‍‍‍‍Subject...34

Gráfico‍‍‍‍11:‍‍‍‍Recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍título‍‍‍‍por‍‍‍‍técnica...36

Gráfico‍‍‍‍12:‍‍‍‍Distancia‍‍‍‍Jaccard‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍el‍‍‍‍título‍‍‍‍entre‍‍‍‍técnicas...36

Gráfico‍‍‍‍13:‍‍‍‍Recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍descripción‍‍‍‍por‍‍‍‍técnicas...38

Gráfico‍‍‍‍14:‍‍‍‍Distancia‍‍‍‍Jaccard‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍la‍‍‍‍descripción‍‍‍‍entre‍‍‍‍técnicas....39

Gráfico‍‍‍‍15:‍‍‍‍Recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍título‍‍‍‍+‍‍‍‍descripción‍‍‍‍entre‍‍‍‍técnicas...39

Gráfico‍‍‍‍16:‍‍‍‍Distancia‍‍‍‍Jaccard‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍el‍‍‍‍título‍‍‍‍+‍‍‍‍descripción‍‍‍‍entre‍‍‍‍ técnicas... 40

Gráfico‍‍‍‍17:‍‍‍‍Nubes‍‍‍‍de‍‍‍‍palabras‍‍‍‍de‍‍‍‍los‍‍‍‍principales‍‍‍‍vectores‍‍‍‍encontrados...41

Gráfico‍‍‍‍18:‍‍‍‍Vectores‍‍‍‍extraídos‍‍‍‍por‍‍‍‍LSA‍‍‍‍agrupados‍‍‍‍por‍‍‍‍Área‍‍‍‍del‍‍‍‍conocimiento...42

Gráfico‍‍‍‍19:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍extraídos‍‍‍‍del‍‍‍‍título‍‍‍‍y‍‍‍‍el‍‍‍‍Subject‍‍‍‍del‍‍‍‍Autor‍‍‍‍CIDE‍‍‍‍(Gráfico‍‍‍‍8)...43

Gráfico‍‍‍‍20:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍extraídos‍‍‍‍de‍‍‍‍la‍‍‍‍descripción‍‍‍‍y‍‍‍‍el‍‍‍‍Subject‍‍‍‍del‍‍‍‍Autor‍‍‍‍CIDE‍‍‍‍ (Gráfico‍‍‍‍9)... 43

Gráfico‍‍‍‍21:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍extraídos‍‍‍‍del‍‍‍‍título+descripción‍‍‍‍y‍‍‍‍el‍‍‍‍Subject‍‍‍‍del‍‍‍‍Autor‍‍‍‍CIDE‍‍‍‍ (Gráfico‍‍‍‍10)... 44

Gráfico‍‍‍‍22:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍extraídos‍‍‍‍de‍‍‍‍la‍‍‍‍descripción‍‍‍‍y‍‍‍‍el‍‍‍‍Subject‍‍‍‍CIBNOR‍‍‍‍(Gráfico‍‍‍‍9) ... 44

Gráfico‍‍‍‍23:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍extraídos‍‍‍‍del‍‍‍‍título‍‍‍‍y‍‍‍‍el‍‍‍‍Subject‍‍‍‍CIBNOR‍‍‍‍(Gráfico‍‍‍‍8)...44

Gráfico‍‍‍‍24:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍extraídos‍‍‍‍del‍‍‍‍título+descripción‍‍‍‍y‍‍‍‍el‍‍‍‍Subject‍‍‍‍CIBNOR‍‍‍‍(Gráfico‍‍‍‍ 10)... 45

Gráfico‍‍‍‍25:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍del‍‍‍‍título‍‍‍‍en‍‍‍‍Inglés‍‍‍‍(Gráfico‍‍‍‍5)...56

Gráfico‍‍‍‍26:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍de‍‍‍‍la‍‍‍‍descripción‍‍‍‍en‍‍‍‍Inglés‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍(Gráfico‍‍‍‍6)...56

(8)

Gráfico‍‍‍‍27:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍del‍‍‍‍título‍‍‍‍+‍‍‍‍descripción‍‍‍‍en‍‍‍‍Inglés‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍(Gráfico‍‍‍‍7). .56

Gráfico‍‍‍‍28:‍‍‍‍Recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍título‍‍‍‍en‍‍‍‍Inglés‍‍‍‍por‍‍‍‍técnica‍‍‍‍(Gráfico‍‍‍‍11)...57

Gráfico‍‍‍‍29:‍‍‍‍Distancia‍‍‍‍Jaccard‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍el‍‍‍‍título‍‍‍‍en‍‍‍‍Inglés‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍ (Gráfico‍‍‍‍12)... 57

Gráfico‍‍‍‍30:‍‍‍‍Recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍descripción‍‍‍‍en‍‍‍‍Inglés‍‍‍‍por‍‍‍‍técnicas‍‍‍‍(Gráfico‍‍‍‍13)...57

Gráfico‍‍‍‍31:‍‍‍‍Distancia‍‍‍‍Jaccard‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍la‍‍‍‍descripción‍‍‍‍en‍‍‍‍Inglés‍‍‍‍entre‍‍‍‍ técnicas‍‍‍‍(Gráfico‍‍‍‍14)... 57

Gráfico‍‍‍‍32:‍‍‍‍Recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍título‍‍‍‍+‍‍‍‍descripción‍‍‍‍en‍‍‍‍Inglés‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍(Gráfico‍‍‍‍ 15)... 57

Gráfico‍‍‍‍33:‍‍‍‍Distancia‍‍‍‍Jaccard‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍el‍‍‍‍título‍‍‍‍+‍‍‍‍descripción‍‍‍‍entre‍‍‍‍ técnicas‍‍‍‍(Gráfico‍‍‍‍16)... 57

Gráfico‍‍‍‍34:‍‍‍‍Nubes‍‍‍‍de‍‍‍‍palabras‍‍‍‍en‍‍‍‍Inglés‍‍‍‍de‍‍‍‍los‍‍‍‍principales‍‍‍‍vectores‍‍‍‍encontrados‍‍‍‍(Gráfico‍‍‍‍17) ... 58

Gráfico‍‍‍‍35:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍del‍‍‍‍título‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍CIDE‍‍‍‍(Gráfico‍‍‍‍5)...60

Gráfico‍‍‍‍36:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍de‍‍‍‍la‍‍‍‍descripción‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍CIDE‍‍‍‍(Gráfico‍‍‍‍6)...60

Gráfico‍‍‍‍37:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍del‍‍‍‍título‍‍‍‍+‍‍‍‍descripción‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍CIDE‍‍‍‍(Gráfico‍‍‍‍7)...60

Gráfico‍‍‍‍38:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍extraídos‍‍‍‍del‍‍‍‍título‍‍‍‍y‍‍‍‍el‍‍‍‍Subject‍‍‍‍CIDE‍‍‍‍(Gráfico‍‍‍‍8)...61

Gráfico‍‍‍‍39:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍extraídos‍‍‍‍de‍‍‍‍la‍‍‍‍descripción‍‍‍‍y‍‍‍‍el‍‍‍‍Subject‍‍‍‍CIDE‍‍‍‍(Gráfico‍‍‍‍9)...61

Gráfico‍‍‍‍40:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍extraídos‍‍‍‍del‍‍‍‍título+descripción‍‍‍‍y‍‍‍‍el‍‍‍‍Subject‍‍‍‍CIDE‍‍‍‍(Gráfico‍‍‍‍10) ... 61

Gráfico‍‍‍‍41:‍‍‍‍Recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍título‍‍‍‍por‍‍‍‍técnica‍‍‍‍CIDE‍‍‍‍(Gráfico‍‍‍‍11)...62

Gráfico‍‍‍‍42:‍‍‍‍Distancia‍‍‍‍Jaccard‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍el‍‍‍‍título‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍CIDE‍‍‍‍ (Gráfico‍‍‍‍12)... 62

Gráfico‍‍‍‍43:‍‍‍‍Recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍descripción‍‍‍‍por‍‍‍‍técnicas‍‍‍‍CIDE‍‍‍‍(Gráfico13)...62

Gráfico‍‍‍‍44:‍‍‍‍Distancia‍‍‍‍Jaccard‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍la‍‍‍‍descripción‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍ CIDE‍‍‍‍(Gráfico‍‍‍‍14)...62

Gráfico‍‍‍‍45:‍‍‍‍Recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍título‍‍‍‍+‍‍‍‍descripción‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍CIDE‍‍‍‍(Gráfico‍‍‍‍15) ... 63

Gráfico‍‍‍‍46:‍‍‍‍Distancia‍‍‍‍Jaccard‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍el‍‍‍‍título‍‍‍‍+‍‍‍‍descripción‍‍‍‍entre‍‍‍‍ técnicas‍‍‍‍CIDE‍‍‍‍(Gráfico‍‍‍‍16)...63

(9)

Gráfico‍‍‍‍50:‍‍‍‍Términos‍‍‍‍comunes‍‍‍‍del‍‍‍‍título‍‍‍‍+‍‍‍‍descripción‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍CIBNOR‍‍‍‍(Gráfico‍‍‍‍7)...66 Gráfico‍‍‍‍51:‍‍‍‍Recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍título‍‍‍‍por‍‍‍‍técnica‍‍‍‍CIBNOR‍‍‍‍(Gráfico‍‍‍‍11)...67 Gráfico‍‍‍‍52:‍‍‍‍Distancia‍‍‍‍Jaccard‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍el‍‍‍‍título‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍CIBNOR‍‍‍‍

(Gráfico‍‍‍‍12)... 67 Gráfico‍‍‍‍53:‍‍‍‍Recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍descripción‍‍‍‍por‍‍‍‍técnicas‍‍‍‍CIBNOR‍‍‍‍(Gráfico‍‍‍‍13)...68 Gráfico‍‍‍‍54:‍‍‍‍Distancia‍‍‍‍Jaccard‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍la‍‍‍‍descripción‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍

CIBNOR‍‍‍‍(Gráfico‍‍‍‍14)...68 Gráfico‍‍‍‍55:‍‍‍‍Recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍título‍‍‍‍+‍‍‍‍descripción‍‍‍‍entre‍‍‍‍técnicas‍‍‍‍CIBNOR‍‍‍‍(Gráfico‍‍‍‍

15)... 68 Gráfico‍‍‍‍56:‍‍‍‍Distancia‍‍‍‍Jaccard‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍por‍‍‍‍el‍‍‍‍título‍‍‍‍+‍‍‍‍descripción‍‍‍‍entre‍‍‍‍

técnicas‍‍‍‍CIBNOR‍‍‍‍(Gráfico‍‍‍‍16)...68 Gráfico‍‍‍‍57:‍‍‍‍Nubes‍‍‍‍de‍‍‍‍palabras‍‍‍‍de‍‍‍‍los‍‍‍‍principales‍‍‍‍vectores‍‍‍‍encontrados‍‍‍‍CIBNOR‍‍‍‍(Gráfico‍‍‍‍10) ... 69 Gráfico‍‍‍‍58:‍‍‍‍Vectores‍‍‍‍extraídos‍‍‍‍por‍‍‍‍LSA‍‍‍‍agrupados‍‍‍‍por‍‍‍‍Área‍‍‍‍del‍‍‍‍conocimiento‍‍‍‍(Gráfico‍‍‍‍18). .70

(10)

Índice de cuadros

Cuadro‍‍‍‍1:‍‍‍‍Metadatos‍‍‍‍nulos...18

Cuadro‍‍‍‍2:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍recursos‍‍‍‍con‍‍‍‍varias‍‍‍‍descripciones...20

Cuadro‍‍‍‍3:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍recursos‍‍‍‍con‍‍‍‍títulos‍‍‍‍y‍‍‍‍descripciones‍‍‍‍en‍‍‍‍diferentes‍‍‍‍idiomas...22

Cuadro‍‍‍‍4:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍orígenes‍‍‍‍de‍‍‍‍clasificación...22

Cuadro‍‍‍‍5:‍‍‍‍Determinación‍‍‍‍de‍‍‍‍Idioma...24

Cuadro‍‍‍‍6:‍‍‍‍Tokens‍‍‍‍del‍‍‍‍corpus‍‍‍‍inicial...24

Cuadro‍‍‍‍7:‍‍‍‍Tokens‍‍‍‍sin‍‍‍‍Stopwords‍‍‍‍y‍‍‍‍después‍‍‍‍del‍‍‍‍Stemmer...25

Cuadro‍‍‍‍8:‍‍‍‍Tokens‍‍‍‍sin‍‍‍‍Stopwords‍‍‍‍y‍‍‍‍con‍‍‍‍Stemmer...25

Cuadro‍‍‍‍9:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍Tokens‍‍‍‍extraídos‍‍‍‍del‍‍‍‍título...25

Cuadro‍‍‍‍10:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍Tokens‍‍‍‍extraídos‍‍‍‍de‍‍‍‍la‍‍‍‍descripción,...26

Cuadro‍‍‍‍11:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍Tokens‍‍‍‍extraídos‍‍‍‍de‍‍‍‍la‍‍‍‍concatenación‍‍‍‍del‍‍‍‍título‍‍‍‍y‍‍‍‍la‍‍‍‍descripción,...27

Cuadro‍‍‍‍12:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍palabras‍‍‍‍claves‍‍‍‍extraídas‍‍‍‍del‍‍‍‍título‍‍‍‍en‍‍‍‍español...28

Cuadro‍‍‍‍13:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍palabras‍‍‍‍claves‍‍‍‍extraídas‍‍‍‍de‍‍‍‍la‍‍‍‍descripción‍‍‍‍en‍‍‍‍español...30

Cuadro‍‍‍‍14:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍Tokens‍‍‍‍encontrados‍‍‍‍en‍‍‍‍el‍‍‍‍Subject‍‍‍‍y‍‍‍‍los‍‍‍‍extraídos‍‍‍‍del‍‍‍‍título‍‍‍‍con‍‍‍‍cada‍‍‍‍ técnica... 32

Cuadro‍‍‍‍15:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍Tokens‍‍‍‍encontrados‍‍‍‍en‍‍‍‍el‍‍‍‍Subject‍‍‍‍y‍‍‍‍los‍‍‍‍extraídos‍‍‍‍de‍‍‍‍la‍‍‍‍descripción‍‍‍‍ con‍‍‍‍cada‍‍‍‍técnica... 33

Cuadro‍‍‍‍16:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍Tokens‍‍‍‍encontrados‍‍‍‍en‍‍‍‍el‍‍‍‍Subject‍‍‍‍y‍‍‍‍los‍‍‍‍extraídos‍‍‍‍de‍‍‍‍la‍‍‍‍concatenación de‍‍‍‍título‍‍‍‍y‍‍‍‍descripción‍‍‍‍con‍‍‍‍cada‍‍‍‍técnica...34

Cuadro‍‍‍‍17:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍con‍‍‍‍un‍‍‍‍registro‍‍‍‍por‍‍‍‍el‍‍‍‍título‍‍‍‍usando‍‍‍‍TF-IDF...35

Cuadro‍‍‍‍18:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍con‍‍‍‍un‍‍‍‍registro‍‍‍‍por‍‍‍‍el‍‍‍‍título‍‍‍‍usando‍‍‍‍Goffman.35 Cuadro‍‍‍‍19:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍con‍‍‍‍un‍‍‍‍registro‍‍‍‍por‍‍‍‍el‍‍‍‍título‍‍‍‍usando‍‍‍‍Entropía. 35 Cuadro‍‍‍‍20:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍con‍‍‍‍un‍‍‍‍registro‍‍‍‍por‍‍‍‍la‍‍‍‍descripción‍‍‍‍usando‍‍‍‍TF- IDF...37

Cuadro‍‍‍‍21:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍con‍‍‍‍un‍‍‍‍registro‍‍‍‍por‍‍‍‍la‍‍‍‍descripción‍‍‍‍usando‍‍‍‍ Goffman...37

Cuadro‍‍‍‍22:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍recursos‍‍‍‍relacionados‍‍‍‍con‍‍‍‍un‍‍‍‍registro‍‍‍‍por‍‍‍‍la‍‍‍‍descripción‍‍‍‍usando‍‍‍‍ Entropía...38

(11)

Cuadro‍‍‍‍25:‍‍‍‍Metadatos‍‍‍‍nulos‍‍‍‍CIDE‍‍‍‍(Cuadro‍‍‍‍1)...59

Cuadro‍‍‍‍26:‍‍‍‍Determinación‍‍‍‍de‍‍‍‍Idioma‍‍‍‍CIDE‍‍‍‍(Cuadro‍‍‍‍6)...60

Cuadro‍‍‍‍27:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍documentos‍‍‍‍pertenecientes‍‍‍‍a‍‍‍‍cada‍‍‍‍uno‍‍‍‍de‍‍‍‍los‍‍‍‍5‍‍‍‍grupos‍‍‍‍CIDE‍‍‍‍ (Cuadro‍‍‍‍24)... 64

Cuadro‍‍‍‍28:‍‍‍‍Metadatos‍‍‍‍nulos‍‍‍‍CIBNOR‍‍‍‍(Cuadro‍‍‍‍1)...65

Cuadro‍‍‍‍29:‍‍‍‍Orígenes‍‍‍‍de‍‍‍‍clasificación‍‍‍‍CIBNOR‍‍‍‍(Cuadro‍‍‍‍5)...65

Cuadro‍‍‍‍30:‍‍‍‍Cuadro‍‍‍‍27:‍‍‍‍Determinación‍‍‍‍de‍‍‍‍Idioma‍‍‍‍CIBNOR‍‍‍‍(Cuadro‍‍‍‍6)...66

Cuadro‍‍‍‍31:‍‍‍‍Ejemplo‍‍‍‍de‍‍‍‍documentos‍‍‍‍pertenecientes‍‍‍‍a‍‍‍‍cada‍‍‍‍uno‍‍‍‍de‍‍‍‍los‍‍‍‍5‍‍‍‍grupos‍‍‍‍CIBNOR‍‍‍‍ (Cuadro‍‍‍‍24)... 69

(12)

Capítulo 1

Introducción

(13)

Capítulo 1. Introducción

Actualmente, ‍‍‍‍ acceder ‍‍‍‍ a ‍‍‍‍ los ‍‍‍‍ documentos ‍‍‍‍ que ‍‍‍‍ concentran ‍‍‍‍ los ‍‍‍‍ buscadores ‍‍‍‍ generales ‍‍‍‍ de información ‍‍‍‍ a ‍‍‍‍ partir ‍‍‍‍ de ‍‍‍‍ ocurrencias ‍‍‍‍ simples ‍‍‍‍ de ‍‍‍‍ palabras ‍‍‍‍ a ‍‍‍‍ texto ‍‍‍‍ abierto ‍‍‍‍ genera ‍‍‍‍ grandes listados,‍‍‍‍con‍‍‍‍resultados‍‍‍‍muchos‍‍‍‍de‍‍‍‍los‍‍‍‍cuales‍‍‍‍no‍‍‍‍se‍‍‍‍encuentran‍‍‍‍relacionados‍‍‍‍unos‍‍‍‍con‍‍‍‍otros, además‍‍‍‍si‍‍‍‍no‍‍‍‍se‍‍‍‍utiliza‍‍‍‍la‍‍‍‍palabra‍‍‍‍correcta‍‍‍‍en‍‍‍‍estas‍‍‍‍búsquedas‍‍‍‍se‍‍‍‍dificulta‍‍‍‍aún‍‍‍‍más‍‍‍‍esta labor.‍‍‍‍Para‍‍‍‍mejorar‍‍‍‍esta‍‍‍‍experiencia‍‍‍‍es‍‍‍‍importante‍‍‍‍ofrecer‍‍‍‍a‍‍‍‍los‍‍‍‍usuarios‍‍‍‍alternativas‍‍‍‍a‍‍‍‍sus búsquedas‍‍‍‍y‍‍‍‍localización.‍‍‍‍Una‍‍‍‍de‍‍‍‍estas‍‍‍‍maneras‍‍‍‍es‍‍‍‍el‍‍‍‍uso‍‍‍‍de‍‍‍‍sistemas‍‍‍‍de‍‍‍‍recomendación que ‍‍‍‍ sugieren ‍‍‍‍ otros ‍‍‍‍ documentos ‍‍‍‍ relacionados ‍‍‍‍ con ‍‍‍‍ los ‍‍‍‍ que ‍‍‍‍ se ‍‍‍‍ están ‍‍‍‍ consultando. ‍‍‍‍ Eso ‍‍‍‍ se puede‍‍‍‍hacer‍‍‍‍analizando‍‍‍‍los‍‍‍‍documentos‍‍‍‍y‍‍‍‍explotando‍‍‍‍los‍‍‍‍metadatos‍‍‍‍relacionados‍‍‍‍con‍‍‍‍estos.

A‍‍‍‍partir‍‍‍‍de‍‍‍‍los‍‍‍‍metadatos‍‍‍‍que‍‍‍‍acompañan‍‍‍‍a‍‍‍‍un‍‍‍‍documento‍‍‍‍es‍‍‍‍posible‍‍‍‍conocer‍‍‍‍más‍‍‍‍de ellos, ‍‍‍‍ ya ‍‍‍‍ que ‍‍‍‍ contienen ‍‍‍‍ información ‍‍‍‍ semiestructurada ‍‍‍‍ que ‍‍‍‍ describen ‍‍‍‍ sus ‍‍‍‍ características intrínsecas. ‍‍‍‍ Aplicando ‍‍‍‍ técnicas ‍‍‍‍ de ‍‍‍‍ detección ‍‍‍‍ automática ‍‍‍‍ de ‍‍‍‍ tópicos ‍‍‍‍ en ‍‍‍‍ textos ‍‍‍‍ no estructurados ‍‍‍‍ y ‍‍‍‍ la ‍‍‍‍ identificación ‍‍‍‍ y ‍‍‍‍ asignación ‍‍‍‍ de ‍‍‍‍ palabras ‍‍‍‍ clave ‍‍‍‍ a ‍‍‍‍ los ‍‍‍‍ documentos depositados, ‍‍‍‍ es ‍‍‍‍ posible ‍‍‍‍ identificar ‍‍‍‍ los ‍‍‍‍ temas ‍‍‍‍ principales ‍‍‍‍ de ‍‍‍‍ los ‍‍‍‍ que ‍‍‍‍ trata, ‍‍‍‍ evaluando ‍‍‍‍ la ocurrencia‍‍‍‍de‍‍‍‍ciertas‍‍‍‍palabras‍‍‍‍y‍‍‍‍los‍‍‍‍patrones‍‍‍‍que‍‍‍‍estas‍‍‍‍ocurrencias‍‍‍‍forman, ‍‍‍‍permitiendo agrupar‍‍‍‍los‍‍‍‍documentos‍‍‍‍por‍‍‍‍temáticas‍‍‍‍y‍‍‍‍detectando‍‍‍‍interrelaciones‍‍‍‍entre‍‍‍‍los‍‍‍‍mismos.

1.1 Motivación

Derivado‍‍‍‍de‍‍‍‍la‍‍‍‍gran‍‍‍‍cantidad‍‍‍‍de‍‍‍‍información‍‍‍‍que‍‍‍‍se‍‍‍‍genera‍‍‍‍actualmente‍‍‍‍en‍‍‍‍todos‍‍‍‍los‍‍‍‍ámbitos cada ‍‍‍‍ vez ‍‍‍‍ más ‍‍‍‍ se ‍‍‍‍ dificulta ‍‍‍‍ la ‍‍‍‍ búsqueda ‍‍‍‍ y ‍‍‍‍ localización ‍‍‍‍ de ‍‍‍‍ documentos ‍‍‍‍ de ‍‍‍‍ valor ‍‍‍‍ para ‍‍‍‍ los usuarios,‍‍‍‍ por‍‍‍‍lo‍‍‍‍ cual‍‍‍‍ es‍‍‍‍ preciso‍‍‍‍ que‍‍‍‍ estos‍‍‍‍ sean‍‍‍‍clasificados ‍‍‍‍ y‍‍‍‍organizados. ‍‍‍‍Debido‍‍‍‍ a‍‍‍‍ la velocidad ‍‍‍‍ y ‍‍‍‍ los ‍‍‍‍ volúmenes ‍‍‍‍ con ‍‍‍‍ que ‍‍‍‍ se ‍‍‍‍ genera ‍‍‍‍ esta ‍‍‍‍ información, ‍‍‍‍ su ‍‍‍‍ clasificación ‍‍‍‍ y organización‍‍‍‍se‍‍‍‍vuelve‍‍‍‍un‍‍‍‍proceso‍‍‍‍humanamente‍‍‍‍imposible‍‍‍‍por‍‍‍‍lo‍‍‍‍que‍‍‍‍es‍‍‍‍cada‍‍‍‍vez‍‍‍‍más necesario‍‍‍‍aplicar‍‍‍‍técnicas‍‍‍‍de‍‍‍‍procesamiento‍‍‍‍computacional‍‍‍‍que‍‍‍‍permitan‍‍‍‍analizar‍‍‍‍de‍‍‍‍manera automática‍‍‍‍estos‍‍‍‍grandes‍‍‍‍cúmulos‍‍‍‍de‍‍‍‍información‍‍‍‍para‍‍‍‍poder‍‍‍‍etiquetarlos‍‍‍‍y‍‍‍‍agruparlos‍‍‍‍con sus ‍‍‍‍ similares. ‍‍‍‍ De ‍‍‍‍ esta ‍‍‍‍ manera ‍‍‍‍ la ‍‍‍‍ información ‍‍‍‍ puede ‍‍‍‍ ser ‍‍‍‍ ofrecida ‍‍‍‍ y ‍‍‍‍ consumida ‍‍‍‍ por ‍‍‍‍ los usuarios‍‍‍‍eficientemente,‍‍‍‍siendo‍‍‍‍muy‍‍‍‍conveniente‍‍‍‍que‍‍‍‍su‍‍‍‍clasificación‍‍‍‍y‍‍‍‍organización‍‍‍‍pueda realizarse‍‍‍‍de‍‍‍‍manera‍‍‍‍no‍‍‍‍supervisada.

1

(14)

1.2 Problemática

Los‍‍‍‍recursos‍‍‍‍de‍‍‍‍información‍‍‍‍que‍‍‍‍se‍‍‍‍alojan‍‍‍‍en‍‍‍‍los‍‍‍‍Repositorios‍‍‍‍Institucionales‍‍‍‍de‍‍‍‍Ciencia Abierta ‍‍‍‍ pueden ‍‍‍‍ ser ‍‍‍‍ consultados ‍‍‍‍ mediante ‍‍‍‍ búsquedas ‍‍‍‍ a ‍‍‍‍ texto ‍‍‍‍ abierto ‍‍‍‍ y ‍‍‍‍ consultas ‍‍‍‍ de relaciones‍‍‍‍simples‍‍‍‍como‍‍‍‍lo‍‍‍‍es‍‍‍‍la‍‍‍‍búsqueda‍‍‍‍por‍‍‍‍autor‍‍‍‍o‍‍‍‍materia,‍‍‍‍lo‍‍‍‍que‍‍‍‍conlleva‍‍‍‍a‍‍‍‍obtener largos‍‍‍‍listados‍‍‍‍de‍‍‍‍resultados‍‍‍‍que‍‍‍‍si‍‍‍‍bien‍‍‍‍están‍‍‍‍ponderados‍‍‍‍solo‍‍‍‍se‍‍‍‍limitan‍‍‍‍al‍‍‍‍peso‍‍‍‍de‍‍‍‍las palabras‍‍‍‍que‍‍‍‍se‍‍‍‍usan‍‍‍‍en‍‍‍‍la‍‍‍‍cadena‍‍‍‍de‍‍‍‍búsqueda.‍‍‍‍Una‍‍‍‍vez‍‍‍‍que‍‍‍‍se‍‍‍‍consulta‍‍‍‍un‍‍‍‍recurso‍‍‍‍de información‍‍‍‍solo‍‍‍‍se‍‍‍‍visualiza‍‍‍‍información‍‍‍‍relacionada‍‍‍‍con‍‍‍‍el‍‍‍‍mismo‍‍‍‍autor,‍‍‍‍sin‍‍‍‍ofrecer‍‍‍‍otras alternativas ‍‍‍‍ de ‍‍‍‍ consulta, ‍‍‍‍ como ‍‍‍‍ pudiera ‍‍‍‍ ser ‍‍‍‍ recomendaciones ‍‍‍‍ de ‍‍‍‍ otros ‍‍‍‍ recursos ‍‍‍‍ de información‍‍‍‍relacionados‍‍‍‍que‍‍‍‍facilite‍‍‍‍a‍‍‍‍los‍‍‍‍usuarios‍‍‍‍el‍‍‍‍acceso‍‍‍‍a‍‍‍‍información‍‍‍‍relevante‍‍‍‍para‍‍‍‍su búsqueda.

1.3 Objetivos

1.3.1 Objetivo General

El ‍‍‍‍ objetivo ‍‍‍‍ es ‍‍‍‍ determinar ‍‍‍‍ de ‍‍‍‍ manera ‍‍‍‍ no ‍‍‍‍ supervisada ‍‍‍‍ los ‍‍‍‍ tópicos ‍‍‍‍ y ‍‍‍‍ palabras ‍‍‍‍ clave relacionados ‍‍‍‍ con ‍‍‍‍ los ‍‍‍‍ recursos ‍‍‍‍ de ‍‍‍‍ información ‍‍‍‍ de ‍‍‍‍ un ‍‍‍‍ Repositorio ‍‍‍‍ Institucional ‍‍‍‍ de ‍‍‍‍ Ciencia Abierta‍‍‍‍y‍‍‍‍proponer‍‍‍‍un‍‍‍‍sistema‍‍‍‍de‍‍‍‍recomendación‍‍‍‍de‍‍‍‍recursos‍‍‍‍de‍‍‍‍información‍‍‍‍basado‍‍‍‍en tópicos‍‍‍‍para‍‍‍‍finalmente‍‍‍‍explorar‍‍‍‍los‍‍‍‍tópicos‍‍‍‍obtenidos‍‍‍‍de‍‍‍‍un‍‍‍‍Repositorio‍‍‍‍Institucional.

1.3.2 Objetivos Específicos

• Extraer‍‍‍‍tópicos‍‍‍‍principales‍‍‍‍de‍‍‍‍un‍‍‍‍recurso‍‍‍‍de‍‍‍‍información‍‍‍‍a‍‍‍‍partir‍‍‍‍del‍‍‍‍preprocesamiento por‍‍‍‍técnicas‍‍‍‍de‍‍‍‍reducción‍‍‍‍morfológica‍‍‍‍de‍‍‍‍los‍‍‍‍títulos‍‍‍‍y‍‍‍‍resúmenes‍‍‍‍disponibles‍‍‍‍para consulta‍‍‍‍en‍‍‍‍un‍‍‍‍Repositorio‍‍‍‍Institucional.

• Evaluar‍‍‍‍métricas‍‍‍‍de‍‍‍‍selección‍‍‍‍de‍‍‍‍términos‍‍‍‍relevantes,‍‍‍‍se‍‍‍‍propone‍‍‍‍TF-IDF,‍‍‍‍Punto‍‍‍‍de transición‍‍‍‍de‍‍‍‍Goffman‍‍‍‍y‍‍‍‍Entropía.

• Evaluar‍‍‍‍si‍‍‍‍existe‍‍‍‍algún‍‍‍‍otro‍‍‍‍metadato‍‍‍‍que‍‍‍‍permita‍‍‍‍mejorar‍‍‍‍la‍‍‍‍extracción.

• Evaluar‍‍‍‍las‍‍‍‍combinaciones‍‍‍‍de‍‍‍‍estos‍‍‍‍metadatos.

• Evaluar‍‍‍‍la‍‍‍‍métrica‍‍‍‍obtenida‍‍‍‍con‍‍‍‍un‍‍‍‍grupo‍‍‍‍de‍‍‍‍documentos‍‍‍‍clasificados.

(15)

• Generar‍‍‍‍un‍‍‍‍prototipo‍‍‍‍de‍‍‍‍un‍‍‍‍sistema‍‍‍‍de‍‍‍‍recomendación‍‍‍‍de‍‍‍‍recursos‍‍‍‍de‍‍‍‍información‍‍‍‍de acuerdo‍‍‍‍con‍‍‍‍los‍‍‍‍tópicos‍‍‍‍extraídos.

• Obtener‍‍‍‍y‍‍‍‍explorar‍‍‍‍los‍‍‍‍tópicos‍‍‍‍de‍‍‍‍una‍‍‍‍muestra‍‍‍‍de‍‍‍‍Repositorios‍‍‍‍Institucionales.

1.4 Contribución

El‍‍‍‍presente‍‍‍‍trabajo‍‍‍‍se‍‍‍‍enfoca‍‍‍‍en‍‍‍‍una‍‍‍‍propuesta‍‍‍‍de‍‍‍‍mejora‍‍‍‍a‍‍‍‍las‍‍‍‍consultas‍‍‍‍de‍‍‍‍recursos‍‍‍‍de información‍‍‍‍de‍‍‍‍los‍‍‍‍Repositorios‍‍‍‍Institucionales‍‍‍‍de‍‍‍‍Ciencia‍‍‍‍Abierta,‍‍‍‍los‍‍‍‍cuales‍‍‍‍son‍‍‍‍plataformas digitales‍‍‍‍que‍‍‍‍contienen‍‍‍‍los‍‍‍‍recursos‍‍‍‍de‍‍‍‍información‍‍‍‍académica,‍‍‍‍científica,‍‍‍‍tecnológica‍‍‍‍y‍‍‍‍de innovación,‍‍‍‍siendo‍‍‍‍de‍‍‍‍gran‍‍‍‍valor‍‍‍‍por‍‍‍‍ser‍‍‍‍un‍‍‍‍punto‍‍‍‍de‍‍‍‍difusión‍‍‍‍del‍‍‍‍conocimiento‍‍‍‍generado‍‍‍‍en el‍‍‍‍país.‍‍‍‍Para‍‍‍‍lograr‍‍‍‍las‍‍‍‍mejoras‍‍‍‍en‍‍‍‍las‍‍‍‍consultas‍‍‍‍este‍‍‍‍proyecto‍‍‍‍contempla‍‍‍‍la‍‍‍‍implementación de‍‍‍‍enfoques‍‍‍‍computacionales‍‍‍‍derivados‍‍‍‍de‍‍‍‍técnicas‍‍‍‍de‍‍‍‍procesamiento‍‍‍‍de‍‍‍‍lenguaje‍‍‍‍natural‍‍‍‍y modelado‍‍‍‍de‍‍‍‍tópicos.

La‍‍‍‍aplicación‍‍‍‍de‍‍‍‍técnicas‍‍‍‍de‍‍‍‍modelado‍‍‍‍de‍‍‍‍tópico‍‍‍‍para‍‍‍‍la‍‍‍‍extracción‍‍‍‍de‍‍‍‍palabras‍‍‍‍claves permite‍‍‍‍relacionar‍‍‍‍de‍‍‍‍manera‍‍‍‍no‍‍‍‍supervisada‍‍‍‍los‍‍‍‍recursos‍‍‍‍de‍‍‍‍información‍‍‍‍de‍‍‍‍un‍‍‍‍Repositorio Institucional‍‍‍‍de‍‍‍‍Ciencia‍‍‍‍Abierta.

Con‍‍‍‍la‍‍‍‍aplicación‍‍‍‍de‍‍‍‍técnicas‍‍‍‍automáticas‍‍‍‍de‍‍‍‍Procesamiento‍‍‍‍de‍‍‍‍Lenguaje‍‍‍‍Natural‍‍‍‍a los‍‍‍‍metadatos‍‍‍‍y‍‍‍‍el‍‍‍‍modelado‍‍‍‍de‍‍‍‍tópicos‍‍‍‍de‍‍‍‍los‍‍‍‍recursos‍‍‍‍de‍‍‍‍información,‍‍‍‍es‍‍‍‍posible‍‍‍‍proponer elementos‍‍‍‍de‍‍‍‍catalogación‍‍‍‍acordes‍‍‍‍a‍‍‍‍cada‍‍‍‍recurso,‍‍‍‍como‍‍‍‍son‍‍‍‍los‍‍‍‍temas‍‍‍‍y‍‍‍‍palabras‍‍‍‍clave‍‍‍‍que permita‍‍‍‍a‍‍‍‍partir‍‍‍‍de‍‍‍‍esta‍‍‍‍información,‍‍‍‍recomendar‍‍‍‍otros‍‍‍‍recursos‍‍‍‍de‍‍‍‍información‍‍‍‍asociados.

3

(16)

Capítulo 2

Marco Teórico

(17)

Capítulo 2. Marco Teórico

2.1 Repositorio institucional

Como‍‍‍‍parte‍‍‍‍de‍‍‍‍las‍‍‍‍políticas‍‍‍‍de‍‍‍‍ciencia‍‍‍‍abierta‍‍‍‍en‍‍‍‍el‍‍‍‍país‍‍‍‍(Guajardo,‍‍‍‍2020)‍‍‍‍y‍‍‍‍con‍‍‍‍el‍‍‍‍objetivo‍‍‍‍de permitir‍‍‍‍el‍‍‍‍acceso‍‍‍‍libre‍‍‍‍y‍‍‍‍gratuito‍‍‍‍a‍‍‍‍los‍‍‍‍materiales‍‍‍‍y‍‍‍‍recursos‍‍‍‍de‍‍‍‍información,‍‍‍‍que‍‍‍‍resultan‍‍‍‍de los‍‍‍‍procesos‍‍‍‍de‍‍‍‍investigación‍‍‍‍que‍‍‍‍se‍‍‍‍producen‍‍‍‍en‍‍‍‍México‍‍‍‍con‍‍‍‍fondos‍‍‍‍públicos,‍‍‍‍en‍‍‍‍2017 CONACYT‍‍‍‍establece‍‍‍‍el‍‍‍‍Programa‍‍‍‍de‍‍‍‍Repositorios‍‍‍‍ (CONACYT,‍‍‍‍2017a)‍‍‍‍ con‍‍‍‍el‍‍‍‍objetivo‍‍‍‍de impulsar‍‍‍‍la‍‍‍‍creación‍‍‍‍de‍‍‍‍los‍‍‍‍Repositorios‍‍‍‍Institucionales‍‍‍‍de‍‍‍‍Ciencia‍‍‍‍Abierta‍‍‍‍como‍‍‍‍plataformas digitales‍‍‍‍e‍‍‍‍interoperables,‍‍‍‍para‍‍‍‍resguardar‍‍‍‍y‍‍‍‍ofrecer‍‍‍‍los‍‍‍‍recursos‍‍‍‍de‍‍‍‍información‍‍‍‍académica, científica,‍‍‍‍tecnológica‍‍‍‍y‍‍‍‍de‍‍‍‍innovación‍‍‍‍generados‍‍‍‍por‍‍‍‍instituciones‍‍‍‍de‍‍‍‍educación‍‍‍‍superior‍‍‍‍y aquellas‍‍‍‍que‍‍‍‍realizan‍‍‍‍investigación‍‍‍‍científica‍‍‍‍y‍‍‍‍tecnológica.‍‍‍‍Con‍‍‍‍el‍‍‍‍objetivo‍‍‍‍de‍‍‍‍coordinar‍‍‍‍la interoperabilidad ‍‍‍‍ de ‍‍‍‍ estos ‍‍‍‍ repositorios ‍‍‍‍ se ‍‍‍‍ estableció‍‍‍‍ (CONACYT, ‍‍‍‍ 2017b)‍‍‍‍ el ‍‍‍‍ uso ‍‍‍‍ de ‍‍‍‍ un esquema‍‍‍‍de‍‍‍‍metadatos‍‍‍‍alineados‍‍‍‍a‍‍‍‍OpenAIRE‍‍‍‍que‍‍‍‍enumera‍‍‍‍la‍‍‍‍información‍‍‍‍mínima‍‍‍‍para describir‍‍‍‍un‍‍‍‍recurso‍‍‍‍de‍‍‍‍información‍‍‍‍y‍‍‍‍del‍‍‍‍protocolo‍‍‍‍OAI-PMH‍‍‍‍para‍‍‍‍el‍‍‍‍intercambio‍‍‍‍de‍‍‍‍esta información.

2.2 Sistema de recomendación

Los‍‍‍‍Sistemas‍‍‍‍de‍‍‍‍recomendación‍‍‍‍(Recommendation‍‍‍‍System)(Adomavicius‍‍‍‍&‍‍‍‍Tuzhilin,‍‍‍‍2005;

Bobadilla ‍‍‍‍ et‍‍‍‍al., ‍‍‍‍ 2013)‍‍‍‍ aparecen ‍‍‍‍ como ‍‍‍‍ técnicas ‍‍‍‍ para ‍‍‍‍ acercar ‍‍‍‍ documentos ‍‍‍‍ a ‍‍‍‍ los ‍‍‍‍ usuarios acordes‍‍‍‍a‍‍‍‍la‍‍‍‍información‍‍‍‍que‍‍‍‍se‍‍‍‍está‍‍‍‍consultando,‍‍‍‍estos‍‍‍‍pueden‍‍‍‍clasificarse‍‍‍‍en‍‍‍‍basados‍‍‍‍en contenido, ‍‍‍‍ colaborativos ‍‍‍‍ e ‍‍‍‍híbridos‍‍‍‍ (Adomavicius ‍‍‍‍ & ‍‍‍‍ Tuzhilin, ‍‍‍‍ 2005), ‍‍‍‍ en ‍‍‍‍ el ‍‍‍‍ primero ‍‍‍‍ las recomendaciones‍‍‍‍se‍‍‍‍hacen‍‍‍‍a‍‍‍‍partir‍‍‍‍de‍‍‍‍documentos‍‍‍‍similares‍‍‍‍a‍‍‍‍los‍‍‍‍que‍‍‍‍el‍‍‍‍usuario‍‍‍‍está‍‍‍‍viendo o‍‍‍‍vio‍‍‍‍en‍‍‍‍el‍‍‍‍pasado,‍‍‍‍en‍‍‍‍el‍‍‍‍caso‍‍‍‍de‍‍‍‍los‍‍‍‍colaborativos‍‍‍‍se‍‍‍‍recomiendan‍‍‍‍documentos‍‍‍‍que‍‍‍‍otros usuarios‍‍‍‍similares‍‍‍‍relacionaron‍‍‍‍p.ej.‍‍‍‍calificándolos,‍‍‍‍en‍‍‍‍el‍‍‍‍último‍‍‍‍se‍‍‍‍combina‍‍‍‍los‍‍‍‍dos‍‍‍‍anteriores con‍‍‍‍la‍‍‍‍idea‍‍‍‍de‍‍‍‍mejorar‍‍‍‍los‍‍‍‍resultados.

5

(18)

En‍‍‍‍el‍‍‍‍caso‍‍‍‍del‍‍‍‍repositorio‍‍‍‍de‍‍‍‍información‍‍‍‍de‍‍‍‍INFOTEC‍‍‍‍no‍‍‍‍se‍‍‍‍requiere‍‍‍‍un‍‍‍‍proceso‍‍‍‍de registros‍‍‍‍y‍‍‍‍login‍‍‍‍para‍‍‍‍su‍‍‍‍consulta,‍‍‍‍ni‍‍‍‍tiene‍‍‍‍procesos‍‍‍‍de‍‍‍‍calificación‍‍‍‍o‍‍‍‍comentarios‍‍‍‍sobres‍‍‍‍los recursos‍‍‍‍de‍‍‍‍información‍‍‍‍lo‍‍‍‍que‍‍‍‍dificulta‍‍‍‍dar‍‍‍‍seguimiento‍‍‍‍a‍‍‍‍las‍‍‍‍preferencias‍‍‍‍de‍‍‍‍los‍‍‍‍usuarios, por‍‍‍‍lo‍‍‍‍que‍‍‍‍se‍‍‍‍optó‍‍‍‍por‍‍‍‍un‍‍‍‍enfoque‍‍‍‍puramente ‍‍‍‍basado‍‍‍‍ en‍‍‍‍contenidos ‍‍‍‍(Pazzani‍‍‍‍&‍‍‍‍Billsus, 2007).

En ‍‍‍‍ este ‍‍‍‍ enfoque ‍‍‍‍ se ‍‍‍‍ utilizará ‍‍‍‍ la ‍‍‍‍ información ‍‍‍‍ relacionada ‍‍‍‍ con ‍‍‍‍ los ‍‍‍‍ documentos (metadatos) ‍‍‍‍ para ‍‍‍‍ extraer ‍‍‍‍ sus ‍‍‍‍ características, ‍‍‍‍ estas ‍‍‍‍ se ‍‍‍‍ compararán ‍‍‍‍ entre ‍‍‍‍ los ‍‍‍‍ demás documentos‍‍‍‍y‍‍‍‍a‍‍‍‍partir‍‍‍‍de‍‍‍‍estos‍‍‍‍se‍‍‍‍hará‍‍‍‍una‍‍‍‍recomendación‍‍‍‍de‍‍‍‍los‍‍‍‍similares,‍‍‍‍por‍‍‍‍ejemplo haciendo‍‍‍‍un‍‍‍‍símil‍‍‍‍en‍‍‍‍el‍‍‍‍caso‍‍‍‍de‍‍‍‍películas‍‍‍‍o‍‍‍‍libros‍‍‍‍podrían‍‍‍‍ser‍‍‍‍otros‍‍‍‍del‍‍‍‍mismo‍‍‍‍género‍‍‍‍o‍‍‍‍autor, para ‍‍‍‍ que ‍‍‍‍ esto ‍‍‍‍ sea ‍‍‍‍ posible ‍‍‍‍ estos ‍‍‍‍ metadatos ‍‍‍‍ deben ‍‍‍‍ estar ‍‍‍‍ estructurados, ‍‍‍‍ aunque ‍‍‍‍ esto ‍‍‍‍ no garantiza ‍‍‍‍ la ‍‍‍‍ calidad ‍‍‍‍ de ‍‍‍‍ la ‍‍‍‍ información, ‍‍‍‍ y ‍‍‍‍ deben ‍‍‍‍ pasar ‍‍‍‍ por ‍‍‍‍ un ‍‍‍‍ proceso ‍‍‍‍ de ‍‍‍‍ análisis ‍‍‍‍ y normalización,‍‍‍‍con‍‍‍‍la‍‍‍‍idea‍‍‍‍de‍‍‍‍desechar‍‍‍‍los‍‍‍‍datos‍‍‍‍irrelevantes‍‍‍‍y‍‍‍‍extraer‍‍‍‍esas‍‍‍‍características que‍‍‍‍permitan‍‍‍‍clasificarlos‍‍‍‍y‍‍‍‍relacionarlo‍‍‍‍con‍‍‍‍sus‍‍‍‍similares,‍‍‍‍con‍‍‍‍el‍‍‍‍objetivo‍‍‍‍de‍‍‍‍hacer‍‍‍‍los‍‍‍‍cruces de‍‍‍‍manera‍‍‍‍eficiente‍‍‍‍y‍‍‍‍filtrar‍‍‍‍la‍‍‍‍información‍‍‍‍que‍‍‍‍se‍‍‍‍le‍‍‍‍ofrece‍‍‍‍a‍‍‍‍los‍‍‍‍usuarios

2.3 Modelado de tópico

El‍‍‍‍Modelado‍‍‍‍de‍‍‍‍Tópicos‍‍‍‍(Topic‍‍‍‍Modeling)‍‍‍‍(Blei,‍‍‍‍2012)‍‍‍‍surge‍‍‍‍como‍‍‍‍un‍‍‍‍enfoque‍‍‍‍probabilístico‍‍‍‍a la‍‍‍‍idea‍‍‍‍de‍‍‍‍que‍‍‍‍los‍‍‍‍documentos‍‍‍‍que‍‍‍‍están‍‍‍‍relacionados‍‍‍‍con‍‍‍‍uno‍‍‍‍o‍‍‍‍más‍‍‍‍temas‍‍‍‍(tópico)‍‍‍‍reflejan esta‍‍‍‍relación‍‍‍‍en‍‍‍‍un‍‍‍‍grupo‍‍‍‍de‍‍‍‍palabras‍‍‍‍las‍‍‍‍cuales‍‍‍‍están‍‍‍‍presentes‍‍‍‍en‍‍‍‍mayor‍‍‍‍o‍‍‍‍menor‍‍‍‍medida dependiendo‍‍‍‍de‍‍‍‍esta‍‍‍‍relación‍‍‍‍con‍‍‍‍los‍‍‍‍temas,‍‍‍‍así‍‍‍‍que‍‍‍‍cada‍‍‍‍tema‍‍‍‍tendrá‍‍‍‍un‍‍‍‍grupo‍‍‍‍de‍‍‍‍palabras que ‍‍‍‍ aparecerán ‍‍‍‍ en ‍‍‍‍ los ‍‍‍‍ documentos ‍‍‍‍ relacionados ‍‍‍‍ con ‍‍‍‍ él, ‍‍‍‍ pero ‍‍‍‍ si ‍‍‍‍ lo ‍‍‍‍ está ‍‍‍‍ a ‍‍‍‍ varios ‍‍‍‍ temas aparecerán‍‍‍‍también‍‍‍‍otros‍‍‍‍conjuntos‍‍‍‍de‍‍‍‍palabras‍‍‍‍y‍‍‍‍en‍‍‍‍el‍‍‍‍caso‍‍‍‍de‍‍‍‍temas‍‍‍‍emergentes‍‍‍‍sé‍‍‍‍irá creando‍‍‍‍su‍‍‍‍propio‍‍‍‍grupo‍‍‍‍de‍‍‍‍palabras‍‍‍‍conforme‍‍‍‍vaya‍‍‍‍madurando.

Esta ‍‍‍‍ técnica ‍‍‍‍ permite ‍‍‍‍ procesar ‍‍‍‍ grandes ‍‍‍‍ cantidades ‍‍‍‍ de ‍‍‍‍ información ‍‍‍‍ sin ‍‍‍‍ intervención humana‍‍‍‍y‍‍‍‍no‍‍‍‍requiere‍‍‍‍que‍‍‍‍la‍‍‍‍información‍‍‍‍esté‍‍‍‍previamente‍‍‍‍etiquetada,‍‍‍‍ya‍‍‍‍que‍‍‍‍parten‍‍‍‍de procesar‍‍‍‍todas‍‍‍‍las‍‍‍‍palabras‍‍‍‍y‍‍‍‍calcular‍‍‍‍su‍‍‍‍distribución‍‍‍‍dentro‍‍‍‍del‍‍‍‍documento‍‍‍‍y‍‍‍‍en‍‍‍‍el‍‍‍‍conjunto de‍‍‍‍documentos.

Para‍‍‍‍reducir‍‍‍‍la‍‍‍‍complejidad‍‍‍‍al‍‍‍‍representar‍‍‍‍un‍‍‍‍documento(Baeza-Yates‍‍‍‍&‍‍‍‍Ribeiro-Neto, 2011)‍‍‍‍es‍‍‍‍recomendable‍‍‍‍realizar‍‍‍‍ciertos‍‍‍‍pasos‍‍‍‍previos‍‍‍‍como‍‍‍‍la‍‍‍‍eliminación‍‍‍‍de‍‍‍‍palabras‍‍‍‍vacías

(19)

nuestro)‍‍‍‍y‍‍‍‍la‍‍‍‍reducción‍‍‍‍morfológica‍‍‍‍(como‍‍‍‍el‍‍‍‍Stemming)‍‍‍‍el‍‍‍‍cual‍‍‍‍reduce‍‍‍‍las‍‍‍‍variantes‍‍‍‍de‍‍‍‍una misma ‍‍‍‍ palabra, ‍‍‍‍ además ‍‍‍‍ con ‍‍‍‍ esto ‍‍‍‍ reducimos ‍‍‍‍ las ‍‍‍‍ dimensiones ‍‍‍‍ de ‍‍‍‍ los ‍‍‍‍ datos ‍‍‍‍ y ‍‍‍‍ con ‍‍‍‍ ello simplificamos ‍‍‍‍ su ‍‍‍‍ procesamiento. ‍‍‍‍A‍‍‍‍ partir ‍‍‍‍ de ‍‍‍‍ estos ‍‍‍‍ datos ‍‍‍‍ se ‍‍‍‍ genera ‍‍‍‍ una ‍‍‍‍ representación simplificada‍‍‍‍de‍‍‍‍cada‍‍‍‍documento‍‍‍‍agregando‍‍‍‍la‍‍‍‍frecuencia‍‍‍‍en‍‍‍‍que‍‍‍‍aparece‍‍‍‍cada‍‍‍‍uno‍‍‍‍de‍‍‍‍estos términos‍‍‍‍simplificados‍‍‍‍sin‍‍‍‍importar‍‍‍‍su‍‍‍‍orden‍‍‍‍y‍‍‍‍también‍‍‍‍su‍‍‍‍gramática,‍‍‍‍esta‍‍‍‍representación ahora ‍‍‍‍ debe ‍‍‍‍ ser ‍‍‍‍ procesada ‍‍‍‍ mediante ‍‍‍‍ técnicas ‍‍‍‍ de ‍‍‍‍ pesado ‍‍‍‍ de ‍‍‍‍ términos ‍‍‍‍ (TF-IDF, ‍‍‍‍ Goffman, Entropía)‍‍‍‍con‍‍‍‍la‍‍‍‍intención‍‍‍‍de‍‍‍‍ponderar‍‍‍‍las‍‍‍‍palabras‍‍‍‍de‍‍‍‍mayor‍‍‍‍aporte‍‍‍‍y‍‍‍‍descartar‍‍‍‍palabras‍‍‍‍de uso‍‍‍‍común,‍‍‍‍que‍‍‍‍será‍‍‍‍la‍‍‍‍entrada‍‍‍‍para‍‍‍‍el‍‍‍‍modelado.‍‍‍‍Finalmente,‍‍‍‍con‍‍‍‍el‍‍‍‍objetivo‍‍‍‍de‍‍‍‍encontrar los‍‍‍‍temas‍‍‍‍a‍‍‍‍partir‍‍‍‍del‍‍‍‍análisis‍‍‍‍de‍‍‍‍las‍‍‍‍palabras,‍‍‍‍esto‍‍‍‍se‍‍‍‍puede‍‍‍‍hacer‍‍‍‍mediante‍‍‍‍técnicas‍‍‍‍como el‍‍‍‍LDA‍‍‍‍y‍‍‍‍LSA.

2.3.1 TF-IDF

Una‍‍‍‍de‍‍‍‍las‍‍‍‍técnicas‍‍‍‍de‍‍‍‍pesado‍‍‍‍de‍‍‍‍términos‍‍‍‍más‍‍‍‍populares‍‍‍‍es‍‍‍‍TF-IDF‍‍‍‍(Term‍‍‍‍Frequency‍‍‍‍- Inverse‍‍‍‍Document‍‍‍‍Frequency)(Baeza-Yates‍‍‍‍&‍‍‍‍Ribeiro-Neto,‍‍‍‍2011)‍‍‍‍la‍‍‍‍cual‍‍‍‍permite‍‍‍‍cuantificar la‍‍‍‍relevancia‍‍‍‍de‍‍‍‍ciertas‍‍‍‍palabras‍‍‍‍en‍‍‍‍un‍‍‍‍documento‍‍‍‍comparándolo‍‍‍‍dentro‍‍‍‍de‍‍‍‍un‍‍‍‍corpus‍‍‍‍de ellos, ‍‍‍‍ mediante ‍‍‍‍ la ‍‍‍‍ determinación ‍‍‍‍ de ‍‍‍‍ la ‍‍‍‍ frecuencia ‍‍‍‍ de ‍‍‍‍ aparición ‍‍‍‍ de ‍‍‍‍ un ‍‍‍‍ término ‍‍‍‍ en ‍‍‍‍ un documento‍‍‍‍por‍‍‍‍la‍‍‍‍proporción‍‍‍‍inversa‍‍‍‍de‍‍‍‍ese‍‍‍‍mismo‍‍‍‍término‍‍‍‍en‍‍‍‍todos‍‍‍‍los‍‍‍‍documentos‍‍‍‍del corpus,‍‍‍‍con‍‍‍‍esto‍‍‍‍obtendremos‍‍‍‍pesos‍‍‍‍altos‍‍‍‍cuando‍‍‍‍el‍‍‍‍término‍‍‍‍ocurre‍‍‍‍en‍‍‍‍un‍‍‍‍grupo‍‍‍‍pequeño‍‍‍‍de documentos ‍‍‍‍ y ‍‍‍‍ bajos ‍‍‍‍ cuando ‍‍‍‍ lo ‍‍‍‍ hacen ‍‍‍‍ en ‍‍‍‍ un ‍‍‍‍ solo ‍‍‍‍ documento ‍‍‍‍ y ‍‍‍‍ aún ‍‍‍‍ más ‍‍‍‍ bajos ‍‍‍‍ cuando aparece ‍‍‍‍ en ‍‍‍‍ todos ‍‍‍‍ los ‍‍‍‍ documentos, ‍‍‍‍ permitiendo ‍‍‍‍ con ‍‍‍‍ esto ‍‍‍‍ usarlo ‍‍‍‍ como ‍‍‍‍ un ‍‍‍‍ marcador ‍‍‍‍ de relevancia.

El‍‍‍‍peso‍‍‍‍se‍‍‍‍calcula‍‍‍‍mediante‍‍‍‍la‍‍‍‍siguiente‍‍‍‍fórmula‍‍‍‍(Ramos,‍‍‍‍2003):

Para:‍‍‍‍un‍‍‍‍conjunto‍‍‍‍de‍‍‍‍documentos‍‍‍‍D,‍‍‍‍un‍‍‍‍término‍‍‍‍t‍‍‍‍y‍‍‍‍un‍‍‍‍documento‍‍‍‍d TF−IDF_{t ,d}=f_{t ,d}∗log

(

^fⁿ^{t , D}

)

Donde‍‍‍‍ f_{t ,d} es‍‍‍‍el‍‍‍‍número‍‍‍‍de‍‍‍‍ocurrencias‍‍‍‍del‍‍‍‍término‍‍‍‍t‍‍‍‍en‍‍‍‍el‍‍‍‍documento‍‍‍‍d,‍‍‍‍ n ‍‍‍‍es‍‍‍‍el número‍‍‍‍total‍‍‍‍de‍‍‍‍documentos‍‍‍‍en‍‍‍‍D,‍‍‍‍y‍‍‍‍ f_{t , D} ‍‍‍‍es‍‍‍‍el‍‍‍‍número‍‍‍‍de‍‍‍‍ocurrencias‍‍‍‍del‍‍‍‍término‍‍‍‍t‍‍‍‍en‍‍‍‍el conjunto‍‍‍‍de‍‍‍‍documentos‍‍‍‍D.

7

(20)

2.3.2 Punto de transición de Goffman

La‍‍‍‍ley‍‍‍‍de‍‍‍‍Zipf‍‍‍‍plantea ‍‍‍‍(Urbizagástegui‍‍‍‍Alvarado‍‍‍‍&‍‍‍‍Restrepo‍‍‍‍Arango,‍‍‍‍2011)‍‍‍‍ que‍‍‍‍al‍‍‍‍escribir preferimos‍‍‍‍usar‍‍‍‍más‍‍‍‍palabras‍‍‍‍comunes‍‍‍‍con‍‍‍‍respecto‍‍‍‍a‍‍‍‍las‍‍‍‍menos‍‍‍‍conocidas,‍‍‍‍proponiendo‍‍‍‍2 ecuaciones ‍‍‍‍ las ‍‍‍‍ cuales ‍‍‍‍ describen ‍‍‍‍ el ‍‍‍‍ comportamiento ‍‍‍‍ de ‍‍‍‍ la ‍‍‍‍ distribución ‍‍‍‍ en ‍‍‍‍ frecuencia ‍‍‍‍ de palabras‍‍‍‍en‍‍‍‍un‍‍‍‍documento,‍‍‍‍una‍‍‍‍para‍‍‍‍palabras‍‍‍‍de‍‍‍‍alta‍‍‍‍frecuencia‍‍‍‍y‍‍‍‍otra‍‍‍‍para‍‍‍‍palabras‍‍‍‍de‍‍‍‍baja frecuencia,‍‍‍‍Goffman‍‍‍‍propone‍‍‍‍que‍‍‍‍en‍‍‍‍la‍‍‍‍región‍‍‍‍donde‍‍‍‍estas‍‍‍‍dos‍‍‍‍ecuaciones‍‍‍‍se‍‍‍‍encuentran (Punto‍‍‍‍de‍‍‍‍transición)‍‍‍‍es‍‍‍‍donde‍‍‍‍se‍‍‍‍localizan‍‍‍‍las‍‍‍‍palabras‍‍‍‍de‍‍‍‍mayor‍‍‍‍relevancia‍‍‍‍de‍‍‍‍un‍‍‍‍texto.

Entonces‍‍‍‍si‍‍‍‍tenemos‍‍‍‍un‍‍‍‍listado‍‍‍‍de‍‍‍‍ocurrencia‍‍‍‍de‍‍‍‍palabras‍‍‍‍ordenados‍‍‍‍por‍‍‍‍frecuencia‍‍‍‍las‍‍‍‍que se‍‍‍‍encuentren‍‍‍‍más‍‍‍‍cerca‍‍‍‍de‍‍‍‍este‍‍‍‍punto‍‍‍‍se‍‍‍‍consideraran‍‍‍‍de‍‍‍‍mayor‍‍‍‍relevancia.

Este‍‍‍‍punto‍‍‍‍de‍‍‍‍transición‍‍‍‍(Boyce‍‍‍‍&‍‍‍‍Lockard,‍‍‍‍1975)‍‍‍‍se‍‍‍‍encuentra‍‍‍‍donde‍‍‍‍la‍‍‍‍distribución‍‍‍‍de‍‍‍‍baja frecuencia‍‍‍‍termina‍‍‍‍y‍‍‍‍comienza‍‍‍‍la‍‍‍‍distribución‍‍‍‍de‍‍‍‍alta‍‍‍‍frecuencia‍‍‍‍y‍‍‍‍está‍‍‍‍dado‍‍‍‍por:

PTG=−1±

√

¹⁺⁸^I¹

2

Donde‍‍‍‍ PTG ‍‍‍‍es‍‍‍‍la‍‍‍‍frecuencia‍‍‍‍donde‍‍‍‍se‍‍‍‍va‍‍‍‍a‍‍‍‍encontrar‍‍‍‍estos‍‍‍‍dos‍‍‍‍curvas‍‍‍‍(Punto‍‍‍‍de transición),‍‍‍‍así‍‍‍‍como‍‍‍‍ I₁ es‍‍‍‍el‍‍‍‍número‍‍‍‍de‍‍‍‍términos‍‍‍‍que‍‍‍‍tienen‍‍‍‍frecuencia‍‍‍‍1.

2.3.3 Entropía

El ‍‍‍‍ uso ‍‍‍‍ de ‍‍‍‍ la ‍‍‍‍ entropía ‍‍‍‍ para ‍‍‍‍ el ‍‍‍‍ pesado ‍‍‍‍ de ‍‍‍‍ términos ‍‍‍‍ propone ‍‍‍‍ el ‍‍‍‍ cálculo ‍‍‍‍ de ‍‍‍‍ la ‍‍‍‍ LogEntropy (Dumais, ‍‍‍‍ 1991)‍‍‍‍ o ‍‍‍‍ Entropía ‍‍‍‍ inversa‍‍‍‍ (Quesada, ‍‍‍‍ 2007)‍‍‍‍ como ‍‍‍‍ métrica ‍‍‍‍ la ‍‍‍‍ cual ‍‍‍‍ plantea ‍‍‍‍ que mientras ‍‍‍‍ más ‍‍‍‍ entropía ‍‍‍‍ tenga ‍‍‍‍ un ‍‍‍‍ término ‍‍‍‍ menos ‍‍‍‍ información ‍‍‍‍ transmite ‍‍‍‍ acerca ‍‍‍‍ de ‍‍‍‍ los documentos‍‍‍‍en‍‍‍‍los‍‍‍‍que‍‍‍‍aparece,‍‍‍‍por‍‍‍‍lo‍‍‍‍tanto,‍‍‍‍tiene‍‍‍‍menos‍‍‍‍relevancia‍‍‍‍en‍‍‍‍su‍‍‍‍uso.‍‍‍‍Por‍‍‍‍ejemplo, si‍‍‍‍una‍‍‍‍palabra‍‍‍‍aparece‍‍‍‍en‍‍‍‍todos‍‍‍‍los‍‍‍‍documentos‍‍‍‍esta‍‍‍‍no‍‍‍‍aporta‍‍‍‍gran‍‍‍‍significado‍‍‍‍para‍‍‍‍el entendimiento‍‍‍‍del‍‍‍‍mismo‍‍‍‍y‍‍‍‍obtendrá‍‍‍‍un‍‍‍‍peso‍‍‍‍de‍‍‍‍esta‍‍‍‍métrica‍‍‍‍bajo,‍‍‍‍por‍‍‍‍el‍‍‍‍otro‍‍‍‍lado‍‍‍‍una palabra‍‍‍‍que‍‍‍‍tiene‍‍‍‍menos‍‍‍‍apariciones‍‍‍‍obtendrá‍‍‍‍un‍‍‍‍peso‍‍‍‍alto.

La‍‍‍‍fórmula‍‍‍‍para‍‍‍‍el‍‍‍‍cálculo‍‍‍‍de‍‍‍‍este‍‍‍‍peso‍‍‍‍está‍‍‍‍dada‍‍‍‍por‍‍‍‍(Pincombe,‍‍‍‍2004):‍‍‍‍

(21)

Para:‍‍‍‍un‍‍‍‍conjunto‍‍‍‍de‍‍‍‍documentos‍‍‍‍D,‍‍‍‍un‍‍‍‍término‍‍‍‍t‍‍‍‍y‍‍‍‍un‍‍‍‍documento‍‍‍‍d:

E_t=1+

∑

t=1 n

(P_{t ,d}∗log(P_{t ,d})) log(n)

Donde n ‍‍‍‍es‍‍‍‍el‍‍‍‍número‍‍‍‍total‍‍‍‍de‍‍‍‍documentos‍‍‍‍en‍‍‍‍D‍‍‍‍y‍‍‍‍la‍‍‍‍probabilidad P_{t , d} ‍‍‍‍está‍‍‍‍dada por:

P_{t , d}=f_{t , d} f_{t , D}

Donde‍‍‍‍ f_{t ,d} es‍‍‍‍el‍‍‍‍número‍‍‍‍de‍‍‍‍ocurrencias‍‍‍‍del‍‍‍‍término‍‍‍‍t‍‍‍‍en‍‍‍‍el‍‍‍‍documento‍‍‍‍d‍‍‍‍y‍‍‍‍ f_{t , D} ‍‍‍‍es el‍‍‍‍número‍‍‍‍de‍‍‍‍ocurrencias‍‍‍‍del‍‍‍‍término‍‍‍‍t‍‍‍‍en‍‍‍‍el‍‍‍‍conjunto‍‍‍‍de‍‍‍‍documentos‍‍‍‍D.

2.3.4 LSA

El‍‍‍‍Análisis‍‍‍‍Semántico‍‍‍‍Latente‍‍‍‍(Latente‍‍‍‍Semantic‍‍‍‍Analysis)‍‍‍‍(Dumais,‍‍‍‍1991)‍‍‍‍propone‍‍‍‍que‍‍‍‍las palabras‍‍‍‍tienen‍‍‍‍una‍‍‍‍estructura‍‍‍‍oculta‍‍‍‍en‍‍‍‍su‍‍‍‍uso‍‍‍‍y‍‍‍‍plantea‍‍‍‍que‍‍‍‍esta‍‍‍‍puede‍‍‍‍ser‍‍‍‍estimada aplicando‍‍‍‍técnicas‍‍‍‍estadísticas‍‍‍‍para‍‍‍‍el‍‍‍‍pesado‍‍‍‍de‍‍‍‍términos‍‍‍‍para‍‍‍‍construir‍‍‍‍la‍‍‍‍representación de‍‍‍‍los‍‍‍‍términos‍‍‍‍contenidos‍‍‍‍en‍‍‍‍los‍‍‍‍documentos‍‍‍‍para‍‍‍‍formar‍‍‍‍una‍‍‍‍Matriz‍‍‍‍Término-Documento (Term-Document ‍‍‍‍ Matrix ‍‍‍‍ o ‍‍‍‍ TDM) ‍‍‍‍ y ‍‍‍‍ aplicando ‍‍‍‍la ‍‍‍‍Descomposición ‍‍‍‍ en ‍‍‍‍ valores ‍‍‍‍ singulares (Singular‍‍‍‍Vector‍‍‍‍Decomposition‍‍‍‍o‍‍‍‍SVD)‍‍‍‍para‍‍‍‍la‍‍‍‍reducción‍‍‍‍de‍‍‍‍dimensión‍‍‍‍de‍‍‍‍esta‍‍‍‍matriz‍‍‍‍y obtener‍‍‍‍así‍‍‍‍la‍‍‍‍estructura‍‍‍‍de‍‍‍‍las‍‍‍‍asociaciones‍‍‍‍latentes.

El‍‍‍‍procedimiento‍‍‍‍de‍‍‍‍SVD‍‍‍‍propone‍‍‍‍que,‍‍‍‍si‍‍‍‍se‍‍‍‍tiene‍‍‍‍una‍‍‍‍matriz‍‍‍‍X‍‍‍‍de‍‍‍‍dimensiones‍‍‍‍m‍‍‍‍x‍‍‍‍n, esta‍‍‍‍puede‍‍‍‍ser‍‍‍‍descompuesta‍‍‍‍en‍‍‍‍el‍‍‍‍producto‍‍‍‍de‍‍‍‍3‍‍‍‍matrices

m x nX=T

m x r S

r x r O

r xn T

Donde‍‍‍‍T‍‍‍‍y‍‍‍‍O‍‍‍‍son‍‍‍‍ortogonales‍‍‍‍y‍‍‍‍S‍‍‍‍es‍‍‍‍diagonal‍‍‍‍y‍‍‍‍r‍‍‍‍es‍‍‍‍el‍‍‍‍rango‍‍‍‍de‍‍‍‍X

Peros ‍‍‍‍ si ‍‍‍‍ tomamos ‍‍‍‍ solo ‍‍‍‍ los ‍‍‍‍ primeros ‍‍‍‍ k ‍‍‍‍ valores ‍‍‍‍ de ‍‍‍‍ S ‍‍‍‍ con ‍‍‍‍ sus ‍‍‍‍ correspondientes columnas‍‍‍‍en‍‍‍‍T‍‍‍‍y‍‍‍‍O‍‍‍‍obtendremos‍‍‍‍una‍‍‍‍aproximación‍‍‍‍de‍‍‍‍la‍‍‍‍matriz‍‍‍‍X,‍‍‍‍de‍‍‍‍rango‍‍‍‍k‍‍‍‍y‍‍‍‍tan‍‍‍‍cercana también‍‍‍‍como‍‍‍‍k

m x nX≈ ^X

m x n= T

m x k S

k xk O

k x n T

9

(22)

Aplicando‍‍‍‍esta‍‍‍‍idea‍‍‍‍al‍‍‍‍procesamiento‍‍‍‍de‍‍‍‍la‍‍‍‍información‍‍‍‍se‍‍‍‍puede‍‍‍‍construir‍‍‍‍una‍‍‍‍matriz TDM‍‍‍‍que‍‍‍‍caracterice‍‍‍‍nuestros‍‍‍‍documentos‍‍‍‍y‍‍‍‍los‍‍‍‍pesos‍‍‍‍de‍‍‍‍los‍‍‍‍términos‍‍‍‍que‍‍‍‍estos‍‍‍‍contienen‍‍‍‍y descomponerla‍‍‍‍mediante‍‍‍‍SVD‍‍‍‍y‍‍‍‍tomar‍‍‍‍solo‍‍‍‍los‍‍‍‍primeros‍‍‍‍k‍‍‍‍componentes‍‍‍‍que‍‍‍‍contienen‍‍‍‍las estructuras‍‍‍‍de‍‍‍‍relaciones‍‍‍‍de‍‍‍‍los‍‍‍‍términos‍‍‍‍y‍‍‍‍los‍‍‍‍documentos‍‍‍‍eliminando‍‍‍‍con‍‍‍‍esto‍‍‍‍el‍‍‍‍“ruido”, hay‍‍‍‍que‍‍‍‍considerar‍‍‍‍que‍‍‍‍si‍‍‍‍se‍‍‍‍usa‍‍‍‍una‍‍‍‍k‍‍‍‍muy‍‍‍‍pequeña‍‍‍‍se‍‍‍‍puede‍‍‍‍perder‍‍‍‍información‍‍‍‍sobre‍‍‍‍las relaciones.

(23)

Capítulo 3

Metodología

(24)

Capítulo 3. Metodología

3.1 Descripción General

Para‍‍‍‍el‍‍‍‍desarrollo‍‍‍‍de‍‍‍‍esta‍‍‍‍propuesta‍‍‍‍de‍‍‍‍aplicación‍‍‍‍se‍‍‍‍utilizó‍‍‍‍Python‍‍‍‍como‍‍‍‍lenguaje‍‍‍‍de‍‍‍‍trabajo por‍‍‍‍su‍‍‍‍facilidad ‍‍‍‍de‍‍‍‍uso‍‍‍‍en‍‍‍‍aplicaciones‍‍‍‍de‍‍‍‍Ciencia‍‍‍‍de‍‍‍‍Datos, ‍‍‍‍así‍‍‍‍como‍‍‍‍por‍‍‍‍variedad‍‍‍‍de librerías‍‍‍‍que‍‍‍‍tiene‍‍‍‍para‍‍‍‍este‍‍‍‍mismo‍‍‍‍fin,‍‍‍‍además‍‍‍‍se‍‍‍‍usó‍‍‍‍como‍‍‍‍set‍‍‍‍de‍‍‍‍datos‍‍‍‍el‍‍‍‍del‍‍‍‍Repositorio Institucional‍‍‍‍de‍‍‍‍INFOTEC.

Para‍‍‍‍la‍‍‍‍realización‍‍‍‍se‍‍‍‍seguirán‍‍‍‍los‍‍‍‍siguientes‍‍‍‍pasos:

3.2 Exploración y preparación de los datos

Como‍‍‍‍ya‍‍‍‍se‍‍‍‍mencionó‍‍‍‍anteriormente‍‍‍‍los‍‍‍‍Repositorios‍‍‍‍Institucionales‍‍‍‍(RI)‍‍‍‍exponen‍‍‍‍los‍‍‍‍datos de ‍‍‍‍ sus ‍‍‍‍ recursos ‍‍‍‍ de ‍‍‍‍ información ‍‍‍‍ según ‍‍‍‍ los ‍‍‍‍ Lineamientos ‍‍‍‍ Específicos ‍‍‍‍ para ‍‍‍‍ Repositorios (CONACYT,‍‍‍‍2017b)‍‍‍‍ en‍‍‍‍un‍‍‍‍EndPoint‍‍‍‍basado‍‍‍‍en‍‍‍‍el‍‍‍‍protocolo‍‍‍‍OAI-PMH‍‍‍‍los‍‍‍‍cuales‍‍‍‍una‍‍‍‍vez cosechados‍‍‍‍ deben‍‍‍‍ ser‍‍‍‍ limpiados‍‍‍‍ y‍‍‍‍preparados ‍‍‍‍ según‍‍‍‍las‍‍‍‍ características‍‍‍‍ de‍‍‍‍la‍‍‍‍ fuente‍‍‍‍ de información‍‍‍‍para‍‍‍‍su‍‍‍‍procesamiento.

3.2.1 Conjunto de Datos

Los ‍‍‍‍ lineamientos ‍‍‍‍ específicos ‍‍‍‍ para ‍‍‍‍ repositorios ‍‍‍‍ definen ‍‍‍‍ que ‍‍‍‍ es ‍‍‍‍ posible ‍‍‍‍ obtener ‍‍‍‍ hasta ‍‍‍‍ 26 metadatos‍‍‍‍(embebidos‍‍‍‍en‍‍‍‍16‍‍‍‍elementos)‍‍‍‍de‍‍‍‍los‍‍‍‍recursos‍‍‍‍de‍‍‍‍información,‍‍‍‍ya‍‍‍‍que‍‍‍‍no‍‍‍‍todos ellos‍‍‍‍son‍‍‍‍de‍‍‍‍uso‍‍‍‍obligatorio,‍‍‍‍entre‍‍‍‍los‍‍‍‍que‍‍‍‍podemos‍‍‍‍encontrar:‍‍‍‍Título,‍‍‍‍Autor,‍‍‍‍Nivel‍‍‍‍de‍‍‍‍acceso, Condición ‍‍‍‍ de ‍‍‍‍ licencia, ‍‍‍‍ Materia, ‍‍‍‍ Descripción, ‍‍‍‍ Editor, ‍‍‍‍ Colaboradores, ‍‍‍‍ Tipo ‍‍‍‍ de ‍‍‍‍ resultado científico,‍‍‍‍Idioma,‍‍‍‍Audiencia‍‍‍‍y‍‍‍‍sus‍‍‍‍respectivos‍‍‍‍identificadores‍‍‍‍y‍‍‍‍referencias.‍‍‍‍Estos‍‍‍‍metadatos describen‍‍‍‍algunas‍‍‍‍características‍‍‍‍de‍‍‍‍los‍‍‍‍recursos‍‍‍‍alojados,‍‍‍‍se‍‍‍‍propuso‍‍‍‍trabajar‍‍‍‍y‍‍‍‍explotar‍‍‍‍los siguientes‍‍‍‍cuatro:

Figura 1: Pasos a seguir Fuente:‍‍‍‍Elaboración‍‍‍‍propia.

Exploración y preparación

de los datos Preprocesamiento Modelado y asignación de palabras claves

Recomendación de recursos relacionados

(25)

• Título‍‍‍‍(Title)

• Descripción‍‍‍‍(Description)

• Materia‍‍‍‍(Subject)

• Idioma‍‍‍‍(Language) 3.2.2 Cosecha

Para‍‍‍‍el‍‍‍‍proceso‍‍‍‍de‍‍‍‍extracción‍‍‍‍de‍‍‍‍los‍‍‍‍metadatos‍‍‍‍se‍‍‍‍planteó‍‍‍‍la‍‍‍‍utilización‍‍‍‍de‍‍‍‍la‍‍‍‍librería‍‍‍‍Sickle que‍‍‍‍permite‍‍‍‍realizar‍‍‍‍la‍‍‍‍cosecha‍‍‍‍de‍‍‍‍metadatos‍‍‍‍expuestos‍‍‍‍bajo‍‍‍‍el‍‍‍‍protocolo‍‍‍‍OAI-PMH,‍‍‍‍el‍‍‍‍cual se‍‍‍‍parametrizó‍‍‍‍con‍‍‍‍la‍‍‍‍URL‍‍‍‍de‍‍‍‍consulta‍‍‍‍de‍‍‍‍este‍‍‍‍protocolo‍‍‍‍en‍‍‍‍el‍‍‍‍repositorio‍‍‍‍de‍‍‍‍INFOTEC (https://infotec.repositorioinstitucional.mx).

3.2.3 Análisis exploratorio

Para‍‍‍‍conocer‍‍‍‍las‍‍‍‍características‍‍‍‍propias‍‍‍‍del‍‍‍‍set‍‍‍‍de‍‍‍‍datos‍‍‍‍perteneciente‍‍‍‍al‍‍‍‍repositorio‍‍‍‍se‍‍‍‍debe realizar‍‍‍‍una‍‍‍‍revisión‍‍‍‍exploratoria‍‍‍‍de‍‍‍‍los‍‍‍‍datos‍‍‍‍con‍‍‍‍el‍‍‍‍objetivo‍‍‍‍de‍‍‍‍definir‍‍‍‍las‍‍‍‍características‍‍‍‍del tratamiento‍‍‍‍óptimo‍‍‍‍que‍‍‍‍se‍‍‍‍debe‍‍‍‍aplicar‍‍‍‍a‍‍‍‍la‍‍‍‍información‍‍‍‍antes‍‍‍‍de‍‍‍‍ser‍‍‍‍procesada.

3.3 Preprocesamiento

Con ‍‍‍‍ el ‍‍‍‍ fin ‍‍‍‍ de ‍‍‍‍ mejorar ‍‍‍‍ los ‍‍‍‍ resultados ‍‍‍‍ es ‍‍‍‍ necesario ‍‍‍‍ aplicar ‍‍‍‍ un ‍‍‍‍ proceso ‍‍‍‍ de ‍‍‍‍ limpieza ‍‍‍‍ y normalización‍‍‍‍de‍‍‍‍los‍‍‍‍datos,‍‍‍‍este‍‍‍‍paso‍‍‍‍debe‍‍‍‍considerar‍‍‍‍los‍‍‍‍datos‍‍‍‍de‍‍‍‍entrada,‍‍‍‍estas‍‍‍‍técnicas tienen‍‍‍‍como‍‍‍‍finalidad‍‍‍‍eliminar‍‍‍‍la‍‍‍‍mayor‍‍‍‍cantidad‍‍‍‍de‍‍‍‍datos‍‍‍‍que‍‍‍‍no‍‍‍‍son‍‍‍‍relevantes‍‍‍‍y‍‍‍‍entregar‍‍‍‍la información‍‍‍‍de‍‍‍‍manera‍‍‍‍homogénea‍‍‍‍y‍‍‍‍simplificada,‍‍‍‍estas‍‍‍‍pueden‍‍‍‍iniciar‍‍‍‍con‍‍‍‍la‍‍‍‍eliminación‍‍‍‍de patrones ‍‍‍‍ de ‍‍‍‍ cadenas ‍‍‍‍ de ‍‍‍‍ texto ‍‍‍‍ irrelevante ‍‍‍‍ como ‍‍‍‍ las ‍‍‍‍ direcciones ‍‍‍‍ de ‍‍‍‍ internet, ‍‍‍‍ correos electrónicos,‍‍‍‍números‍‍‍‍de‍‍‍‍teléfono,‍‍‍‍identificadores‍‍‍‍alfanuméricos,‍‍‍‍etc.,‍‍‍‍y‍‍‍‍la‍‍‍‍normalización‍‍‍‍del texto‍‍‍‍para‍‍‍‍reducir‍‍‍‍las‍‍‍‍palabras‍‍‍‍iguales‍‍‍‍escritas‍‍‍‍de‍‍‍‍diferentes‍‍‍‍maneras‍‍‍‍que‍‍‍‍se‍‍‍‍puede‍‍‍‍lograr transformando ‍‍‍‍ todas ‍‍‍‍ las ‍‍‍‍ letras ‍‍‍‍ a ‍‍‍‍ minúsculas ‍‍‍‍ y ‍‍‍‍ eliminando ‍‍‍‍ los ‍‍‍‍ signos ‍‍‍‍ de ‍‍‍‍ puntuación ‍‍‍‍ y caracteres‍‍‍‍especiales,‍‍‍‍incluso‍‍‍‍pueden‍‍‍‍aplicarse‍‍‍‍técnicas‍‍‍‍como‍‍‍‍Stemming‍‍‍‍para‍‍‍‍una‍‍‍‍mayor reducción‍‍‍‍de‍‍‍‍variantes.

13

(26)

También‍‍‍‍se‍‍‍‍incluyen‍‍‍‍procesos‍‍‍‍de‍‍‍‍separación‍‍‍‍en‍‍‍‍unidades‍‍‍‍más‍‍‍‍simples‍‍‍‍(Tokens)‍‍‍‍para su ‍‍‍‍ procesamiento, ‍‍‍‍ estas ‍‍‍‍ pueden ‍‍‍‍ ser ‍‍‍‍ párrafos, ‍‍‍‍ sentencias, ‍‍‍‍ palabras ‍‍‍‍ o ‍‍‍‍ incluso ‍‍‍‍ silabas dependiendo‍‍‍‍de‍‍‍‍las‍‍‍‍necesidades.

3.4 Modelado y asignación de palabras clave

Para‍‍‍‍el‍‍‍‍pesado‍‍‍‍de‍‍‍‍términos‍‍‍‍se‍‍‍‍consideraron‍‍‍‍tres‍‍‍‍técnicas‍‍‍‍con‍‍‍‍el‍‍‍‍fin‍‍‍‍de‍‍‍‍evaluar‍‍‍‍su‍‍‍‍eficiencia:

TF-IDF,‍‍‍‍Punto‍‍‍‍de‍‍‍‍Transición‍‍‍‍de‍‍‍‍Goffman,‍‍‍‍y‍‍‍‍Entropía,‍‍‍‍estas‍‍‍‍técnicas‍‍‍‍se‍‍‍‍aplicaron‍‍‍‍al‍‍‍‍listado‍‍‍‍de Tokens‍‍‍‍ extraídos ‍‍‍‍ en ‍‍‍‍ el ‍‍‍‍ preprocesamiento ‍‍‍‍ para ‍‍‍‍ los ‍‍‍‍ metadatos ‍‍‍‍ Title, ‍‍‍‍ Description ‍‍‍‍ y ‍‍‍‍ en ‍‍‍‍ el resultado‍‍‍‍de‍‍‍‍la‍‍‍‍concatenación‍‍‍‍del‍‍‍‍listado‍‍‍‍de‍‍‍‍Tokens‍‍‍‍de‍‍‍‍los‍‍‍‍dos‍‍‍‍anteriores.

Como‍‍‍‍ya‍‍‍‍se‍‍‍‍mencionó‍‍‍‍la‍‍‍‍técnica‍‍‍‍TF-IDF‍‍‍‍permite‍‍‍‍inferir‍‍‍‍la‍‍‍‍importancia‍‍‍‍o‍‍‍‍el‍‍‍‍peso‍‍‍‍de‍‍‍‍una palabra‍‍‍‍a‍‍‍‍partir‍‍‍‍de‍‍‍‍su‍‍‍‍ocurrencia‍‍‍‍dentro‍‍‍‍de‍‍‍‍un‍‍‍‍documento‍‍‍‍contra‍‍‍‍la‍‍‍‍ocurrencia‍‍‍‍de‍‍‍‍la‍‍‍‍misma en‍‍‍‍el‍‍‍‍corpus.‍‍‍‍Este‍‍‍‍proceso‍‍‍‍consiste‍‍‍‍en‍‍‍‍contabilizar‍‍‍‍el‍‍‍‍número‍‍‍‍de‍‍‍‍apariciones‍‍‍‍de‍‍‍‍cada‍‍‍‍término en‍‍‍‍todos‍‍‍‍los‍‍‍‍documentos‍‍‍‍generando‍‍‍‍una‍‍‍‍Matriz‍‍‍‍Documento-Término‍‍‍‍(Document-Term‍‍‍‍Matrix o ‍‍‍‍ DTM) ‍‍‍‍ y ‍‍‍‍ así ‍‍‍‍obtener‍‍‍‍ la ‍‍‍‍ Frecuencia ‍‍‍‍ del ‍‍‍‍Término ‍‍‍‍ (TF) ‍‍‍‍ o ‍‍‍‍ sea ‍‍‍‍ cuantas ‍‍‍‍ veces ‍‍‍‍ aparece ‍‍‍‍ un término‍‍‍‍en‍‍‍‍cada‍‍‍‍documento,‍‍‍‍así‍‍‍‍como‍‍‍‍la‍‍‍‍Frecuencia‍‍‍‍Inversa‍‍‍‍del‍‍‍‍Documento‍‍‍‍(IDF)‍‍‍‍a‍‍‍‍partir‍‍‍‍de generar ‍‍‍‍una‍‍‍‍ Bolsa‍‍‍‍de‍‍‍‍Palabras‍‍‍‍(Bag‍‍‍‍of‍‍‍‍Words)‍‍‍‍que‍‍‍‍se‍‍‍‍forma‍‍‍‍con‍‍‍‍el‍‍‍‍listado‍‍‍‍de‍‍‍‍todos‍‍‍‍los términos‍‍‍‍y‍‍‍‍el‍‍‍‍número‍‍‍‍de‍‍‍‍apariciones‍‍‍‍de‍‍‍‍este‍‍‍‍en‍‍‍‍todo‍‍‍‍el‍‍‍‍corpus,‍‍‍‍para‍‍‍‍a‍‍‍‍continuación‍‍‍‍aplicar‍‍‍‍la fórmula‍‍‍‍completa‍‍‍‍de‍‍‍‍TF-IDF‍‍‍‍para‍‍‍‍cada‍‍‍‍término,‍‍‍‍dando‍‍‍‍como‍‍‍‍resultado‍‍‍‍una‍‍‍‍Matriz‍‍‍‍Término- Documento‍‍‍‍(TDM)‍‍‍‍con‍‍‍‍los‍‍‍‍términos,‍‍‍‍los‍‍‍‍documentos‍‍‍‍y‍‍‍‍los‍‍‍‍pesos‍‍‍‍TF-IDF‍‍‍‍calculados. ‍‍‍‍Para aplicar‍‍‍‍esta‍‍‍‍técnica‍‍‍‍se‍‍‍‍usó‍‍‍‍la‍‍‍‍implementación‍‍‍‍de‍‍‍‍TF-IDF‍‍‍‍de‍‍‍‍la‍‍‍‍librería‍‍‍‍de‍‍‍‍Sklearn.

La‍‍‍‍siguiente‍‍‍‍técnica‍‍‍‍que‍‍‍‍se‍‍‍‍aplicó‍‍‍‍fue‍‍‍‍Punto‍‍‍‍de‍‍‍‍Transición‍‍‍‍de‍‍‍‍Goffman,‍‍‍‍con‍‍‍‍la‍‍‍‍cual‍‍‍‍se limita‍‍‍‍el‍‍‍‍número‍‍‍‍de‍‍‍‍palabras‍‍‍‍relevantes‍‍‍‍a‍‍‍‍partir‍‍‍‍de‍‍‍‍la‍‍‍‍frecuencia‍‍‍‍con‍‍‍‍que‍‍‍‍aparecen‍‍‍‍en‍‍‍‍un corpus‍‍‍‍de‍‍‍‍documentos‍‍‍‍considerando‍‍‍‍que‍‍‍‍las‍‍‍‍más‍‍‍‍relevantes‍‍‍‍se‍‍‍‍encuentran‍‍‍‍al‍‍‍‍centro‍‍‍‍de‍‍‍‍esta distribución.‍‍‍‍Para‍‍‍‍el‍‍‍‍cálculo‍‍‍‍de‍‍‍‍esta‍‍‍‍se‍‍‍‍implementó‍‍‍‍el‍‍‍‍algoritmo‍‍‍‍Python‍‍‍‍contando‍‍‍‍el‍‍‍‍número de‍‍‍‍apariciones‍‍‍‍de‍‍‍‍cada‍‍‍‍término‍‍‍‍para‍‍‍‍generar‍‍‍‍la‍‍‍‍DTM,‍‍‍‍estos‍‍‍‍datos‍‍‍‍se‍‍‍‍agruparon‍‍‍‍para‍‍‍‍generar la‍‍‍‍Bolsa‍‍‍‍de‍‍‍‍Palabras‍‍‍‍del‍‍‍‍corpus,‍‍‍‍a‍‍‍‍partir‍‍‍‍de‍‍‍‍esto‍‍‍‍se‍‍‍‍contabilizó‍‍‍‍la‍‍‍‍cantidad‍‍‍‍de‍‍‍‍términos‍‍‍‍con aparición‍‍‍‍única‍‍‍‍y‍‍‍‍aplicando�