DIRECCIÓNADJUNTADEINNOVACIÓNY
CONOCIMIENTO
GERENCIADECAPITALHUMANO POSGRADOS
INFOTECCENTRODEINVESTIGACIÓNE
INNOVACIÓNENTECNOLOGÍASDELA
INFORMACIÓNYCOMUNICACIÓN
“SISTEMA DE RECOMENDACIÓN
BASADO EN LA DETECCIÓN DE
TÓPICO Y
ASIGNACIÓN DE TÉRMINOS CLAVES
DE LOS
DOCUMENTOS ASOCIADOS A REPOSITORIOS INSTITUCIONALES”
PROPUESTADEINTERVENCIÓN,
QueparaobtenerelgradodeMAESTROENCIENCIA
DEDATOSEINFORMACIÓN
Presenta:
Ing. René Gerardo Jara Sixtos
Asesor:
Dr. Dagoberto Armenta Medina
Autorización de impresión
Tabla de contenido
Capítulo1.Introducción...1
1.1Motivación...1
1.2Problemática... 2
1.3Objetivos... 2
1.3.1ObjetivoGeneral...2
1.3.2ObjetivosEspecíficos...2
1.4Contribución...3
Capítulo2.MarcoTeórico...5
2.1Repositorioinstitucional...5
2.2Sistemaderecomendación...5
2.3Modeladodetópico...6
2.3.1TF-IDF...7
2.3.2PuntodetransicióndeGoffman...8
2.3.3Entropía... 8
2.3.4LSA... 9
Capítulo3.Metodología... 12
3.1DescripciónGeneral...12
3.2Exploraciónypreparacióndelosdatos...12
3.2.1ConjuntodeDatos...12
3.2.2Cosecha...13
3.2.3Análisisexploratorio...13
3.3Preprocesamiento...13
3.4Modeladoyasignacióndepalabrasclave...14
3.5Recomendaciónderecursosrelacionados...15
3.5.1Sistemaderecomendaciones...15
3.6Tecnologíasylibreríasutilizadas...16
3.6.1Sickle... 16
3.6.2Langdetect...16
4.1Exploraciónypreparacióndelosdatos...18
4.1.1Cosecha...18
4.1.2Análisisexploratorio...18
4.2Preprocesamiento...23
4.3ModeladoyAsignacióndepalabrasclave...27
4.3.1Title... 28
4.3.2Description...29
4.3.3Title+Description...31
4.3.4Subject...31
4.4Recomendaciónderecursos...34
4.5Agrupaciónderecursos...40
4.6Comparaciónconotrosrepositorios...43
4.7Pruebadeconcepto...46
4.7.1Extractordetópicos...46
4.7.2Basededatos...46
4.7.3Aplicación(Repositorio)...47
Capítulo5.ConclusionesyTrabajoFuturo...49
5.1Conclusiones...50
5.2TrabajoFuturo...50
Referencias... 52
Anexos... 56
ANEXOI:ResultadosconelrepositoriodeINFOTECenInglés...56
ANEXOII:ComparaciónderesultadosconelrepositorioCIDE...59
ANEXOIII:ComparaciónderesultadosconelrepositorioCIBNOR...65
Índice de figuras
Figura1:Pasosaseguir...12
Figura2:Preprocesamiento...24
Figura3:Modeladoyasignacióndepalabras...28
Figura4:Modelopropuesto...46
Índice de gráficos
Gráfico1:Recursosconmúltiplestítulos...19
Gráfico2:Palabraseneltítulo...19
Gráfico3:Recursosconmúltiplesdescripciones...20
Gráfico4:Palabrasenladescripción...21
Gráfico5:Términoscomunesdeltítuloentretécnicas...29
Gráfico6:Términoscomunesdeladescripciónentretécnicas...30
Gráfico7:Términoscomunesdeltítulo+descripciónentretécnicas...31
Gráfico8:TérminoscomunesextraídosdeltítuloyelSubject...32
Gráfico9:TérminoscomunesextraídosdeladescripciónyelSubject...33
Gráfico10:Términoscomunesextraídosdeltítulo+descripciónyelSubject...34
Gráfico11:Recursosrelacionadosportítuloportécnica...36
Gráfico12:DistanciaJaccardderecursosrelacionadosporeltítuloentretécnicas...36
Gráfico13:Recursosrelacionadospordescripciónportécnicas...38
Gráfico14:DistanciaJaccardderecursosrelacionadosporladescripciónentretécnicas....39
Gráfico15:Recursosrelacionadosportítulo+descripciónentretécnicas...39
Gráfico16:DistanciaJaccardderecursosrelacionadosporeltítulo+descripciónentre técnicas... 40
Gráfico17:Nubesdepalabrasdelosprincipalesvectoresencontrados...41
Gráfico18:VectoresextraídosporLSAagrupadosporÁreadelconocimiento...42
Gráfico19:TérminoscomunesextraídosdeltítuloyelSubjectdelAutorCIDE(Gráfico8)...43
Gráfico20:TérminoscomunesextraídosdeladescripciónyelSubjectdelAutorCIDE (Gráfico9)... 43
Gráfico21:Términoscomunesextraídosdeltítulo+descripciónyelSubjectdelAutorCIDE (Gráfico10)... 44
Gráfico22:TérminoscomunesextraídosdeladescripciónyelSubjectCIBNOR(Gráfico9) ... 44
Gráfico23:TérminoscomunesextraídosdeltítuloyelSubjectCIBNOR(Gráfico8)...44
Gráfico24:Términoscomunesextraídosdeltítulo+descripciónyelSubjectCIBNOR(Gráfico 10)... 45
Gráfico25:TérminoscomunesdeltítuloenInglés(Gráfico5)...56
Gráfico26:TérminoscomunesdeladescripciónenInglésentretécnicas(Gráfico6)...56
Gráfico27:Términoscomunesdeltítulo+descripciónenInglésentretécnicas(Gráfico7). .56
Gráfico28:RecursosrelacionadosportítuloenInglésportécnica(Gráfico11)...57
Gráfico29:DistanciaJaccardderecursosrelacionadosporeltítuloenInglésentretécnicas (Gráfico12)... 57
Gráfico30:RecursosrelacionadospordescripciónenInglésportécnicas(Gráfico13)...57
Gráfico31:DistanciaJaccardderecursosrelacionadosporladescripciónenInglésentre técnicas(Gráfico14)... 57
Gráfico32:Recursosrelacionadosportítulo+descripciónenInglésentretécnicas(Gráfico 15)... 57
Gráfico33:DistanciaJaccardderecursosrelacionadosporeltítulo+descripciónentre técnicas(Gráfico16)... 57
Gráfico34:NubesdepalabrasenInglésdelosprincipalesvectoresencontrados(Gráfico17) ... 58
Gráfico35:TérminoscomunesdeltítuloentretécnicasCIDE(Gráfico5)...60
Gráfico36:TérminoscomunesdeladescripciónentretécnicasCIDE(Gráfico6)...60
Gráfico37:Términoscomunesdeltítulo+descripciónentretécnicasCIDE(Gráfico7)...60
Gráfico38:TérminoscomunesextraídosdeltítuloyelSubjectCIDE(Gráfico8)...61
Gráfico39:TérminoscomunesextraídosdeladescripciónyelSubjectCIDE(Gráfico9)...61
Gráfico40:Términoscomunesextraídosdeltítulo+descripciónyelSubjectCIDE(Gráfico10) ... 61
Gráfico41:RecursosrelacionadosportítuloportécnicaCIDE(Gráfico11)...62
Gráfico42:DistanciaJaccardderecursosrelacionadosporeltítuloentretécnicasCIDE (Gráfico12)... 62
Gráfico43:RecursosrelacionadospordescripciónportécnicasCIDE(Gráfico13)...62
Gráfico44:DistanciaJaccardderecursosrelacionadosporladescripciónentretécnicas CIDE(Gráfico14)...62
Gráfico45:Recursosrelacionadosportítulo+descripciónentretécnicasCIDE(Gráfico15) ... 63
Gráfico46:DistanciaJaccardderecursosrelacionadosporeltítulo+descripciónentre técnicasCIDE(Gráfico16)...63
Gráfico50:Términoscomunesdeltítulo+descripciónentretécnicasCIBNOR(Gráfico7)...66 Gráfico51:RecursosrelacionadosportítuloportécnicaCIBNOR(Gráfico11)...67 Gráfico52:DistanciaJaccardderecursosrelacionadosporeltítuloentretécnicasCIBNOR
(Gráfico12)... 67 Gráfico53:RecursosrelacionadospordescripciónportécnicasCIBNOR(Gráfico13)...68 Gráfico54:DistanciaJaccardderecursosrelacionadosporladescripciónentretécnicas
CIBNOR(Gráfico14)...68 Gráfico55:Recursosrelacionadosportítulo+descripciónentretécnicasCIBNOR(Gráfico
15)... 68 Gráfico56:DistanciaJaccardderecursosrelacionadosporeltítulo+descripciónentre
técnicasCIBNOR(Gráfico16)...68 Gráfico57:NubesdepalabrasdelosprincipalesvectoresencontradosCIBNOR(Gráfico10) ... 69 Gráfico58:VectoresextraídosporLSAagrupadosporÁreadelconocimiento(Gráfico18). .70
Índice de cuadros
Cuadro1:Metadatosnulos...18
Cuadro2:Ejemploderecursosconvariasdescripciones...20
Cuadro3:Ejemploderecursoscontítulosydescripcionesendiferentesidiomas...22
Cuadro4:Ejemplodeorígenesdeclasificación...22
Cuadro5:DeterminacióndeIdioma...24
Cuadro6:Tokensdelcorpusinicial...24
Cuadro7:TokenssinStopwordsydespuésdelStemmer...25
Cuadro8:TokenssinStopwordsyconStemmer...25
Cuadro9:EjemplodeTokensextraídosdeltítulo...25
Cuadro10:EjemplodeTokensextraídosdeladescripción,...26
Cuadro11:EjemplodeTokensextraídosdelaconcatenacióndeltítuloyladescripción,...27
Cuadro12:Ejemplodepalabrasclavesextraídasdeltítuloenespañol...28
Cuadro13:Ejemplodepalabrasclavesextraídasdeladescripciónenespañol...30
Cuadro14:EjemplodeTokensencontradosenelSubjectylosextraídosdeltítuloconcada técnica... 32
Cuadro15:EjemplodeTokensencontradosenelSubjectylosextraídosdeladescripción concadatécnica... 33
Cuadro16:EjemplodeTokensencontradosenelSubjectylosextraídosdelaconcatenación detítuloydescripciónconcadatécnica...34
Cuadro17:EjemploderecursosrelacionadosconunregistroporeltítulousandoTF-IDF...35
Cuadro18:EjemploderecursosrelacionadosconunregistroporeltítulousandoGoffman.35 Cuadro19:EjemploderecursosrelacionadosconunregistroporeltítulousandoEntropía. 35 Cuadro20:EjemploderecursosrelacionadosconunregistroporladescripciónusandoTF- IDF...37
Cuadro21:Ejemploderecursosrelacionadosconunregistroporladescripciónusando Goffman...37
Cuadro22:Ejemploderecursosrelacionadosconunregistroporladescripciónusando Entropía...38
Cuadro25:MetadatosnulosCIDE(Cuadro1)...59
Cuadro26:DeterminacióndeIdiomaCIDE(Cuadro6)...60
Cuadro27:Ejemplodedocumentospertenecientesacadaunodelos5gruposCIDE (Cuadro24)... 64
Cuadro28:MetadatosnulosCIBNOR(Cuadro1)...65
Cuadro29:OrígenesdeclasificaciónCIBNOR(Cuadro5)...65
Cuadro30:Cuadro27:DeterminacióndeIdiomaCIBNOR(Cuadro6)...66
Cuadro31:Ejemplodedocumentospertenecientesacadaunodelos5gruposCIBNOR (Cuadro24)... 69
Capítulo 1
Introducción
Capítulo 1. Introducción
Actualmente, acceder a los documentos que concentran los buscadores generales de información a partir de ocurrencias simples de palabras a texto abierto genera grandes listados,conresultadosmuchosdeloscualesnoseencuentranrelacionadosunosconotros, ademássinoseutilizalapalabracorrectaenestasbúsquedassedificultaaúnmásesta labor.Paramejorarestaexperienciaesimportanteofreceralosusuariosalternativasasus búsquedasylocalización.Unadeestasmaneraseselusodesistemasderecomendación que sugieren otros documentos relacionados con los que se están consultando. Eso se puedehaceranalizandolosdocumentosyexplotandolosmetadatosrelacionadosconestos.
Apartirdelosmetadatosqueacompañanaundocumentoesposibleconocermásde ellos, ya que contienen información semiestructurada que describen sus características intrínsecas. Aplicando técnicas de detección automática de tópicos en textos no estructurados y la identificación y asignación de palabras clave a los documentos depositados, es posible identificar los temas principales de los que trata, evaluando la ocurrenciadeciertaspalabrasylospatronesqueestasocurrenciasforman, permitiendo agruparlosdocumentosportemáticasydetectandointerrelacionesentrelosmismos.
1.1 Motivación
Derivadodelagrancantidaddeinformaciónquesegeneraactualmenteentodoslosámbitos cada vez más se dificulta la búsqueda y localización de documentos de valor para los usuarios, porlo cual es preciso que estos seanclasificados yorganizados. Debido a la velocidad y los volúmenes con que se genera esta información, su clasificación y organizaciónsevuelveunprocesohumanamenteimposibleporloqueescadavezmás necesarioaplicartécnicasdeprocesamientocomputacionalquepermitananalizardemanera automáticaestosgrandescúmulosdeinformaciónparapoderetiquetarlosyagruparloscon sus similares. De esta manera la información puede ser ofrecida y consumida por los usuarioseficientemente,siendomuyconvenientequesuclasificaciónyorganizaciónpueda realizarsedemaneranosupervisada.
1
1.2 Problemática
LosrecursosdeinformaciónquesealojanenlosRepositoriosInstitucionalesdeCiencia Abierta pueden ser consultados mediante búsquedas a texto abierto y consultas de relacionessimplescomoloeslabúsquedaporautoromateria,loqueconllevaaobtener largoslistadosderesultadosquesibienestánponderadossoloselimitanalpesodelas palabrasqueseusanenlacadenadebúsqueda.Unavezqueseconsultaunrecursode informaciónsolosevisualizainformaciónrelacionadaconelmismoautor,sinofrecerotras alternativas de consulta, como pudiera ser recomendaciones de otros recursos de informaciónrelacionadosquefacilitealosusuarioselaccesoainformaciónrelevanteparasu búsqueda.
1.3 Objetivos
1.3.1 Objetivo General
El objetivo es determinar de manera no supervisada los tópicos y palabras clave relacionados con los recursos de información de un Repositorio Institucional de Ciencia Abiertayproponerunsistemaderecomendaciónderecursosdeinformaciónbasadoen tópicosparafinalmenteexplorarlostópicosobtenidosdeunRepositorioInstitucional.
1.3.2 Objetivos Específicos
• Extraertópicosprincipalesdeunrecursodeinformaciónapartirdelpreprocesamiento portécnicasdereducciónmorfológicadelostítulosyresúmenesdisponiblespara consultaenunRepositorioInstitucional.
• Evaluarmétricasdeseleccióndetérminosrelevantes,seproponeTF-IDF,Puntode transicióndeGoffmanyEntropía.
• Evaluarsiexistealgúnotrometadatoquepermitamejorarlaextracción.
• Evaluarlascombinacionesdeestosmetadatos.
• Evaluarlamétricaobtenidaconungrupodedocumentosclasificados.
• Generarunprototipodeunsistemaderecomendaciónderecursosdeinformaciónde acuerdoconlostópicosextraídos.
• ObteneryexplorarlostópicosdeunamuestradeRepositoriosInstitucionales.
1.4 Contribución
Elpresentetrabajoseenfocaenunapropuestademejoraalasconsultasderecursosde informacióndelosRepositoriosInstitucionalesdeCienciaAbierta,loscualessonplataformas digitalesquecontienenlosrecursosdeinformaciónacadémica,científica,tecnológicayde innovación,siendodegranvalorporserunpuntodedifusióndelconocimientogeneradoen elpaís.Paralograrlasmejorasenlasconsultasesteproyectocontemplalaimplementación deenfoquescomputacionalesderivadosdetécnicasdeprocesamientodelenguajenaturaly modeladodetópicos.
Laaplicacióndetécnicasdemodeladodetópicoparalaextraccióndepalabrasclaves permiterelacionardemaneranosupervisadalosrecursosdeinformacióndeunRepositorio InstitucionaldeCienciaAbierta.
ConlaaplicacióndetécnicasautomáticasdeProcesamientodeLenguajeNaturala losmetadatosyelmodeladodetópicosdelosrecursosdeinformación,esposibleproponer elementosdecatalogaciónacordesacadarecurso,comosonlostemasypalabrasclaveque permitaapartirdeestainformación,recomendarotrosrecursosdeinformaciónasociados.
3
Capítulo 2
Marco Teórico
Capítulo 2. Marco Teórico
2.1 Repositorio institucional
Comopartedelaspolíticasdecienciaabiertaenelpaís(Guajardo,2020)yconelobjetivode permitirelaccesolibreygratuitoalosmaterialesyrecursosdeinformación,queresultande losprocesosdeinvestigaciónqueseproducenenMéxicoconfondospúblicos,en2017 CONACYTestableceelProgramadeRepositorios (CONACYT,2017a) conelobjetivode impulsarlacreacióndelosRepositoriosInstitucionalesdeCienciaAbiertacomoplataformas digitaleseinteroperables,pararesguardaryofrecerlosrecursosdeinformaciónacadémica, científica,tecnológicaydeinnovacióngeneradosporinstitucionesdeeducaciónsuperiory aquellasquerealizaninvestigacióncientíficaytecnológica.Conelobjetivodecoordinarla interoperabilidad de estos repositorios se estableció (CONACYT, 2017b) el uso de un esquemademetadatosalineadosaOpenAIREqueenumeralainformaciónmínimapara describirunrecursodeinformaciónydelprotocoloOAI-PMHparaelintercambiodeesta información.
2.2 Sistema de recomendación
LosSistemasderecomendación(RecommendationSystem)(Adomavicius&Tuzhilin,2005;
Bobadilla etal., 2013) aparecen como técnicas para acercar documentos a los usuarios acordesalainformaciónqueseestáconsultando,estospuedenclasificarseenbasadosen contenido, colaborativos e híbridos (Adomavicius & Tuzhilin, 2005), en el primero las recomendacionessehacenapartirdedocumentossimilaresalosqueelusuarioestáviendo ovioenelpasado,enelcasodeloscolaborativosserecomiendandocumentosqueotros usuariossimilaresrelacionaronp.ej.calificándolos,enelúltimosecombinalosdosanteriores conlaideademejorarlosresultados.
5
EnelcasodelrepositoriodeinformacióndeINFOTECnoserequiereunprocesode registrosyloginparasuconsulta,nitieneprocesosdecalificaciónocomentariossobreslos recursosdeinformaciónloquedificultadarseguimientoalaspreferenciasdelosusuarios, porloqueseoptóporunenfoquepuramente basado encontenidos (Pazzani&Billsus, 2007).
En este enfoque se utilizará la información relacionada con los documentos (metadatos) para extraer sus características, estas se compararán entre los demás documentosyapartirdeestosseharáunarecomendacióndelossimilares,porejemplo haciendounsímilenelcasodepelículasolibrospodríanserotrosdelmismogénerooautor, para que esto sea posible estos metadatos deben estar estructurados, aunque esto no garantiza la calidad de la información, y deben pasar por un proceso de análisis y normalización,conlaideadedesecharlosdatosirrelevantesyextraeresascaracterísticas quepermitanclasificarlosyrelacionarloconsussimilares,conelobjetivodehacerloscruces demaneraeficienteyfiltrarlainformaciónqueseleofrecealosusuarios
2.3 Modelado de tópico
ElModeladodeTópicos(TopicModeling)(Blei,2012)surgecomounenfoqueprobabilísticoa laideadequelosdocumentosqueestánrelacionadosconunoomástemas(tópico)reflejan estarelaciónenungrupodepalabraslascualesestánpresentesenmayoromenormedida dependiendodeestarelaciónconlostemas,asíquecadatematendráungrupodepalabras que aparecerán en los documentos relacionados con él, pero si lo está a varios temas aparecerántambiénotrosconjuntosdepalabrasyenelcasodetemasemergentesséirá creandosupropiogrupodepalabrasconformevayamadurando.
Esta técnica permite procesar grandes cantidades de información sin intervención humanaynorequierequelainformaciónestépreviamenteetiquetada,yaquepartende procesartodaslaspalabrasycalcularsudistribucióndentrodeldocumentoyenelconjunto dedocumentos.
Parareducirlacomplejidadalrepresentarundocumento(Baeza-Yates&Ribeiro-Neto, 2011)esrecomendablerealizarciertospasosprevioscomolaeliminacióndepalabrasvacías
nuestro)ylareducciónmorfológica(comoelStemming)elcualreducelasvariantesdeuna misma palabra, además con esto reducimos las dimensiones de los datos y con ello simplificamos su procesamiento. A partir de estos datos se genera una representación simplificadadecadadocumentoagregandolafrecuenciaenqueaparececadaunodeestos términossimplificadossinimportarsuordenytambiénsugramática,estarepresentación ahora debe ser procesada mediante técnicas de pesado de términos (TF-IDF, Goffman, Entropía)conlaintencióndeponderarlaspalabrasdemayoraporteydescartarpalabrasde usocomún,queserálaentradaparaelmodelado.Finalmente,conelobjetivodeencontrar lostemasapartirdelanálisisdelaspalabras,estosepuedehacermediantetécnicascomo elLDAyLSA.
2.3.1 TF-IDF
UnadelastécnicasdepesadodetérminosmáspopularesesTF-IDF(TermFrequency- InverseDocumentFrequency)(Baeza-Yates&Ribeiro-Neto,2011)lacualpermitecuantificar larelevanciadeciertaspalabrasenundocumentocomparándolodentrodeuncorpusde ellos, mediante la determinación de la frecuencia de aparición de un término en un documentoporlaproporcióninversadeesemismotérminoentodoslosdocumentosdel corpus,conestoobtendremospesosaltoscuandoeltérminoocurreenungrupopequeñode documentos y bajos cuando lo hacen en un solo documento y aún más bajos cuando aparece en todos los documentos, permitiendo con esto usarlo como un marcador de relevancia.
Elpesosecalculamediantelasiguientefórmula(Ramos,2003):
Para:unconjuntodedocumentosD,untérminotyundocumentod TF−IDFt ,d=ft ,d∗log
(
fnt , D)
Donde ft ,d eselnúmerodeocurrenciasdeltérminoteneldocumentod, n esel númerototaldedocumentosenD,y ft , D eselnúmerodeocurrenciasdeltérminotenel conjuntodedocumentosD.
7
2.3.2 Punto de transición de Goffman
LaleydeZipfplantea (UrbizagásteguiAlvarado&RestrepoArango,2011) quealescribir preferimosusarmáspalabrascomunesconrespectoalasmenosconocidas,proponiendo2 ecuaciones las cuales describen el comportamiento de la distribución en frecuencia de palabrasenundocumento,unaparapalabrasdealtafrecuenciayotraparapalabrasdebaja frecuencia,Goffmanproponequeenlaregióndondeestasdosecuacionesseencuentran (Puntodetransición)esdondeselocalizanlaspalabrasdemayorrelevanciadeuntexto.
Entoncessitenemosunlistadodeocurrenciadepalabrasordenadosporfrecuencialasque seencuentrenmáscercadeestepuntoseconsiderarandemayorrelevancia.
Estepuntodetransición(Boyce&Lockard,1975)seencuentradondeladistribucióndebaja frecuenciaterminaycomienzaladistribucióndealtafrecuenciayestádadopor:
PTG=−1±
√
1+8I12
Donde PTG eslafrecuenciadondesevaaencontrarestosdoscurvas(Puntode transición),asícomo I1 eselnúmerodetérminosquetienenfrecuencia1.
2.3.3 Entropía
El uso de la entropía para el pesado de términos propone el cálculo de la LogEntropy (Dumais, 1991) o Entropía inversa (Quesada, 2007) como métrica la cual plantea que mientras más entropía tenga un término menos información transmite acerca de los documentosenlosqueaparece,porlotanto,tienemenosrelevanciaensuuso.Porejemplo, siunapalabraapareceentodoslosdocumentosestanoaportagransignificadoparael entendimientodelmismoyobtendráunpesodeestamétricabajo,porelotroladouna palabraquetienemenosaparicionesobtendráunpesoalto.
Lafórmulaparaelcálculodeestepesoestádadapor(Pincombe,2004):
Para:unconjuntodedocumentosD,untérminotyundocumentod:
Et=1+
∑
t=1 n
(Pt ,d∗log(Pt ,d)) log(n)
Donde n eselnúmerototaldedocumentosenDylaprobabilidad Pt , d estádada por:
Pt , d=ft , d ft , D
Donde ft ,d eselnúmerodeocurrenciasdeltérminoteneldocumentody ft , D es elnúmerodeocurrenciasdeltérminotenelconjuntodedocumentosD.
2.3.4 LSA
ElAnálisisSemánticoLatente(LatenteSemanticAnalysis)(Dumais,1991)proponequelas palabrastienenunaestructuraocultaensuusoyplanteaqueestapuedeserestimada aplicandotécnicasestadísticasparaelpesadodetérminosparaconstruirlarepresentación delostérminoscontenidosenlosdocumentosparaformarunaMatrizTérmino-Documento (Term-Document Matrix o TDM) y aplicando la Descomposición en valores singulares (SingularVectorDecompositionoSVD)paralareduccióndedimensióndeestamatrizy obtenerasílaestructuradelasasociacioneslatentes.
ElprocedimientodeSVDproponeque,sisetieneunamatrizXdedimensionesmxn, estapuedeserdescompuestaenelproductode3matrices
m x nX=T
m x r S
r x r O
r xn T
DondeTyOsonortogonalesySesdiagonalyreselrangodeX
Peros si tomamos solo los primeros k valores de S con sus correspondientes columnasenTyOobtendremosunaaproximacióndelamatrizX,derangokytancercana tambiéncomok
m x nX≈ ^X
m x n= T
m x k S
k xk O
k x n T
9
Aplicandoestaideaalprocesamientodelainformaciónsepuedeconstruirunamatriz TDMquecaractericenuestrosdocumentosylospesosdelostérminosqueestoscontieneny descomponerlamedianteSVDytomarsololosprimeroskcomponentesquecontienenlas estructurasderelacionesdelostérminosylosdocumentoseliminandoconestoel“ruido”, hayqueconsiderarquesiseusaunakmuypequeñasepuedeperderinformaciónsobrelas relaciones.
Capítulo 3
Metodología
Capítulo 3. Metodología
3.1 Descripción General
ParaeldesarrollodeestapropuestadeaplicaciónseutilizóPythoncomolenguajedetrabajo porsufacilidad deusoenaplicacionesdeCienciadeDatos, asícomoporvariedadde libreríasquetieneparaestemismofin,ademásseusócomosetdedatoseldelRepositorio InstitucionaldeINFOTEC.
Paralarealizaciónseseguiránlossiguientespasos:
3.2 Exploración y preparación de los datos
ComoyasemencionóanteriormentelosRepositoriosInstitucionales(RI)exponenlosdatos de sus recursos de información según los Lineamientos Específicos para Repositorios (CONACYT,2017b) enunEndPointbasadoenelprotocoloOAI-PMHloscualesunavez cosechados deben ser limpiados ypreparados segúnlas características dela fuente de informaciónparasuprocesamiento.
3.2.1 Conjunto de Datos
Los lineamientos específicos para repositorios definen que es posible obtener hasta 26 metadatos(embebidosen16elementos)delosrecursosdeinformación,yaquenotodos ellossondeusoobligatorio,entrelosquepodemosencontrar:Título,Autor,Niveldeacceso, Condición de licencia, Materia, Descripción, Editor, Colaboradores, Tipo de resultado científico,Idioma,Audienciaysusrespectivosidentificadoresyreferencias.Estosmetadatos describenalgunascaracterísticasdelosrecursosalojados,sepropusotrabajaryexplotarlos siguientescuatro:
Figura 1: Pasos a seguir Fuente:Elaboraciónpropia.
Exploración y preparación
de los datos Preprocesamiento Modelado y asignación de palabras claves
Recomendación de recursos relacionados
• Título(Title)
• Descripción(Description)
• Materia(Subject)
• Idioma(Language) 3.2.2 Cosecha
ParaelprocesodeextraccióndelosmetadatosseplanteólautilizacióndelalibreríaSickle quepermiterealizarlacosechademetadatosexpuestosbajoelprotocoloOAI-PMH,elcual separametrizóconlaURLdeconsultadeesteprotocoloenelrepositoriodeINFOTEC (https://infotec.repositorioinstitucional.mx).
3.2.3 Análisis exploratorio
Paraconocerlascaracterísticaspropiasdelsetdedatospertenecientealrepositoriosedebe realizarunarevisiónexploratoriadelosdatosconelobjetivodedefinirlascaracterísticasdel tratamientoóptimoquesedebeaplicaralainformaciónantesdeserprocesada.
3.3 Preprocesamiento
Con el fin de mejorar los resultados es necesario aplicar un proceso de limpieza y normalizacióndelosdatos,estepasodebeconsiderarlosdatosdeentrada,estastécnicas tienencomofinalidadeliminarlamayorcantidaddedatosquenosonrelevantesyentregarla informacióndemanerahomogéneaysimplificada,estaspuedeniniciarconlaeliminaciónde patrones de cadenas de texto irrelevante como las direcciones de internet, correos electrónicos,númerosdeteléfono,identificadoresalfanuméricos,etc.,ylanormalizacióndel textoparareducirlaspalabrasigualesescritasdediferentesmanerasquesepuedelograr transformando todas las letras a minúsculas y eliminando los signos de puntuación y caracteresespeciales,inclusopuedenaplicarsetécnicascomoStemmingparaunamayor reduccióndevariantes.
13
Tambiénseincluyenprocesosdeseparaciónenunidadesmássimples(Tokens)para su procesamiento, estas pueden ser párrafos, sentencias, palabras o incluso silabas dependiendodelasnecesidades.
3.4 Modelado y asignación de palabras clave
Paraelpesadodetérminosseconsiderarontrestécnicasconelfindeevaluarsueficiencia:
TF-IDF,PuntodeTransicióndeGoffman,yEntropía,estastécnicasseaplicaronallistadode Tokens extraídos en el preprocesamiento para los metadatos Title, Description y en el resultadodelaconcatenacióndellistadodeTokensdelosdosanteriores.
ComoyasemencionólatécnicaTF-IDFpermiteinferirlaimportanciaoelpesodeuna palabraapartirdesuocurrenciadentrodeundocumentocontralaocurrenciadelamisma enelcorpus.Esteprocesoconsisteencontabilizarelnúmerodeaparicionesdecadatérmino entodoslosdocumentosgenerandounaMatrizDocumento-Término(Document-TermMatrix o DTM) y así obtener la Frecuencia del Término (TF) o sea cuantas veces aparece un términoencadadocumento,asícomolaFrecuenciaInversadelDocumento(IDF)apartirde generar una BolsadePalabras(BagofWords)queseformaconellistadodetodoslos términosyelnúmerodeaparicionesdeesteentodoelcorpus,paraacontinuaciónaplicarla fórmulacompletadeTF-IDFparacadatérmino,dandocomoresultadounaMatrizTérmino- Documento(TDM)conlostérminos,losdocumentosylospesosTF-IDFcalculados. Para aplicarestatécnicaseusólaimplementacióndeTF-IDFdelalibreríadeSklearn.
LasiguientetécnicaqueseaplicófuePuntodeTransicióndeGoffman,conlacualse limitaelnúmerodepalabrasrelevantesapartirdelafrecuenciaconqueaparecenenun corpusdedocumentosconsiderandoquelasmásrelevantesseencuentranalcentrodeesta distribución.ParaelcálculodeestaseimplementóelalgoritmoPythoncontandoelnúmero deaparicionesdecadatérminoparagenerarlaDTM,estosdatosseagruparonparagenerar laBolsadePalabrasdelcorpus,apartirdeestosecontabilizólacantidaddetérminoscon apariciónúnicayaplicando�