PDF superior Aplicaciones del procesamiento del lenguaje natural en la recuperación de información en español

Aplicaciones del procesamiento del lenguaje natural en la recuperación de información en español

Aplicaciones del procesamiento del lenguaje natural en la recuperación de información en español

Tal y como ya hemos indicado anteriormente, los sistemas de IR actuales se basan en una interpretaci´on extrema del principio de composicionalidad , que nos dice que la sem´antica de un documento reside ´ unicamente en los t´erminos que lo forman [121]. De este modo, podemos suponer que cuando una palabra determinada est´a presente en un documento, dicho documento trata del tema indicado por dicha palabra [130]. De igual modo, cuando una consulta y un documento comparten t´erminos ´ındice, se puede presumir que el documento aborda, de alg´ un modo, el tema sobre el que trata la consulta [24] (v´ease apartado 2.2.1). En base a ello ambos, consultas y documentos, son representados mediante conjuntos de t´erminos ´ındice o palabras clave —paradigma bag-of-terms [26]—, de tal forma que la decisi´on acerca de la relevancia o no de un documento respecto a una consulta es tomada de acuerdo al grado de correspondencia entre el conjunto de t´erminos ´ındice asociados al documento y el conjunto de t´erminos ´ındice asociados a la consulta. Asimismo, la utilizaci´on de pesos a la hora de medir el mayor o menor poder discriminante de un determinado t´ermino (v´ease apartado 2.2.2), as´ı como el empleo de funciones de ordenaci´on (v´ease apartado 2.2.3), permiten la ordenaci´on de los documentos pertenecientes al conjunto respuesta de acuerdo a su grado de relevancia respecto a la consulta. En este contexto, una de las principales limitaciones a las que han de hacer frente los sistemas de IR es la variaci´ on ling¨ u´ıstica inherente al lenguaje humano [24], es decir, aquellas alteraciones de car´acter ling¨ u´ıstico que un t´ermino puede sufrir y que impiden el correcto establecimiento de correspondencias —con el correspondiente detrimento de precisi´on y cobertura— en situaciones como la existencia de cambios en la flexi´on de una palabra —p.ej., gato vs. gatas—, el empleo de sin´onimos —p.ej., matar vs. asesinar —, la presencia de ambig¨ uedades sem´anticas —p.ej. banda (de tela) vs. banda (de forajidos)—, etc.
Mostrar más

325 Lee mas

Procesamiento del Lenguaje Natural para recuperación de información

Procesamiento del Lenguaje Natural para recuperación de información

Recuperación de Información donde proponía a la Web Semántica como una de las principales aplicaciones prácticas de técnicas convinadas de PLN (procesamiento del lenguaje natural) y RI(recuperación de información). Muchos pueden argumentar que el propio padre de la idea defiende que la Web Semántica no es una Web basada en técnicas pertenecientes al área de Inteligencia Artificial (IA), pero esto no significa que no podamos utilizar estas técnicas como base y apoyo para la implementación de su idea, ya que, más allá de rencillas de carácter académico, todo lo que nos ayude a hacer realidad una nueva Web es útil independientemente de conceptualizaciones de
Mostrar más

8 Lee mas

Módulo VIII Técnicas de Procesamiento de Lenguaje Natural (PLN) OpenCourseWare Recuperación y Acceso a la Información

Módulo VIII Técnicas de Procesamiento de Lenguaje Natural (PLN) OpenCourseWare Recuperación y Acceso a la Información

“[...] un ordenador reconoce los términos que figuran dentro del título, del resumen, del texto completo [...] empleando estos términos tal cual, o bien después de transformarl[r]

49 Lee mas

El Procesamiento del Lenguaje Natural en la Recuperación de Información Textual y áreas afines

El Procesamiento del Lenguaje Natural en la Recuperación de Información Textual y áreas afines

Ambos fenómenos inciden en el proceso de recuperación de información aunque de forma distinta. La variación lingüística provoca el silencio documental, es decir la omisión de documentos relevantes para cubrir la necesidad de información, ya que no se han utilizado los mismos términos que aparecen en el documento. En cambio, la ambigüedad implica el ruido documental, es decir la inclusión de documentos que no son significativos, ya que se recuperan también documentos que utilizan el término pero con significado diferente al requerido. Estas dos características dificultan considerablemente el tratamiento automatizado del lenguaje. A continuación se muestran algunos ejemplos que ilustran la repercusión de estos fenómenos en el proceso de recuperación de información:
Mostrar más

12 Lee mas

Aplicación del procesamiento de lenguaje natural en la recuperación de información

Aplicación del procesamiento de lenguaje natural en la recuperación de información

CLEF para inglés y español, mucho más altos que los obtenidos en trabajos previos. Por ejemplo, Strzalkowski et al. (1999b) usan pares núcleo- modificador para crear un nuevo indicador y ellos mejoran un 7% la precisión media en preguntas cortas y un 20% en preguntas largas (en vez de nuestros 35,11% y 12,96%), pero el componente más importante del sistema continúa siendo el modelo vectorial con stems, donde los pares se usan de forma secundaria. Sin embargo, nosotros sólo usamos nuestro modelo y no con una combinación del modelo vectorial. Con respecto a los corpus en español, Alonso et al. (2002), en el que los autores combinan stems, lemas y derivación junto con los pares núcleo- modificador, ellos sólo obtienen una mejora del 1,59%, frente a los 37,18% que llegamos a obtener con nuestra propuesta.
Mostrar más

14 Lee mas

Propuesta de un diccionario de palabras STEMMER para uso aplicaciones de procesamiento de lenguaje natural

Propuesta de un diccionario de palabras STEMMER para uso aplicaciones de procesamiento de lenguaje natural

El Procesamiento del Lenguaje Natural (PLN) es el campo que combina las tecnologías de la ciencia computacional con la lingüística, con el objetivo de hacer posible la comprensión y el procesamiento asistidos por ordenador de información expresada en lenguaje humano para determinadas tareas, como búsquedas de información, la traducción automática, los sistemas de diálogo interactivos, el análisis de opiniones. El PLN no trata de la comunicación por medio de lenguajes naturales de una forma abstracta, sino de diseñar mecanismos para comunicarse y que sean eficaces computacionalmente que se puedan realizar por medio de programas que ejecuten o simulen la comunicación. Los modelos aplicados se enfocan no sólo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la memoria. El lenguaje natural sirve sólo de medio para estudiar estos fenómenos. Hasta la década de 1980, la mayoría de los sistemas de PLN se basaban en un complejo conjunto de reglas diseñadas a mano. A partir de finales de 1980, sin embargo, hubo una revolución en PLN con la introducción de algoritmos de aprendizaje automático, para el procesamiento del lenguaje.
Mostrar más

93 Lee mas

Procesamiento del Lenguaje Natural para la extracción en tiempo real de neologismos del español en redes sociales

Procesamiento del Lenguaje Natural para la extracción en tiempo real de neologismos del español en redes sociales

Como se puede observar en la figura 4-1, los distintos elementos básicos que integrarán la aplicación en la parte de front-end serán, por un lado, un navegador web para la visualización y el framework encargado de representar la información a los usuarios en un formato legible para estos navegadores. Por otro lado, los elementos del back-end consistirán en un motor de procesamiento de archivos en bruto recibidos desde la interfaz de usuario, un módulo de base de datos que almacenará la información procesada y un módulo para visualizar esta información a nivel de desarrollador. Por último, destacamos el módulo de captura de datos que hace de enlace entre el framework web desde donde es llamado y el motor de procesado de datos. Dicho módulo de captura tendrá, a su vez, dos maneras de operar: la carga de datos estáticos o previamente descargados y la carga de datos dinámica o en tiempo real.
Mostrar más

67 Lee mas

Recomendación de información basada en análisis de redes sociales y procesamiento de lenguaje natural

Recomendación de información basada en análisis de redes sociales y procesamiento de lenguaje natural

Dada la gran cantidad de información disponible en Internet y su velocidad de genera- ción, se vuelve cada vez más difícil y tedioso encontrar contenido actualizado y de interés. Se genera entonces la necesidad de contar con aplicaciones que faciliten la clasicación de la información y el ltrado de artículos de valor informativo para cada usuario. La plataforma de recomendación de contenido Cogfor [16] (donde el autor se desempeña- ba como programador/investigador al comienzo de este trabajo) se propone brindar una solución a este problema tanto para entornos corporativos como para uso personal. La motivación inicial de esta tesis se centraba en hacer un aporte a la inteligencia de ltrado de contenido de dicho proyecto.
Mostrar más

63 Lee mas

Análisis del modelo de aceptación de la tecnología en aplicaciones para dispositivos móviles que aplican procesamiento del lenguaje natural.

Análisis del modelo de aceptación de la tecnología en aplicaciones para dispositivos móviles que aplican procesamiento del lenguaje natural.

En otra publicación de Prensa Libre, con datos proporcionados por la Superintendencia de Telecomunicaciones (SIT); al 31 de diciembre de 2015 habían 17 millones 196 mil 054 móviles prepago y 925 mil 336 post-pago, para un total de 18 millones 121 mil 390 líneas 17 . Estos datos evidencian que la cantidad de usuarios de teléfonos móviles han sobrepasado la cantidad de pobladores del país. A finales de de 2014, nuevamente basándose en información de la SIT, se calculó que los smartphones ocupan entre el 8 y el 10 % del mercado; es decir, que de cada 100 teléfonos, 10 tienen sistemas inteligentes 18 . Tomando como base todos los datos mencionados con anterioridad, se concluye que el universo a estudiar es un 10 % del total de teléfonos móviles previamente mencionados, ascendiendo a la cantidad de aproximadamente un millón 820 mil teléfonos móviles, siendo considerado como el total de smartphones dentro del país.
Mostrar más

98 Lee mas

Análisis de la información de foros en cursos MOOC mediante técnicas de procesamiento de lenguaje natural

Análisis de la información de foros en cursos MOOC mediante técnicas de procesamiento de lenguaje natural

MIríadax cuenta con un menor número de estudiantes que las plataformas antes mencionadas con un promedio estimado de 292 por curso (se puede ver más detalle en el Anexo 7), la interactividad entre estudiantes genera un aproximado medio de 1100 mensajes(Anexo 7) por curso, lo que significa una interactividad media tomando en cuenta el número promedio de inscritos, los metadatos asociados a una entrada son el número de accesos, la fecha exacta de posteo, la categoría a la que pertenece, la ultima respuesta por quien fue hecha, y la valoración positiva o negativa del mensaje. En esta plataforma encontramos en su mayoría cursos impartidos en idioma Español. Cuenta con categorización de los mensajes, pero se requiere autentificarse para acceder a los foros y el formulario de autentificación está programado en javascript lo que dificulta el acceso de nuestra araña web. El poco número de estudiantes inscritos frente a sus competidoras también es un punto en contra en nuestro análisis.
Mostrar más

96 Lee mas

Aplicaciones de Procesamiento de Lenguaje Natural

Aplicaciones de Procesamiento de Lenguaje Natural

La Extracción de Información (EI) es la base de los proce- sos que se realizan con lenguaje natural. Para realizar EI se utilizan distintos modelos para el reconocimiento y etique- tado de entidades que serán comparadas y clasificadas en dos o más clases. La clasificación y categorización de textos son los problemas más investigados en procesamiento de lenguaje natural debido a la creciente cantidad de docu- mentos electrónicos existentes en librerías digitales. Como una medida de comparación del rendimiento global de distintos algoritmos en grupos de datos de entrenamiento ya etiquetados, se recopilan reportes de distintos autores, que aplican clasificadores con representaciones vectorial, jerárquica y SVM en recopilaciones disponibles en Inter- net: Reuters 21578 y 20Newsgroup. Estas evaluaciones pueden servir como una aproximación inicial para la elec- ción de algoritmos de clasificación para distintos escenarios de implementación de sistemas de EI.
Mostrar más

10 Lee mas

Una extensión a plena - una aproximación al procesamiento del lenguaje natural

Una extensión a plena - una aproximación al procesamiento del lenguaje natural

Puesto que en el momento de analizar un texto son necesarias habilidades propias de la mente humana, los procesos que conforman de este tipo de tarea requieren de una atención especial y métodos cuidadosamente desarrollados. Esto ha conducido a que en la actualidad existan múltiples disciplinas diferentes encaminadas a resolver un problema específico relacionada con el procesamiento de textos. Por ejemplo, la diferencia existente entre la Extracción de Información y la Recuperación de Información, es una prueba del grado de especialización de estas ramas [Cunningham,1999].
Mostrar más

70 Lee mas

Procesamiento del Lenguaje Natural para la portabilidad de conceptos entre idiomas

Procesamiento del Lenguaje Natural para la portabilidad de conceptos entre idiomas

Más tarde se computa el loss entre los resultados y las "labels", en este caso los vectores en español. El loss no es más que la diferencia entre los vectores resultantes a la salida de la última capa y los vectores en español. Este loss es el que ayuda a la red a entrenar, pues para aprender la red se guía en reducir las distancias entre los vectores transformados y los vectores destino. A partir de aquí, hay varias formas de optimizar la red, como aumentar el número de capas, aumentar la importancia que se le da al loss (mediante el parámetro beta) o reducir o aumentar el ratio de aprendizaje. Este último paso se lleva a cabo con optimizador que acepta dos parámetros, el alpha o ratio de aprendizaje, que no es más que la capacidad de aprendizaje de la red, y el learning decay, que es el porcentaje que se quiere aplicar al ratio de aprendizaje para reducirlo o aumentarlo. Al principio se requie- re un alpha grande para aprender más rápido, y a medida que avance el entrenamiento reducirlo para ajustar los valores.
Mostrar más

52 Lee mas

El lenguaje en la comunicación y recuperación de información

El lenguaje en la comunicación y recuperación de información

Comencemos describiendo esas propiedades sintácticas. Los lenguajes (naturales) se encuentran formados por un conjunto de símbolos que recibe el nombre de “léxico de la lengua”. Algunas combinaciones de esos símbolos dan lugar a ciertas unidades sintácticas mínimas (unidades sintácticas significativas del lenguaje) con las que los usuarios de ese lenguaje pueden llevar a cabo una acción lingüística (transmitir información, expresar una opinión, dar una orden, etc.). La principal propiedad sintáctica que poseen estas unidades es la de ser gramatical o estar correctamente formada. Y es que todas las unidades sintácticas significativas del lenguaje son combinaciones de símbolos correctas o gramaticales, pero no todas las combinaciones de símbolos son unidades sintácticas significativas del lenguaje y, por tanto, gramaticales.
Mostrar más

10 Lee mas

Introducción al Procesamiento de Lenguaje Natural Febrero de 2015

Introducción al Procesamiento de Lenguaje Natural Febrero de 2015

Por ejemplo, todos los synsets de nombres de WordNet están organizados en un árbol según la relación hiponimia/hiperonimia (relación “...es un...”: gato es hipónimo de animal y animal e[r]

5 Lee mas

Tema 5: Procesamiento de lenguaje natural

Tema 5: Procesamiento de lenguaje natural

sintagma_verbal --> verbo, sintagma_nominal art´ıculo --> [el] nombre --> [gato] nombre --> [perro] nombre --> [pescado] nombre --> [carne] verbo --> [come]... Gram´[r]

29 Lee mas

Adquisición de documentos para procesamiento del lenguaje natural

Adquisición de documentos para procesamiento del lenguaje natural

Abstract The mass media are a great source of information. With the ever-increasing use of networks, and with a proper treatment of user-generated content, it is possible to make use of this content in natural language processing. It has been suggested as a main objective, a tool capable of acquiring digital newspaper content and a web application capable of processing and analyzing the acquired data. To satisfy the project, it has been necessary an analysis of requirements and data, a design of the solution with diagrams, a study of current technologies and a development of the solution, using technologies such as Django, MongoDB and BeautifulSoup4. After having measured the times and carried out the relevant tests, the tools allow the content to be extracted, processed and analysed with the parameters defined by the user in an appropriate way.
Mostrar más

64 Lee mas

La utilización de la Web como recurso en el procesamiento del lenguaje natural

La utilización de la Web como recurso en el procesamiento del lenguaje natural

/D XWLOLGDG GH OD ZHE SUHVHQWD XQD VHULH GH VXV YHQWDMDV \ GHVYHQWDMDV \ HV XQ JUDQ PRWLYR GH LQYHVWLJDFL˜RQ HQ ORV SU˜R[LPRV Da QRV /RV FRUSXV H[LVWHQWHV HQ OD DFWXDOLGDG VRQ OD RGLVHD [r]

3 Lee mas

Procesamiento de lenguaje natural para estudiar completitud de requisitos

Procesamiento de lenguaje natural para estudiar completitud de requisitos

La Ingeniería de Software incluye el estudio inicial de los requisitos del sistema de software a desarrollar. A ello se dedican los Ingenieros de Requisitos, generando modelos que logren representar las necesidades de los clientes y usuarios y las soluciones a las mismas. El desarrollo de modelos de requisitos en lenguaje natural facilita la interacción entre todos los involucrados, aunque contribuye a generar ambigüedades.

5 Lee mas

Procesamiento del lenguaje natural, un reto de la inteligencia artificial

Procesamiento del lenguaje natural, un reto de la inteligencia artificial

lenguaje natural y los artificiales, resaltando que el lenguaje humano es complejo, multiforme y rico en expresiones, pero a la vez, ambiguo, requiriendo interpretación de acuerdo al contexto y a la intensión del hablante; mientras que los lenguajes artificiales, se diseñan con una finalidad concreta, son restringidos tanto en la sintaxis como en la semántica, razón por la cual son más precisos, con menos espacio para la libre interpretación y libres del contexto. Se muestra la importancia de la investigación sobre el procesamiento automático del lenguaje natural, se referencian algunos de los principales avances en este campo y las áreas donde se requiere procesar el lenguaje natural para mejorar los sistemas informáticos.
Mostrar más

5 Lee mas

Show all 10000 documents...