Además, [Hussain y Prieto, 2016] sugiere que una posible aplicación de técnicas analíticas avanzadas para la industria financiera es la evaluación de la exposición al riesgo de pérdida de reputación en relación con los servicios que ofrecen los bancos a sus clientes. Aplicar técnicas de recuperación de información y aprendizaje automático a mensajes obtenidos de Twitter para descubrir patrones en el comportamiento y distribución de quejas de los principales bancos de México.
Marco Teórico
Recuperación de Información
- Datos e información
- Recuperación de información
La jerarquía de sabiduría (también conocida como jerarquía DIKW1) se utiliza para contextualizar datos, información, conocimiento y, a veces, sabiduría en relación entre sí. Por tanto, el concepto de relevancia está en el centro de la recuperación de información.
Búsqueda
- Índices Invertidos
- Modelo binario
- Modelo frecuencial
- Modelo TF-IDF
- Optimización de un índice invertido
La Figura 3 muestra la representación gráfica de la relación de un índice inverso utilizando el modelo binario. La Figura 4 muestra la representación gráfica de la relación de un índice inverso utilizando el modelo de frecuencia.
Representación vectorial del texto
- Preprocesamiento de texto
- Bolsa de palabras
- Palabras embebidas
Reducir a raíz (steming). Este proceso busca reducir las palabras a su raíz (o lexema), que es la parte básica de la palabra. Sin embargo, la representación del reverso de las palabras tiene dos desventajas: 1) no capturan el contexto semántico de las palabras y 2) el tamaño de la matriz depende del tamaño del vocabulario, que puede ser muy extenso en texto libre. documentos...
Detección de tópicos
- Clustering
- Medidas de similitud y distancias
- Medidas de calidad
- Criterios para escoger K
- K-Means
- Clustering Jerárquico
La suma de errores al cuadrado (SSE8). Consiste en calcular la suma de las distancias de todos los objetos respecto de sus respectivos centros de gravedad. Una vez asignados todos los elementos, se calcula el centroide de cada uno de los grupos.
Resumen
Posteriormente se introdujo la necesidad de conocer el contenido de los documentos sin ayuda humana, es decir, es necesario agrupar los documentos según su contenido para saber “¿de qué trata?”. El primero se caracteriza por ser un proceso iterativo donde en cada paso los centroides se recalculan de acuerdo con las observaciones más cercanas.
Trabajo Relacionado
Resumen
A lo largo de este capítulo, se han presentado una variedad de artículos donde puede darse cuenta de la importancia del análisis de texto para abordar problemas de la vida cotidiana. Se presentaron artículos que muestran el estado del arte del análisis de sentimiento en español, así como algunos trabajos que muestran opciones a donde las empresas pueden acudir para explotar datos en las redes sociales. Finalmente, se ha demostrado y justificado la forma en que se ha abordado el problema relacionado con este trabajo.
El próximo capítulo detallará la metodología utilizada para abordar el problema, desde el contexto de los datos hasta la definición de las quejas.
Metodología
Entendimiento de negocio
- Organismos públicos
- Redes sociales
Desde el punto de vista de una institución financiera, es importante poder conocer los puntos débiles que tiene con el cliente, porque con esta información es posible tomar acciones, formular políticas o crear productos ad hoc según las necesidades y requerimientos. . clientes, lo que puede aumentar la rentabilidad de la empresa. La Tabla 2 muestra un aumento significativo en las causas de "Enajenación de efectivo en Según [Ayala, 2014], la aparición de las redes sociales y las comunidades virtuales ha cambiado enormemente los hábitos comunicativos de los internautas, Facebook y Twitter, utilizados por millones de individuos, han permitido que grupos de personas se sientan permanentemente conectados.
Este punto nos habla de la penetración que tienen las redes sociales en el día a día de la sociedad. Para los efectos de este trabajo se eligió Twitter como fuente de datos complementaria, ya que a través de su servicio de consumo de datos en streaming1 es posible extraer datos directamente de la plataforma en formato JSON consumiendo su API pública.
Entendimiento de los datos
- Extracción de datos
- Descripción de datos
- Exploración de datos
- Calidad de datos
Es importante mencionar que enJuliase puede cambiar el comportamiento de las expresiones regulares usando alguna combinación de los indicadores i, m, s y x después de la comilla doble de cierre. El texto del tweet puede venir en la variable text en la variable full_text del diccionario extended_tweet dependiendo del valor de la variable truncada. Dentro de la Tabla 6 se puede ver el cambio que existe entre el texto original y el texto preprocesado.
Finalmente, se utilizó el peso TF-IDF3 para determinar el peso de los tokens. Finalmente, los resultados para la palabra "pago" se refieren a problemas en los sistemas de procesamiento de pagos.
Preparación de datos
- Selección de datos
- Limpieza de datos
- Construcción de información tabular auxiliar para el análisis
- Integración de datos
Para generar vectores densos que preserven la relación semántica de los textos, se utilizó un modelo de incrustación de palabras propuesto por [Mikolov et al., 2013] para controlar el tamaño de la matriz resultante y generar una mejor representación. Lamentablemente no hay forma de extraer estos valores, por lo que esto será una limitación para el análisis geoespacial de las quejas. Por otro lado, los campos país.país y país.nombre completo son texto que no se acepta, es decir, para un mismo nombre (por ejemplo Veracruz) se muestran resultados diferentes (Veracruz, Veracrus, Ver., Veracruz de Ignacio de la Llave).
Por otro lado, según el objetivo del proyecto (mencionado en el apartado 3.1), para centrar el análisis en los bancos del G7 es necesario identificar la institución bancaria a la que va dirigido el tuit, pero esto no es posible. hacerlo directamente a partir de los datos recibidos. Finalmente se generó la variable banco, la cual contiene el nombre (etiqueta) de la institución bancaria a la que va dirigido el tweet.
Modelado
- Representación vectorial del texto
- Selección y ejecución de la técnica de modelado para la
- Identificación de tópicos
- Selección y ejecución de la técnica de modelado para la
- Evaluación de la interpretabilidad de los resultados de la
- Identificación de subtópicos
- Selección y ejecución de la técnica de modelado para la
- Evaluación de la interpretabilidad de los resultados de la
Este grupo combina quejas relacionadas con servicios, sucursales y bancos. La etiqueta para este conjunto de documentos será Atención al Cliente. Para determinar la etiqueta de cada uno de los subtemas generados se analizaron los 10 tweets más cercanos al centroide de cada subgrupo. Son quejas de tiempo de servicio relativas a aclaraciones de tarjetas de crédito y débito.
Este subconjunto consta de una serie de retuits que informan de un error en el sistema Santander.
Resumen
Resultados
Análisis descriptivo de la distribución de quejas en Twitter
- Distribución temporal de las quejas en Twitter
- Distribución por institución financiera de las quejas en Twitter
- Distribución espacial de las quejas en Twitter
La Figura 22 muestra la distribución de denuncias por trimestre del año, día del mes, día de la semana y hora del día. La Figura 23 muestra la distribución de quejas por institución financiera, la participación de los bancos en las quejas para cada trimestre del año y la frecuencia de quejas por mes e institución. BBVA es el banco que presentó más denuncias durante este período, seguido de Citibanamex y Santander.
El indicador Qtx representa el número de quejas del banco x por cada 100.000 millones de pesos de cartera vigente durante el periodo t. La Figura 24 presenta una comparación entre el tamaño del banco y el número de quejas recibidas de 2018 a 2019.
Análisis por tipos de quejas detectadas en Twitter
- Análisis de las quejas detectadas en Twitter por institución finan-
- Comparación de los resultados entre instituciones financieras
En la Figura 27 se puede observar que los bancos que reciben más quejas sobre los cajeros automáticos y su operación son BBVA, Citibanamex y Santander, tanto según el número total de quejas como normalizando las quejas utilizando la cartera actual. Asimismo, en la Figura 28 se muestra que los bancos con más quejas en materia de llamadas, por número de quejas, son: HSBC, BBVA y Citibanamex. En la Figura 29, cuando se toma en cuenta el total de quejas recibidas por tarjetas de crédito o débito, se puede observar que los bancos que reciben más quejas (según el número de quejas) son BBVA, Citibanamex y Santander.
Sin embargo, si consideramos el nivel de quejas por cada 100,000 millones de pesos en la cartera actual, las instituciones que muestran mayores problemas al respecto son: Citibanamex, HSBC y BBVA. La Figura 32 muestra que, en términos absolutos, los clientes de BBVA representan la mayor cantidad de quejas por fraude, pero considerando la tasa de quejas por cada 100,000 millones de pesos en la cartera actual, HSBC y Citibanamex son los bancos más preocupantes.
Comparación con los resultados presentados por la C ONDUSEF
La Figura 34 muestra para cada uno de los trimestres las controversias más reportadas ante la CONDUSEF en contraste con los resultados obtenidos en Twitter. A diferencia de los resultados obtenidos de Twitter, en los resultados reportados por la CONDUSEF hay un componente estacional en las denuncias que se repiten cada 12 meses. La principal controversia está asociada al Consumo No Reconocido, seguido de la Gestión de Cobranza y la Negativa al pago de indemnizaciones. Por otro lado, en los resultados encontrados en Twitter la principal queja está relacionada con los servicios digitales, seguida por la atención al cliente y las tarjetas.
Por otro lado, en la Figura 35 se muestra una comparación de los resultados obtenidos en Twitter y los resultados presentados por la CONDUSEF a nivel de institución bancaria. Se observa que BBVA y Citibanamex ocupan las dos primeras posiciones en ambos resultados, pero en el caso de BBVA no hay disminución en el número de disputas reportadas en la CONDUSEF.
Resumen
Santander es el tercer banco con mayor número de denuncias y el tercero en cartera vigente. HSBC Es el cuarto banco con mayor número de denuncias y el penúltimo en términos de cartera vigente. Por otro lado, el número de quejas que reciben sobre sus cajeros automáticos es bajo y podemos concluir que cuentan con una infraestructura de cajeros automáticos robusta.
Es el penúltimo banco con mayor número de denuncias y ocupa el quinto lugar en cuanto a cartera vigente. Por otro lado, recibe un bajo número de quejas relacionadas con sus cajeros automáticos y se puede inferir que cuentan con una infraestructura de cajeros automáticos robusta. En cuanto a la tendencia de las quejas recibidas, no existe una tendencia creciente o decreciente en el número de quejas, lo que indica que el banco ha revisado sus opciones, pero no ha tomado medidas para corregirlas.
Inbursa es el banco con menor número de quejas así como la cartera actual más pequeña de los bancos del G7.
Dendogramas por Tópicos
Resultados por Institución Financiera