• No se han encontrado resultados

EXPLORATORIO DE DATOS PARA

N/A
N/A
Protected

Academic year: 2023

Share "EXPLORATORIO DE DATOS PARA "

Copied!
63
0
0

Texto completo

Corpus: Es un conjunto relativamente grande de textos o datos para la investigación en lingüística general. El propósito de este trabajo es realizar un análisis exploratorio de datos capaz de identificar productos tecnológicos relevantes para el comercio electrónico, para investigar las tendencias creadas por los tweets en español e inglés de un conjunto de palabras clave, la muestra se toma de los primeros 5 meses. del año .

Antecedentes y Objetivos

  • Antecedentes
  • Objetivo General
    • Objetivos Específicos
  • Preguntas de investigación
  • Justificación
  • Viabilidad

Explore tendencias de palabras clave utilizando tweets en español e inglés para identificar productos tecnológicos altamente relevantes a través del análisis de texto. La posibilidad de identificar productos tecnológicos relevantes se ha descubierto a través del análisis de tendencias utilizando palabras clave y sus menciones diarias en los comentarios de Twitter, así como análisis de texto.

Gráfico 1. Evolución de menciones de términos “ecommerce”+ “covid”.
Gráfico 1. Evolución de menciones de términos “ecommerce”+ “covid”.

Tendencias y Comparación de Palabras Clave

Tendencias

Los grupos y palabras utilizadas para la extracción de datos en inglés y español se muestran en la Tabla 1, en total son 10 palabras por idioma lo que permite explorar las diferentes configuraciones de la biblioteca. 12 El gráfico 2 muestra los resultados de las menciones diarias por palabra, cada recuadro presenta un término en español (línea azul) y sus valores en el eje derecho y su contraparte en inglés (línea naranja) cuyas frecuencias se mostrarán en el eje izquierdo. . 13 Se puede observar que la mayoría de las palabras presentan una tendencia ascendente para ambos idiomas, con un crecimiento en sus menciones diarias a partir de mediados de marzo de 2020, debido a la interacción frecuente en redes sociales debido a la cuarentena.

Si tomamos las menciones de todos los términos por idioma y comparamos el aumento de la segunda quincena de marzo con respecto a la primera, observamos un crecimiento del 32,3% para las menciones en español y del 19,59% en inglés, pero cabe destacar. que hay palabras en inglés o español con menciones iguales a 0, lo que hace que la suma de valores de algunas quincenas de marzo disminuya. Con este indicador podemos confirmar que el inicio de la pandemia incidió en el aumento de menciones diarias, principalmente de términos en español.

Gráfico 2. Frecuencias de palabras en inglés y español, enero-mayo 2020.
Gráfico 2. Frecuencias de palabras en inglés y español, enero-mayo 2020.

Comparación de sinónimos

  • Comparación de términos del Grupo 1
  • Comparación de términos del Grupo 2
  • Comparación de términos del Grupo 3
  • Comparación de términos del Grupo 4
  • Selección de términos

14 En el gráfico 2 para los términos en español, observamos que las menciones diarias relacionadas con "tv" son más de 2.000, mientras que "television". Ante estos resultados se decidió que "tv" fuera el sinónimo elegido para este grupo. Al comparar los términos "celular", "teléfono" y "móvil", se decidió inmediatamente descartar el término "teléfono", ya que "teléfono" sólo se mencionó algunos días de marzo, lo que dificulta la comparación con los demás. . sinónimos de Grupo 2.

Respecto al resto de términos, destaca un mayor interés por parte de los usuarios por incluir "móvil" o "teléfono" en sus tuits, ya que las frecuencias diarias son superiores a las de "móvil" o "mobile", incluso después del inicial de cuarentena. Por otro lado, tanto "pc" como "computadora" comenzaron a aumentar la cantidad de menciones a partir del 20 de marzo, pero cuando observamos las frecuencias de los términos en español antes de esta fecha, lo notamos.

Gráficos de Frecuencias y BoxPlots

  • Análisis de “tv”
  • Análisis de “celular”
  • Análisis de “pc”
  • Análisis de “inteligente”

En ambos idiomas, el crecimiento de menciones a mediados de marzo de 2020 es significativo; visible en el gráfico 3 (a), lo que podría resultar en valores con una dispersión mucho mayor a la que se puede observar en los semestres tv_eng 2020-S1 y tv_esp 2020-S1 del gráfico 3 (b). Vemos que el grupo tv_esp 2018-S2 tiene una forma similar y se extiende al grupo tv_esp 2019-S2, pero comparándolos usando el cuartil 21 3 (Q3), que representa el 75% de los datos, vemos que este último tiene más menciona menos de 2.265, mientras que el primero obtuvo menciones por debajo de 2.345, lo que demuestra que el segundo semestre de 2019 fue el grupo con menos menciones diarias de ambos idiomas. Según el gráfico 4 (b) celular_esp, en el primer semestre de 2020 no se ha producido un aumento significativo de menciones que indique algún impacto de la pandemia en este semestre, respecto a semestres anteriores, las dispersiones se mantienen claramente sin cambios, centrándose en el año 2018. - S1 semestre, ya que tiene una mediana ligeramente superior a la del resto de grupos.

En el caso del término en inglés, el gráfico 4(b) phone_eng muestra que el inicio de la cuarentena no afectó significativamente respecto a semestres anteriores, incluso se observa una tendencia decreciente en el tiempo. a) Frecuencia de menciones diarias “pc”, por el contrario pc_esp mantuvo valores más altos y con tendencia creciente desde finales de marzo de 2020 respecto a inicios del mismo año, pero no fue suficiente para superar los valores ​​de semestres anteriores no superados, por ejemplo, al observar el valor del cuartil del tercer trimestre, este debería ser menor que el del semestre del segundo trimestre de 2019, donde la pandemia de COVID-19 no fue un factor. a) Frecuencia de "inteligentes" " Reportes diarios.

Gráfico 3.  Frecuencias y diagrama de cajas para la palabra “tv”
Gráfico 3. Frecuencias y diagrama de cajas para la palabra “tv”

Nube de Palabras: Noticias de Google

Identificación de valores máximos

Para cada palabra clave se identificó la fecha por semestre en la que se obtuvo el máximo número de listados, ya que podría significar un evento, noticia o lanzamiento de producto en el mercado. Además, se amplió un rango de más o menos 3 días con el objetivo de captar el mayor número de entradas. La cantidad de noticias alrededor de cada palabra, por ejemplo la palabra "tv" en tweets en inglés, la cantidad máxima de menciones fue el día, por lo tanto el rango de extracción de noticias será de a, como se muestra en la Tabla 2 (a). La Tabla 2 muestra los rangos de fechas por semestre de las palabras clave en ambos idiomas. Podemos observar que las menciones máximas de las palabras en tweets en inglés se alcanzan en los primeros 3 meses de los años 2018 y 2019, principalmente en enero. Por otro lado, las palabras en los tweets en español no siguen el mismo patrón ya que tienen su máximo en diferentes meses.

En el caso particular del periodo COVID-19, cuando comenzó la cuarentena en marzo de 2020 para varios países [20], todas las palabras en inglés tuvieron menciones máximas. Para el segundo semestre de 2018 y 2019, la mayoría de palabras en ambos idiomas alcanzaron su punto máximo entre octubre y diciembre, quizás debido a temporadas donde la gente tiende a comprar más para eventos como Black Friday, Felices Fiestas, Navidad y fin de año. . a) Fechas de extracción de palabras en inglés.

Elección de metodología para nubes de palabras

Una vez identificados los rangos de fechas, se procede a elegir la mejor forma de obtener las nubes de palabras que muestran productos tecnológicos que hacen referencia a las expresiones anteriores, se analizarán gráficas utilizando la frecuencia de aparición y el pesado TF-IDF. Para seleccionar el método apropiado, se generaron nubes de palabras basadas en frecuencias y TF-IDF ponderadas. Nubes de palabras de noticias del primer semestre de 2018 que utilizan frecuencia de aparición y mucho TF-IDF con el término "inteligente".

Utilizando el pesado TF-IDF, fue posible obtener palabras de producto que se pueden visualizar fácilmente, porque no solo se considera la frecuencia de cada término por documento, sino también la cantidad de documentos en los que aparece el término, es decir: tiene una palabra. Por su mayor peso, aunque tiene mayor frecuencia en un documento y aparece menos en el número de documentos, ayuda a distinguir determinadas palabras. Por lo tanto, teniendo en cuenta el análisis y el contenido de las visualizaciones, se decidió utilizar el pesado TF-IDF para continuar con las nubes de palabras del resto de términos por semestre.

Gráfico 7. Nubes de palabras de noticias del primer semestre 2018 usando frecuencia de aparición  y pesado TF-IDF con el término “inteligente”.
Gráfico 7. Nubes de palabras de noticias del primer semestre 2018 usando frecuencia de aparición y pesado TF-IDF con el término “inteligente”.

Nubes de palabras

  • Nube de palabras “tv”
  • Nube de palabras “celular”
  • Nube de palabras “pc”
  • Nube de palabras “inteligente”

27 términos relacionados con productos tecnológicos, en el gráfico 7(c) solo se pueden visualizar las palabras “bombilla”, “aplicación” y “hogar”. Podemos encontrar palabras de equipos de México; “tigres”, “guadalajara”, “cruz azul” y de España; “Barcelona”, incluso en la nube tv_esp_2018-S2 aparece el término “Mundial”, el año en que se celebró el Mundial Rusia 2018. En el caso de las nubes de palabras en inglés se agradecen términos que ayuden con el objetivo. por ejemplo, trabajan empresas de televisión, como "lg" y.

Partiendo de las nubes en español, se presentan dos gráficos, cuyas palabras más importantes son atípicas de lo que se busca obtener, nos referimos a los semestres 2018-S1 y 2019-S2; En el primero destaca la palabra “uso”, ahondando en el contenido y titulares de las noticias encontramos cuestiones relacionadas con los accidentes de tráfico provocados por el uso del móvil durante la conducción. Se ha descrito el uso de asistentes inteligentes para controlar otros objetos, y en la Figura 11 se muestran algunos como el asistente “alexa” y “google”.

Gráfico 8. Nubes de palabras semestrales palabra “tv”.
Gráfico 8. Nubes de palabras semestrales palabra “tv”.

Productos tecnológicos

Obtenido en agosto de 2020, de https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users. Recuperado junio 2020, de https://www.amvo.org.mx/estudios/reporte-2-impacto-covid-19-en-venta-online-mexico/#0. Recuperado mayo 2020, de https://abxda.wordpress.com analizando-el-big-data-de-las-noticias-con-tu-micro-data-lake-baterias-incluidas/.

Hentet august 2020 fra https://medium.com/qu4nt/reducir-el- número-de-palabras-de-un-texto-lematización-y-radicalización-stemming-con-python-965bfd0c69fa. Hentet september 2020 fra https://businessinsider.mx/la-pandemia-de-coronavirus-dispara-el-consumo-de-videojuegos-pero-tambien-trae-consecuencias-para-la-industria.

Cuadro 3. Productos tecnológicos por término de búsqueda.
Cuadro 3. Productos tecnológicos por término de búsqueda.

Los objetos sw_esp y sw_eng son listas que contienen las palabras más comunes de cada idioma y servirán para eliminarlas de las noticias, ya que no son términos que nos gusten ver. La siguiente función tiene como objetivo estandarizar las noticias, convierte cada palabra a minúsculas, todo lo que comienza con "https" o "@" se reemplaza por un espacio en blanco, es decir, los enlaces o menciones que aparecen. cualquier cosa que no sea un número, letra o espacio, por ejemplo caracteres como "$", "%", "&", etc. La siguiente función sólo se encarga de eliminar las palabras vacías presentes en los textos de noticias utilizando las listas anteriormente cargado.

Finalmente, se creó una función que lee el archivo de noticias y utiliza las funciones anteriores para completar el preprocesamiento de homologación de texto y eliminación de palabras vacías. Al analizar el siguiente código cabe mencionar que el objeto news_data almacena todo el contenido del archivo que se ha leído. Más adelante en el ciclo for, revisa cada una de las noticias y evalúa si el atributo de texto contiene una longitud inferior a 2. , luego se toma el título, se fusiona con el resumen como noticia, en caso contrario es el atributo de texto.

Figure

Gráfico 1. Evolución de menciones de términos “ecommerce”+ “covid”.
Gráfico 2. Frecuencias de palabras en inglés y español, enero-mayo 2020.
Gráfico 3.  Frecuencias y diagrama de cajas para la palabra “tv”
Gráfico 4.  Frecuencias y diagrama de cajas para la palabra “celular”
+7

Referencias

Documento similar

En la sección anterior se reseñaron los proyectos que dan continuidad a las acciones del Instituto implementadas a partir de su creación. Los esfuerzos