• No se han encontrado resultados

Determinación de patrones de ventas en boticas independientes para mejorar las ventas

N/A
N/A
Protected

Academic year: 2020

Share "Determinación de patrones de ventas en boticas independientes para mejorar las ventas"

Copied!
148
0
0

Texto completo

(1)FACULTAD DE INGENIERÍA Carrera de Ingeniería Empresarial y de Sistemas. DETERMINACIÓN DE PATRONES DE VENTAS EN BOTICAS INDEPENDIENTES PARA MEJORAR LAS VENTAS Tesis para optar el Título Profesional de Ingeniero Empresarial y de Sistemas. JUAN FRANCISCO MENDOZA BERNEDO WILDER RAUL ANCHIRAICO BERNAOLA Asesor: Mg. Gabriela Cauvi Suazo Lima – Perú 2018.

(2) JURADO DE LA SUSTENTACION ORAL. …………………................................ Presidente. …………………................................ Jurado 1. …………………................................ Jurado 2. Entregado el: 31 de agosto de 2018. Aprobado por:. ……………………………………. Graduando Juan Francisco Mendoza Bernedo DNI° 43977334. ……………………………………. …………….…………………………….. Graduando Wilder Raul Anchiraico Bernaola. Asesor de Tesis: Mg. Gabriela Cauvi. DNI° 42134851. 2.

(3) UNIVERSIDAD SAN IGNACIO DE LOYOLA FACULTAD DE INGENIERIA. DECLARACIÓN DE AUTENTICIDAD. Yo, Wilder Raul Anchiraico Bernaola, identificado con DNI° 42134851 y Juan Francisco Mendoza Bernedo, identificado con DNI°43977334, Bachilleres del programa Académico de la Carrera de Ingeniería Empresarial y de Sistemas, de la Facultad de Ingeniería de la Universidad San Ignacio de Loyola, presentamos nuestra tesis titulada: Determinación de patrones de ventas en boticas independientes para mejorar las ventas. Declaramos en honor a la verdad, que el trabajo de tesis es de nuestra autoría; que los datos, los resultados, análisis e interpretación constituyen nuestro aporte. Todas las referencias han sido debidamente consultadas y reconocidas en la investigación. En tal sentido, asumimos la responsabilidad que corresponda ante cualquier falsedad u ocultamiento de la información aportada. Por todas las afirmaciones, ratificamos lo expresado a través de nuestras firmas.. Lima, 31 de agosto de 2018. …………………………………….. Juan Francisco Mendoza Bernedo DNI° 43977334. ……..………………………………… Wilder Raul Anchiraico Bernaola DNI° 42134851. 3.

(4) Epígrafe El aspecto más triste de la vida actual, es que la ciencia gana en conocimiento más rápidamente que la sociedad en sabiduría. (Isaac Asimov). 4.

(5) Índice de contenidos Resumen. 14. Abstract. 15. Introducción. 16. Problema de investigación. 17. Identificación del problema. 17. Formulación del problema. 29. Problema general.. 29. Problemas específicos.. 29. Marco referencial. 30. Antecedentes. 30. Estado del arte. 32. Marco teórico. 34. Minería de datos.. 34. Arquitectura de minería de datos.. 35. Metodologías para la minería de datos.. 37. Metodología KDD.. 37. Metodología SEMMA.. 39. Metodología CRISP-DM.. 40. Comparación de metodologías.. 46. Selección de metodología.. 48. Herramientas de minería de datos.. 50. Rapid Miner.. 51. SQL Server Integration Services.. 51. R Studio.. 52. IBM SPSS Modeler.. 53. Evaluación y selección de herramienta.. 53. Costo del trabajo.. 55. Modelos de análisis.. 57. Modelo reglas de asociación.. 57. Modelo árbol de regresión.. 57. Objetivos. 59. Objetivo general. 59. Objetivos específicos. 59 5.

(6) Justificación de la investigación. 59. Teórica. 59. Práctica. 60. Social. 60. Hipótesis. 60. Hipótesis general. 60. Hipótesis específicas. 61. Matriz de consistencia. 62. Marco metodológico. 63. Metodología. 63. Paradigma. 63. Enfoque. 63. Método. 64. Variables. 64. Independiente. 64. Dependiente. 64. Población y muestra. 65. Población. 65. Muestra. 66. Unidad de análisis. 68. Instrumentos y técnicas. 68. Instrumentos. 68. Entrevistas.. 68. Archivo de datos.. 68. Técnicas Procedimientos y métodos de análisis Procedimiento. 69 69 69. Comprensión del negocio.. 70. Comprensión de los datos.. 74. Preparación de los datos.. 75. Método de análisis.. 76. Modelado.. 76. Valor del ticket promedio.. 76. Rentabilidad.. 85. Análisis con reglas de asociación.. 95 6.

(7) Análisis con árbol de regresión. Resultados. 105 113. Patrones de venta sucursal Chorrillos. 113. Patrones de ventas sucursal Huaraz. 115. Patrones de ventas sucursal Riva Agüero. 116. Patrones de ventas sucursal Túpac Amaru. 117. Patrones de ventas sucursal Ventanilla. 118. Patrones de ventas empresa Amberfarma. 119. Discusión. 123. Conclusiones. 124. Recomendaciones. 125. Referencias. 127. 7.

(8) Índice de tablas TABLA 1: Ventas del año 2017 por sucursales. 27. TABLA 2: Crecimiento de las ventas del año 2017 por sucursal. 29. TABLA 3: Comparación de fases por metodología de minería de datos. 47. TABLA 4: Leyenda de evaluación. 49. TABLA 5: Evaluación de metodología. 50. TABLA 6: Evaluación de herramienta. 54. TABLA 7: Costos horas hombre por fase. 55. TABLA 8: Costos de servicios y viáticos. 56. TABLA 9: Resumen de costos y costo total. 56. TABLA 10: Matriz de consistencia. 62. TABLA 11: Cantidad de transacciones en el año 2017. 65. TABLA 12: Características de hardware de la arquitectura planteada. 70. TABLA 13: Descripción del proceso core del negocio. 71. TABLA 14: Información de sucursales Boticas Amberfarma. 73. TABLA 15: Reglas de asociación sucursal Chorrillos – verano. 96. TABLA 16: Reglas de asociación sucursal Chorrillos – invierno. 97. TABLA 17: Reglas de asociación sucursal Huaraz - verano. 99. TABLA 18: Reglas de asociación sucursal Huaraz - invierno. 99. TABLA 19: Reglas de asociación sucursal Riva Agüero – verano. 100. TABLA 20: Reglas de asociación sucursal Riva Agüero – invierno. 101. TABLA 21: Reglas de asociación sucursal Túpac Amaru – verano. 102. TABLA 22: Reglas de asociación sucursal Túpac Amaru – invierno. 102. TABLA 23: Reglas de asociación sucursal Ventanilla – verano. 103. TABLA 24: Reglas de asociación sucursal Ventanilla – invierno. 104. TABLA 25: Patrones de ventas – sucursal Chorrillos. 113. TABLA 26: Propuestas de mejora y optimización – sucursal Chorrillos. 114. TABLA 27: Patrones de ventas – sucursal Huaraz. 115. TABLA 28: Propuestas de mejora y optimización – sucursal Huaraz. 115. TABLA 29: Patrones de ventas – Riva Agüero. 116. TABLA 30: Propuestas de mejora y optimización – Riva Agüero. 117. TABLA 31: Patrones de ventas – Túpac Amaru. 117. TABLA 32: Propuestas de mejora y optimización – Túpac Amaru. 118. TABLA 33: Patrones de ventas – Ventanilla. 118. TABLA 34: Propuestas de mejora y optimización – Ventanilla. 119. TABLA 35: Patrones de Ventas – Amberfarma. 119. TABLA 36: Propuestas de mejora y optimización – Amberfarma. 120 8.

(9) Índice de figuras FIGURA 1: Lugar donde compró medicinas, 2017-2014. 17. FIGURA 2: Lugar donde compró medicinas, 2014. 18. FIGURA 3: Número de empresas comercializadores de farmacéuticos, 2008 - 2014. 18. FIGURA 4: Comercio de productos farmacéuticos. 19. FIGURA 5: Perú: Número de locales de farmacias, boticas: 2010-15. 20. FIGURA 6: Bajas de empresas según trimestre 2015-17. 21. FIGURA 7: Organigrama Quicorp S.A.. 22. FIGURA 8: Análisis FODA Boticas Amberfama. 24. FIGURA 9: Análisis Ishikawa, altos descuentos por inventarios. 25. FIGURA 10: Análisis Ishikawa, precios no competitivos. 26. FIGURA 11: Ventas por sucursal 2017. 28. FIGURA 12: Clasificación de las técnicas de minería de datos. 35. FIGURA 13: Arquitectura minería de datos. 36. FIGURA 14: Etapas proceso KDD. 39. FIGURA 15: Etapas metodología SEMMA. 40. FIGURA 16: Esquema 4 niveles de CRISP-DM. 41. FIGURA 17: Modelo de proceso de CRISP-DM. 42. FIGURA 18: Fases y actividades del proceso de CRISP-DM. 46. FIGURA 19: Comparación metodologías KDD, SEMMA, CRISP-DM. 47. FIGURA 20: Metodología más utilizada. 49. FIGURA 21: Flujo de Rapid Miner. 51. FIGURA 22: Elementos del árbol de regresión. 58. FIGURA 23: Calculadora de muestra estadística. 66. FIGURA 24: Evolución de la muestra de acuerdo al margen de error. 67. FIGURA 25: Logotipo del nombre comercial de Boticas Amberfarma. 72. FIGURA 26: Consulta query en SQL para obtener data. 74. FIGURA 27: Data en crudo obtenida de Base de Datos. 75. FIGURA 28: Data al finalizar la fase preparación de los datos. 76. FIGURA 29: Ticket promedio mensual Chorrillos. 77. FIGURA 30: Ticket promedio mensual Huaraz. 77. FIGURA 31: Ticket promedio mensual Riva Agüero. 78. FIGURA 32: Ticket promedio mensual Túpac Amaru. 78. FIGURA 33: Ticket promedio mensual Ventanilla. 79 9.

(10) FIGURA 34: Ticket promedio cinco sucursales. 80. FIGURA 35: Ticket promedio por sucursal anualizado. 81. FIGURA 36: Ticket promedio semanal sucursal Chorrillos. 82. FIGURA 37: Ticket promedio semanal sucursal Huaraz. 82. FIGURA 38: Ticket promedio semanal sucursal Riva Agüero. 83. FIGURA 39: Ticket promedio semanal sucursal Túpac Amaru. 83. FIGURA 40: Ticket promedio semanal sucursal Ventanilla. 84. FIGURA 41: Ticket promedio semanal cinco sucursales. 85. FIGURA 42: Rentabilidad mensual 05 sucursales. 86. FIGURA 43: Rentabilidad mensual por cadena en base a sucursales. 87. FIGURA 44: Rentabilidad anualizada 05 sucursales. 87. FIGURA 45: Productos más rentables Chorrillos. 89. FIGURA 46: Productos más rentables Huaraz. 89. FIGURA 47: Productos más rentables Riva Agüero. 90. FIGURA 48: Productos más rentables Túpac Amaru. 91. FIGURA 49: Productos más rentables Ventanilla. 91. FIGURA 50: Productos con mayor rotación Chorrillos. 92. FIGURA 51: Productos con mayor rotación Huaraz. 93. FIGURA 52: Productos con mayor rotación Riva Agüero. 93. FIGURA 53: Productos con mayor rotación Túpac Amaru. 94. FIGURA 54: Productos con mayor rotación Ventanilla. 94. FIGURA 55: Código R para reglas de asociación de Chorrillos en verano. 95. FIGURA 56: Árbol de regresión ticket promedio (S/) – verano. 107. FIGURA 57: Árbol de regresión ticket promedio (S/) - invierno. 108. FIGURA 58: Árbol de regresión rentabilidad promedio(S/) - verano. 109. FIGURA 59: Árbol de regresión rentabilidad promedio(S/) - invierno. 110. FIGURA 60: Árbol de regresión rentabilidad porcentaje (%) - verano. 111. FIGURA 61: Árbol de regresión rentabilidad porcentaje (%) - invierno. 112. 10.

(11) Índice de anexos. ANEXO 1: Ficha entrevista. 131. ANEXO 2: Correo DIGEMID. 135. ANEXO 3: Diagrama general de flujo proceso core Amberfarma. 136. ANEXO 4: Organigrama general Boticas Amberfarma E.I.R.L.. 137. ANEXO 5: Organigrama de oficina farmacéutica. 138. ANEXO 6: Análisis de resultados de la entrevista. 139. ANEXO 7: Análisis VAN y TIR. 141. ANEXO 8: Cronograma de actividades. 142. ANEXO 9: Riesgos del proyecto. 144. ANEXO 10: Arquitectura y flujo de la solución planteada. 145. ANEXO 11: Glosario de términos. 146. 11.

(12) Dedicatoria La presente tesis la dedicamos a nuestros padres, por enseñarnos con paciencia y amor a tomar decisiones, ser modelo de nuestra conducta, por inculcarnos valores, enseñarnos a trazar metas y ser responsables socialmente.. 12.

(13) Agradecimiento Agradecemos a la empresa BOTICA AMBERFARMA E.I.R.L. y las demás MICRO EMPRESAS FARMACÉUTICAS, quienes nos brindaron información necesaria y de mucha importancia para la elaboración de la presente tesis.. 13.

(14) Resumen La presente tesis busca determinar los patrones de ventas en una botica independiente para mejorar las ventas, aprovechando la información histórica con la que cuenta esta empresa, por medio de un análisis de información a través de técnicas de minería de datos con algoritmos de reglas de asociación y árboles de regresión, utilizando un software de análisis de datos. Las microempresas farmacéuticas y boticas atraviesan problemas en la gestión y riesgo de subsistencia, debido a la fusión de las dos empresas más grandes de este rubro con mayor presencia y volumen de ventas en Perú a inicios del presente año. Frente a este escenario las boticas y micro farmacias se ven obligadas a reinventarse e implementar nuevas formas de gestión, de servicios, así como nuevas políticas comerciales. A partir de estos hechos se toma como caso de investigación a la empresa Boticas Amberfarma E.I.R.L, que es una microempresa con cinco puntos de ventas. Uno de los problemas en este tipo de farmacias, es que desconocen las diferentes herramientas tecnológicas que pueden utilizar para mejorar su toma de decisiones, como la explotación de datos de sus registros históricos. Por consiguiente, desconocen información relevante para implementar u optimizar políticas de marketing y gestión tales como: ticket promedio, horario con mayores ventas, productos de poca, baja y alta rotación, productos de alta, media y baja rentabilidad, productos con alto riesgo de vencimiento, productos con sobre stock, requerimiento de compras optimas, valorización de almacenes, productos relacionados entre sí, entre otros. El objetivo de la tesis es analizar la información histórica de ventas con un software de minería de datos y determinar los patrones de ventas para que en su posterior implementación se evidencie principalmente una mejora en los volúmenes de ventas, trayendo como otros resultados reducción de vencimientos, mejor clima laboral por los incrementos salariales y menores descuentos, así como mayores volúmenes de márgenes de utilidad para el propietario o empresa.. Palabras clave: Explotación de datos, minería de datos, optimización de la gestión farmacéutica, patrones de ventas.. 14.

(15) Abstract This thesis seeks to determine the sales patterns in an independent pharmacy to improve sales, taking advantage of the historical information of this company, through an analysis of information with data mining techniques and with rules of association and trees regression algorithms using a data analysis software. Due to the problematic in the management and the subsistence risk of micro pharmaceutical companies and pharmacies are immersed, by the merger of the two largest companies of this business line with the highest presence and sales volume in Peru at the beginning of the present year, Mifarma and Inkafarma. Faced to this situation, pharmacies and micro-pharmacies are forced to reinvent themselves and implement new forms of management, services and new commercial policies. From this context, the Botica Amberfarma E.I.R.L company, which is a microenterprise in development with five sales points, is taken as a research case. Within the problems in this type of pharmacies, is that many of them unknown the different technological tools that can be used to improve their decision, among them we could mention the exploitation of data from their historical records, therefore they ignore relevant information to implement or optimize marketing and management policies such as: average ticket, hours of higher sales, low and high turnover products, high, medium and low profitability, products with high risk of expiration, products with over stock, requirement of optimal purchases, valuation of warehouses, related products, among others. The objective of the thesis is to analyze the historical sales information with a data mining software and determine the sales patterns, so that in its subsequent implementation there will be an improvement in the sales volumes, bringing other results such as reduction of maturities, better working environment for the salary increases and lower discounts, as well as higher volumes of profit margins for the owner or company.. Key words: Explode data, data mining, pharmaceutical management optimization, sales patterns.. 15.

(16) Introducción. En el Perú, las farmacias o boticas horizontales poseen, por lo general, poco conocimiento en gestión farmacéutica. Esto se traduce en una serie de problemas, como la ubicación poco estratégica de sus sedes comerciales, poca capacidad financiera, personal no capacitado, poco conocimiento en gestión contable, gestión no estructurada, poco o nulo conocimiento de herramientas digitales de gestión, proveedores poco confiables, entre otros. Por consiguiente, infringen diferentes normativas del MINSA, por lo cual constantemente reciben sanciones de parte de la autoridad sanitaria. En este contexto, ingresan y se desarrollan exponencialmente las grandes cadenas farmacéuticas, dentro de las principales estrategias que implementan se tienen: Estrategias de precios alto - bajo (high and low), maquila de productos propios de las cadenas, ubicaciones estratégicas (por lo general esquinas y frente a hospitales, mercados, centro comerciales y parques), también una fuerte y dura campaña publicitaria, este escenario facilita a las cadenas presionar a las farmacias horizontales, en muchos casos llegando a extinguirlas del mercado. Actualmente, las cadenas farmacéuticas peruanas vienen optimizando la estructura de su cadena de producción, importación, distribución y comercialización. Las principales cadenas farmacéuticas son: Eckerd Peru (Inkafarma) Quicorp (Mifarma) las dos actualmente pertenecientes al Grupo Intercorp, Boticas y salud S.A.C (Boticas ByS ), Corporacion Interpharma S.A.C. (Boticas Hogar y Salud) y Farmacias Hollywood S.A.C.(Boticas Hollywood). Luego de una investigación del entorno de las farmacias horizontales, se decide desarrollar una tesis relacionada al caso, para de esta forma proveer de herramientas y conocimientos alternativos, en base a minería de datos, para enfrentar esta situación de competencia con las grandes cadenas y mejorar sus ventas.. 16.

(17) Problema de investigación Identificación del problema. Vivimos en un país en donde existen diferencias bien marcadas, en relación a los tipos de empresas de acuerdo a su magnitud, tenemos a las grandes empresas y corporaciones que se encuentran presentes en varios rubros del mercado peruano, como el mercado financiero, de alimentos, de educación y otros, así como también el mercado de medicinas a través de sus grandes cadenas de farmacias. Por otro lado tenemos a las microempresas y pequeñas empresas que representan la mayor cantidad de empresas en nuestro país. Siendo un país en desarrollo, los emprendedores a través de sus iniciativas de negocio se hacen presentes para competir contra las grandes empresas, que dominan el mercado, como es el caso de las pequeñas farmacias y boticas, quienes con protocolos, procesos y gestión no optimizada, hacen frente a las grandes cadenas de farmacias.. De acuerdo con un estudio de investigación sectorial del Ministerio de la Producción referente a la industria farmacéutica, los lugares preferidos por los peruanos para la adquisición de medicamentos en el año 2014 son las boticas o farmacias, representando un 85% frente a las otras opciones de lugares de compra. En la siguiente figura se muestra la cantidad de personas por lugar de compra y su crecimiento desde el año 2010.. Figura 1. Lugar donde compró medicinas, 2007-2014. Recuperado del Ministerio de la Producción (2015), estudio de investigación sectorial farmacéutica.. 17.

(18) Figura 2. Lugar donde compró las medicinas, 2014. Recuperado del Ministerio de la Producción (2015), estudio de investigación sectorial farmacéutica. El mismo estudio nos muestra información del número de empresas comercializadoras de farmacéuticos desde el año 2008 al 2014, donde podemos observar que existe un crecimiento por año, a pesar de existir una disminución en los últimos años, el promedio de variación es de 5.1%. La siguiente figura muestra la información descrita.. Figura 3. Número de empresas comercializadoras de farmacéuticos, 2008 – 2014. Recuperado del Ministerio de la Producción (2015), Estudio de investigación sectorial Farmacéutica.. 18.

(19) En el análisis que realiza este estudio, considerando el estrato, las microempresas constituyen el 96.9% del total de empresas a nivel nacional. Este tipo de empresas adquieren sus productos con grandes distribuidores y la venta es realizada en boticas de su propiedad. En cambio, las grandes empresas, representadas por las cadenas de boticas y farmacias que tienen presencia a nivel nacional, realizan la venta a través de la gran cantidad de establecimientos que poseen. La siguiente figura muestra el comercio de productos farmacéuticos según el tamaño de empresa.. Figura 4. Comercio de productos farmacéuticos. Recuperado del Ministerio de la Producción (2015), estudio de investigación sectorial farmacéutica.. De acuerdo al Anuario Estadístico Industrial, Mipyme y Comercio Interno 2015, la distribución de locales de farmacias en el mercado peruano era liderado por la empresa InRetail con su cadena de farmacias Inkafarma, una representación importante en el mercado farmacéutico en este año fueron Farmacias Peruanas SAC y Mifarma. La siguiente figura, muestra la cantidad de locales de las grandes cadenas de farmacias y su crecimiento por año hasta el 2015, donde se puede apreciar que desde el año 2010 Inkafarma tuvo un crecimiento de 382 a 759 locales al año 2015, en comparación al resto de cadenas. Es la empresa que logró el mayor crecimiento en locales en los 5 años de análisis del estudio.. 19.

(20) Figura 5. Perú: Número de locales de farmacias, boticas: 2010-15. Recuperado del Ministerio de la Producción (2015), Anuario Estadístico Industrial, Mipyme y Comericio Interno 2015.. Además, de acuerdo a la información proporcionada por el INEI, indica una realidad a considerar, ya que las farmacias están catalogadas como empresas, “Al finalizar el IV Trimestre de 2017, el número de empresas activas en el Directorio Central de Empresas y Establecimientos ascendió a 2 millones 303 mil 662 unidades, mayor en 8,4% respecto a similar periodo del año anterior. Asimismo, se crearon 68 mil 416 empresas y se dieron de baja 34 mil 718 presentando una variación neta de 33 mil 698 unidades económicas. La tasa de nacimientos de empresas que relaciona las unidades económicas creadas en el IV Trimestre de 2017 con el stock empresarial representó el 3,0% del total, mientras que la tasa de mortalidad empresarial fue de 1,5% en el mismo período”.. 20.

(21) Figura 6. Perú: Bajas de empresas, según trimestre, 2015-17. Recuperado del Instituto Nacional de Estadística e Informática (2018).. A finales de enero de este año, se dio un hecho muy importante en el mercado farmacéutico del país, donde el grupo Intercorp a través de su compañía InRetail dueño de Inkafarma, una de las cadenas más grandes del Perú, compró a Quicorp S.A, la empresa dueña de las cadenas de farmacias Mifarma, BTL, Fasa, Arcángel entre otras, convirtiéndose así en dueño de alrededor del 95% de la participación del mercado, con aproximadamente 2245 puntos de venta. Además de integrar a su portafolio de empresas, al laboratorio Quinfa y a Química Suiza como distribuidor de productos de alto reconocimiento y demanda dentro del mercado peruano e internacional, logrando de esta manera tener presencia en todo el ciclo de abastecimiento de medicamentos en el Perú, siendo importador, productor, distribuidor y comercializador al por menor de productos farmacéuticos. En la siguiente figura se muestra el conjunto de empresas que conforma Quicorp S.A.. 21.

(22) Figura 7. Organigrama Quicorp S.A. Recuperado de Diario Gestión Publicación en Línea (2018-02-03). Frente a este hecho, los microempresarios farmacéuticos presentan un riesgo muy grande de no poder subsistir en el mercado, al tener a una sola corporación dueña de una gran mayoría de las actividades comerciales, de producción, distribución y comercialización, todo esto apoyado con una gran gama de productos propios registrados en INDECOPI. Ante el gran poder de negociación de InRetail, se ven obligados a plantearse nuevas estrategias comerciales y de gestión, para poder afrontar las dificultades que se les presentarán y poder competir con este gigante de las farmacias. Es dentro de este contexto, que las pequeñas farmacias y boticas deben evaluar sus debilidades, como la falta de experiencia, técnicas en gestión administrativa y financiera, falta de presupuesto para inversión e innovación, personal no capacitado ni comprometido, falta de plan marketing y ventas, así como el posicionamiento de marca, falta de almacenes especializados, locales mal ubicados, dentro de los más importantes servicios no orientados al cliente así como la falta de exploración de datos, ya que en muchos casos las micro farmacias disponen de software de ventas con información histórica de las ventas de la gran gama de productos aplicados para el retail farmacéutico, donde toda esta información no es analizada. Siendo esta última debilidad, el motivo de este trabajo de investigación, tomando como caso de estudio a Boticas Amberfarma. Boticas Amberfarma es una microempresa que se encuentra constituida por 5 puntos de venta ubicados en los siguientes distritos de Lima, El Agustino, Chorrillos, 22.

(23) Ventanilla y una sucursal en Huaraz. Su planilla consta de 32 empleados, además tiene contratos de servicios profesionales de 5 personas. Cuenta con un establecimiento para el almacenamiento de medicinas, el cual es el punto de llegada de la mercadería para luego ser despachada a cada uno de los puntos de ventas bajo un cronograma establecido de forma semanal. Cuando la mercadería llega al punto de venta es recibida y registrada, luego es guardada en los anaqueles de cada local. Posterior a esto, cuando la venta se realiza, los técnicos extraen los productos de los anaqueles y dispensan la cantidad que vayan a vender. Todo el flujo del proceso core del negocio se puede observar en el Anexo 3, desde la compra de los productos a los proveedores hasta la dispensación a los clientes.. De acuerdo a lo indicado por el gerente de Amberfarma, su empresa presenta diversos problemas dentro del proceso descrito anteriormente, entre los cuales menciona que la demanda de productos por cada punto de venta no es siempre la misma y en caso de agotarse un producto en algún punto de venta, por no llevar un correcto control de rotación y stock de producto, solicita un nuevo abastecimiento fuera del cronograma establecido, ocasionando un gasto adicional a la unidad de despacho. Otro problema presentado, es en relación a la rotación de los productos, específicamente el riesgo de mantener en anaqueles de cada punto de venta productos que están próximos a su fecha de vencimiento, los cuales al convertirse en productos vencidos en anaquel, inician un proceso de descuento de remuneración al personal encargado de tienda, por no reportar el producto, lo que ocasiona un malestar entre el personal y un clima laboral tenso por los constantes descuentos que ven en sus remuneraciones.. Además, el mayor problema presentado de acuerdo a lo indicado por el gerente de la empresa, ha sido un declive y variación en el volumen de las ventas, teniendo como resultado la falta de crecimiento en las ventas, manteniendo el mismo monto de facturación por sucursal y empresa durante todo el año 2017, viendo un impacto económico en la empresa.. Para poder tener un mayor contexto de la empresa e identificar el problema que será motivo de investigación, necesitamos primero conocer las fortalezas y debilidades, esto lo logramos desarrollando un análisis FODA de la empresa, donde buscamos identificar las debilidades con las que cuenta. Este análisis se muestra en la siguiente figura.. 23.

(24) Figura 8. Análisis FODA Botica Amberfarma. Fuente Boticas Amberfarma (2018), elaboración propia.. Dentro de las debilidades identificadas en el análisis FODA, y la que destacamos para el presente trabajo de investigación, señalamos la siguiente: Ausencia de software integrado y optimizado.. Para poder abarcar los problemas descritos por el gerente, realizamos un análisis detallado con Ishikawa a dos de los problemas que presentan en la empresa y son abarcados para el desarrollo del presente estudio. Tenemos los siguientes: Altos descuentos por inventario y precios no competitivos.. 24.

(25) Figura 9. Análisis Ishikawa Boticas Amberfarma, altos descuentos por inventario. Fuente Boticas Amberfarma (2018), elaboración propia.. De acuerdo a las causas identificadas en el diagrama anterior, para el problema de altos descuentos por inventario, se tuvo que consultar con el administrador sobre la frecuencia de ocurrencia de cada una de las causas, ya que la empresa no lleva un conteo y medida sobre estas, por lo que de acuerdo a la respuesta del experto, las causas que resaltamos y que serán consideradas como parte de las propuestas de mejora en el presente estudio son: Abastecimiento con excesivas diferencias, transporte poco optimizado, carga de inventarios mal distribuidos, mala programación de inventarios.. Todas las causas identificadas por el experto, denotan una falta de análisis en la rotación de sus productos, esto demuestra que a pesar de tener información histórica de las ventas no es analizada para aplicarla a otros procedimientos, que no necesariamente tienen una influencia directa sobre las ventas, como son los inventarios mal distribuidos y la mala programación de inventarios, también existe una relación entre el transporte poco optimizado y la falta de conocimiento con la distribución de productos de acuerdo a la información de ventas.. 25.

(26) Figura 10. Análisis Ishikawa Boticas Amberfarma, precios no competitivos. Fuente Boticas Amberfarma (2018), elaboración propia.. Para el problema de precios no competitivos, analizado en el diagrama anterior y por la misma razón del primer diagrama, la mala práctica de no tomar medida de la cantidad de ocurrencias de estas causas, es lo que nos lleva a basarnos en el juicio del experto para determinar aquellas de mayor ocurrencia y que serán abarcadas en el presente trabajo dentro de las propuestas de mejora, las cuales son: Carga de compras mal distribuida, elaboración de lista reactiva, programación de compras no optimizada.. Como parte de la identificación del problema, realizamos una ficha de entrevista (ver Anexo 1), esta ficha fue aplicada a dueños y administradores de boticas independientes para conocer su percepción de los problemas que afrontan y su forma de trabajo sobre puntos relevantes para la presente investigación. El resultado de la ficha de entrevista se utiliza como un apoyo y soporte adicional para la identificación del problema, no se la considera como objetivo del trabajo de investigación. Todos los resultados de las 18 preguntas de la ficha de entrevista se encuentran en el Anexo 6. Dentro de los resultados, observamos que del total de entrevistados el 77.61% cree que la fusión de Inkafarma y Mifarma tendrá un impacto negativo en el desarrollo de sus establecimientos independientes, esto es considerado como parte de la identificación del problema. Además, los resultados de dos preguntas nos brindan soporte para el desarrollo de nuestra. 26.

(27) investigación, donde el 61.19% de entrevistados utiliza algún software para la optimización comercial de sus establecimientos, lo que nos indica que existen boticas independientes que vienen utilizando y están familiarizados con tecnologías de información en sus procedimientos. Como tercer resultado a mencionar de la ficha de entrevista, obtuvimos que el 77.61% de los que realizaron la ficha efectúan registro de sus operaciones de ventas, lo cual nos dice que existe un histórico de información que se puede aprovechar en analizar.. De acuerdo a todo lo descrito, se utilizaron varias herramientas en la identificación del problema para el estudio, como FODA, Ishikawa y ficha de entrevistas. Según lo analizado, existen diversidad de problemas, pero debido a que se trata de una microempresa, donde no se lleva el control y mediciones de los procesos que permitan determinar con exactitud las causas de los problemas mencionados por la gerencia de la empresa, contando simplemente con la referencia del juicio de expertos, es que se decide analizar la información histórica de lo que sí tienen con registro de datos en este tipo de negocios, como es el registro de las ventas, donde el objetivo es abordar el principal problema mencionado por la gerencia, el descenso y estancamiento de las ventas.. En la siguiente tabla, se observa en resumen el reporte de ventas de las 5 sucursales de la empresa por meses en el año 2017, las cantidades son los montos en Soles vendidos por cada una de las sucursales. Se debe considerar que en el caso de la sucursal Chorrillos, registra un monto de ventas cero en el mes de enero, debido a que la apertura de esta sucursal se realizó en el mes de febrero. El resto de sucursales muestran montos similares durante todo el año, pero de acuerdo a lo reportado por la gerencia y que se afirma con los números del registro en la tabla es que el año finalizó con números de montos de venta inferiores en comparación al inicio del año.. TABLA 1 Ventas del año 2017 por sucursales (S/). Túpac Amaru. Chorrillos. Huaraz. Riva Agüero. Ventanilla. Enero. 53,576.20. 0.00. 37,303.57. 89,772.80. 148,817.25. Febrero. 48,800.10. 11,182.50. 32,881.67. 77,490.50. 160,225.84. Marzo. 54,055.70. 33,911.72. 29,419.72. 83,004.40. 153,618.12. Abril. 59,801.20. 35,879.86. 37,189.89. 77,036.40. 172,643.91. Mayo. 54,744.60. 37,166.19. 38,686.88. 78,304.50. 104,315.03. Junio. 53,947.40. 30,335.84. 36,954.61. 74,305.50. 88,337.12. Julio. 56,971.30. 30,047.83. 41,649.39. 84,529.70. 105,533.01. 27.

(28) Agosto. 56,262.70. 35,839.83. 39,444.45. 83,173.30. 111,965.54. Setiembre. 52,971.40. 42,532.17. 37,240.43. 74,646.90. 135,153.44. Octubre. 57,148.10. 41,617.12. 39,318.05. 81,359.80. 130,854.11. Noviembre. 53,311.60. 39,936.82. 37,394.90. 75,154.30. 123,271.55. Diciembre. 51,522.30. 42,058.75. 36,391.03. 74,202.80. 139,185.62. Total S/. 653,112.60. 380,508.63. 443,874.59. 952,980.90. 1,573,920.54. Fuente: Boticas Amberfarma registro de ventas 2017 - elaboración propia.. Para comprender y visualizar el estancamiento de las ventas en el año 2017, realizamos la siguiente figura, donde se puede apreciar claramente que las sucursales Túpac Amaru, Riva Agüero y Huaraz muestran un comportamiento sin mayor crecimiento en las ventas durante todo el año e incluso finalizando el año con una ligera tendencia a la baja, mientras que la sucursal Ventanilla sufrió una caída en las ventas en el mes de mayo, tendiendo a recuperarse paulatinamente el resto del año, sin embargo finalizó el 2017 con ventas menores en comparación de inicio del año. La sucursal Chorrillos es la única que presenta un crecimiento en las ventas en comparación a inicio del año, pero esto es debido al comienzo de operaciones que se realizó en febrero.. Ventas por sucursal 2017 (S/) 200,000.00 180,000.00 160,000.00 140,000.00 120,000.00 100,000.00 80,000.00 60,000.00 40,000.00 20,000.00 0.00. Túpac Amaru. Chorrillos. Huaraz. Riva Agüero. Ventanilla. Figura 11. Ventas por sucursal 2017(S/). Fuente Boticas Amberfarma (2017), elaboración propia.. A manera de comprensión sobre la tendencia a la baja en el final del año 2017, debíamos determinar la baja en comparación a inicios de ese mismo año, en la siguiente tabla vemos en porcentaje el crecimiento de las ventas tomando como referencia la diferencia entre enero y diciembre del mismo año, obteniendo como resultado un crecimiento negativo en las sucursales Túpac Amaru, Huaraz, Riva Agüero y Ventanilla. Si 28.

(29) bien es cierto el porcentaje es mínimo en 3 de ellas, se debe considerar que estamos analizando información de una microempresa en donde estos pequeños márgenes de diferencia en las ventas tienen un mayor impacto sobre el estado de la empresa.. TABLA 2 Crecimiento de las ventas del año 2017 por sucursal (S/). Túpac Amaru. Chorrillos. Huaraz. Riva Agüero. Ventanilla. Ventas Enero 2017 (S/). 53576.20. 11182.50. 37303.57. 89772.8. 148817.25. Ventas Diciembre 2017 (S/). 51522.30. 42058.750. 36391.03. 74202.8. 139185.62. Diferencia (S/). -2053.90. 30876.25. -912.54. -15570.00. -9631.63. % Crecimiento Ventas. -4%. 276%. -2%. -17%. -6%. Fuente: Boticas Amberfarma registro de ventas 2017 - Elaboración propia.. Con la información revisada, podemos confirmar que el problema que expone la gerencia en relación a las ventas es medible y presenta una tendencia a la baja que afecta al negocio, es en el marco de este problema en donde se enfoca el presente estudio de investigación, en analizar la información que tiene disponible la empresa Boticas Amberfarma, para poder determinar patrones de ventas que nos ayuden a proponer mejoras para que las ventas puedan aumentar y cambiar esa tendencia a la baja que se identificó al final del año 2017. A partir de esta problemática se identificó la necesidad de estudiar ciertas variables en relación a las ventas, como la rentabilidad, el ticket promedio, abastecimiento y ofertas, buscando el impacto e influencia que puedan tener los patrones de ventas que se logren identificar sobre estas variables.. Formulación del problema. Problema general.. ¿Cuáles son los patrones de ventas que determinan las ventas para Boticas Amberfarma E.I.R.L. en el año 2018?. Problemas específicos.. ¿Cuál es el impacto de los patrones de ventas sobre el valor promedio del ticket de venta para Boticas Amberfarma E.I.R.L. en el año 2018? 29.

(30) ¿Cuál es el impacto de los patrones de ventas sobre la rentabilidad para Boticas Amberfarma E.I.R.L. en el año 2018?. ¿Qué influencia tienen los patrones de ventas con referencia al abastecimiento de productos para Boticas Amberfarma E.I.R.L. en el año 2018?. ¿Cuál es las influencia de los patrones de ventas que determinan las ofertas para Boticas Amberfarma E.I.R.L. en el año 2018?. Marco referencial Antecedentes. Miguel Angel Grández Márquez (2017), Aplicación de minería de datos para determinar patrones de consumo futuro en clientes de una distribuidora de suplementos nutricionales, (Tesis de Pregrado) Universidad San Ignacio de Loyola, Lima Perú. El autor en la tesis busca conseguir las reglas. que determinan el patrón de consumo de productos. nutricionales considerando variables, se observa la aplicación de técnicas de minería de datos con visual studio 2015, y también SQL SERVER 2014.. Obando Velásquez, Daniel André (2017), Estudio y análisis de entornos comerciales mediante la evaluación, comparación y experimentación de algoritmos de minería de datos (Tesis de Pregrado) Universidad Católica de Santa María, Arequipa Perú. La tesis trata sobre el impacto de la minería de datos en la parte comercial, administrativa y en la relación con el cliente dentro de las organizaciones, se busca identificar algoritmos de minería de datos más eficientes para los diferentes entornos de la organización antes mencionados.. Roque Montalvo, Irene Leydi (2016), Análisis comparativo de técnicas de minería de datos para la predicción de ventas (Tesis de Pregrado) Universidad Señor de Sipan, Pimentel Perú. El autor en la tesis realiza un análisis comparativo de diferentes técnicas utilizadas en minería de datos, la tesis evalúa técnicas y algoritmos, concluye que no aplica de igual modo para las diferentes variables. La empresa estudiada es “El Astro S.A.C.”. Mejia Segura, Moises Humberto (2015), Desarrollo de un sistema de proyecciones de ventas con minería de datos para el apoyo en la toma de decisiones en Boticas Arcangel 30.

(31) de la Ciudad de Chiclayo (Tesis de Pregrado) Universidad Señor de Sipan, Pimentel Perú. El autor en la tesis busca encontrar patrones, anomalías y tendencias utilizando minería de datos, en una sucursal de Boticas Arcángel en la ciudad de Chiclayo, en la tesis se utiliza la Metodología CRISP-DM para el desarrollo del modelo de minería de datos.. Vásquez Valles, Edson (2015), Minería de datos para la inteligencia de negocios (Tesis de Pregrado) Universidad Nacional de La Amazonia Peruana, Iquitos Perú. El autor justifica la importancia de la explotación de datos, cuando se procesa grandes volúmenes de datos, la importancia de esta al momento de la toma de decisiones dentro de las empresas y su relación la inteligencia de negocios.. Rivero Sarmiento, Carlos Alberto (2012), desarrolla una investigación donde realiza la clasificación de clientes mediante técnicas de minería de datos para una empresa textil en Santander, Colombia. El objetivo fue la elaboración de un modelo conceptual que permitió la construcción de perfiles de los compradores a través de la identificación de relaciones variables. Dentro de las conclusiones de su investigación indica que la construcción de perfiles de los compradores permitió la visualización de oportunidades de negocio y mejora.. Abhijit Raorane & R.V.Kulkarni (2016), en su estudio sobre técnicas de Minería de Datos: Una fuente para el análisis del comportamiento del consumidor, tuvieron como objetivo conocer el comportamiento del consumidor y su condición psicológica al momento de comprar, y que tan aplicable es el método de minería de datos para mejorar el método convencional. Ellos concluyen que la minería de datos es útil para estudiar el comportamiento de compra de clientes en tiendas retail, y de acuerdo a este comportamiento los administradores pueden actualizar los tipos de servicios que ofrecen.. Eckert, Karina & Suénaga Roberto (2013), en el estudio que desarrollaron, Aplicación de técnicas de Minería de Datos al análisis de situación y comportamiento académico de alumnos, desarrollado en Argentina. Dentro de los objetivos que formularon tuvieron los de detectar patrones entre datos de trayectoria académica y los alumnos, además de identificar variables que influyen sobre el desempeño, con estos resultados elaborarían recomendaciones a manera de contribución en la toma de decisiones sobre el proceso de gestión académica.. Pulla Elizalde, Cinthia Elizabeth (2011), en su investigación utilizó minería de datos para determinar patrones de colaboración de estudiantes que hacen uso de una herramienta de 31.

(32) entorno virtual de aprendizaje en una universidad en Ecuador, logrando obtener como resultados que en forma genérica existe un carente interés colaborativo en los estudiantes, además de la no utilización de todas las herramientas por parte de los docentes. También determina que el nivel de colaboración no es proporcional a su calificación final, así como la categorización de los estudiantes por el nivel de colaboración permite determinar aquellos que requieren un mayor apoyo por parte del docente. Dentro de sus recomendaciones sugiere la capacitación de los estudiantes de los primeros ciclos en la herramienta y a los profesores.. Amores Hurtado, Blanca & Cruza Casa, Diego (2008), desarrollaron un estudio donde aplicaron minería de datos para determinar patrones de comportamientos de datos meteorológicos en la ciudad de Quito en Ecuador. Utilizaron información de 10 años desde 1995 a 2005, dentro de sus conclusiones indican que para determinar mayor cantidad de patrones con el modelo que aplicaron necesitaban información de 50 años. Dentro de sus recomendaciones, indican que se debe unificar la información de las tres estaciones meteorológicas de la ciudad de Quito para contar con mayor data y tener datos consolidados.. Estado del arte. La exploración de datos, dentro del comercio farmacéutico minorista y específicamente en farmacias horizontales, actualmente es poco usada, por ende la información disponible de pequeñas empresas es relativamente escasa. En las grandes corporaciones u organizaciones, esta herramienta es ampliamente utilizada, comúnmente llamada data mining o minería de datos. De acuerdo a lo indicado en el artículo (2015, Proquest) Minería de datos: Qué es y 5 consejos para aprovecharla, el concepto que se le atribuye es la de un proceso que consiste en la recolección y análisis de grandes cantidades de datos tomando en consideración distintos puntos de vista para la identificación de patrones, correlaciones y además tendencias que no son apreciadas a simple vista, pasando desapercibidas entre muchas variables, todo esto con el fin de realizar proyecciones al futuro. Estas técnicas de minería de datos permiten recolectar y analizar diferentes tamaños de datos, sea para pequeñas o grandes organizaciones, permite extraer información relevante de un mar de datos, esta información ayuda optimizar las decisiones. 32.

(33) estratégicas, el cual se evidencia con la reducción de costos, maximización de rentabilidad, mayor eficiencia de procesos, entre otros. Dentro del modelo de negocio de comercio farmacéutico, esta herramienta sería de gran ayuda para establecer estrategias, conocer el estado actual y mejorar diferentes procesos y la eficiencia de la misma empresa. En la venta de medicamentos participan diferentes variables como: Edad, género, hora, día, principio activo, clase de fármaco, patología, sintomatología, temporada, experiencia del colaborador, entre otros. Poseer esta información (conocer los patrones ocultos) de manera confiable, permitiría asociaciones estratégicas, bien planteadas y eficientes. En el mercado actual existen varias herramientas para el análisis con minería de datos, si bien es cierto no son herramientas específicas para el mercado farmacéutico se pueden aplicar con el fin del estudio, el cual es la determinación de patrones de ventas con base a datos históricos. Dentro de las principales herramientas y más utilizadas tenemos a IBM SPSS, Microsfot SQL Server Integration Services y Oracle Data Mining ODM. IBM SPSS Modeler es una herramienta predictiva propia de la empresa IBM, la cual utiliza técnicas de recolección de información y analítica predictiva, permite el análisis a través de pruebas de hipótesis, intercambio de resultados, análisis multivariado. Esta plataforma permite el ingreso de datos en múltiples formatos, incluyendo CSV, archivos en formato Excel, SAS, todos sin restricciones de tamaños. Es una herramienta muy conocida en el mercado corporativo para el análisis de datos y para el trabajo con minería de datos, cuenta con muchos profesionales que tienen el conocimiento sobre su funcionamiento y manejo. El software al ser una herramienta propietaria de IBM tiene un costo de licencia, este varía de acuerdo a la versión que se utilice, que va desde una versión Profesional, Premium y Gold, cada una cuenta con características diferentes, la elección de la versión depende de la necesidad de cada negocio. Microsoft SQL Server Integration Services, es una plataforma que permite la integración de distintos datos, extracción, transformación a nivel de empresarial, esta herramienta es propietaria de Microsoft y viene como parte de la solución de base de datos SQL Server. A pesar de no ser una herramienta exclusivamente dedicada a la minería de datos, permite el análisis y trabajo con la información más allá de un motor de base de datos. Al igual que la herramienta anterior, permite la extracción de distintos tipos de orígenes de datos, aceptando distintos formatos como como archivos XML, archivos de texto plano, bases de datos relacionales. Esta herramienta cuenta con una característica de utilizar una interface gráfica, lo que le brinda la facilidad de uso para muchos usuarios 33.

(34) que se les complica utilizar código fuente. Pero el hecho de tener un entorno gráfico no descarta la opción de utilizar código para los usuarios que deseen aplicarlo. Con esta herramienta se pueden utilizar distintas técnicas de minería de datos y obtener reglas en base al análisis que se realice. Al ser una herramienta propietaria de Microsoft, tiene un costo de licenciamiento dependiendo de la versión que se utiliza. Oracle Data Mining ODM, es un componente que viene en la suite de Oracle Advanced Analytics Database Option. Este componente posee una amplia cantidad de algoritmos de minería de datos y análisis de datos, los cuales permiten la creación, manipulación, aplicación, prueba y despliegue de modelos con lo que las personas encargadas pueden realizar análisis predictivos aprovechando la hoja de cálculo que viene integrada en esta herramienta de Oracle. Es una herramienta que conlleva un mayor costo de licenciamiento, es por esta razón que su uso se da en empresas que cuentan con mayores recursos y mayor cantidad de información, los cuales les permitirá aprovechar mejor estas técnicas y obtener resultados de acuerdo a la magnitud de variables e información que manejan.. Marco teórico. Minería de datos.. De acuerdo a Beltrán(2013) ,en su publicación Minería de Datos, menciona que hoy en día existen muchas definiciones de lo que representa minería de datos, y van enfocadas desde el área que la utiliza, para darle un concepto que abarque su magnitud podemos decir que consiste en los métodos y algoritmos que permite extracción de información sintetizada que permite identificar las relaciones que no se muestran a simple vista entre la gran cantidad de datos, también lo que se busca es que la información obtenida nos brinde un detalle de predicción para que exista un análisis de forma eficiente.. Otra definición más concreta, define a la minería de datos como el conjunto de técnicas que automatizan la detección de patrones relevantes, así mismo también se le conoce a la minería de datos como el proceso por el cual se transforma la información en conocimiento útil, para el área, centro empresarial o de investigación que tenga la necesidad de utilizar este análisis.. 34.

(35) Por último, tomamos una definición muy importante para este trabajo de investigación, a la minería de datos como el descubrimiento significativo de nuevas correlaciones patrones y tendencias en base al análisis realizado a las grandes cantidades de datos almacenados utilizando técnicas de reconocimiento de patrones. Existen varias técnicas en la minería de datos, y son categorizadas de distintas formas, de acuerdo a Pérez López (2007) la clasificación que brinda es de 3 categorías, predictivas, descriptivas y técnicas auxiliares, dentro de cada clasificación existen distintas técnicas. Para el presente trabajo de investigación se utilizarán dos técnicas de minería de datos, árboles de decisión y técnicas de asociación. La siguiente figura muestra la clasificación planteada para las técnicas de minería de datos.. Figura 12. Clasificación de las Técnicas de Minería de Datos. Recuperado de Minería de Datos: Técnicas y Herramientas, Pérez L., César (2007). Arquitectura de minería de datos.. En el proceso de la minería de datos intervienen varios componentes, donde la información que es previamente desconocida se obtiene de grandes volúmenes de datos. Para lograr obtener este conocimiento es que cada uno de los componentes se encuentran estructurados de acuerdo al siguiente diagrama.. 35.

(36) Figura 13. Arquitectura minería de datos. Recuperado de Han and Kamber (2001). Componente fuente de los datos, son representados en la parte inferior de la figura anterior, la fuente de los datos para la minería de datos puede provenir de distintos orígenes, como internet, data warehouses, bases de datos y otros repositorios como pueden ser archivos de textos, documentos, hojas de cálculo. Lo indispensable, indistintamente del origen de los datos, es que se necesita grandes volúmenes de datos históricos para que el proceso de minería de datos tenga éxito.. El siguiente componente referido a la limpieza de los datos, integración y selección, se realiza con el objetivo de pasar los datos al siguiente componente con la mayor integridad y limpieza, proveyendo sólo aquellos datos que serán utilizados para el proceso minería de datos. Los datos al provenir de distintos orígenes vienen en distintos formatos, diferentes estructuras e incluso información incompleta, es labor de este componente limpiar los datos y asegurar la integración y selección de aquellos que se utilizarán.. Los servidores de bases de datos o los data warehouse, son los equipos físicos que contendrán la información lista y debidamente procesada por el anterior componente. Son en estos servidores donde se almacenará la data actualizada para que sea analizada y trabajada de forma exclusiva para su análisis. Estos servidores no son de tipo transaccionales para las operaciones del negocio, su objetivo es el análisis de los datos.. 36.

(37) El siguiente componente, es el más importante de la arquitectura, el motor de minería de datos. Este componente es una herramienta de software, indistintamente del fabricante o marca, esta herramienta es la encargada de ejecutar las tareas de minería de datos, que pueden incluir tareas de asociación, clasificación, predicción, series de análisis de tiempo, entre otras.. El módulo de evaluación de patrones es el responsable de la medida de interés del patrón, apoyándose en un valor umbral. Este módulo interactúa con el motor de minería de datos para enfocar su búsqueda en patrones relevantes.. El entorno gráfico, es el componente que actúa de intermedio entre el usuario y el motor de minería de datos. A través de este componente el usuario utilizará el sistema de una forma fácil y eficiente. Cada herramienta de minería de datos cuenta con su entorno gráfico.. Base de conocimiento, este último componente soporta todo el proceso de minería de datos, aportando la experiencia del usuario de tal forma que la extracción de datos tenga una verdadera utilidad, todo esto gracias a la guía que brinda esta experiencia. Además la base de conocimientos aporta y recibe de la evaluación de patrones, donde como resultado del análisis de los patrones la base de conocimiento podrá obtener nuevos registros.. Metodologías para la minería de datos.. Las metodologías de minería de datos son los procesos que aplican como práctica la industria dedicada al análisis de datos, en el mercado existen varias metodologías, pero para efectos del estudio analizaremos las más conocidas por los especialistas, las cuales son la metodología KDD, metodología SEMMA, metodología CRISP-DM.. Metodología KDD.. Las siglas KDD hacen referencia a Knowledge Discovery in Databases, que traducido al español significa Descubrimiento del Conocimiento en Bases de Datos. En la actualidad existen varias definiciones para KDD, nosotros tomaremos una de las definiciones más aceptadas, de acuerdo a Fayyad(1996), 37.

(38) es un proceso el cual consiste en utilizar la minería de datos para la obtención de conocimiento, a través de una base de datos y un procesamiento seguido de una transformación, para esto se considera cinco etapas. Debemos tener muy en claro que KDD no es un software, sino un proceso iterativo, que en la actualidad surgen varias herramientas que trabajan en alguna de las distintas 5 etapas. Para entender y comprender de forma clara este proceso describiremos cada una de las etapas.. La primera etapa denominada, selección, la cual consiste en enfocarse en el conjunto de datos objetivos sobre los cuales se realizará el descubrimiento. Estos datos deben ser elegidos en base a un entendimiento de la aplicación de dominio desde un punto de vista del negocio o cliente.. En la segunda etapa, procesamiento previo y limpieza, se busca la consistencia de los datos por medio de la limpieza de datos. Dentro de esta etapa se eliminan aquellos datos que causan ruido como campos vacíos o que no serán utilizados para el análisis.. La tercera etapa es llamada la transformación, la cual a través de métodos de reducción de dimensionalidad transforman los datos, de tal forma que sólo se utilicen aquellos datos que serán representativos para la función objetivo.. La cuarta etapa, llamada la minería de datos, se desarrolla a través de la determinación de patrones que tengan representatividad dependiendo del objetivo que se esté analizando, lo usual es analizar predicciones.. La quinta y última etapa, evaluación, en este proceso consiste en la interpretación o evaluación que se realizan a los patrones definidos en la etapa anterior. Este paso puede implicar regresar a una etapa previa causando la iteración del proceso. Como resultado de esta última etapa se obtiene el conocimiento obtenido gracias a todo este proceso y a los datos almacenados.. 38.

(39) Figura 14. Etapas proceso KDD. Fuente: Fayyad et al.(1995). Recuperado de https://nocodewebscraping.com/. Metodología SEMMA.. El acrónimo significa Sample Explore Modify Model and Assess y corresponde a las cinco fases del proceso. Es un proceso implementado por el instituto SAS y el objetivo de este proceso es la guía del usuario al desarrollo de Data Mining para descubrir patrones de negocios desconocidos. Esta metodología se encuentra enfocada en características técnicas, discriminando actividades de comprensión del problema. Fue elaborada con el propósito de ser utilizada para el trabajo con el software de minería de datos de la empresa SAS. Este producto brinda una serie de herramientas para cada una de las etapas de la metodología. Este proceso trabaja en base a un ciclo, el cual se encuentra constituido en cinco etapas.. La primera etapa denominada muestra (Sample), la cual lleva ese nombre por realizar la tarea de obtener una muestra de datos que contenga la suficiente información significativa, pero además que sea idealmente pequeño para poder manipular eficientemente la data obtenida.. La segunda etapa es la de explorar (Explore), la que consiste en exploración de la data con el fin de encontrar tendencias y anomalías.. La tercera etapa llamada modificar (Modify), tiene el objetivo de la transformación de los datos seleccionando las variables en las cuales se enfoca el proceso de selección.. 39.

(40) La cuarta etapa es denominada modelo (Model), debido a que es en este momento del proceso en donde los datos deben ser modelados para que la solución pueda identificar automáticamente combinaciones que predigan un resultado fiable.. La quinta y última etapa es la evaluación (Assess), donde al resultado obtenido se le debe evaluar en base a la utilidad y fiabilidad para poder determinar cuan buen resultado se obtuvo.. Figura 15. Etapas metodología SEMMA. Fuente: SAS Institue. Recuperado de https://www.slideserve.com/. Metodología CRISP-DM.. El acrónimo hace referencia a Cross Industry Standard Process for Data Mining. Esta metodología fue creada por una agrupación de empresas, las cuales mencionamos, SPSS, NCR y Daimer Chrysler, teniendo como año de creación 2000. Hoy en día se considera como la metodología más utilizada en lo referente a desarrollo de proyectos en minería de datos, por la gran versatilidad que ofrece para los distintos tipos de usuarios, ya sean usuarios con poco conocimiento de minería de datos como para usuarios con amplia experiencia en el sector. Una de las ventajas de esta metodología es su lenguaje simple, que permite la integración de los usuarios de distintos sectores, permitiendo enriquecer los proyectos de minería de datos. Esta metodología, al igual que las anteriores, se divide en fases teniendo un total de seis fases. La secuencia de las fases no es necesariamente rígida, el modelo permite cierta flexibilidad. Esta metodología 40.

(41) establece varias tareas y actividades por fase, pero no determina cómo debe llevarse a cabo cada una de las tareas. Las actividades y tareas se encuentran organizadas en 04 niveles de forma jerárquica por cada fase, la organización de estos niveles se muestran en la siguiente figura.. Figura 16. Esquema 4 niveles de CRISP-DM. Fuente: CRISP-DM (2000). Recuperado de http://www.oldemarrodriguez.com/. La próxima figura muestra el flujo que se da en el proceso de CRISPDM entre las fases, como se puede observar es un proceso iterativo, donde existe flexibilidad para retornar a fases anteriores, este modelo también es llamado como el ciclo de vida de CRISP-DM debido a que existen puntos de retorno dentro del modelo.. Figura 17. Modelo de proceso de CRISP-DM.Fuente CRISP-DM (2000). Recuperada de http://www.oldemarrodriguez.com/. 41.

(42) La primera fase, compresión del negocio, tal vez la fase más importante de esta metodología, en esta fase se agrupan las tareas de comprensión de objetivos y requisitos del proyecto de minería de datos teniendo un punto de vista empresarial, con la meta de convertirlos en objetivos técnicos y de un plan de proyecto para la minería de datos. Es en esta fase donde radica la importancia de poder convertir el conocimiento adquirido del negocio en un problema de Minería de Datos y en un plan cuyo fin sea alcanzar los objetivos propuestos por el negocio. Esta fase se encuentra conformada por las siguientes tareas. La tarea de determinar los objetivos del negocio, en esta primera fase, es utilizada como la primera tarea a implementar, el fin de esta tarea es identificar el problema a resolver, los criterios de éxito y el motivo de utilizar minería de datos. En esta tarea participan los expertos del negocio o área donde se está aplicando la metodología, ya que ellos serán las personas encargadas de definir estos criterios.. La siguiente tarea dentro de la primera fase es la de evaluar la situación, en esta tarea se califica la situación antes de dar por iniciado el proceso, es muy importante reconocer el estado actual de diversos puntos, como el conocimiento actual acerca del problema, la información disponible, el costo beneficio de la aplicación de decidir aplicar alguna técnica de minería de datos y además se deben identificar los requisitos del negocio con referencia al problema.. La próxima tarea es determinar el objetivo de minería de datos, esta tarea tienen como fin determinar el alcance de la parte de minería de datos, es muy importante saber diferenciar cual es el objetivo del negocio y el objetivo de minería de datos, por lo general el objetivo de minería de datos brinda soporte y apoyo al objetivo del negocio, es importante lograr primero el objetivo de minería de datos para poder llegar al objetivo que se traza en la parte del negocio. Como siguiente tarea se tiene la de realizar el plan del proyecto, es la última tarea de esta fase y el fin es determinar cada uno de los siguientes pasos y técnicas a ejecutar en cada uno de ellos.. 42.

(43) La segunda fase, comprensión de los datos, esta fase consiste en la familiarización de los datos, recolectándolos con el objetivo de tener la primera vista del problema, identificar la calidad y definir las relaciones que permitan identificar nuestras primeras hipótesis. Esta fase con las próximas dos, son las fases en donde se invierte mayor cantidad de tiempo y esfuerzo.. La primera tarea en esta fase es obtener los datos iniciales, el fin de esta tarea es identificar los datos que se recolectaran, de dónde se obtendrán y a través de que técnica serán recolectados. La siguiente tarea en esta fase es describir los datos, en esta tarea de debe detallar el significado de los datos de los campos obtenidos, así como la cantidad de información que fue recolectada.. Las siguientes dos tareas de esta fase son la exploración de los datos y la verificación de la calidad, la primera consiste en identificar una estructura general de la información descrita en la tarea anterior, el resultado de esta tarea es un informe exploratorio donde se evidencia ciertas estadísticas básicas identificadas. La segunda tarea hace referencia a verificar la calidad de los datos, donde se deben realizar verificaciones de la información obtenida para determinar consistencia y poder descartar valores nulos que causen ruido al análisis de la información.. La tercera fase, preparación de los datos, es la fase donde se preparan los datos para adaptarlos a las técnicas de Minería de Datos que se utilizarán posteriormente. En esta fase se incluye la selección de los datos, limpieza, generación de variables adicionales, integración de diferentes orígenes y cambios en los formatos.. La primera tarea en esta fase es la selección de los datos, la cual consiste en escoger aquel subconjunto de datos que serán utilizados con las técnicas de minerías de datos y que cumplen con los criterios previamente definidos por los expertos. La siguiente tarea complementaria a la primera es la de limpiar los datos, la cual consiste en la normalización de los datos, depuración de valores faltantes, entre otros que permitan optimizar la calidad.. La tercera tarea de esta fase es la de construir datos, la cual tiene como fin la generación de nuevos valores a partir de datos ya existentes, esto se 43.

(44) realiza a través de operaciones y cálculos. La siguiente tarea es la de integrar datos, cuyo objetivo es integrar datos de distintos orígenes obteniendo nueva información consistente y que ayude al análisis que se planteará en las técnicas de minerías de datos. La última tarea de esta fase es dar formato a los datos, la cual consiste en editar los datos por temas de caracteres, como pueden ser formatos de fechas, números, decimales con el fin adaptar la información al análisis de la técnica de minería de datos.. Como cuarta fase, el modelado, esta fase consiste en la selección de técnicas de modelado apropiadas para el proyecto de Minería de datos, se deben tener en cuenta criterios como, disponer de datos adecuados, cumplir con requisitos del problema, que sea apropiada para el problema, conocimiento de la técnica y tiempo adecuado para obtener el modelo.. La primera tarea de esta fase es seleccionar la técnica de modelamiento, la cual es importante de acuerdo al objetivo principal del proyecto, es la tarea en donde se escoge la técnica de minería de datos que se utilizará para el análisis que se realizará ya sea en base a una proyección o clasificación, dependiendo del objetivo del proyecto. La siguiente tarea es generar el diseño de prueba, la cual consiste en elaborar una guía con el paso a paso para realizar una validación de calidad y del modelo elegido.. La tercera tarea en esta fase es construir el modelo, es en esta tarea donde se ejecuta la técnica del modelo escogido sobre la información seleccionada y se observan los resultados, realizando varias iteraciones hasta identificar correctamente los parámetros a utilizar para satisfacer el correcto análisis en base a los criterios de los expertos. La última tarea de esta fase es la evaluación del modelo, es en esta tarea en donde los expertos del negocio y los de minería de datos aplican sus criterios para juzgar el modelo previamente definido.. La quinta fase, la evaluación, esta es la fase donde se evalúan los modelos elegidos en la fase anterior, se deben considerar la fiabilidad calculada y si el modelo aplica para el objetivo del negocio. Es en esta fase donde se requiere revisar el procedo, teniendo en cuenta los resultados, y en caso de ser necesario regresar a una fase anterior. 44.

(45) La tarea inicial en esta fase es evaluar los resultados, esta evaluación es específica para el negocio, en donde evaluará los resultados directamente en relación a los objetivos del negocio, es en esta tarea en donde se puede realizar una evaluación en un problema real. La siguiente tarea es la de evaluación del proceso, consistente en revisar todo el procedimiento de minería de datos para identificar mejoras. La última tarea en esta fase es determinar los siguientes pasos, en esta tarea se debe tomar una decisión muy importante en base al resultado de las evaluaciones, en caso de ser satisfactorias las pruebas se podrá decidir en ir a la siguiente fase y de no tener resultados favorables se podrá decidir en regresar a una fase anterior o incluso empezar un nuevo proyecto desde cero.. Sexta fase, la implementación, está última fase se aplica cuando el modelo ya fue aprobado por la evaluación, es donde se transforma el conocimiento que hemos logrado obtener y se traducen en acciones dentro del proceso del negocio. Para esto debemos presentar el resultado de todo el proceso, de forma tal que sea comprensible para el interesado del negocio, con el fin de lograr un incremento de conocimiento.. La primera tarea en esta fase es desplegar el plan, es en esta tarea donde en base al resultado se establece una estrategia de implementación, donde se aplicará los cambios que son el resultado del análisis del proyecto de minería de datos. La próxima tarea en esta fase es la de monitorear y mantener, en esta tarea se deben definir puntos de control donde se pueda obtener información como retro alimentación para identificar el correcto uso del modelo.. La tercera tarea en esta fase es desarrollar el reporte final, como todo proyecto se debe desarrollar un informe en donde se muestre los resultados o el conocimiento adquirido como producto de la técnica de minería de datos. La última tarea en esta fase es la revisión del proyecto, como última tarea de todo el proceso se evalúa todo el procedimiento seguido identificando los pasos correctos que se dieron así como los errores y aquellos que pueden tener oportunidad de mejora.. 45.

(46) La siguiente figura muestra las fases con las tareas que se desarrollan en cada una de ellas y fueron anteriormente descritas.. Figura 18. Fases y actividades del proceso de CRISP-DM. Fuente CRISP-DM (2000). Recuperado de http://disi.unal.edu.co/. Comparación de metodologías.. Para nuestro estudio es muy importante escoger la metodología adecuada y que calce con el motivo de la investigación, por consiguiente debemos realizar una comparación entre las metodologías más conocidas y utilizadas, la comparación deberá mostrar similitudes y diferencias entre cada metodología. Si bien es cierto que cada metodología cuenta con su propio procedimiento, pero en esencia las tres tienen el mismo objetivo para los fines de la minería de datos, es en tal sentido que se hace de importancia su comparación y así conocer sus diferencias.. Para poder comparar las 03 metodologías anteriormente descritas, KDD, SEMMA y CRISP-DM debemos tener en claro cuáles son su procesos, esto lo podemos apreciar en la siguiente figura, donde se pretende apreciar en una sola vista cada uno de los tres procesos y así poder realizar una primera comparación visual.. 46.

Figure

Figura 3. Número de empresas comercializadoras de farmacéuticos, 2008 – 2014.
Figura 4. Comercio de productos farmacéuticos. Recuperado del Ministerio de la Producción  (2015), estudio de investigación sectorial farmacéutica
Figura 12. Clasificación de las Técnicas de Minería de Datos.
Figura 15.  Etapas metodología SEMMA. Fuente: SAS Institue. Recuperado de  https://www.slideserve.com/
+7

Referencias

Documento similar

Debido al riesgo de producir malformaciones congénitas graves, en la Unión Europea se han establecido una serie de requisitos para su prescripción y dispensación con un Plan

Como medida de precaución, puesto que talidomida se encuentra en el semen, todos los pacientes varones deben usar preservativos durante el tratamiento, durante la interrupción

Abstract: This paper reviews the dialogue and controversies between the paratexts of a corpus of collections of short novels –and romances– publi- shed from 1624 to 1637:

diabetes, chronic respiratory disease and cancer) targeted in the Global Action Plan on NCDs as well as other noncommunicable conditions of particular concern in the European

o Si dispone en su establecimiento de alguna silla de ruedas Jazz S50 o 708D cuyo nº de serie figura en el anexo 1 de esta nota informativa, consulte la nota de aviso de la

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y

Es sabido que, el director general de la empresa siempre pide hechos para sacar conclusiones. El éxito de una empresa y de cada operación descansa en la actividad y calidad de