E4 Minería de Datos - Data Mining

(1)

MINERÍA DE DATOS

L

IZETH

A

NDREA

A

GUDELO

M

EJÍA

A

NDREA

E

SCOBAR

R

ESTREPO

E

NRIQUE

V

ARGAS

R

ÍOS

INTELIGENCIA DE MERCADOS

BERNARDO BALLESTEROS DÍAS UNIVERSIDAD DE ANTIOQUIA

(2)

1

Contenido

Contenido ... 1

Introducción ... 3

¿Qué es la Minería de Datos? ... 4

Beneficios y limitaciones de la Minería de Datos ... 4

Objetivos del Data Mining ... 5

Alcance de la Minería de Datos ... 6

Tipos de técnicas de Minería de Datos ... 6

Funciones del Data Mining ... 6

Clasificación ... 6

Agrupamiento ... 6

Asociación ... 6

Patrones secuenciales ... 6

Proyección ... 6

Aplicaciones de la Minería de Datos ... 7

Proceso de la Minería de Datos ... 8

1. Definir el problema: ... 8

2. Preparar los datos: ... 9

3. Explorar los datos: ... 9

4. Generar modelos: ... 10

5. Explorar y validar los modelos: ... 10

6. Implementar y actualizar los modelos: ... 10

Etapas Principales del Proceso ... 11

1. Determinación de los objetivos: ... 11

2. Pre-procesamiento de los datos: ... 11

3. Determinación del modelo: ... 11

4. Análisis de los resultados: ... 11

Problemas de la Minería de Datos ... 11

Problemas descriptivos: ... 11

Problemas predictivos ... 11

Técnicas de la Minería de Datos ... 12

Técnicas Predictivas. ... 12

 Regresión: ... 12

 Análisis de la varianza y la covarianza ... 12

(3)

2

 Métodos bayesianos: ... 13

 Algoritmo genético: ... 13

 Técnicas de clasificación ad hoc: ... 13

Técnicas descriptivas: ... 14

 Asociación: ... 14

 Dependencia: ... 14

 Reducción de la dimensión: ... 14

 Análisis exploratorio: ... 14

 Escalamiento multidimensional: ... 14

 Técnicas de clasificación post hoc: ... 14

Técnicas Auxiliares: ... 15

 Proceso Analítico de Transacciones (OLAP):... 15

 SQL y herramientas de consulta: ... 15

 Reporting: ... 15

Herramientas del Data Mining ... 15

Data Warehosue (Almacén de Datos): ... 15

Análisis exploratorio de datos: ... 16

Redes neuronales: ... 17

Ejemplos del uso de la Minería de Datos ... 17

 Negocios: ... 17

 Análisis de la cesta de la compra: ... 18

 Patrones de fuga: ... 18

 Fraudes: ... 18

 Recursos humanos:... 18

 Comportamiento en Internet: ... 18

 Terrorismo: ... 19

 Juegos: ... 19

Conclusiones ... 20

(4)

3

Introducción

En la actualidad las organizaciones suelen moverse dentro de estructuras identificadas con un cambio continuo; por ello, tanto las empresas privadas como las públicas deben tener la capacidad de ser adaptativas, aprender cómo resolver problemas y generar conocimiento para establecer nuevos métodos en pro de la resolución de los mismos.

Las organizaciones, en la búsqueda por la obtención de los mejores resultados de su gestión organizacional, adoptan la flexibilización como estrategia, con el objetivo de adecuarse a un mercado globalizado, dando origen a un proceso que incide en su sistema estructural. Así pues, una empresa flexible es la que se orienta hacia los clientes, posee tecnología nueva y presenta acuerdos laterales de organización e innovación.

Las aplicaciones necesarias para gestionar el flujo de información en las actividades de negocios se pueden clasificar en dos importantes categorías: las aplicaciones que manejan las transacciones y las estadísticas que ayudan a convertir los datos en información útil para la toma de decisiones. Además está el sistema de indicadores, formados por las bases de datos, donde se almacenan los datos importantes para evaluar y mejorar el funcionamiento de las actividades que componen la cadena de suministros y por aplicaciones de análisis que facilitan la comprensión de las tendencias y patrones presentes en los datos.

(5)

4

¿Qué es la Minería de Datos?

Asociándolo directamente a las actividades de negocios, la Minería de Datos, también conocida como Data Mining, es el conjunto de metodologías, aplicaciones y tecnologías que permiten reunir, depurar y transformar datos de los sistemas transaccionales e información no estructurada (interna y externa de la compañía) en información estructurada, para su explotación directa o para su análisis y conversión en conocimiento, y así dar soporte a la toma de decisiones sobre el negocio.

Por otro lado, desde un punto de vista más teórico, la Minería de Datos se define como el proceso completo de extracción de información, que se encarga de la preparación de los datos y de la interpretación de los resultados obtenidos, a través de grandes cantidades de datos, posibilitando de esta manera el encuentro de relaciones o patrones entre los datos procesados. Los datos tal cual se almacenan en las bases de datos no suelen proporcionar beneficios directos; su valor real reside en la información que podamos extraer de ellos, es decir, información que nos ayude a tomar decisiones o a mejorar la comprensión de los fenómenos que nos rodean.

Adicionalmente, A. Guzmán, dice que la Minería de Datos es el proceso de extracción de información significativa de grandes bases de datos, información que revela inteligencia del negocio a través de patrones ocultos, tendencias y correlaciones para permitir al usuario realizar predicciones que resuelvan problemas del negocio proporcionando una ventaja competitiva. Mientras que para Ariel Aizemberg, la Minería de Datos se define como un proceso continuo e iterativo que implica el uso de un software específico, una metodología propia y la creatividad humana para conseguir información valiosa, patrones, relaciones, anomalías y dependencias a través de la exploración de datos. (Uribe, 2001)

Beneficios y limitaciones de la Minería de Datos

Entre los beneficios que ofrece esta técnica están la posibilidad de elevar los niveles de competencia de los negocios, basándose en la rapidez para identificar, procesar y extraer la información que realmente es importante, descubriendo conocimiento y patrones en bases de datos. Su facilidad de uso hace que se pueda aplicar a cualquier área del conocimiento. Como limitaciones destacan la necesidad de dedicar mucho esfuerzo al establecimiento de medidas de evaluación del resultado derivado de la aplicación de la minería, así como el desafío que representa analizar datos que cambian en tiempo real.

(6)

5  Detección de fraudes: Éste es habitualmente un ejercicio exploratorio, el analista de datos buceará en el repositorio de datos y analizará las grandes cantidades de éstos con poca o ninguna predisposición acerca de lo que va a encontrar. Por ejemplo, usando la Minería de Datos, una institución bancaria puede analizar los datos históricos y desarrollar conocimiento acerca del funcionamiento “normal” de las operaciones financieras débitos, créditos, transferencias, etc. Cuando se fija una frecuencia dentro de cada actividad, así como el tamaño de las transacciones, su origen e información del destinatario, la institución puede realizar el mismo análisis con las transacciones actuales. Si se detecta un comportamiento que se sale de la normal, se encarga a un servicio de auditoría interno, o posiblemente externo, que resuelva el problema.

 Retorno de la inversión: En un entorno de negocios, donde existe una cantidad limitada de tiempo al día, poder bucear en los datos para descubrir áreas en las que se obtengan los mejores resultados es una ventaja que proporciona la Minería de Datos.

Objetivos del Data Mining

El Data Mining ayuda al planificador o gerente en la toma de decisiones, mediante la detección automática de anomalías, desviaciones, tendencias, patrones y situaciones de interés para el usuario; por ello, el sistema de Minería de Datos debe tener la virtud de adaptarse o aprender del usuario según sus gustos, intereses y preocupaciones.

- Localizar y llegar a mejores clientes, con un alto potencial de rentabilidad y no solo a cualquier cliente nuevo.

- Descubrir nociones empresariales vitales que ayuden a controlar la participación en el mercado y a elevar las utilidades.

- Comprender la relación con cada cliente para desarrollar las estrategias de precios adecuadas y el mayoreo de productos correcto, con base no sólo en la intuición, sino en el uso real del producto y la experiencia del cliente.

- Reducir los gastos promocionales e incrementar al mismo tiempo la efectividad neta de las promociones en general, es decir, analizar el comportamiento de compras y la respuesta a las promociones.

(7)

6

Alcance de la Minería de Datos

El alcance de la Minería de Datos se deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos, por ejemplo encontrar información de venta de un producto entre grandes montos de gigabytes almacenados y mirar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores.

Al contar con bases de datos de suficiente tamaño y calidad, la tecnología de Minería de Datos puede generar nuevas oportunidades de negocios al proveer estas capacidades:

 Predicción automatizada de tendencias y comportamientos: La Minería de Datos automatiza el proceso de encontrar información predecible en grandes bases de datos.

 Descubrimiento automatizado de modelos previamente desconocidos: Las herramientas de la Minería de Datos barren las bases de datos e identifican modelos previamente escondidos en un solo paso.

Tipos de técnicas de Minería de Datos

La Minería de Datos puede ser dividida en:

 Minería de Datos predictiva (mdp): Son aquellas donde se usa primordialmente técnicas estadísticas.

 Minería de Datos para el descubrimiento de conocimiento (mddc): Son las técnicas que usa principalmente la inteligencia artificial.

Funciones del Data Mining

Clasificación: Agrupa los datos basándose en una serie de características predefinidas (información previa) por el analista. Por ejemplo, para la conservación de clientes.

Agrupamiento: Identifica grupos de ítems que comparten una característica en particular. Esta técnica se utiliza para reunir una serie de opiniones, para estudiar sus propiedades derivar un número de agrupaciones.

Asociación: Identifica relaciones entre eventos que ocurren en un tiempo. Por ejemplo, los productos que se compran al mismo tiempo.

Patrones secuenciales: Muestra como dos ítems se relacionan en un periodo de tiempo. Por ejemplo, repetir visita a un supermercado o el uso de un producto.

(8)

7

Aplicaciones de la Minería de Datos

Los modelos de Minería de Datos se pueden aplicar en escenarios como:

 Pronóstico: Cálculo de las ventas y predicción de las cargas del servidor o del tiempo de inactividad del servidor.

 Riesgo y probabilidad: Elección de los mejores clientes para la distribución de correo directo, determinación del punto de equilibrio probable para los escenarios de riesgo, y asignación de probabilidades a diagnósticos y otros resultados.

 Recomendaciones: Determinación de los productos que se pueden vender juntos y generación de recomendaciones.

 Búsqueda de secuencias: Análisis de los artículos que los clientes han introducido en el carrito de la compra y predicción de posibles eventos.

 Agrupación: Distribución de clientes o eventos en grupos de elementos relacionados, y análisis y predicción de afinidades.

Actualmente se aplica en áreas tales como:

 Aspectos climatológicos: Predicción de tormentas, etc.

 Medicina: Encontrar la probabilidad de una respuesta satisfactoria a un tratamiento médico.

 Inversión en casas de bolsa y banca: Análisis de clientes, aprobación de préstamos, determinación de montos de crédito, etc.

 Detección de fraudes y comportamientos inusuales: Telefónicos, seguros, en tarjetas de crédito, de evasión fiscal, electricidad, etc.

 Análisis de canastas de mercado para mejorar la organización de tiendas: Segmentación de mercado (clustering).

 Determinación de niveles de audiencia de programas televisivos.

 Industria y manufactura: Diagnóstico de fallas.

(9)

8

Tomado de: (Inteligencia de Mercados con Minería de Datos, 2014)

Proceso de la Minería de Datos

La creación de un modelo de Minería de Datos es un proceso cíclico, dinámico e iterativo.

(10)

9 definir las métricas por las que se evaluará el modelo y definir los objetivos concretos del proyecto de Minería de Datos. Estas tareas se traducen en preguntas como:

-¿Qué está buscando? ¿Qué tipos de relaciones intenta buscar?

-¿Refleja el problema que está intentando resolver las directivas o procesos de la empresa?

-¿Desea realizar predicciones a partir del modelo de Minería de Datos o solamente buscar asociaciones y patrones interesantes?

-¿Qué resultado o atributo desea predecir?

-¿Qué tipo de datos tiene y qué tipo de información hay en cada columna? En caso de que haya varias tablas, ¿cómo se relacionan? ¿Necesita limpiar, agregar o procesar los datos antes de poder usarlos?

-¿Cómo se distribuyen los datos? ¿Los datos son estacionales? ¿Los datos representan con precisión los procesos de la empresa?

2. Preparar los datos: Consolidar y limpiar los datos identificados en el paso Definir el problema. Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos; también pueden contener incoherencias como entradas que faltan o incorrectas. Por ejemplo, los datos pueden mostrar que un cliente adquirió un producto incluso antes que se ofreciera en el mercado o que el cliente compra regularmente en una tienda situada a 2.000 kilómetros de su casa.

La limpieza de datos no solamente implica quitar los datos no válidos o interpolar valores que faltan, sino también buscar las correlaciones ocultas en los datos, identificar los orígenes de datos que son más precisos y determinar qué columnas son las más adecuadas para el análisis. Por ejemplo, ¿debería utilizar la fecha de envío o la fecha de pedido? ¿Qué influye más en las ventas: la cantidad, el precio total o un precio con descuento? Los datos incompletos, los datos incorrectos y las entradas que parecen independientes, pero que de hecho están estrechamente correlacionadas, pueden influir en los resultados del modelo de maneras que no espera.

(11)

10 mucho de una distribución estándar se podrían sesgar o podrían representar una imagen precisa de un problema de la vida real, pero dificultan el ajustar un modelo a los datos.

Al explorar los datos para conocer el problema empresarial, puede decidir si el conjunto de datos contiene datos defectuosos y, a continuación, puede inventar una estrategia para corregir los problemas u obtener una descripción más profunda de los comportamientos que son típicos de su negocio.

4. Generar modelos: El cuarto paso consiste en generar el modelo o modelos de Minería de Datos. Usará los conocimientos adquiridos en el paso Explorar para definir y crear los modelos. Deberá definir qué columnas de datos desea que se usen; para ello, creará una estructura de Minería de Datos. La estructura de Minería de Datos se vincula al origen de los datos, pero en realidad no contiene ningún dato hasta que se procesa. Antes de procesar la estructura y el modelo, un modelo de Minería de Datos simplemente es un contenedor que especifica las columnas que se usan para la entrada, el atributo que está prediciendo y parámetros que indican al algoritmo cómo procesar los datos. El procesamiento de un modelo a menudo se denomina entrenamiento, el entrenamiento hace referencia al proceso de aplicar un algoritmo matemático concreto a los datos de la estructura para extraer patrones. Los patrones que encuentre en el proceso de entrenamiento dependerán de la selección de los datos de entrenamiento, el algoritmo que elija y cómo se haya configurado el algoritmo.

5. Explorar y validar los modelos: Consiste en explorar los modelos que se ha generado y comprobar su eficacia. Antes de implementar un modelo en un entorno de producción, es aconsejable probar si funciona correctamente. Además, al generar un modelo, normalmente se crean varios con configuraciones diferentes y se prueban todos para ver cuál ofrece los resultados mejores para su problema y sus datos. Si ninguno de los modelos que ha creado en el paso Generar modelos funciona correctamente, puede que deba volver a un paso anterior del proceso y volver a definir el problema o volver a investigar los datos del conjunto de datos original.

6. Implementar y actualizar los modelos: El último paso, consiste en implementar los modelos que funcionan mejor en un entorno de producción. Una vez que los modelos de Minería de Datos se encuentran en el entorno de producción, puede llevar acabo diferentes tareas, dependiendo de sus necesidades. Las siguientes son algunas de las tareas que puede realizar:

(12)

11 modelo.

- Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de Minería de Datos existente.

- Actualizar los modelos después de la revisión y análisis. Cualquier actualización requiere que vuelve a procesar los modelos.

- Actualizar dinámicamente los modelos, cuando entren más datos en la organización, y realizar modificaciones constantes para mejorar la efectividad de la solución debería ser parte de la estrategia de implementación. (Microsoft, 2014)

Etapas Principales del Proceso

1. Determinación de los objetivos: Delimitar los objetivos que el cliente desea bajo la orientación del especialista en Data Mining.

2. Pre-procesamiento de los datos: Se refiere a la selección, limpieza, enriquecimiento, reducción y la transformación de las bases de datos.

3. Determinación del modelo: Se comienza con un análisis estadístico de los datos, y luego se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación.

4. Análisis de los resultados: Verifica si los resultados obtenidos son coherentes y los compara con los obtenidos por el análisis estadístico y de visualización gráfica.

Problemas de la Minería de Datos

Problemas descriptivos:Son aquellos que tienen como meta simplemente encontrar una descripción de los datos de estudio. Por ejemplo, cuáles son los clientes de la organización, cuáles son los productos que normalmente se compran juntos, etc. Se pueden dar dos tipos de problemas:

 Análisis de segmentación: Problemas donde la meta es encontrar grupos homogéneos en la población origen. Ejemplo: Segmentación de clientes.

 Análisis de asociaciones: Problemas en los que se busca obtener relaciones entre los valores de atributos de una base de datos. Ejemplo: Análisis de la cesta de compra.

Problemas predictivos: Son aquellos que tienen como meta obtener un modelo que en un futuro pueda ayudar a predecir comportamientos. Se clasifican en 2 tipos:

 Problemas de clasificación: Problemas en los que la variable a predecir tiene un número finito de valores (categoría). Ejemplo: Histórico de clientes «buenos», «regulares» y «malos».

(13)

12 es numérica. Ejemplo: Un modelo que establece la probabilidad de que un cliente que está pidiendo un préstamo lo devuelva o no.

En el mundo organizacional, algunos de los problemas que se pueden dar son los siguientes:

- Predecir el nivel de morosidad de un cliente. - Saber quiénes son mis clientes.

- Encontrar el perfil del comprador del producto A.

- Detectar los contribuyentes que están cometiendo acciones fraudulentas. - Encontrar el perfil del cliente que me abandonará el mes siguiente. - Encontrar las características de la población fumadora.

- Detectar alumnos en escuelas con alto riesgo de fracaso escolar.

Técnicas de la Minería de Datos

La Minería de Datos hace uso de todas las técnicas que puedan aportar información útil, desde un sencillo análisis gráfico, pasando por métodos estadísticos más o menos complejos, complementados con métodos y algoritmos del campo de la inteligencia artificial y el aprendizaje automático que resuelven problemas típicos de agrupamiento automático, clasificación, predicción de valores, detección de patrones, asociación de atributos, etc. Es, por tanto, un campo multidisciplinar que cubre numerosas áreas y se aborda desde múltiples puntos de vista, como la estadística, la informática (cálculo automático) o la ingeniería.

La clasificación inicial de las técnicas de minería de datos se distingue entre:

Técnicas Predictivas: Especifican el modelo para los datos en base a un conocimiento teórico previo. El modelo supuesto para los datos debe contrastarse después del proceso de minería de datos antes de aceptarlo como válido.

Entre estas técnicas se pueden incluir:

 Regresión: Es un proceso estadístico para la estimación de relaciones entre variables. Incluye muchas técnicas para el modelado y análisis de diversas variables, cuando la atención se centra en la relación entre una variable dependiente y una o más variables independientes. Más específicamente, el análisis de regresión ayuda a entender cómo el valor típico de la variable dependiente cambia cuando cualquiera de las variables independientes es variada, mientras que se mantienen las otras variables independientes fijas.

 Análisis de la varianza y la covarianza: La prueba paramétrica más usada

(14)

13 la variabilidad que existe en la variable independiente X ajustando medias de tratamiento y así estima mucho mejor el efecto de la variable independiente sobre la dependiente.

 Series temporales: Es la secuencia de observaciones (datos) ordenadas y equidistantes cronológicamente sobre una característica (serie univariante o escalar) o sobre varias características (serie multivariante o vectorial) de una unidad observable en diferentes momentos.

 Métodos bayesianos: Se basan en el teorema de Bayes. Permite hacer

inferencias sobre la probabilidad de ocurrencia de una situación dada, sobre la basa de evidencias observadas.

 Algoritmo genético: Son métodos adaptativos que pueden usarse para

resolver problemas de búsqueda y optimización. Están basados en el proceso genético de los organismos vivos. Los algoritmos genéticos son capaces de ir creando soluciones para problemas del mundo real.

 Técnicas de clasificación ad hoc: Son las que clasifican individuos u observaciones dentro de grupos previamente definidos:

- Discriminante: Es una técnica inferencial, típicamente multivariante

porque suele usarse en contextos donde se tienen varias variables, pero sólo se pueden aplicar a pocas. En esta técnica se tienen que definir previamente dos o más poblaciones y tener las muestras de las poblaciones con unos individuos a los que se les medirá una serie de variables. Busca preparar la información, seleccionarla, trabajarla para lograr clasificarla.

- Árboles de decisión: Es una estructura ramificada, la cual permite estimar

cuales son las opciones más viables para la solución de un problema, a través de sus consecuencias, costos y demás factores, ayuda a construir una imagen balanceada de riesgos, recompensas asociadas y cada posible curso de acción.

- Redes neuronales: Son técnicas que permiten descubrir modelos complejos

(15)

14

Técnicas descriptivas: En estas no se asigna ningún papel predeterminado a las variables. No se supone la existencia de variables dependientes ni independientes y tampoco se supone la existencia de un modelo previo para los datos. Los modelos se crean automáticamente partiendo del reconocimiento de patrones. En este grupo se incluyen técnicas como:

 Asociación: Es una técnica que consiste en encontrar las asociaciones interesantes en forma de relaciones de implicación entre los valores de los atributos de los objetos de un conjunto de datos.

 Dependencia: Es un patrón en el que se establece que uno o más atributos determinan el valor de otro.

 Reducción de la dimensión: Dado un grupo de individuos, caracterizados por

n variables aleatorias, resulta interesante analizar cómo se comporta cada individuo, respecto a esas variables y resumir la información que estas variables aportan en otro grupo de menos variables. Permite explicar la variabilidad de las variables observadas, a través de un grupo de variables que son combinaciones lineales de las originales que recogen la mayor variabilidad posible.

 Análisis exploratorio: Es el tratamiento estadístico al que se someten las muestras recogidas durante un proceso de investigación en cualquier campo científico. Para mayor rapidez y precisión, todo el proceso suele realizarse por medios informáticos, con aplicaciones específicas para el tratamiento estadístico.

 Escalamiento multidimensional: (EMD) Es un procedimiento para tomar

preferencias y percepciones de los encuestados y representarlos en un diagrama visual. Son llamados mapas perceptuales y tienen generalmente dos dimensiones. Los consumidores potenciales tienen que comparar pares de productos y hacer juicios sobre sus similitudes

 Técnicas de clasificación post hoc: Clasifican sin especificación previa de los grupos.

- Clustering: Es la división de los datos en grupos de objetos similares. Es

una técnica estadística para poder generar una estructura de categorías entre los documentos que fueron agrupados. Se encarga de dividir la colección de documentos en subconjuntos (clúster), en donde dentro de cada clúster existe un alto grado de asociación entre los documentos que le pertenecen.

- Segmentación: Es el acto o consecuencia de segmentar, es decir, dividir

(16)

15

Técnicas Auxiliares: Herramientas de apoyo un poco más superficiales y limitadas que las técnicas predictivas y descriptivas. Se trata de nuevos métodos basados en técnicas estadísticas descriptivas, consultas e informes y enfocados en general hacia la verificación. Se dividen en:

 Proceso Analítico de Transacciones (OLAP): On-Line Analytic Processing,

es una tecnología que le permite a los usuarios de bases de datos multidimensionales, generar resúmenes comparativos o descriptivos en línea, ya de datos u otros interrogantes analíticos; también permite que los analistas y administradores logren hacer el seguimiento del comportamiento de los negocios (procesos de fabricación, cantidades, tipos de transacciones) o del mercado.

Las técnicas OLAP pueden ser simples como tablas de frecuencia, estadística descriptiva y tabulaciones; o pueden ser muy complejas, por ejemplo, ajustes estacionales y eliminaciones de elementos extraños.

 SQL y herramientas de consulta: Microsoft® SQL Server™ es un sistema de

administración y análisis de bases de datos relacionales de Microsoft para soluciones de comercio electrónico, línea de negocio y almacenamiento de datos. Existen varias versiones: Compact 4.0, 2005, 2008, 2012, 2013 y la del 2014, que además de las funciones básicas, ofrece nuevas capacidades en memoria en la base de datos y proporciona nuevas soluciones de copia de seguridad y de recuperación ante desastres. Microsoft ofrece a través de la web, documentación del producto que incluye asesorías y tutoriales para su instalación y utilización.

 Reporting: Es una de las tareas claves en la minería de datos; en muchas organizaciones la meta final en la minería de datos es generar informes para los responsables de los diferentes departamentos

Herramientas del Data Mining

Data Warehosue (Almacén de Datos):

Las organizaciones necesitan información renovada acerca de las tendencias presentes para mantener su competitividad y precisan saber qué es lo que está pasando por la mente de sus competidores.

Como una de las herramientas de la Minería de Datos, el Data Warehouse se puede catalogar como:

(17)

16 - Técnica para administrar y decepcionar datos de distintas fuentes.

- Colección de datos orientados a temas integrados, no volátiles (no se cambian ni modifican) y variantes en el tiempo. Se caracteriza también por ser temático e histórico.

Su propósito es que los administradores de datos puedan redactar informes o analizar las grandes cantidades de información y poder tomar decisiones.

Objetivos:

- Colocar la mayor cantidad de información comercial posible. - Mejorar el tiempo de espera que insumen los informes.

- Monitorear el comportamiento de los clientes, competencia y procesos internos. - Mejorar la capacidad de respuesta.

- Aumentar la productividad.

Cómo se construye:

- Extracción: Se crean los archivos y se guardan en la base. - Depuración: Se unifica la información.

- Carga: Se transfiere los datos almacenados a la unidad de base de datos que los requiera.

Análisis exploratorio de datos:

Es un conjunto de herramientas gráficas y descriptivas que son comúnmente utilizadas para el descubrimiento de patrones de comportamiento en los datos y el establecimiento de hipótesis con la menor estructura posible. Se relacionan tanto técnicas cuantitativas como cualitativas. Es decir, es posible obtener una estructura explicativa de los datos a través de unas técnicas que combinan herramientas de la estadística básica (descriptivos, correlaciones, tablas de frecuencias o de correlación cruzada) con análisis avanzado, especialmente diseñado para identificar formas en grandes bases de datos (análisis cluster, escalas multidimensionales, análisis logit, correlación canónica, análisis de correspondencias, árboles de clasificación).

Las técnicas de análisis exploratorio de datos, suelen estar acompañadas de métodos de visualización gráfica capaces de identificar conexiones, tendencias o sesgos presentes en las bases de datos inicialmente desestructuradas.

(18)

17

Redes neuronales:

Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:

- El Perceptrón.

- El Perceptrón multicapa.

- Los Mapas Auto organizados, también conocidos como redes de Kohonen, estudios de bibliometría.

Dentro de sus principales características, se encuentran: - Resuelve problemas de clasificación y regresión.

- El conocimiento se incorpora mediante el aprendizaje a partir de ejemplos. - Es un tipo de software muy utilizado para reconocimiento de patrones.

- Aprendizaje adaptativo: puede modificarse constantemente con el fin de adaptarse a nuevas condiciones de trabajo.

- Auto organización: Mientras que el aprendizaje es un proceso donde se modifica la información interna de la red neuronal artificial, la auto organización consiste en la modificación de la red completa con el fin de llevar a cabo un objetivo específico.

- Tolerancia a fallos: en la computación tradicional la pérdida de un fragmento pequeño de información puede acarrear comúnmente la inutilización del sistema. Las redes neuronales artificiales poseen una alta capacidad de tolerancia a fallos.

- Operación en tiempo real: trabajan en paralelo actualizando todas sus instancias simultáneamente. (Universidad Nacional del Nordeste, 2014)

Ejemplos del uso de la Minería de Datos

 Negocios: La Minería de Datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción. Por lo general, las empresas que emplean Minería de Datos ven rápidamente el retorno de la inversión, pero también reconocen que el número de modelos predictivos desarrollados puede crecer muy rápidamente.

(19)

18 que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una Minería de Datos lo más automatizada posible.

Análisis de la cesta de la compra: El ejemplo clásico de aplicación de la Minería de Datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.

Patrones de fuga: Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias (como la banca, las telecomunicaciones, etc.) existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes (y en función de su valor) se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La Minería de Datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.

Fraudes: Un caso análogo es el de la detección de transacciones de lavado de dinero o de fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.

Recursos humanos: La Minería de Datos también puede ser útil para los departamentos de recursos humanos en la identificación de las características de sus empleados de mayor éxito. La información obtenida puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para Dirección estratégica en una empresa se traducen en la obtención de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de producción o gestión de mano de obra.

(20)

19 menos legítimos— sobre ellos para ofrecerles propaganda adaptada específicamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qué otro ofrecerle teniendo en cuenta la información histórica disponible acerca de los clientes que han comprado el primero.

Terrorismo: La Minería de Datos ha sido citada como el método por el cual la unidad Able Danger del Ejército de los EE. UU. había identificado al líder de los atentados del 11 de septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del "11-S" como posibles miembros de una célula de Al Qaeda que operan en los EE. UU. más de un año antes del ataque. Se ha sugerido que tanto la Agencia Central de Inteligencia y su homóloga canadiense, Servicio de Inteligencia y Seguridad Canadiense, también han empleado este método.

(21)

20

Conclusiones

 La Minería de Datos, bien empleada, se convierte en una herramienta estratégica que eleva los niveles de competencia en el cambiante mundo de los negocios. La toma de decisiones efectivas depende de la rapidez con que se identifica y analiza información importante. La existencia de metodologías innovadoras para desarrollar el proceso de identificación y análisis, debe necesariamente mejorar la ventaja competitiva para incrementar el mayor número de clientes.

 Nuestra capacidad para almacenar datos ha crecido exponencialmente los últimos años, pero la capacidad de procesarlos no ha ido a la par. Por tal motivo, es necesario contar con técnicas que tengan la capacidad de procesar y entender datos tanto estructurados como no estructurados, para poyar la toma de decisiones en cualquier ámbito del conocimiento.

 La Minería de Datos ha tenido una creciente inclusión en los negocios, debido a la enorme preocupación de las empresas por conocer más allá de los datos que éstos manejan.

 Para el aprovechamiento de la gran cantidad de conocimiento en la Minería de Datos es necesario reducir la cantidad de datos, quedándonos sólo con la información mínima necesaria, para disminuir el esfuerzo computacional y humano. El resto de la información se vuelve redundante, trayendo consigo ruido y dependencias que deben tratar de evitarse, esto se basa en un axioma fundamental: “la hipótesis más simple”.

 No todos los datos son apropiados para la minería. La búsqueda de patrones debe centrarse en aquéllos que tengan un impacto significativo en el negocio. Si bien los datos de poca utilización se encuentran mezclados con los de alta utilización, contar con un motor de consultas que permita realizar ordenamientos y selección de datos ayuda a determinar cuáles serán aquéllos que se extraerán.

 Un Data Warehouse está diseñado para realizar procesamientos veloces de consultas, lo cual representa una herramienta de suma utilidad en la tarea de identificación del subconjunto de datos requerido.

 La tenencia de datos no es el elemento esencial en una toma de decisiones acertada. Al convertir dichos datos en información evaluada y ésta en conocimiento para la acción, se proporciona el apoyo necesario para la toma de una decisión argumentada, que oriente a la empresa hacia el cumplimiento de sus metas y objetivos.

(22)

21

Referencias

César, P., & Santín, D. (2007). Minería de Datos, Técnicas y Herramientas. Madrid: Thomson Ediciones Paraninfo, S.A.

Corrales, J. D., & Alberto, B. J. (2003). Minería de Datos: Evaluzación de Técnicas y su Aplicación en SQL Server 2000.

Inteligencia de Mercados con Minería de Datos. (24 de Noviembre de 2014). Obtenido de

https://drive.google.com/viewerng/viewer?a=v&pid=sites&srcid=ZGVmYXVsdG RvbWFpbnxjdXJzb3NhbHZhcmFkb3xneDozNTM5NjExYjE3ODg3NmEx

Microsoft. (24 de Noviembre de 2014). Obtenido de http://msdn.microsoft.com/es-es/library/ms174949.aspx

Universidad Nacional del Nordeste. (24 de Noviembre de 2014). Obtenido de http://www.exa.unne.edu.ar/informatica/SO/SDataMining.pdf