56 Introducción de la Propuesta
La evolución de la tecnología en los años recientes ha provocado cambios drásticos en muchas actividades y zonas geográficas, debido a que ha abierto nuevas posibilidades en la utilización de dispositivos para administrar la información en todas sus formas.
La idea del Data Mining no es nueva en el mundo informático. Ya desde los años sesenta los estadísticos utilizaban términos como Data Fishing, Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos. A principios de los años ochenta Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky – Shapiro, entre otros, empezaron a consolidar los términos del Data Mining y KDD1.
Actualmente la tecnología ha cambiado vertiginosamente, de manera inimaginable, de tal manera que los recursos tecnológicos nos invaden en todo lugar y las instituciones públicas no son la excepción.
Este documento representa el diseño de un manual empleando Data Mining como tecnología informática para predecir el potencial de desarrollo en las empresas de la zona oriental asociadas a la Comisión Nacional de la Micro y Pequeña Empresa – Regional San Miguel. A fin de que se aproveche dicha tecnología para seleccionar las empresas que aún no han alcanzado su potencial de desarrollo conforme a los requerimientos básicos de la institución.
Por ello, con el diseño del manual se pretende brindar a la institución facilidad de identificación de indicadores provenientes de los datos almacenados en la base de datos, así como también la extracción de estrategias de desarrollo para ejecutar en las empresas que son atendidas.
57 5.1 Objetivos de la Propuesta
5.1.1 Objetivo General
Desarrollar un manual empleando Data Mining (Minería de Datos) para predecir el potencial de desarrollo de las empresas en la zona oriental asociadas a la Comisión Nacional de la Micro y Pequeña Empresa Regional – San Miguel, que permitirá incentivar a la institución para utilizar una herramienta informática innovadora donde aporte significativamente a la toma de decisiones con respecto a las empresas atendidas por este.
5.1.2 Objetivos Específicos
Delimitar los objetivos del proyecto de Data Mining con una visión empresarial para su respectiva de ejecución.
Identificar los datos más relevantes del proceso.
Determinar el modelo para la ejecución del proyecto de Data Mining.
58 5.2 Justificación de la Propuesta
En la actualidad existe ya dentro de la sociedad un fenómeno denominado sociedad informática, el cual, se multiplica día a día en gran cantidad de datos almacenados.
Sin embargo, esta explosión de datos no supone un aumento del conocimiento humano, puesto que resulta imposible procesarlos con métodos clásicos. La información que se genera diariamente en una organización es uno de sus activos principales, por lo que se debe orientar los recursos tecnológicos de manera que ayuden a la administración a tomar decisiones estratégicas y oportunas.
La capacidad de solucionar problemas de decisión y la calidad de las decisiones tomadas, en muchas ocasiones tienen grandes repercusiones y llega afectar el funcionamiento de la organización, de modo que estas se enfrentan al dilema de, cuántos más datos están disponibles menos información se tiene.
Para enfrentar estos problemas, en los últimos años han surgido una serie de técnicas que facilitan el procesamiento avanzado de los datos y permiten realizar un análisis en profundidad de los mismos de forma automática. La idea clave es que los datos contienen más información oculta de la que se ve a simple vista.
El Data Mining ha surgido en el ámbito informático como una tecnología poderosa con un gran potencial para ayudar a las empresas a concentrarse en la información más importante de sus Bases de Datos. Esta tecnología permite predecir futuras tendencias y comportamientos, dando paso a la toma de decisiones proactivas y conducido por un conocimiento acabado de la información, además de buscar patrones ocultos, encontrando información predecible que una persona experta en informática no puede llegar a encontrar porque se encuentra fuera de sus expectativas.
La Comisión Nacional de la Micro y Pequeña Empresa cuenta con un aproximado de 5,8042 empresas (dato actualizado al año 2010) que son atendías con programas de
2 Coordinador CONAMYPE Regional-San Miguel.
59 intervención en diversos sectores, estos datos son utilizados únicamente para las consultas de los ya registrados, para consultas de contactos y evaluaciones básicas, no se obtiene un conocimiento extra que permita a los usuarios evaluar una información de donde puedan tomar decisiones favorables para las empresas atendidas.
Cabe mencionar que un proyecto de Data Mining no es un sistema automatizado, es una herramienta extra que se utiliza en las empresas para extraer información oculta, en el presente caso, que el proyecto de Data Mining permita predecir el potencial de desarrollo de las empresas que son atendías por la institución.
El diseño del manual se utilizará como guía para el usuario, para que en un momento dado que la tecnología sea implementada exista una herramienta para el manejo de la tecnología.
60 5.3 Motivación del Proyecto
Data Mining surgió como línea de investigación a finales de la década de los 80’s con el propósito de buscar una solución al problema de descubrimiento de conocimiento en bases de datos; el conocimiento adquirido de las bases de datos se utiliza para dar soporte a los procesos de toma de decisiones empresariales.
Los veinte años de investigación de Data Mining han dado como resultado un gran número de referencias bibliográficas haciendo énfasis en algoritmos de descubrimiento, sin embargo son escasas las referencias que abordan el problema de aplicación del Data Mining en una institución pública como caso práctico3.
Aunque para ciertos tipos de problemas de Data Mining hay métodos de estimación en fases avanzadas de la ejecución de esta tecnología; cuyos resultados, esfuerzo y tiempo son un tanto más complejos, más sin embargo, se adquirió una motivación grupal por dar énfasis en esta parte de la informática que muy poco se conoce en dicho ámbito.
Dado el caso que el presente trabajo es una tesis efectuada por alumnos aún bachilleres, para adquirir el grado profesional de Ingeniería en Sistemas Informáticos, el desarrollo del proyecto en su modalidad de propuesta es básico, por ende, con resultados esenciales para un aprendiz de Data Mining.
Esta es la motivación central de este trabajo de tesis, en el que se propone un conocimiento especifico de modelos gerenciales, centralizado en Business Intelligence adquiriendo resultados óptimos de información únicamente almacenada en una base de datos.
Para beneficio de la población estudiantil de la Universidad de Oriente, interesados en esta área de la informática; como una guía básica de ejecución de un proyecto de Data Mining.
61
62 5.4 Introducción del Manual
El presente manual en donde se emplea la tecnología informática denominada Data Mining (Minería de Datos), permite en este caso, predecir el potencial de desarrollo de las empresas de la zona oriental que son atendidas por la Comisión Nacional de la Micro y Pequeña Empresa (CONAMYPE) en la regional de San Miguel.
El objetivo principal del diseño del manual es guiar a la institución en la utilización de una nueva y poderosa tecnología informática, muy poco conocida en la actualidad, más sin embargo, no deja de tener sus elementos importantes e innovadores que automaticen ciertos procesos de una empresa, aparte de lo que puede ejecutar un sistema automatizado.
El proyecto se define bajo la predicción del potencial de desarrollo de las empresas que son atendidas por CONAMYPE, donde se ejecuta con la selección de variables claves determinadas dentro de la base de datos, el cual se lleva a cabo en cuatro etapas, llegando así, a un conocimiento oportuno de la información para poder diseñar nuevas estrategias de desarrollo.
Data Mining surge como una tecnología que intenta ayudar a comprender el contenido de una base de datos, este trabaja en el nivel superior buscando patrones, comportamientos, agrupaciones, entre otros; donde el descubrimiento del conocimiento en la información es el objetivo a lograr.
El manual esta contenido por las generalidades de este, generalidades del Data Mining, los datos y el origen de la información, el procesamiento de los datos, estructura de los datos, inteligencia de negocios, base de datos, minero inteligente, etapas del modelo del Data Mining.
63 5.5 Generalidades del Manual
A quien va enfocado el manual:
El manual empleando Data Mining (Minería de Datos) está enfocado directamente al personal técnico de CONAMYPE así también como al Coordinador que son los que manipulan la información que se obtiene de las empresas que son atendidas por la institución, con el objetivo de apoyar en la toma de decisiones para fijar rumbos o estrategias a seguir dentro de la institución.
5.6 Datos y Origen de la Información
El dato es un hecho que describe un suceso o una entidad.
La importancia de los datos está en su capacidad de asociarse dentro de un contexto para convertirse en información. Por si mismo los datos son elementos de conocimiento que carecen de significado por sí mismos, por lo tanto no pueden afectar el comportamiento. En cambio la información reduce cierta incertidumbre y, por lo tanto, permite tomar mejores decisiones.
Hoy en día, está claro que el almacenamiento de la información es algo sencillo y barato y se trata de una tendencia valida en los próximos años. Los sistemas informáticos cada día van teniendo una capacidad mayor, y lo que ahora es normal encontrar en una computadora personal, quedara obsoleto dentro de unos meses. Este incremento de los sistemas de almacenamiento tiene un efecto que es realmente interesante ya que es poco costoso guardar datos de procesos que realizan los sistemas automatizados como: ventas, inventarios, clientes, etc, por lo que las bases de datos crecen hasta límites inesperados.
Cuando se decide iniciar un proceso de almacenamiento de datos, se suele hacer con la intención de analizarlos posteriormente, mas sin embargo, cuando llega el momento, el análisis que se realiza suele ser de manera superficial y guiado por los resultados que se esperan encontrar al analizarlos. Lo normal es utilizar alguna
64 herramienta (hoja de cálculo) para localizar correlaciones entre variables, establecer medias e intentar modelar de esta forma la información.
Sin embargo, en esos grandes volúmenes de datos existe información que no puede ser encontrada con los procedimientos tradicionales de trabajo. El Data Mining ayuda a dar un paso bastante grande en ese análisis sacando a la luz relaciones ocultas entre los datos: información desconocida que pueda ayudar a gestionar o mejorar los procesos de una empresa.
5.7 Estructura de los Datos
Para analizar los datos con fiabilidad es necesario que exista cierta estructuración y coherencia entre ellos. Si el responsable de almacenamiento de la información ha sido siempre la misma persona, es posible que no haya algún tipo de problema y si en un dado caso lo hay pues parte de este se encuentre resuelto. Sin embargo, en general no se da esta situación, al contrario, son muchas las personas que en distintos departamentos y a lo largo del tiempo han ido creando archivos con diferentes tipos de datos, entre otros, y es aquí donde surge la necesidad de conjugar los distintos documentos y bases de datos de manera que se puedan utilizar para extraer conclusiones.
Los problemas más comunes que se presentan al no tener definida una estructuración de los datos, se muestran a continuación:
- Diferentes tipos de datos representando el mismo concepto. - Diferentes claves para representar el mismo elemento. - Diferentes niveles de precisión al representar un dato4.
La situación no es sencilla, y se agrava más aun cuando los diferentes archivos se encuentran en sistemas automatizados y soportes diferentes. En ciertas ocasiones pueden opinar que los datos están en diferentes archivos porque representan informaciones y procesos distintos, y no tiene sentido alguno estructurar la
65 información más allá de lo que ya está, y es posible que si se realiza así, se encuentre con información útil y relevante entregada de forma oportuna.
5.8 Procesamiento de los Datos
Los datos necesitan albergarse en un lugar físico para su posterior procesamiento o ejecución. Hasta el momento se ha supuesto que los datos no son tan voluminosos, y por lo tanto caben en memoria, más sin embargo, existen ciertos problemas en donde el volumen de los datos es tan grande que es imposible almacenarlos en memoria. Es por eso que los datos se almacenan en un conjunto de archivos los cuales conforman una Base de Datos.
Día con día la cantidad de datos almacenados se multiplica, sin embargo contrariamente a lo que pudiera esperar, esta explosión de datos no supone un aumento de conocimiento ya que resulta casi imposible procesarlos y analizarlos utilizando los métodos tradicionales. Es así que hoy las empresas tienen grandes volúmenes de datos almacenados y organizados pero a los que no se les puede analizar eficientemente debido a la falta de una poderosa herramienta con gran potencial para ayudar a concentrarse en la información más importante de las Bases de Datos.
Existen diferentes sentencias de SQL con las cuales se pueden realizar un primer análisis, pero la mayoría de las veces, se requiere de la utilización de herramientas más avanzadas con capacidades de predicción de futuras tendencias y comportamientos, permitiendo que las empresas tomen decisiones proactivas y conducidas por el conocimiento acabado de la información5.
5.9 Inteligencia de Negocios (Business Intelligence)
En la era de la información las empresas y organizaciones se ven saturadas por grandes volúmenes de información, provenientes del resultados de las operaciones que realizan cada una de ellas, a pesar de tener toda esta información a disposición
66 se encuentra la dificultad de poder dar un significado que se punto de apoyo para la toma de decisiones efectivas.
La inteligencia de negocios hace referencia a un conjunto de productos o servicios para acceder a los datos, analizarlos y convertirlos en información. Es la manera más valiosa que tiene una empresa para diferenciarse de las demás, consiste en realizar un trabajo de primera con la información6.
Algunos de los beneficios que obtienen las empresas y organizaciones al implementar este sistema son:
- Capacidad de análisis - Reducción de costos
- Reducción de tiempos de proceso
- Búsqueda de patrones y tendencias desconocidos que solo aparecen al momento en que los datos son analizados
- Generación de pronósticos, presupuesto y planeación
5.10 Data Mining
El Data Mining emerge como una tecnología que ayuda a la compresión de la informática almacenada en la base datos y que a su vez forma parte de una etapa de todo el proceso denominado KDD (Knowledge Discovery from Database ) aunque finalmente se le atribuye todo el significado del proceso en lugar de referirse solo a la etapa.
El Data Mining es una tecnología conformada por etapas y que la conforman varias áreas o ciencias y no se debe de confundir con un gran software.
Por su gran gama de recursos que posee el Data Mining se pueden concebir nuevas oportunidades de negocio o actualización del mismo entre las posibilidades que ofrece son:
6
67 Predicción de tendencias y comportamientos
Descubrimiento de fraudes por parte de los clientes Marketing como publicidad dirigida a clientes específicos El Data Mining persigue ciertos objetivos:
Predicción: el Data Mining puede mostrar el modo en el que actuarán en el futuro ciertos atributos dentro de los datos.
Identificación: los patrones de datos pueden utilizarse para identificar la existencia de un artículo, un evento o una actividad.
5.11 Bases de Datos
5.11.1 Origen de las Bases de Datos
Los orígenes de las bases de datos se remontan hasta el año 1890 cuando el Ingeniero Estadístico Herman Hollerit (1860 - 1929), quien fue nombrado el primer Ingeniero Estadístico de la historia creó una maquina llamada “Máquina Automática Perforada” la cual fue usada para el censo que se realizó en Estados Unidos en el año de 1890 y está sirvió para dar resultados en dos años y medio lo que redujo en cuatro años y medio el trabajo de resultados respecto al censo de 1880 que se tardaran siete años en obtener los resultados.
En la década de los cincuenta se dio origen a las cintas magnéticas, gracias a este mecanismo se empezó a automatizar la información, la que consistía en leer una cinta o más y pasar los datos a otra, como haciendo un proceso de actualización, estas cintas solo podían leer de forma secuencial y ordenada.
En la década de los setenta Edgar Frank Codd definió el modelo relacional en un documento, llamado “A Relational Model of Data for Large Shared Data Banks” (Un modelo relacional de datos para grandes bancos de datos compartidos) en el que especifico una serie de reglas para la administración de los sistemas de base de datos relacional.
68 Se crea el lenguaje SQL (Structured Query Language) que es un lenguaje que analiza grandes cantidades de información la cual permite realizar distintos tipos de operación frente a la misma información7.
5.11.2 Clasificación de las Bases de Datos
Las bases de datos se definen como un conjunto de datos que pertenecen al mismo contexto y almacenados de forma sistemática y estructurada para su posterior uso.
Las bases de datos dieron un giro estructural sobre cómo se recopilan los datos respecto a los inicios del almacenamiento de información cuando se podían considerar que eran simplemente archivos, lo que dificultaba su acceso y en algunos casos era casi imposible localizar el dato que se requería, esto sin embargo cambio gracias a las bases de datos ya que son su implementación se volvió una tarea más fácil, ordenada, veraz y sobre todo rápida de contar con la información oportuna cuando se necesitara.
Los avances que surgieron a lo largo de los años trajeron como consecuencia que las bases de datos se clasificarán con distintos modelos de acuerdo a las necesidades que se requerían.
Los modelos más comunes de bases de datos son: Jerárquico
En Red Relacional
Orientado a Objetos Bases de Datos Jerárquicas
Es una estructura de datos que como su nombre lo indica administra la información de forma jerárquica. Los registros se conectan entre sí en una estructura de árbol invertido. Cada registro tiene un nodo padre que puede tener varios nodos
69 hijos, esto se define como una relación de uno a muchos, los nodos que no tienen padre se llaman raíz y los que no tienen hijos se llaman hojas.
Bases de Datos en Red
Al igual que el anterior modelo de bases de datos se trata de una estructura jerárquica, con la diferencia de que un nodo hijo puede poseer más de un nodo padre, es decir, una relación de muchos a muchos lo que facilita el acceso a los datos, ya que se puede acceder a un nodo por diferentes vías.
Base de Datos Relacional
Este modelo de base de datos relacional es el más difundido en la actualidad, y el que ofrece una mayor flexibilidad para el manejo de los datos ya que se almacenan en tablas, que está a su vez formada por filas y columnas, donde las filas contienen los registros, las columnas, los campos y denominando a toda la tabla como “relación”. Para vincular una tabla con otro existe un campo clave que se denomina clave primaria que sirve como enlace de una tabla a otra.
Características
Una base de datos relacional se componen de varias tablas o relaciones No puede existir dos tablas con el mismo nombre ni registro
Cada tabla es a su vez un conjunto de registros (filas y columnas)
La relación entre una tabla padre y un hijo se lleva a cabo por medio de las claves primarias y foráneas
Las claves primarias son la clave principal de un registro dentro de una tabla y estas deben cumplir con la integridad de datos
Las claves foráneas se colocan en la tabla hija, contienen el mismo valor que la clave primaria del registro padre; por medio de estas se hacen las relaciones.
70 Base de Datos Orientada a Objetos
Un objeto es la representación de algo, tal representación es lo que establece su Identidad, Estado y Comportamiento.
El modelo de datos orientado a objetos es una adaptación para aquellos lenguajes de programación orientada a objetos y se basa en encapsular objetos8.
5.12 Software para Data Mining
Desde la conspiración de los primeros conceptos del Data Mining se ha desarrollado una evolución significativa de dicha tecnología a lo largo de los años y los algoritmos que son utilizados para ello no se han quedado atrás. La mayoría creado hace 30 años otorgando una ventaja para los grandes desarrolladores de software de Data Mining, generando así, datos de alta confiabilidad.
Cabe mencionar que el Data Mining no se debe confundir con un gran software, se utiliza software en las diferentes etapas de ejecución del proyecto de este.
El Data Mining se divide en las siguientes etapas: Selección de los Datos de entrada
Transformación de los datos Data Mining
Interpretación de los resultados
Entre los desarrolladores de software de Data Mining más importantes se encuentran: Microsoft Oracle IBM Teradata SAP 8 http://es.wikipedia.org/wiki/Base_de_datos
71 MICROSOFT
Microsoft presenta una solución de Data Mining basado en su gestor de base de datos Microsoft SQL Server 2008, que utiliza la plataforma de Business Intelligence Development Studio, que son tipos de proyectos adicionales y específicos de Business Intelligence de SQL Server y que es parte de toda la plataforma de Microsoft Visual Studio 2008.
SQL Server Business Intelligence Development Studio es el entorno principal que se utiliza para el desarrollo de las aplicaciones y soluciones que envuelvan proyectos de Analysis Services, Integration Services y Reporting Services, a diferencia del SQL Management Studio que funciona nada más para administrar y configurar proyectos ya existentes de Analysis Services para cada proyecto, ofreciendo asistentes, diseñadores, plantillas y herramientas para trabajar con su respectivo objeto
A continuación se describen los componentes más importantes del entorno de Business Intelligence Develpment Studio:
72
Figura 3. Vista de Software para Data Mining
Dónde:
Explorador de Solución: esta área es donde se administra y configura la solución del proyecto, así como la creación y administración de los objetos. Ventana de Etiquetas: las etiquetas se establecen justo en la parte superior
de la ventana de diseño y permite cambiar rápidamente entre los diseñadores que se tengan disponibles, cada objeto o archivo que está abierto se mostrará en una etiqueta.
Ventana de Diseño: aquí se analizan y se editan objetos, lo que permite interactuar directamente con el objeto.
Ventana de Propiedades: en esta ventana se muestran las propiedades de los ítems seleccionados y permite que se modifiquen ciertas características como nombre, archivo de origen, tipo de dato entre otras.
BI Menú Explorador de Solución Ventana de Salida Ventana de Etiquetas Ventana de Diseño Ventana de Propiedades
73 Ventana de Salida: se muestran mensajes de alerta cuando se construye o implementa un proyecto, en caso de que existan errores aquí se enlistan y describe el error.
BI Menú: en este panel se encuentran herramientas específicas para los proyectos de Analysis Services.
Como parte de las soluciones que provee la plataforma de Business Intelligence, vienen integrados las técnicas para las estructuras del Data Mining, entre las cuales están: - Reglas de Asociación - Clustering - Árboles de Decisión - Regresión Lineal - Regresión Logística - Navie Bayes - Redes Neuronales - Clústeres de Secuencia - Series de Tiempo9. ORACLE
Oracle es considerado como uno de los sistemas de datos más completos en el mercado actual por su gran versatilidad para trabajar en diferentes ambientes con sistemas de almacenamiento de datos. Siendo uno de los principales gestores de datos, presenta una solución integrada en todo su entorno de trabajo.
Oracle Data Mining (ODM) es una opción en su versión Oracle Database 11g Enterprise Edition, que permite la creación y extender las aplicaciones que proporcionan análisis predictivos. Oracle permite además que desarrolladores externos puedan crear aplicaciones para optimizar los resultados y mostrarlos en tiempo real en toda la empresa.
9
74 Todo esto presenta una ventaja muy marcada, ya que siendo todo esto parte de los servicios que el mismo gestor de Oracle proporciona, simplifica el proceso de extracción del conocimiento puesto que elimina el movimiento de los datos para el proceso de análisis, todos los procedimientos de preparación, creación de modelos y los análisis permanecen en la base de datos, lo que resulta en la automatización y reducción de tiempo de respuesta.
Oracle simplifica el trabajo aceptando tablas transaccionales y no transaccionales (resúmenes, registros únicos), todo esto se transforma de forma automática dentro del gestor lo que es una tarea menos para el desarrollador.
Oracle proporciona dos algoritmos:
- Navies Bayes (Clasificación y Predicción) - Reglas de Asociación
Navies Bayes: son técnicas de clasificación y predicción que construye modelos para predecir la probabilidad de posibles resultados.
Reglas de Asociación: detectan diferentes eventos que se puedan asociar entre sí, se puede utilizar para encontrar combinaciones en productos de preferencias para clientes.
La interfaz que presenta Oracle Miner es una opción más para optimizar los resultados permitiendo a los analistas de datos, acceder a los datos utilizando esta interfaz gráfica para encontrar el conocimiento oculto.
IBM
La solución que nos presenta IBM se denomina IBM Intelligent Miner for Data (Minero Inteligente de Datos) que comunica las funciones de minería de datos con las de pre-proceso en el servidor.
75 El modulo cliente incluye una interfaz desde la cual los analistas de datos pueden realizar, solicitar funciones de un servidor de Intelligent Miner for Data. Los resultados solicitados se presentan al cliente para que los puedan visualizar y analizar siendo claro que funciona bajo la arquitectura Cliente/Servidor.
El software ofrecido por IBM puede funcionar bajo diferentes plataformas de sistemas operativos: Solaris Operating Enviroment y Windows.
Los módulos que integran el Intelligent Miner for Data son:
Interfaz de Usuario: permite definir las funciones de Data Mining desde un entorno
gráfico lo que facilita al usuario su manejo.
API de capa de entorno: es un conjunto de funciones que controlan la ejecución de
procesos y resultados de minería. La API está disponible en todos los sistemas operativos de servidores.
Visualizador: herramienta utilizada para visualizar los resultados generados por una
función solicitado por los analistas de datos.
Acceso a Datos: función que permite navegar por las tablas, planos y bases de
datos.
Biblioteca de Proceso: biblioteca que proporciona acceso a las funciones de las
bases de datos.
Bases de Minería: colección de objetos de Data Mining que utilizan para un objetivo
de Data Mining.
Kernels de Minería: algoritmos que comienzan a operar cuando se utiliza las funciones de Data Mining.
Resultados de Minería y Herramientas para Exportación: los datos que se
76 TERADATA
Teradata Corporation es una empresa especializada en la implementación y desarrollo y desarrollo de almacenes de datos y aplicaciones analíticas. Sus productos son comúnmente usados por grandes compañías que utilizan sus soluciones para administrar sus almacenes de datos para análisis y propósitos de inteligencia de negocios.
Fundada en 1979, se dedicó a la venta y desarrollo de sistemas de gestión de base de datos relacionales (RDBMS por sus siglas en inglés) empezó como una división de NCR Corporation y en 2007 se convirtió en una compañía independiente con su propia marca.
Los almacenes de datos son accedidos por el tipo de conexión ODBC (Open Database Connectivity) o JDBC (Java Database Connectivity) o con su propia aplicación de conexión pudiendo ser ejecutados en sistemas operativos como Microsoft Windows y todas las versiones de UNIX.
Teradata Data Mining Services
Entre las aplicaciones que ofrece Teradata para los servicios de Data Mining están: Segmentación de Clientes Probabilidad de Compra Posibles Clientes Detección de Fraude Pérdida de Clientes Adquisiciones de Clientes
Todos estos servicios se aplican bajo diferentes fases de ejecución y talleres para asegurar un producto final confiable.
Los módulos que abarcan los talleres son: Metodologías de Data Mining Preguntas de Negocio y Modelado
77 Términos Comunes Analíticos
Verificación de Tecnología Análisis y Transformación10 .
5.13 Metodología para el Desarrollo del Proyecto de Data Mining
Son diversas las metodologías que se utilizan para el desarrollo de proyectos de Data Mining tales como: SEMMA (Sample, Explore, Modify, Model, Assess), DMAMC (Definir, Medir, Analizar, Mejorar, Controlar) y CRISP-DM (Cross Industy Standard Process for Data Mining), mas sin embargo una de las metodologías principalmente utilizadas en los ambientes académicos e industriales es la Metodologia CRISP-DM.
¿Por qué CRISP-DM?
Otras metodologías se centran más en las características estadísticas de un modelo de Data Mining, mientras que la metodología CRISP-DM posee una visión más amplia respecto a los objetivos del negocio del proyecto, y objetivos propios del Data Mining. Las diferencias surgen desde la primera fase del proyecto de Data Mining puesto que otras metodologías comienzan realizando un muestreo de los datos, mientras que la metodología CRISP-DM inicia realizando un análisis del problema desde el punto de vista de negocios.
La metodología CRISP-DM ha sido diseñada como una metodología no vinculada a ningún proveedor de software, por lo que es posible utilizarla con múltiples herramientas de Business Intelligence.
Reseña de CRISP-DM
Los orígenes de CRISP-DM, se remontan hacia el año 1999 cuando un importante consorcio de empresas europeas tales como NCR (Dinamarca), AG (Alemania),
10
78 SPSS (Inglaterra), OHRA (Holanda), Teradata, SPSS y Daimer-Chrysler, proponen a partir de diferentes versiones de KDD, el desarrollo de una guía de referencia de libre distribución denominada CRISP-DM (Cross Industry Standard Process for Data Mining).
CRISP-DM está dividida en fases, la sucesión de fases no es necesariamente rígida. Cada fase es estructurada en varias tareas generales. Las tareas generales se proyectan a tareas específicas, donde finalmente se describen las acciones que deben ser desarrolladas para situaciones específicas. La tabla siguiente resume las fases, actividades y las tareas específicas que propone la metodología CRIP-DM y las que se realizan en el proyecto de Data Mining11.
Etapa Actividad Tarea Específica.
ETAPA I. Comprensión del Negocio.
Determinar objetivos del negocio.
-Escenario Actual. - Objetivos del negocio. -Factores críticos para el
éxito del negocio.
Evaluación de la situación -Inventario de Recursos -Requerimientos, expectativas y restricciones -Riesgos y Contingencias -Terminología -Costos y Beneficios. Determinar los objetivos
de minería de datos. -Objetivos de minería de datos -Factores críticos de 11
79 éxito para minería de
datos Desarrollar el plan del
proyecto
-Plan de proyecto -Validación inicial de técnicas y herramientas. ETAPA II. Comprensión
de los datos.
Recolección Inicial de los datos
-Colección inicial de los datos
Descripción de los datos -Descripción de los datos relevantes para el
proyecto. ETAPA III. Preparación
de los datos.
Preparación de la colección de datos.
-Iniciar el proyecto en BI Dev Studio.
- Creación del Origen de Datos.
Selección de los datos. - Creación de Vista de Origen de Datos. ETAPA IV. Modelado. Selección de la técnica
de modelado
- Técnica de modelado.
Generar diseño de pruebas
-Diseño de pruebas.
Construcción del Modelo -Creación de Estructura de Minería de Datos.
-Implementación. -Procesamiento Evaluar el modelo - Evaluación del modelo. ETAPA V. Evaluación. Evaluación de Resultados Evaluación de los
resultados del proceso de minería de datos. -Explorando el modelo de
Arboles de Decisión. Aprobación del modelo Errores y Soluciones.
80 5.14 Etapas de Ejecución del Proyecto de Data Mining
5.14.1 Etapa I. Comprensión del Negocio
5.14.1.1 Objetivos del Negocio
Determinar los objetivos de negocio es una tarea correspondiente a una labor de comprensión de qué es lo que CONAMYPE quiere conseguir desde una perspectiva de negocios, por lo cual, los objetivos del negocio son:
- Fortalecer aspectos claves que determinan la formación y el fortalecimiento de las micro y pequeñas empresas atendidas por CONAMYPE.
- Descubrir si los programas de intervención que la institución brinda a las empresas, son óptimos para su desarrollo potencial.
- Creación de nuevas y mejoradas estrategias de desarrollo en todas las áreas y sectores que sean necesarias.
- Apoyo en la toma de decisiones para mejorar los procesos de desarrollo.
- Determinar indicadores que permitan evaluar el proceso nuevo y antiguo del tratamiento de los datos dentro de la institución.
Factores Críticos para el Éxito.
Los Factores Críticos de Éxito (FCE), son el conjunto de mínimo o limitado de áreas, factores o puntos determinantes en las cuales si se obtienen resultados satisfactorios se asegura un desempeño exitoso para un individuo, un departamento o una organización.
En otras palabras los Factores Críticos de Éxito se pueden tomar como factores, componentes o elementos constitutivos claves de una organización, transformadas
81 en variables donde sus valores en cierto momento son considerados críticos o inaceptables en cuyo caso afectan lo que se considera como exitoso o aceptable12.
Los factores críticos para el éxito del negocio son una herramienta esencial para la dirección de la institución, detallando así:
- Institución que genera conocimiento y propone políticas encaminadas a fortalecer y desarrollar a la Micro y Pequeña Empresa.
- Institución comprometida con los empresarios de la zona oriental, así como también con la igualdad y justicia para ellos.
5.14.1.2 Evaluación de la Situación
Esta tarea consiste en realizar una investigación exhaustiva sobre los recursos, restricciones y suposiciones que deberían ser considerados al momento de elaborar el plan del proyecto de Data Mining. Las descripciones de los resultados que se obtienen como fruto de esta tarea se entregan a continuación:
Inventario de Recursos
A continuación se listan todos los recursos que estarán disponibles para la realización del proyecto de Data Mining:
Recursos Físicos
- El sistema de gestión de base de datos a utilizar para la ejecución de proyecto de Data Mining será Microsoft SQL Server 2008.
- Computadoras Portátiles. Se cuenta con 3 computadoras portátiles para realizar el desarrollo y las pruebas del proyecto como medio de evaluación de este.
- La plataforma a utilizar para el proyecto de Data Mining será Microsoft Visual Studio 2008 con un proyecto de Bussiness Intelligence creando una plantilla de Analysis Services.
82 Fuentes de Información y Conocimiento
- Metodología CRISP-DM, es la guía de referencia más amplia utilizada en el desarrollo de proyectos de Data MIning.
- Sistema de Registro de CONAMYPE
- Manuales de lenguaje SQL
- Manuales de Data Mining con Microsoft SQL Server 2008
- Manuales de Bussiness Intelligence. Recursos Humanos
- Coordinador de Centro CONAMYPE Regional- San Miguel.
- Personal técnico de CONAMYPE los cuales brindaran la información necesaria para la realización del proyecto.
Requisitos, Suposiciones y Restricciones.
El acceso a la información se realiza mediante el sistema de CONAMYPE, considerando que el personal técnico, los cuales son parte del proyecto, están autorizados para el uso y manipulación de la información contando cada uno con usuario y contraseña de este, por lo cual, no se presentan problemas respecto al uso de la información.
El proyecto de tesis está inmerso dentro de la mejora continua como un medio de proyección social por parte de la Universidad de Oriente, esto significa que no existen restricciones presupuestarias, es decir, limitaciones para gastos financieros en el presupuesto; o de plazo de finalización demasiado exigente.
Se utiliza Microsoft SQL Server 2008 ya que es uno de los gestores que se vinculan a un proyecto de Business Intelligence para la ejecución del Data Mining.
Por motivos de seguridad de la información, no se permitió trabajar desde el servidor de datos, más sin embargo, no dificulta la ejecución del proyecto.
83 Riesgos y Planes de Contingencia
Este resultado incluye un listado de los riesgos que pueden afectar el proyecto, impactando sus plazos, costos y el resultado final. Incluye también un listado de los correspondientes planes de contingencia diseñados para mitigar dichos riesgos.
Riesgos
- Cambio de autoridad con poco interés sobre el proyecto a realizar
- Restricción en el acceso a los datos
- Falta de equipo tecnológico
- Mal diseño y estructuración de la Base de Datos
- Selección errónea de datos apropiados que tengan un impacto significativo para la institución
Planes de Contingencia
- Presentar una propuesta con mayores beneficios para la institución para la realización del proyecto
- Mostrar la carta de aprobación de proyecto por parte de la institución
- Proponer equipo tecnológico adecuado a la ejecución del proyecto
- Reestructuración de la Base de Datos
- Analizar minuciosamente los datos para identificar los de mayor impacto para la institución y para la ejecución del proyecto
Glosario de Terminología de Negocio
Glosario de Terminología del Negocio del que forma parte la comprensión del negocio disponible en el proyecto. Construyendo esto el glosario es útil en la producción del conocimiento.
84 Micro Empresa: Es toda unidad económica que tiene hasta 10 ocupados y ventas anuales hasta el equivalente de 476 salarios mínimos urbanos.
Pequeña Empresa: Es toda unidad económica que tiene hasta cincuenta ocupados y que sus ventas anuales son el equivalente a 4,762 salarios mínimos urbanos excluyendo aquellas que tienen ventas anuales menores de 476 salarios mínimos con 10 o menos ocupados.
Potencial de desarrollo: Es la posibilidad de crecimiento y fortalecimiento de las diferentes actividades que realiza una empresa.
Empresas atendidas: Son aquellas micro y pequeñas empresas que han recibido algún tipo de servicio por parte de la institución.
Sectores Productivos: Son las distintas ramas o divisiones de la actividad económica, atendiendo al tipo de proceso que se desarrolla.
Estrategias de desarrollo: Es un conjunto de acciones planificadas de acuerdo a indicadores que revelen el crecimiento al que se pretende llegar.
Programas de intervención: Son programas gubernamentales con cobertura nacional que el gobierno impulsa mediante el Ministerio de Economía para dar respuestas a los sectores más vulnerables.
Diagnóstico Territorial: Es el estudio que realiza el personal técnico para identificar las necesidades y recursos con las que cuenta la micro o pequeña empresa.
Indicadores de impacto: Representación cuantitativa de una variable en relación con otra, que permite medir los efectos a mediano o largo plazo.
Glosario de Terminología de Data Mining
Glosario de Terminología de Data Mining, pertinente al problema del negocio en cuestión.
85 Algoritmo: Es un conjunto prescrito de instrucciones o reglas bien definidas, ordenadas y finitas que permiten realizar una actividad mediante pasos sucesivos que no generen dudas a quien deba realizar dicha actividad.
Árboles de Decisión: Un árbol de decisión es un descriminador de clases que, recursivamente, particiona un conjunto de instancias hasta que cada partición consista íntegramente o dominadamente dé ejemplos de una clase.
Bases de datos: Es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso.
Business Intelligence (Inteligencia de Negocios): Se puede definir como el proceso de analizar los bienes o datos acumulados en la empresa y extraer una cierta inteligencia o conocimiento de ellos.
Conocimiento: Es una mezcla de experiencia, valores, información que sirve como marco para la incorporación de nuevas experiencias e información, y es útil para la acción.
Clasificación: Tarea en Data Mining que divide los datos en pequeños grupos basados en su semejanza, sin predefinición de los grupos de datos.
CRISP-DM: Es un método standard que ha sido desarrollado para ayudar en la realización de proyectos de Data Mining.
Data Mining: Consiste en la extracción no trivial de información que reside de manera implícita en los datos.
Dato: Son la mínima unidad semántica y se corresponden con elementos primarios de información que por sí solos son irrelevantes como apoyo a la toma de decisiones.
Extracción: Proceso por el cual se obtienen datos clave de las bases de datos operacionales que sirven para la toma de decisiones.
86 Herramienta Informática: Aplicación automatizada de procesos que permiten realizar actividades en menor cantidad de tiempo.
Hojas: Conjuntos ya clasificados de ejemplos y etiquetados con el nombre de una clase.
Información: Es un conjunto de datos procesados y que tienen un significado (relevancia, propósito y contexto), y que por lo tanto son de utilidad para quien debe tomar decisiones.
KDD (Descubrimiento de Conocimiento en Bases de Datos): Es el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia comprensibles a partir de los datos.
Metodología de Data Mining: Son fases definidas que van desde la definición del problema hasta la ejecución y evaluación del modelo, pasando por el estudio de los datos y la creación de dicho modelo.
Modelado: Acción de representar el funcionamiento de un negocio de manera que se pueda usar activamente como un medio de simular el mundo real. La realización del modelo es fundamental para la toma de decisiones.
Nodo: Nombres o identificadores de los atributos.
Predicción: Aseveración de que algo va a suceder en el futuro.
Ramas: Posibles valores del atributo asociado al nodo.
Técnicas de Data Mining: Es el conjunto de habilidades para aplicar determinados conocimientos de Data Mining.
Tecnología: Es un conjunto de conocimientos técnicos, ordenados científicamente que permiten construir objetos y máquinas para adaptar el medio y satisfacer las necesidades de las personas.
Tabla: Formato en el que los datos se almacenan en las bases de datos relacionales es decir, a través hojas de dos dimensiones (líneas y columnas).
87 Variable: Es una cualidad o cantidad medible que se estudia de las unidades de análisis y que varían de una unidad a otra.
Análisis Costo - Beneficio
Se muestra un análisis del costo-beneficio para el proyecto. Comparando los costos que puede incurrir el proyecto junto con los beneficios que este puede traer a la institución; en un dado caso de implantación.
COSTOS MONTO BENEFICIOS
Licencia de Microsoft SQL
Server Development 2008 $ 35.24
- Identificar, Procesar y Extraer la información desde una base de datos que realmente es importante.
- Mejorar la toma de decisiones en la
institución a través de datos almacenados en la base.
- Permitir a las micro y pequeñas empresa evolucionar en todas las áreas posibles por medio de los servicios que la institución les brinda.
Licencia de Visual Studio
Professional 2008 $ 481.30
Encargado de Informática $800.00
5.14.1.3 Objetivos de Data Mining
Esta tarea corresponde a la traducción de términos técnicos - estadísticos de los objetivos del negocio que se pretenden alcanzar con el proyecto de Data Mining, la descripción de estos objetivos hacen posible alcanzar los objetivos del negocio, detallándose a continuación:
- Predecir el modo en que actuarán en el futuro ciertos atributos dentro de los datos.
- Identificar los patrones de datos que pueden utilizarse para la identificación de un evento o una actividad.
88 Factores críticos de éxito para Data Mining.
Los factores críticos de éxito definen el criterio para un resultado exitoso al proyecto en términos técnicos, este debe tomarse como el funcionamiento correcto de los objetivos.
- Resultados acertados con referencia de su origen, la base de datos.
- Informe claro para las posibles tomas de decisiones ya administrativas.
5.14.1.4 Desarrollo del Plan del Proyecto
Plan de Proyecto.
A continuación se presenta una lista de todas las etapas ejecutadas en el proyecto, junto a su duración.
Figura 4. Plan de Proyecto de Data Mining
Validación inicial de herramientas, metodología y técnicas.
Este resultado es el segundo de la tarea de Desarrollo del plan de proyecto. Consiste en una evaluación inicial de las herramientas, metodología y técnicas de Data Mining que se utilizarán. Se selecciona una herramienta de Data Mining que soporte varios métodos para diferentes etapas del proyecto. Es importante evaluar las herramientas y las técnicas tempranamente en el proyecto, pues que la elección de las herramientas y técnicas influye significativamente en el proyecto. A continuación se presentan los resultados obtenidos:
89 La técnica de Arboles de decisión, inspiro la idea de poder cumplir y representar el objetivo principal del proyecto el cual es la predicción del potencial de desarrollo de las micro y pequeñas empresas, a partir de los datos almacenados en la base de datos.
El algoritmo de árboles de decisión de Microsoft es un algoritmo de clasificación y regresión que proporciona Microsoft SQL Server 2008 Analysis Services (SSAS) para el modelado de predicción de atributos discretos y continuos. Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones entre las columnas de entrada de un conjunto de datos. Utiliza los valores, o estados, de estas columnas para predecir los estados de una columna que se designa como elemento de predicción.
5.14.2 Etapa II. Comprensión de los Datos
5.14.2.1 Descripción de los datos
A continuación se muestra el desarrollo de la descripción de las tablas, así como también el diagrama de la base de datos.
Definición de Tablas Tabla tbl_Contacto
En esta tabla se almacena la información referente a los contactos de las empresas atendidas por la institución.
Campo Tipo de Dato Tamaño Descripción
ContactoID int (identity) - Identificador
Nombre nvarchar 50 Nombre del Contacto
Apellido nvarchar 50 Apellido del Contacto
Telefono_Fijo nvarchar 25 Teléfono Fijo de Contacto
Celular nvarchar 25 Celular de Contacto
90 UserCrea nvarchar 50 Usuario que crea un nuevo registro
FechaCrea date -- Fecha de creación
UserModif nvarchar 50 Usuario que realiza alguna modificación
FechaModif date -- Fecha de modificación.
Tabla tbl_Empresa
Tabla que almacena la información referente a las empresas atendidas por la institución.
Campo Tipo de
Dato
Tamaño Descripción
EmpresaID int -- Identificador
Nombre nvarchar 50 Nombre de la Empresa
TipoContribuyenteID int -- Identificador de Tipo de Contribuyente
TipoEmpresaID int -- Identificador de Tipo de Empresa
ContactoID int -- Identificador de Contacto
SectorProductivo int -- Identificador de Sector al que pertenece
CapacitacionesID int -- Identificador de Capacitaciones MunicipioID int -- Identificador de Municipio
DepartamentoID int Identificador de Departamento
AsesoriaID int -- Identificador de Asesoría
TipoAtencionID int -- Identificador de Tipo de Atención
ProgramaID int -- Identificador de Programa de
Intervención
VentasID int -- Identificador de Ventas
CalidadProducto_ServicioID int -- Identificador de Calidad de Producto o Servicio
Numero_Empleados int -- Número de Empleados
91 nuevo registro
FechaCrea nvarchar -- Fecha de ingreso o creación
UserModif text 50 Usuario que realizo alguna
modificación FechaModif nvarchar -- Fecha de modificación
Tabla tbl_TipoEmpresa
Tabla que contiene el nombre del tipo de empresa perteneciente.
Campo Tipo de Dato Tamaño Descripción
TipoEmpresaID int -- Identificador
Descripción nvarchar 50 Descripción del tipo de Empresa UserCrea text 50 Usuario que ingreso o crea un nuevo
registro FechaCrea nvarchar -- Fecha de ingreso o creación
UserModif text 50 Usuario que realizo alguna modificación
FechaModif nvarchar -- Fecha de modificación
Tabla tbl_SectorProductivo
En esta tabla están definidos los sectores productivos económicos a los cuales pertenece cada una de las empresas.
Campo Tipo de Dato Tamaño Descripción
SectorProductivoID int -- Identificador
Nombre nvarchar 50 Nombre del Sector
TecnicoID int -- Identificador de Técnico
UserCrea text 50 Usuario que ingreso o crea un nuevo registro
92 UserModif Text 50 Usuario que realizo alguna modificación
FechaModif nvarchar -- Fecha de modificación
Tabla tbl_TipoAtencion
Tabla que contiene las opciones de atención a los clientes.
Campo Tipo de Dato Tamaño Descripción
TipoAtencionID int(identity) -- Identificador
Descripción nvarchar 50 Descripción del Tipo Atención UserCrea text 50 Usuario que ingreso o crea un nuevo
registro FechaCrea nvarchar -- Fecha de ingreso o creación
UserModif text 50 Usuario que realizo alguna modificación
FechaModif nvarchar -- Fecha de modificación
Tabla tbl_Asesor
En esta tabla se almacena información específica referente a los Asesores
Campo Tipo de Dato Tamaño Descripción
AsesorID int(identity) -- Identificador
Nombre nvarchar 50 Nombre de Asesor
Apellido nvarchar 50 Apellido de Asesor
Telefono_Fijo nvarchar 25 Teléfono fijo de Asesor
Celular nvarchar 25 Celular de Asesor
Email nvarchar 30 Correo electrónico de Asesor UserCrea text 50 Usuario que ingreso o crea un nuevo
registro FechaCrea nvarchar -- Fecha de ingreso o creación
93
FechaModif nvarchar -- Fecha de modificación
Tabla tbl_Asesoria
Tabla la cual almacena información sobre el tipo de asesorías que se brindan.
Campo Tipo de Dato Tamaño Descripción
AsesoriaID int(identity) -- Identificador Descripción nvarchar max Descripción de Asesoría
Fecha_Inicio date -- Fecha de Inicio
Fecha_Finalizacion date -- Fecha de Finalización
AsesorID int -- Identificador de Asesor
UserCrea text 50 Usuario que ingreso o crea un nuevo registro
FechaCrea nvarchar -- Fecha de ingreso o creación
UserModif text 50 Usuario que realizo alguna modificación
FechaModif nvarchar -- Fecha de modificación
Tabla tbl_Consultor
Tabla que contiene los nombres de Consultores Individuales y Jefes de Proyectos Calificados.
Campo Tipo de Dato Tamaño Descripción
ConsultorID int -- Identificador
Nombre nvarchar 50 Nombre de Consultor
Apellido nvarchar 50 Apellido de Consultor
Especialidad nvarchar 50 Especialidad de Consultor
Telefono_Fijo nvarchar 25 Telefono Fijo
94 UserCrea nvarchar 50 Usuario que ingreso o crea un nuevo
registro FechaCrea date -- Fecha de ingreso o creación
UserModif nvarchar 50 Usuario que realizo alguna modificación
FechaModif date -- Fecha de modificación
Tabla tbl_Capacitaciones
En esta tabla se registran las capacitaciones que la institución ha realizado a las empresas.
Campo Tipo de Dato Tamaño Descripción
CapacitacioneID int -- Identificador
Descripción nvarchar max Descripción de Capacitacion
Fecha_Inicio date -- Fecha de Inicio
Fecha_Finalizacion date -- Fecha de Finalización
ConsultorID int -- Identificador de Consultor
TecnicoID int -- Identificador de Técnico
UserCrea nvarchar 50 Usuario que ingreso o crea un nuevo registro
FechaCrea date -- Fecha de ingreso o creación
UserModif nvarchar 50 Usuario que realizo alguna modificación
FechaModif date -- Fecha de modificación
Tabla tbl_Departamento
Tabla que almacena la lista de departamentos de la Zona Oriental que atiende la institución.
Campo Tipo de Dato Tamaño Descripción
95
Nombre nvarchar 50 Nombre de Departamento
UserCrea nvarchar 50 Usuario que ingreso o crea un nuevo registro
FechaCrea date -- Fecha de ingreso o creación
UserModif nvarchar 50 Usuario que realizo alguna modificación
FechaModif datetime -- Fecha de modificación
Tabla tbl_Municipio
Tabla que contiene los municipios que atiende la institución.
Campo Tipo de Dato Tamaño Descripción
MunicipioID int(identity) -- Identificador
Nombre nvarchar 50 Nombre de Municipio
UserCrea nvarchar 50 Usuario que ingreso o crea un nuevo registro
FechaCrea date -- Fecha de ingreso o creación
UserModif nvarchar 50 Usuario que realizo alguna modificación
FechaModif date -- Fecha de modificación
Tabla tbl_Programa
En esta tabla se almacenan la lista de programas de intervención los cuales la institución lleva a cabo para el desarrollo de las micro y pequeñas empresas.
Campo Tipo de Dato Tamaño Descripción
ProgramaID int -- Identificador
Descripción nchar 50 Descripción
Fecha_Inicio date -- Fecha de Inicio
Fecha_Finalizacion date -- Fecha de Finalización
96
TecnicoID int -- Identificador de Técnico
UserCrea nvarchar 50 Usuario que ingreso o crea un nuevo registro
FechaCrea date -- Fecha de ingreso o creación
UserModif nvarchar 50 Usuario que realizo alguna modificación
FechaModif date -- Fecha de modificación
Tabla tbl_Tecnico
En esta tabla está contenida información sobre los técnicos que laboran en la institución.
Campo Tipo de Dato Tamaño Descripción
TecnicoID int -- Identificador
Nombre nvarchar 50 Nombre de Técnico
Apellido nvarchar 50 Apellido de Técnico
Dirección nvarchar max Dirección de Técnico
Telefono_Fijo nvarchar 25 Teléfono Fijo
Celular nvachar 25 Celular
Email nvarchar 25 Correo Electrónico
AreaLaboral nvarchar 50 Área Laboral
UserCrea nvarchar 50 Usuario que ingreso o crea un nuevo registro
FechaCrea date -- Fecha de ingreso o creación
UserModif nvarchar 50 Usuario que realizo alguna modificación
97 Tabla tbl_Calidad
Esta tabla contiene datos sobre la calidad de los productos o servicios que las empresas ofrecen, se crea esta tabla para tomar más atributos que evaluar para predecir el potencial.
Campo Tipo de
Dato
Tamaño Descripción
CalidadProducto_ServicioID int -- Identificador
Descripción nvarchar 50 Descripción de la Calidad del Producto o Servicio. UserCrea text 50 Usuario que ingreso o crea un
nuevo registro FechaCrea nvarchar -- Fecha de ingreso o creación
UserModif Text 50 Usuario que realizo alguna
modificación FechaModif nvarchar -- Fecha de modificación
Tabla tbl_Ventas
Tabla la cual contiene el intervalo de ventas que puede llegar a alcanzar una empresa.
Campo Tipo de Dato Tamaño Descripción
VentasID int(identity) -- Identificador
Intervalo_Venta nvarchar max Intervalo de Venta
UserCrea text 50 Usuario que ingreso o crea un nuevo registro
FechaCrea nvarchar -- Fecha de ingreso o creación
98
FechaModif nvarchar -- Fecha de modificación
Tabla tbl_TipoContribuyente
Esta tabla contiene la descripción de los tipos de contribuyentes.
Campo Tipo de Dato Tamaño Descripción
TipoContribuyente int(identity) -- Identificador
Descripción nvarchar 50 Descripción del Tipo de Contribuyente UserCrea text 50 Usuario que ingreso o crea un nuevo
registro FechaCrea nvarchar -- Fecha de ingreso o creación
UserModif text 50 Usuario que realizo alguna modificación
99
100
5.14.2.2. Colección Inicial de los Datos
La colección Inicial de datos consiste en una lista de los datos que serán utilizados en el proyecto. Así mismo dicha lista incluye los requerimientos de selección de datos que sea preciso realizar para obtener información más detallada que la disponible.
Las actividades preliminares que se llevaron a cabo para hacer el uso correcto de las tablas seleccionadas consistió en:
Planificar qué información se necesitará
Verificar si la información que se necesita para alcanzar los objetivos de Data Mining está disponible.
Definir los atributos relevantes para alcanzarlos objetivos de Data Mining. Seleccionar las tablas de interés para el proyecto de Data Mining.
Seleccionar datos de cada tabla para el proyecto.
A continuación se presenta la vista realizada en Microsoft SQL Server con el objetivo de reflejar el contenido de varias tablas. Se creó una nueva vista para centrar, simplificar y personalizar la percepción de la base de datos para cada usuario que manipule la misma. Además se usara como mecanismo de seguridad, que permitirá a los usuarios obtener acceso a los datos por medio de la vista.
101
Figura 6. Vista en Microsoft SQL Server Management Studio
Se muestra una tabla donde se especifica el nombre de la tabla, el campo y la descripción del campo así también como el criterio de selección el cual consiste en determinar los datos que han sido identificados como relevantes o irrelevantes.
Nombre de Vista: VPotencial
Nombre de Tabla Campo Descripción Es
Relevante?
tbl_Empresa EmpresaID Identificador Si
tbl_Empresa Nombre Nombre de la
Empresa
Si
tbl_TipoContribuyente TipoContribuyenteID Tipo de Contribuyente
No
tbl_TipoEmpresa TipoEmpresaID Identificador de Tipo Empresa
Si
tbl_Contacto ContactoID Identificador de Contacto
102 tbl_SectorProductivo SectorProductivoID Identificador de
Sector Productivo
Si
tbl_Municipio MunicipioID Identificador de Municipio
Si
tbl_Departamento DepartamentoID Identificador de Departamento
Si
tbl_Asesoria AsesoriaID Identificador de Asesoría
Si
tbl_TipoAtencion TipoAtencionID Identificador de tipo de atención
No
tbl_Programa ProgramaID Identificador de Programa
Si
tbl_Ventas VentasID Identificador de
Ventas
Si
tbl_Calidad CalidadProducto_ServicioID Identificador de Calidad
Si
tbl_Empresa ContratoAnual_Empleados Número de Empleados Contratados Anual
Si
tbl_Empresa Potencial Potencial Si
tbl_Empresa Numero_Empleados Número de empleados de
empresa
Si
tbl_Empresa UserCrea Usuario que
ingreso o crea un nuevo registro
No
tbl_Empresa FechaCrea Fecha de ingreso o creación
No
tbl_Empresa UserModif Usuario que
realizo alguna modificación
No
tbl_Empresa FechaModif Fecha de
modificación
No
103 5.14.3 Etapa III. Preparación de los datos
5.14.3.1 Modo Offline
Cuando se trabaja en Modo Offline, el proyecto contiene archivos que son almacenados en la maquina cliente. Cuando se hacen modificaciones a los objetos en este ambiente, los cambios son almacenados en formato XML en el disco duro. Los modelos y los otros objetos no son creados en el servidor hasta que el usuario de data mining decida desplegarlos a un servidor destino de su elección. Esto provee capacidad de diseñar y probar los modelos en el servidor de testeo antes de desplegarlos en el servidor real.
Cuando se implementa un proyecto, BI Dev Studio valida los objetos en el proyecto, creando un script, y enviándolo al servidor. La unidad de implementación del proyecto entero, representa el Analysis Services. Estas herramientas son lo suficientemente inteligentes para implementar cambios mientras se está trabajando en el proyecto.
Comenzado el proyecto en BI Sev Studio en Modo Offline.
Un proyecto de SQL Server Analysis Services (SSAS) permite definir un esquema que contiene los objetos de una Base de Datos de Analysis Services, estos es modelos de minería de datos y objetos complementarios.
104 2. Desde el Menú Archivo, seleccionar Nuevo ➪Proyecto. El cuadro de dialogo del nuevo proyecto aparece como se muestra en la siguiente figura.
Figura 7. Pantalla Inicial de BI Dev Studio
3. Seleccionar Business Intelligence Projects. 4. Seleccionar Proyecto de Analysis Services. 5. Introducir el nombre del Proyecto.
105
Figura 8. Cuadro de dialogo de Nuevo Proyecto
6. Clic en Aceptar
5.14.3.2 Creación del Origen de Datos. (Data Source)
Un origen de datos es una conexión de datos que se administra en el proyecto y se implementa en el (SSAS), contiene el nombre del servidor y la base de datos donde residen los datos del origen
Para crear el data source, seguir estos pasos:
1. Clic derecho en el folder de Orígenes de datos en el Explorador de soluciones y seleccionar Nuevo Origen de Datos para iniciar el Asistente de Orígenes de datos.
106
Figura 9. Crear un Nuevo Origen de Datos
2. Aparece la página de introducción del Asistente de orígenes de datos como se muestra en la figura, clic en Siguiente.
107 3. Clic en el botón Nuevo para agregar una conexión a la base de datos.
Figura 11. Selección de definición de conexión
4. Se abrirá el cuadro de diálogo de Administrador de conexiones.
108 5. En la lista Proveedor del Administrador de conexión, seleccionar OLE DB
nativoo\Microsoft OLE DB Provider for SQL Server.
Figura 13. Selección del Proveedor
6. En la lista Nombre del servidor, seleccionar el servidor en el que se aloja la base de datos BD_DataMining (seleccionar localhost si la base de datos se aloja en el servidor local). En la lista Seleccionar o introducir el nombre de la base de datos
109
Figura 14. Selección de Base de Datos
7. Verificar la conectividad presionando el botón Probar Conexión, debe obtenerse el siguiente mensaje.
Figura 15. Prueba de Conexión
8. Automáticamente aparece el nombre de la conexión de los datos y las propiedades de conexión de los datos, clic en Siguiente
110 Figura 16. Propiedades de Conexión
9. En la página Información de Suplantación, seleccionar Utilizar la cuenta de servicio, clic en Siguiente
111 10. Introducir el nombre del origen de datos, clic en Finalizar
Figura 18. Finalización del Asistente
5.14.3.3 Creando Vista del Origen de Datos (Data Source View)
Una vista de origen de datos es una abstracción del origen de datos, permite modificar la estructura de los datos (sin modificar los objetos de la base de datos original) para que sean más significativos en el contexto del proyecto. Se pueden seleccionar tablas, establecer relaciones entre ellas, adicionar columnas y vistas con nombre.
Para crear la Vista del Origen de Datos, seguir estos pasos:
1. Clic derecho en el folder de Vistas de Origen de datos en el Explorador de Soluciones y seleccionar Nueva vista de origen de datos para iniciar el asistente.