ESTUDIAR P ARA PREVER Y PREVER P ARA ACTUAR
P R E M I O INTRAGOB 2006
a la 06
RSGC - 617 INICIO: 2012.09.28 TERMINO: 2015.09.28
ISO 9001:2008 PROCESO EDUCATIVO S G C
S N E S T IMNC-RSGC-617
IMNC-RSGC-617
IMNC-RSGC-617
CERTIFICADO BAJO LA NORMA ISO 9001:2008 CERTIFICADO BAJO LA NORMA ISO 9001:2008
VILLA DE ÁLVAREZ, COL., DICIEMBRE DE 2014
SISTEMA GESTOR DE CONOCIMIENTO PARA PYMES
TESIS PROFESIONAL
QUE PARA OBTENER EL GRADO DE
MAESTRO EN SISTEMAS COMPUTACIONALES
PRESENTA
GIBRÁN ERNESTO QUITEÑO CARRILLO
ASESORA DE TESIS
M. C. ROSA DE GUADALUPE CANO ANGUIANO
Instituto Tecnológico de Colima
I
E
P Í G R A F E“El genio se hace con el 1% de talento y el 99% de trabajo.”
Í
N D I C EResumen ________________________________________________________ 1
Abstract _________________________________________________________ 2
Capítulo 1. Introducción _____________________________________________ 3
1.1. Introducción _________________________________________________ 3
1.2. Razones que motivaron la elección del tema ________________________ 3
1.3. Contexto del problema _________________________________________ 4
1.4. Problema a investigar __________________________________________ 4
1.5. Hipótesis del trabajo ___________________________________________ 5
1.6. Objetivos ___________________________________________________ 5
1.7. Descripción de la organización del trabajo __________________________ 6
Capítulo 2: Estado del Campo del Conocimiento __________________________ 8
2.1. Introducción _________________________________________________ 8
2.2. Marco histórico _______________________________________________ 9
2.2.1. Diseño de data Werehouse __________________________________________ 9
2.2.2. Evolución de las tecnologías Web ____________________________________ 10
2.3. Marco contextual ____________________________________________ 12
2.4. Marco teórico _______________________________________________ 13
2.4.1. Conceptos básicos de Inteligencia de negocios _________________________ 13
2.4.2. Metodologías ____________________________________________________ 21
2.4.3. Herramientas Web utilizadas para este proyecto. ________________________ 22
2.4 Conclusión. _________________________________________________ 23
Capítulo 3: Desarrollo del Proyecto ___________________________________ 25
3.1. Introducción ________________________________________________ 25
3.2. Análisis del sistema __________________________________________ 25
3.3.1. Requerimientos. ________________________________________________ 27
3.4. Diseño del sistema ___________________________________________ 28
3.4.1. Diseño arquitectónico ___________________________________________ 29
3.4.2. Diseño de la base de datos (Diagrama Entidad-Relación) _______________ 29
3.4.3. Diseño de interfaces ____________________________________________ 32
3.5. Programación _______________________________________________ 40
3.5.1. Creación del Software para la extracción de información. _______________ 41
3.5.2. Desarrollo de los servicios web. ___________________________________ 41
3.5.3. Configuración IIS. ______________________________________________ 44
3.5.4. Desarrollo de la aplicación móvil. __________________________________ 48
3.5.5. De interfaces __________________________________________________ 49
3.6. Pruebas ___________________________________________________ 54
3.6.1 De unidad e integración __________________________________________ 54
3.6.2 De operación __________________________________________________ 55
3.6.3 De Tención ___________________________________________________ 55
3.6.4 De usabilidad __________________________________________________ 57
3.7 Conclusión _________________________________________________ 58
Capítulo 4: Resultado del caso de estudio ______________________________ 59
4.1. Introducción __________________________________________________ 59
4.2 Desarrollo del caso de uso _______________________________________ 59
4.3. Conclusión. __________________________________________________ 64
5. Conclusiones y recomendaciones __________________________________ 65
Referencias bibliográficas __________________________________________ 68
ÍNDICE DE FIGURAS
FIG.1PROCESO DE DISEÑO DE UN DATA WAREHOUSE ... 9
FIG.2LA MINERÍA DE DATOS COMO UN PASO EN EL PROCESO ... 16
FIG.3ARQUITECTURA GENERAL DE UN SISTEMA DE MINERÍA DE DATOS ... 18
FIG.4METODOLOGÍA KDD ... 21
FIG.5FASES DE LA METODOLOGÍA XP ... 22
FIG.6MODELO CONCEPTUAL ... 26
FIG.7MODELO DE LA ARQUITECTURA DEL SISTEMA ... 29
FIG.8DIAGRAMA ENTIDAD-RELACIÓN DEL PROCESO DE VENTAS ... 31
FIG.9PROCESO DE INVENTARIOS ... 31
FIG.10PROCESO DE CUENTAS POR COBRAR ... 32
FIG.11INTERFAZ DE SELECCIÓN DE FUENTE DE DATOS ... 33
FIG.12CREACIÓN DE PLANTILLAS XML PARA LA EXTRACCIÓN DE INFORMACIÓN. ... 34
FIG.13GRAFICO LINEAL DE INFORMACIÓN. ... 34
FIG.14GRAFICA EN BARRA DE INFORMACIÓN. ... 35
FIG.15GRAFICA EN PASTEL DE INFORMACIÓN. ... 35
FIG.16INTERFAZ DE VISUALIZACIÓN EN TABLA DINÁMICA. ... 36
FIG.17CREACIÓN DE SERVICIOS WEB POR MEDIO DE XML. ... 36
FIG.18SERVICIOS WEB PARA APLICACIÓN MÓVIL. ... 37
FIG.19PANTALLA PRINCIPAL ... 37
FIG.20PANTALLA DE CONFIGURACIÓN DEL WS... 38
FIG.21INICIO DE SESIÓN... 38
FIG.22MENÚ DEL SISTEMA MÓVIL... 39
FIG.23TOTAL DE CONSULTA ... 39
FIG.24DETALLE DEL TOTAL DE CONSULTA ... 40
FIG.25PILA DE PROTOCOLO OS DE LOS WEBSERVICE ... 42
FIG.26AGREGAR SERVICIO WEB COMO APLICACIÓN. ... 45
FIG.27SERVICIO WEB DE ALTA EN EL IIS. ... 45
FIG.28DIRECTORIO LOS ARCHIVOS FUENTES. ... 46
FIG.29INVOCANDO AL SERVICIO WEB. ... 47
FIG.30EJECUCIÓN DE UN MÉTODO WEB. ... 47
FIG.31EDITOR GRÁFICO DE LAYOUTS ... 48
FIG.32PRUEBA DE INTEGRACIÓN CON EL PROCESO DE INFORMACIÓN. ... 54
FIG.33RENDIMIENTO DE SERVIDOR. ... 57
FIG.34MODELO DE DATOS PARA CASO DE USO. ... 59
FIG.35PROCESAMIENTO DE LOS DATOS EN EL SOFTWARE ... 60
FIG.36PROCESO DE SELECCIONA Y CREACIÓN DE DATOS ... 61
FIG.37MÓDULO DE VISUALIZACIÓN DE DATOS ... 62
FIG.38TABLA DINÁMICA. ... 62
FIG.39PUBLICACIÓN DEL NUEVO MÉTODO DEL SERVICIO WEB ... 63
ÍNDICE DE TABLAS
TABLA 1CONFIGURACIÓN DEL MÉTODO POST ... 43
TABLA 2CONEXIÓN INTERNA PARA LA COMUNICACIÓN CON EL SERVIDOR DE DATOS ... 43
TABLA 3FUNCIÓN JSON PARA ENVIÓ DE DATOS. ... 44
TABLA 4CONSUMO DE SERVICIOS WEB. ... 49
TABLA 5CÓDIGO INTERFAZ DE FUENTE DE DATOS. ... 50
TABLA 6CÓDIGO DE INTERFAZ GENERADOR DE DATOS. ... 52
TABLA 7CARACTERÍSTICAS DEL SERVIDOR. ... 55
TABLA 8CARACTERÍSTICAS DEL CLIENTE ESCRITORIO. ... 56
Instituto Tecnológico de Colima Página 1
R
E S UM E N
La calidad total, exige cada vez más competitividad para las empresas, porque es
el cliente; el que determina la calidad en nuestros productos o servicios.
Cada minuto que pasa sin resolverse un problema, se pierde dinero, productividad
y reputación, por lo que esto ha motivado a desarrollar un software de manejo de
información visual que agilice la toma de decisiones, así obteniendo mayor
productividad y calidad en la información presentada.
La minería de datos es un proceso que tiene como objetivo extraer información de
un conjunto de datos y transformarla en una estructura comprensible para su uso
posterior, facilitando la identificación de patrones y tendencias. Esto permite el
aprovechamiento del valor de la información para que los directivos tengan un
mejor conocimiento de su negocio y poder tomar decisiones más confiables.
Por tal razón analizaremos las variables internas o externas que nos generan
conocimiento y nos apoya a los emprendedores a tomar mejores decisiones en
nuestro sistema productivo.
La propuesta metodológica para este trabajo está basada en la metodología para
el descubrimiento del conocimiento de base de datos (Knowledge Discovery in
Databases), el objetivo principal que persigue este proyecto de investigación, es
desarrollar un software que permita procesar y generar consultas realizadas de la
información anteriormente procesada así generando resultados de una forma más
confiable, clara y que facilite la toma decisiones para las pequeñas y medianas
Instituto Tecnológico de Colima Página 2
A
B ST R A CT
Total quality demands increasingly competitive for businesses, because it is the
client; determines the quality of our products or services.
Every minute that goes unsolved problem, money, productivity and reputation is
lost, so this has led to develop a management software visual information to speed
decision making, thus obtaining higher productivity and quality of the information
provided.
Data mining is a process that aims to analyze and extract information from existing
database, facilitating the identification of patterns and trends. This allows the use of
value of information for managers to have a better understanding of your business
and to make more confident decisions.
For that reason we analyze the internal and external variables that we generate
knowledge and support us entrepreneurs to make better decisions in our
production system.
The methodology for this study is based on a methodology for knowledge
discovery in database (Knowledge Discovery in Databases), the main objective of
this research project is to develop a software to process and generate inquiries
made of generating information previously processed results in a more reliable,
Instituto Tecnológico de Colima Página 3
C
A P Í T U L O1 .
I
N T R O D U C C I Ó N1.1. Introducción
n este capítulo se dará una introducción sobre la motivación y razones de
elección de tema de tesis, abordando la problemática que dio lugar a su
creación, junto con una descripción de la propuesta llevada a cabo para
hacer frente al problema enunciado. También se comentarán los objetivos, la
organización y el alcance de la tesis para continuar.
.
1.2. Razones que motivaron la elección del tema
La inteligencia de negocios es un proceso interactivo para explorar y analizar
información estructurada sobre un área (normalmente almacenada en un data
Warehouses), para descubrir tendencias o patrones, a partir de los cuales derivar
ideas y extraer conclusiones (GARDNER, 1998).
Dentro de este documento solo nos limitaremos en el procesamiento y extracción
de información del área administrativa de una empresa de venta de alimento de
comida rápida. ¿Pero cómo tomar una decisión más certera?, ¿Cómo saber
cuáles son las Preferencias de mi productos a mis clientes Colimenses?
Estas son algunas de las preguntas que la empresa debe formularse y en cierta
manera conocer que es lo que se está buscando o que es lo que necesita, para
ello crear preguntas que abarquen los puntos más importantes de los productos y
del negocio.
Instituto Tecnológico de Colima Página 4
1.3. Contexto del problema
Con alrededor de 650 mil habitantes, Colima es un estado costero, el quinto más
pequeño de México con 5 mil 455 kilómetros cuadrados, que representan el 0.3
por ciento de la superficie del país.
Es el décimo más densamente poblado y con una proporción de su población,
relativamente más alta que la media nacional, que vive en zonas urbanas. En
cuanto a educación, Colima tiene niveles de educación superiores a la media
nacional, ocupando la posición número 11 a este respecto.
Según datos del censo económico 2010 del Instituto Nacional de Estadística y
Geografía (INEGI), en Colima existen 26 mil 171 unidades económicas, de las
cuales el 99 por ciento son MIPyME’s, que generan alrededor del 80 por ciento del
trabajo.
Dada la importancia que las MIPyME’s tienen en el crecimiento económico y en la
generación de empleos, Colima ha instalado un Sistema de Apertura Rápida de
Empresas (SARE) en 6 de sus 10 municipios; comprometiendo la apertura de los
4 restantes y certificación de todos en términos de la Norma 01-SARE Comisión
Federal de Mejora Regulatoria (COFEMER).
1.4. Problema a investigar
En la actualidad la empresa de comida rápida están procesando un gran volumen
de información administrativa, de la cuales esa información proviene de distintas
fuentes de datos, que actualmente esa información tiene que ser procesada
independientemente en diferentes sistemas y extraer un resultado por separado,
Instituto Tecnológico de Colima Página 5
Por consecuencia mi propuesta es desarrollar una de herramienta de minería que
unifique toda esa información en un Data Wherehouse para extraen resultados
dentro del mismo software, así esa información estará procesada en conjunto y
con la posibilidad de definir el rumbo de una empresa, esta constituye un elemento
básico para desarrollo del mismo, combinado con las tecnologías de
programación, repercute ampliamente en la creación de un software adecuado
para la medición y apoyo a la toma de decisiones.
1.5. Hipótesis del trabajo
Utilizando las herramientas de minería de datos podremos reducir la incertidumbre
y el tiempo en la toma decisiones dentro de la empresa.
Identificación de variables
El Tiempo. Reducir el tiempo en la toma de decisiones de la empresa.
Precisión. Mayor precisión en la toma de decisiones dentro de la empresa.
1.6. Objetivos
Objetivo general
Desarrollar una de herramienta de minería de datos que unifique toda esa información en un Data Wherehouse para la extracción de información así reduciendo la incertidumbre y el tiempo en la toma decisiones dentro de la empresa.
Objetivos específicos
Instituto Tecnológico de Colima Página 6
Analizar los requerimientos y procesos relacionados con la minería de datos.
Diseño del sistema de extracción de datos, data wherehouse y visualización de la información.
Diseño de aplicación para consulta de información para dispositivos móviles (Andriod).
Desarrollar una aplicación para agilizar el proceso de extracción de datos de diferentes fuentes de datos y la generación de información de forma
gráfica.
Desarrollo de Servicios Web de información.
Desarrollo de aplicación para consulta de información para dispositivos móviles (Andriod).
Implementación de un servidor IIS para la consulta de información desde servicios web.
1.7. Descripción de la organización del trabajo
La organización del documento parte de la introducción del proyecto donde se
analizan algunos aspectos como lo son el planteamiento del problema, hipótesis y
objetivos que persigue el mismo, posteriormente se revisan las temáticas
históricas, conceptuales y relacionadas al mismo.
Esta tesis cuenta con 3 capítulos más. En el capítulo 2 se presenta el proceso de
diseño de un Data Warehouses y se mencionan trabajos existentes así como la
metodología utilizada para desarrollar el software para minería de datos.
En el capítulo 3 se desarrolla el proyecto de minería de datos, la data Warehouses
así como los servicios web y la aplicación móvil, también se describe brevemente
Instituto Tecnológico de Colima Página 7
El capítulo 4 se presenta las conclusiones, trabajo en curso y trabajo futuro. Por
último se presentan los apéndices referenciados en el documento y la bibliografía
Instituto Tecnológico de Colima Página 8
C
A P Í T U L O2 :
E
S TA D O D E LC
A M P O D E LC
O N O C I M I E N T O2.1.
Introducción
Este trabajo se sitúa en el área de diseño de un software de minería de datos para
la generación de un Data Warehouses; específicamente propone técnicas para la
construcción de un esquema lógico relacional de Data Warehouses a partir de un
esquema conceptual.
En este capítulo se presenta una revisión del marco histórico en dichas áreas. En
el capítulo 2 se presenta el proceso de diseño de un Data Warehouses y se
mencionan trabajos existentes, sobre la generación de modelos de inteligencias
de negocios están basados a partir de un modelo relacional pero para que ese
modelo relacional pase a ser un data Warehouses necesitamos aplicar nueva
técnicas, se estudiaron algunos de esos trabajos que por medio de la ayuda de los
data Warehouses se pueden definir herramientas para la inteligencia de negocios.
También mencionaremos sobre el uso de la tecnología web que se utilizara para la
consulta de la información de la data Warehouses.
En este capítulo conoceremos los conceptos así como las metodologías y
Instituto Tecnológico de Colima Página 9
2.2. Marco histórico
2.2.1. Diseño de data Werehouse
Los sistemas de Data Warehouses han sido objeto de variados trabajos de investigación en la última década. Los trabajos comprenden diferentes áreas y diferentes enfoques.
Sus marcadas diferencias con los sistemas operacionales provocaron el estudio de nuevas técnicas y metodologías de diseño. Como en los sistemas de bases de datos tradicionales, el proceso de diseño de la Data Warehouses puede dividirse en tres etapas secuenciales: diseño conceptual, diseño lógico y diseño físico [Bat92].
En la Figura 4 se muestran las etapas con sus respectivas entradas y salidas de información
Instituto Tecnológico de Colima Página 10
En la etapa de diseño conceptual se construye un esquema conceptual de la realidad a partir de los requerimientos y/o bases fuentes. Dicho esquema conceptual es enriquecido con requerimientos de performance y almacenamiento durante la etapa de diseño lógico, y a partir de él se genera un esquema lógico, que es dependiente del tipo de modelo y tecnología de DBMS.
Hay dos familias de esquemas lógicos: relacionales y multidimensionales, y actualmente se están considerando esquemas híbridos. Por último, en la etapa de diseño físico se implementa el esquema lógico en el manejador de bases de datos elegido, teniendo en cuenta técnicas de optimización física, como son: índices particiones, etc.
Las diferentes propuestas de diseño de Data Warehouses se enfocan en alguna de estas etapas; algunos trabajos proveen metodologías que involucran varias etapas. Algunos autores proponen metodologías con más etapas, que son, sub-etapas de las planteadas [Gol98],
2.2.2. Evolución de las tecnologías Web
En éste apartado se mencionan las tecnologías que se dieron inicio al desarrollo
de los servicios Web.
La tecnología de cómputo distribuido ha sido desarrollada durante los últimos 30
años sin embargo al inicio de su desarrollo era muy cara su implementación, no
fue sino hasta principio de 1970 cuando esto cambio con la aparición de los
mainframes, los cuales fueron más accesibles de adquirir (Krafzig, Banke, Slama,
2004).
Durante los años 80’s y 90’s la tecnología existente permitía a los equipos de
cómputo acceder a las aplicaciones de manera remota, fue entonces cuando la
ejecución lógica fue dividida entre un cliente y un servidor de base de datos. Para
ayudar en la labor de acceder a las aplicaciones de forma remota surge la
tecnología Common Object Request Broker Architecture (CORBA). La
funcionalidad de CORBA consistía en un identificador único llamado Object
Instituto Tecnológico de Colima Página 11
proveer servidores que expusieran un gran número de funciones remotamente
accesibles.
La evolución del ámbito distribuido cambió su rumbo a mitad de los años 90’s, un
ejemplo de ello fue el año 1997 cuando Sun Microsystems introdujo la tecnología
de ambiente distribuido Enterprise Java Beans (EJB). EJB es similar a CORBA,
una característica importante de EJB es el concepto de contenedor, que es el
responsable de la administración de recursos como objetos, conexiones y
transacciones en un servidor EJB. Algunas tecnologías como Remote Procedure
Call (RPC), CORBA, Distributed Component Object Model (DCOM) y EJB dieron
inicio al surgimiento de un gran número de soluciones de ámbito distribuido
basadas en middleware. Sin embargo, el surgimiento de estas soluciones presenta
un problema, la heterogeneidad de los middleware, para hacer frente a este
inconveniente surgió el Extensible Markup Language (XML) como un formato
independiente de los middleware para el intercambio de datos y documentos entre
diferentes aplicaciones (Krafzig, Banke, Slama, 2004).
Debido a la necesidad de un estándar para el intercambio de mensajes en XML, la
compañía Microsoft propuso la iniciativa de crear los servicios Web basados en
XML con la utilización del protocolo Simple Object Access Protocol (SOAP), y a su
vez, realizó un lenguaje de definición de interfaz llamado Web Service Description
Language (WSDL) para describir la interfaz de servicio, en la actualidad esta
iniciativa forma parte de los estándares del consorcio World Wide Web donde han
colaborado las empresas más importantes e influyentes de la Web.
Con el problema de la heterogeneidad de los middleware, SOAP y WSDL
permitieron la unión de varios protocolos de comunicación de bajo nivel, por
ejemplo, SOAP permite la comunicación sobre un middleware existente.
El desarrollo de arquitecturas de cómputo distribuido como CORBA, DCOM, EJB y
Instituto Tecnológico de Colima Página 12
manera, proveen las bases de la Arquitectura Orientada a Servicios (SOA por sus
siglas en inglés).
Desde el punto de vista tecnológico es importante contar con una arquitectura de
software que sea interoperable, escalable y que además permita la reutilización de
los servicios ofrecidos a los diferentes consumidores. De tal manera que si en el
futuro se desea hacer una actualización al servicio prestado, no se tenga que
modificar la aplicación completa, sino únicamente el servicio, es decir, la
independencia de los servicios. Esta es una de las ventajas de trabajar con SOA.
La utilización de SOA está en aumento, según un estudio realizado por la empresa
de investigación tecnológica Gartner, predijo que para el 2010 el software de
aplicación tendrá un crecimiento del 80% en sus ganancias a través de productos
basados en SOA (Josuttis, 2007). Dentro de las ventajas que podemos mencionar
acerca de SOA destaca el desarrollo eficiente, reutilización de los servicios,
evolución, interoperabilidad e independencia de los servicios.
2.3.
Marco contextual
2.3.1. Trabajos relacionados
La compañía Alteryx se dedica a la creación de tecnologías para la inteligencia de
negocios (BI), proporcionando a sus clientes de todas las herramientas necesarias
para combinar toda la comercialización, las ventas y los datos del producto que
necesitan, así como analizar el impacto real de la comercialización y tomar las
mejores decisiones del mercado.
Otra compañía internacional (Stocker Group, 2004), provee a sus clientes
soluciones integrales a través de cuatro líneas de negocio: Gestión de
conocimiento, marketing en internet, servicios de consultoría, análisis, monitoreo y
Instituto Tecnológico de Colima Página 13
Los trabajos existentes en diseño conceptual para data Warehouse corresponden
fundamentalmente a modelos de datos.
Calvanese, D. De Giacomo, G. Lenzerini, M. Nardi, D. Rosati, R.: “Source
integration in data warehousing”. Technical Report. 1998.
Hahn, K. Sapia, C. Blaschka, M.: ”Automatically Generating OLAP Schemata from Conceptual Graphical Models", DOLAP’00, USA, 2000.
2.4. Marco teórico
2.4.1. Conceptos básicos de Inteligencia de negocios
Sistemas de Información ejecutivo
Un Sistema de Información Ejecutivo (SIE) ayuda a los ejecutivos a contar con
información oportuna y precisa para tomar decisiones. Un sistema de información
para ejecutivos es un sistema que proporciona al ejecutivo información sobre el
desempeño global de la compañía. La información se puede recuperar fácilmente
y pude presentarse con distintos niveles de detalle. También se usa el término
sistema de apoyo para ejecutivos (McLeod Jr., 2000).
Un Sistema de Información Ejecutivo (SIE-EIS: Executive Information Systems por
sus siglas en inglés) es “un sistema de información informático que se ha
concebido con el objetivo de que los directivos de una organización mejoren la
calidad de su trabajo. Por este motivo, facilita el acceso a las informaciones de
mayor relevancia, mejora la comunicación dentro de la organización y permite una
Instituto Tecnológico de Colima Página 14 Data warehouse
Un data warehouse es el lugar donde se recoge toda aquella información que es
necesaria para la toma de tomar decisiones por los diferentes departamentos de
una compañía. Para generar esta información es necesario acceder a datos de
distintos esquemas de datos de la organización y construir los procesos que
apliquen la lógica del negocio y trasladen los resultados hasta el data warehouse
(Barranco, 2001).
Data mart
Un data mart es un data Warehouses, pero con un dominio mucho más pequeño.
El data mart se puede restringir a un tipo particular de datos, a determinada
función de negocios, a una unidad de negocios específica, o a un
Área geográfica (Kroenke, 2003).
Minería de datos
Los almacenes de datos (data Warehouses) y los mercados de datos (data marts)
son usados en un amplio rango de aplicaciones. Los ejecutivos de negocios usan
los datos almacenados en un data warehouse y en un data mart para realizar
análisis de datos y tomar decisiones estratégicas. Los almacenes de datos son
muy utilizados en la banca y en las compañías que proporcionan servicios
financieros, para detectar necesidades de consumidores y sectores de distribución
rentables.
Los almacenes de datos tuvieron que pasar por diferentes fases. Inicialmente,
eran muy utilizados para la generación de reportes y para contestar a preguntas
predefinidas. Progresivamente, los almacenes de datos fueron usados para
analizar información resumida y detallada, donde los resultados eran presentados
en forma de reportes y gráficas. Posteriormente, los almacenes de datos fueron
usados con propósitos estratégicos, realizando análisis multidimensional y
Instituto Tecnológico de Colima Página 15
Finalmente, los almacenes de datos fueron empleados para el descubrimiento de
conocimiento y toma de decisiones estratégicas usando herramientas de minería
de datos.
En este contexto, las herramientas para data Warehouses pueden ser clasificadas
en herramientas de acceso y recuperación de datos, herramientas de reporteo de
datos, herramientas de análisis de datos y herramientas de minería de datos.
Los usuarios de negocio necesitan conocer el contenido de su data Warehouses o
data mart, cómo explotarlo por medio de herramientas de análisis y como
presentar el resultado de dicho análisis.
Existen tres tipos de aplicaciones de data warehouse: procesamiento de
información, procesamiento analítico y minería de datos (Han, 2006).
El procesamiento de información soporta consultas, análisis estadístico básico y reporteo usando hojas de cálculo, tablas, gráficas.
El procesamiento analítico soporta operaciones OLAP básicas, incluyendo drill-down, roll-up y pivoteo. Estas operaciones generalmente se hacen en
datos históricos ya sea sumarizada o a detalle. El mayor esfuerzo en este
tipo de procesamiento es el análisis multidimensional.
La minería de datos soporta el descubrimiento de conocimiento buscando patrones y asociaciones ocultas, construyendo modelos analíticos,
realizando clasificación y predicción y presentando los resultados de la
minería usando herramientas de visualización.
Y, ¿qué significa entonces el concepto de minería de datos? Se refiere a extraer o
“minar” conocimiento de grandes cantidades de datos (Han, 2006).
Mucha gente se refiere a la minería de datos como un sinónimo de otros términos
como Descubrimiento de Conocimiento (KDD por sus siglas en inglés Knowledge
Dicovery from Data). Otras personas ven a la minería de datos como un paso
Instituto Tecnológico de Colima Página 16
podemos analizar en la figura 2 y consiste en una secuencia iterativa de los pasos
siguientes (Han, 2006).
Fig. 2 La minería de datos como un paso en el proceso
1. Limpieza de datos (remover inconsistencias en los datos).
2. Integración de los datos (múltiples fuentes de datos pueden ser
combinadas).
3. Selección de datos (los datos importantes para determinado análisis son
recuperados de la base de datos).
4. Transformación de los datos (convertir o consolidar los datos en alguna
forma apropiada para minar, realizando operaciones de resumen o
agregación, por ejemplo).
5. Minería de datos (es un proceso en donde mediante la aplicación de
métodos inteligentes se extrae patrones de datos).
6. Evaluación de patrones (identificar los patrones realmente importantes que
Instituto Tecnológico de Colima Página 17
7. Presentación de conocimiento (técnicas de visualización y representación
de conocimiento son usadas para presentar el conocimiento minado al
usuario).
Los paso del 1 al 4 son diferentes formas de pre procesamiento de datos, en
donde los datos son preparados para minar. El paso 5 (minería de datos) puede
interactuar con el usuario o con la base de conocimiento. Los patrones de interés
son presentados al usuario y pueden ser almacenados como un nuevo
conocimiento en la base de conocimiento. Es importante resaltar que de acuerdo a
lo anterior, la minería de datos es solo un paso en el proceso completo, aunque es
un paso esencial porque permite descubrir patrones escondidos para su
evaluación (paso 6) , como último tenemos la presentación de la información de
los datos los cuales ya fueron procesados y depurados (paso 7)
Inteligencia de negocios
El termino Inteligencia de Negocios (Business Intelligence), es un concepto que
“está de moda” (Daft, R. (2007)) . La inteligencia de negocios se refiere a un análisis
de alta tecnología de los datos corporativos, con el fin de tomar mejores
decisiones estratégicas. También conocida como minería de datos, la inteligencia
de negocios implica buscar y analizar datos provenientes de múltiples fuentes
ubicadas en toda la empresa, y algunas veces derivados de fuentes externas, a fin
de identificar patrones y relaciones que pueden ser importantes.
Arquitectura de la minería de datos
La arquitectura de un sistema de minería de datos típico puede tener los
Instituto Tecnológico de Colima Página 18
Fig. 3 Arquitectura general de un sistema de minería de datos
Una base de datos, un data Warehouses, la www (Word Wide Web) u otro
repositorio de información: Esto es una o un conjunto de bases de datos,
almacenes de datos, hojas de cálculo u otros tipos de repositorios de información.
Un servidor de base de datos o de data warehouse: El servidor de base de datos o del data warehouse es responsable de buscar datos relevantes, basado
en las solicitudes de minería de datos del usuario.
Conocimiento base: Es el dominio de conocimiento que es usado para guiar la búsqueda o evaluar la importancia de los patrones resultantes. Tal dominio de
conocimiento puede incluir el concepto de jerarquías, usadas para organizar
Instituto Tecnológico de Colima Página 19
Motor de minería de datos: Este es esencial para el sistema de minería de datos
y consiste en un conjunto de módulos funcionales para realizar tareas de
caracterización, asociación y análisis de correlación, clasificación, predicción,
análisis de valores atípicos y evaluación.
Módulo de evaluación de patrones: Este componente normalmente emplea
métricas de interés e interactúa con el módulo de minería de datos para enfocar la
búsqueda hacia ciertos patrones. Alternativamente, el módulo de evaluación de
patrones puede estar integrado con el módulo de minería de datos, dependiendo
de la implementación del método de minería utilizado.
Interface de usuario: Este módulo es el medio de comunicación entre el usuario y
el sistema de minería de datos, permitiendo al usuario interactuar con el sistema
especificando consultas, proveyendo información de ayuda para enfocar la
búsqueda y realizando exploración basado en resultados previos. Este
componente le permite al usuario navegar en bases de datos y almacenes de
datos o estructuras de datos, evaluar patrones de minería y visualizar patrones de
diferentes maneras.
Técnicas de la minería de datos
Las técnicas de minería de datos y los tipos de patrones que pueden encontrar
son los siguientes:
Discriminación de datos. Es una comparación de las características generales de una clase objetivo de datos contra uno o un conjunto de clases en contraste.
Por ejemplo, para el usuario puede ser importante comparar las características de
algún equipo electrónico cuyas ventas se hayan incrementado en determinado
porcentaje en el último año, contra otros equipos cuyas ventas hayan disminuido
Instituto Tecnológico de Colima Página 20
Asociación. Corresponde al descubrimiento de patrones que ocurren
frecuentemente de manera simultánea. Como la compra de leche y pan o la
compra de una computadora seguido por la compra de una cámara digital que a
su vez le puede seguir la compra de una tarjeta de memoria.
Clasificación y predicción. Consiste en buscar un modelo que permita describir y
distinguir clases de datos o conceptos, con el propósito de usar el modelo para
predecir objetos de clases no conocidas. El modelo obtenido se basa en el análisis
de un conjunto de datos de prueba. Por ejemplo, El número de personas que
pudieran comprar cierto tipo de auto con base en su edad, ingreso, trabajo y
género.
Clustering. A diferencia de la clasificación y predicción (punto anterior), el cual
analiza clases etiquetadas de objetos de datos, esta funcionalidad analiza objetos
de datos sin tener una clase ya conocida. En general, no existe una clase
conocida para cierto tipo de objetos. Los objetos son agrupados según sus
similitudes en comparación con objetos que a su vez son muy diferentes con
respecto a objetos pertenecientes a otros grupos. Por ejemplo, los clientes en
diferentes poblaciones pueden agruparse con base en sus preferencias o
diferencias de compra por población, edad, ingreso, región
Análisis evolutivo. Este tipo de análisis describe y modela regularidades o tendencias para objetos cuyo comportamiento cambia con el tiempo. Por ejemplo
un inversionista que vende o compra acciones de una empresa, con base en el
Instituto Tecnológico de Colima Página 21
2.4.2. Metodologías
Metodología KDD utilizada para el descubrimiento del conocimiento.
En este proyecto se utilizó la metodología KDD basada en la metodología para el descubrimiento del conocimiento de base de datos (KDD Fig. 4).
Metodología XP utilizada para el desarrollo del software del proyecto.
La Programación Extrema es una metodología ligera de desarrollo de software
que se basa en la simplicidad, la comunicación y la realimentación o reutilización
del código desarrollado. Desarrollada por (Beck , Fowle, 2000). En la figura 5 se
muestran las etapas de la metodología XP, con las características que definen a
cada una de ellas.
Instituto Tecnológico de Colima Página 22
Fig. 5 Fases de la metodología XP
2.4.3. Herramientas Web utilizadas para este proyecto.
Servicios Web.
El consorcio de tecnologías Web, (W3C, 2004) define a los servicios Web como un
sistema de software identificado por un URL (Uniform Resource Locator), cuyas
interfaces públicas y enlaces están definidos y descritos usando XML (eXtended
Markup Language). Su definición puede ser descubierta por otros sistemas de
software. Estos sistemas pueden interactuar con el servicio Web de la manera
preestablecida en su definición, usando mensajes basados en XML y
transportados por los protocolos de Internet.
Los servicios Web no son programas ejecutables, sino que se encuentran dentro
de programas de aplicación y scripts. Requieren de varias tecnologías basadas en
XML para transportar y transformar datos dentro y fuera de programas y base de
datos, dichas tecnologías se mencionan en los siguientes apartados. (Guruge,
Instituto Tecnológico de Colima Página 23
XML
Consiste en una serie de etiquetas anidadas abiertas (<) y cerradas (>), entre los
delimitadores de apertura y cierre se indica un nombre, denominado nombre de la
etiqueta, donde cada etiqueta tiene ciertos valores. El programador define el
nombre de cada una de las etiquetas y las combinaciones que pueden darse entre
ellas (Márquez Solís, 2007).
Aspx (Database Management System, DBMS)
Es la base de datos de código abierto más popular del mundo, proporcionado por
MySQL AB. Este lenguaje permite crear bases de datos, así como agregar,
manipular y recuperar datos en función de criterios específicos (Angel Cobo,
2005).
Arquitectura orientada a servicios (SOA)
Se define como un paradigma para la realización y conservación de los procesos
de negocios que abarcan los sistemas distribuidos. También menciona que esta
arquitectura se encuentra basada en tres conceptos servicios, interoperabilidad a
través del Enterprise Service Bus (ESB) e independencia (loose coupling)
(Josuttis, 2007).
2.4 Conclusión.
Las diferencias de los data Warehouses con respecto a las bases de datos
tradicionales provocaron el desarrollo de nuevas metodologías de diseño y la
creación de nuevos modelos de datos.
Por lo que se utilizan técnicas para creación de modelos data Warehouses
aplicados a la inteligencia de negocios, obteniendo información rápida y más
Instituto Tecnológico de Colima Página 24
Por otra parte el uso de la tecnología web para la generación de servicio web ha
facilitado la integración de sistemas generando una plataforma hibrida de sistemas
la cual se comunican por medio del protocolo SOAP.
Esta parte no ayuda en nuestro trabajo de tesis porque así lograr comunicar
nuestra aplicación que de genera el data werehouse con nuestra aplicación móvil,
Instituto Tecnológico de Colima Página 25
C
A P Í T U L O3 :
D
E S A R R O L L O D E LP
R O Y E C T O3.1.
Introducción
En este capítulo habláramos sobre el desarrollo que se llevó del proyecto de tesis,
aquí vamos aplicar las metodologías mencionadas en el capítulo anterior.
La construcción de nuestro modelo para el proyecto de tesis cuenta con una serie
de pasos a desarrollar:
Análisis del sistema
Modelo conceptual
Creación del software para la extracción de información.
Creación de los servicios web.
Configuración del IIS.
Desarrollo de la aplicación móvil.
3.2. Análisis del sistema
En esta sección nos enfocaremos a describir como se elaboró la aplicación para la