SISTEMA GESTOR DE CONOCIMIENTO PARA PYMES

(1)

ESTUDIAR P ARA PREVER Y PREVER P ARA ACTUAR

P R E M I O INTRAGOB 2006

a la 06

RSGC - 617 INICIO: 2012.09.28 TERMINO: 2015.09.28

ISO 9001:2008 PROCESO EDUCATIVO S G C

S N E S T IMNC-RSGC-617

IMNC-RSGC-617

CERTIFICADO BAJO LA NORMA ISO 9001:2008 CERTIFICADO BAJO LA NORMA ISO 9001:2008

VILLA DE ÁLVAREZ, COL., DICIEMBRE DE 2014

SISTEMA GESTOR DE CONOCIMIENTO PARA PYMES

TESIS PROFESIONAL

QUE PARA OBTENER EL GRADO DE

MAESTRO EN SISTEMAS COMPUTACIONALES

PRESENTA

GIBRÁN ERNESTO QUITEÑO CARRILLO

ASESORA DE TESIS

M. C. ROSA DE GUADALUPE CANO ANGUIANO

Instituto Tecnológico de Colima

(2)

I

E

P Í G R A F E

“El genio se hace con el 1% de talento y el 99% de trabajo.”

(3)

Í

N D I C E

Resumen ________________________________________________________ 1

Abstract _________________________________________________________ 2

Capítulo 1. Introducción _____________________________________________ 3

1.1. Introducción _________________________________________________ 3

1.2. Razones que motivaron la elección del tema ________________________ 3

1.3. Contexto del problema _________________________________________ 4

1.4. Problema a investigar __________________________________________ 4

1.5. Hipótesis del trabajo ___________________________________________ 5

1.6. Objetivos ___________________________________________________ 5

1.7. Descripción de la organización del trabajo __________________________ 6

Capítulo 2: Estado del Campo del Conocimiento __________________________ 8

2.1. Introducción _________________________________________________ 8

2.2. Marco histórico _______________________________________________ 9

2.2.1. Diseño de data Werehouse __________________________________________ 9

2.2.2. Evolución de las tecnologías Web ____________________________________ 10

2.3. Marco contextual ____________________________________________ 12

2.4. Marco teórico _______________________________________________ 13

2.4.1. Conceptos básicos de Inteligencia de negocios _________________________ 13

2.4.2. Metodologías ____________________________________________________ 21

2.4.3. Herramientas Web utilizadas para este proyecto. ________________________ 22

2.4 Conclusión. _________________________________________________ 23

Capítulo 3: Desarrollo del Proyecto ___________________________________ 25

3.1. Introducción ________________________________________________ 25

3.2. Análisis del sistema __________________________________________ 25

(4)

3.3.1. Requerimientos. ________________________________________________ 27

3.4. Diseño del sistema ___________________________________________ 28

3.4.1. Diseño arquitectónico ___________________________________________ 29

3.4.2. Diseño de la base de datos (Diagrama Entidad-Relación) _______________ 29

3.4.3. Diseño de interfaces ____________________________________________ 32

3.5. Programación _______________________________________________ 40

3.5.1. Creación del Software para la extracción de información. _______________ 41

3.5.2. Desarrollo de los servicios web. ___________________________________ 41

3.5.3. Configuración IIS. ______________________________________________ 44

3.5.4. Desarrollo de la aplicación móvil. __________________________________ 48

3.5.5. De interfaces __________________________________________________ 49

3.6. Pruebas ___________________________________________________ 54

3.6.1 De unidad e integración __________________________________________ 54

3.6.2 De operación __________________________________________________ 55

3.6.3 De Tención ___________________________________________________ 55

3.6.4 De usabilidad __________________________________________________ 57

3.7 Conclusión _________________________________________________ 58

Capítulo 4: Resultado del caso de estudio ______________________________ 59

4.1. Introducción __________________________________________________ 59

4.2 Desarrollo del caso de uso _______________________________________ 59

4.3. Conclusión. __________________________________________________ 64

5. Conclusiones y recomendaciones __________________________________ 65

Referencias bibliográficas __________________________________________ 68

(5)

ÍNDICE DE FIGURAS

FIG.1PROCESO DE DISEÑO DE UN DATA WAREHOUSE ... 9

FIG.2LA MINERÍA DE DATOS COMO UN PASO EN EL PROCESO ... 16

FIG.3ARQUITECTURA GENERAL DE UN SISTEMA DE MINERÍA DE DATOS ... 18

FIG.4METODOLOGÍA KDD ... 21

FIG.5FASES DE LA METODOLOGÍA XP ... 22

FIG.6MODELO CONCEPTUAL ... 26

FIG.7MODELO DE LA ARQUITECTURA DEL SISTEMA ... 29

FIG.8DIAGRAMA ENTIDAD-RELACIÓN DEL PROCESO DE VENTAS ... 31

FIG.9PROCESO DE INVENTARIOS ... 31

FIG.10PROCESO DE CUENTAS POR COBRAR ... 32

FIG.11INTERFAZ DE SELECCIÓN DE FUENTE DE DATOS ... 33

FIG.12CREACIÓN DE PLANTILLAS XML PARA LA EXTRACCIÓN DE INFORMACIÓN. ... 34

FIG.13GRAFICO LINEAL DE INFORMACIÓN. ... 34

FIG.14GRAFICA EN BARRA DE INFORMACIÓN. ... 35

FIG.15GRAFICA EN PASTEL DE INFORMACIÓN. ... 35

FIG.16INTERFAZ DE VISUALIZACIÓN EN TABLA DINÁMICA. ... 36

FIG.17CREACIÓN DE SERVICIOS WEB POR MEDIO DE XML. ... 36

FIG.18SERVICIOS WEB PARA APLICACIÓN MÓVIL. ... 37

FIG.19PANTALLA PRINCIPAL ... 37

FIG.20PANTALLA DE CONFIGURACIÓN DEL WS... 38

FIG.21INICIO DE SESIÓN... 38

FIG.22MENÚ DEL SISTEMA MÓVIL... 39

FIG.23TOTAL DE CONSULTA ... 39

FIG.24DETALLE DEL TOTAL DE CONSULTA ... 40

FIG.25PILA DE PROTOCOLO OS DE LOS WEBSERVICE ... 42

FIG.26AGREGAR SERVICIO WEB COMO APLICACIÓN. ... 45

FIG.27SERVICIO WEB DE ALTA EN EL IIS. ... 45

FIG.28DIRECTORIO LOS ARCHIVOS FUENTES. ... 46

FIG.29INVOCANDO AL SERVICIO WEB. ... 47

FIG.30EJECUCIÓN DE UN MÉTODO WEB. ... 47

FIG.31EDITOR GRÁFICO DE LAYOUTS ... 48

FIG.32PRUEBA DE INTEGRACIÓN CON EL PROCESO DE INFORMACIÓN. ... 54

FIG.33RENDIMIENTO DE SERVIDOR. ... 57

FIG.34MODELO DE DATOS PARA CASO DE USO. ... 59

FIG.35PROCESAMIENTO DE LOS DATOS EN EL SOFTWARE ... 60

FIG.36PROCESO DE SELECCIONA Y CREACIÓN DE DATOS ... 61

FIG.37MÓDULO DE VISUALIZACIÓN DE DATOS ... 62

FIG.38TABLA DINÁMICA. ... 62

FIG.39PUBLICACIÓN DEL NUEVO MÉTODO DEL SERVICIO WEB ... 63

(6)

ÍNDICE DE TABLAS

TABLA 1CONFIGURACIÓN DEL MÉTODO POST ... 43

TABLA 2CONEXIÓN INTERNA PARA LA COMUNICACIÓN CON EL SERVIDOR DE DATOS ... 43

TABLA 3FUNCIÓN JSON PARA ENVIÓ DE DATOS. ... 44

TABLA 4CONSUMO DE SERVICIOS WEB. ... 49

TABLA 5CÓDIGO INTERFAZ DE FUENTE DE DATOS. ... 50

TABLA 6CÓDIGO DE INTERFAZ GENERADOR DE DATOS. ... 52

TABLA 7CARACTERÍSTICAS DEL SERVIDOR. ... 55

TABLA 8CARACTERÍSTICAS DEL CLIENTE ESCRITORIO. ... 56

(7)

(8)

Instituto Tecnológico de Colima Página 1

R

E S UM E N

La calidad total, exige cada vez más competitividad para las empresas, porque es

el cliente; el que determina la calidad en nuestros productos o servicios.

Cada minuto que pasa sin resolverse un problema, se pierde dinero, productividad

y reputación, por lo que esto ha motivado a desarrollar un software de manejo de

información visual que agilice la toma de decisiones, así obteniendo mayor

productividad y calidad en la información presentada.

La minería de datos es un proceso que tiene como objetivo extraer información de

un conjunto de datos y transformarla en una estructura comprensible para su uso

posterior, facilitando la identificación de patrones y tendencias. Esto permite el

aprovechamiento del valor de la información para que los directivos tengan un

mejor conocimiento de su negocio y poder tomar decisiones más confiables.

Por tal razón analizaremos las variables internas o externas que nos generan

conocimiento y nos apoya a los emprendedores a tomar mejores decisiones en

nuestro sistema productivo.

La propuesta metodológica para este trabajo está basada en la metodología para

el descubrimiento del conocimiento de base de datos (Knowledge Discovery in

Databases), el objetivo principal que persigue este proyecto de investigación, es

desarrollar un software que permita procesar y generar consultas realizadas de la

información anteriormente procesada así generando resultados de una forma más

confiable, clara y que facilite la toma decisiones para las pequeñas y medianas

(9)

A

B ST R A CT

Total quality demands increasingly competitive for businesses, because it is the

client; determines the quality of our products or services.

Every minute that goes unsolved problem, money, productivity and reputation is

lost, so this has led to develop a management software visual information to speed

decision making, thus obtaining higher productivity and quality of the information

provided.

Data mining is a process that aims to analyze and extract information from existing

database, facilitating the identification of patterns and trends. This allows the use of

value of information for managers to have a better understanding of your business

and to make more confident decisions.

For that reason we analyze the internal and external variables that we generate

knowledge and support us entrepreneurs to make better decisions in our

production system.

The methodology for this study is based on a methodology for knowledge

discovery in database (Knowledge Discovery in Databases), the main objective of

this research project is to develop a software to process and generate inquiries

made of generating information previously processed results in a more reliable,

(10)

C

A P Í T U L O

1 .

I

N T R O D U C C I Ó N

1.1. Introducción

n este capítulo se dará una introducción sobre la motivación y razones de

elección de tema de tesis, abordando la problemática que dio lugar a su

creación, junto con una descripción de la propuesta llevada a cabo para

hacer frente al problema enunciado. También se comentarán los objetivos, la

organización y el alcance de la tesis para continuar.

.

1.2. Razones que motivaron la elección del tema

La inteligencia de negocios es un proceso interactivo para explorar y analizar

información estructurada sobre un área (normalmente almacenada en un data

Warehouses), para descubrir tendencias o patrones, a partir de los cuales derivar

ideas y extraer conclusiones (GARDNER, 1998).

Dentro de este documento solo nos limitaremos en el procesamiento y extracción

de información del área administrativa de una empresa de venta de alimento de

comida rápida. ¿Pero cómo tomar una decisión más certera?, ¿Cómo saber

cuáles son las Preferencias de mi productos a mis clientes Colimenses?

Estas son algunas de las preguntas que la empresa debe formularse y en cierta

manera conocer que es lo que se está buscando o que es lo que necesita, para

ello crear preguntas que abarquen los puntos más importantes de los productos y

del negocio.

(11)

1.3. Contexto del problema

Con alrededor de 650 mil habitantes, Colima es un estado costero, el quinto más

pequeño de México con 5 mil 455 kilómetros cuadrados, que representan el 0.3

por ciento de la superficie del país.

Es el décimo más densamente poblado y con una proporción de su población,

relativamente más alta que la media nacional, que vive en zonas urbanas. En

cuanto a educación, Colima tiene niveles de educación superiores a la media

nacional, ocupando la posición número 11 a este respecto.

Según datos del censo económico 2010 del Instituto Nacional de Estadística y

Geografía (INEGI), en Colima existen 26 mil 171 unidades económicas, de las

cuales el 99 por ciento son MIPyME’s, que generan alrededor del 80 por ciento del

trabajo.

Dada la importancia que las MIPyME’s tienen en el crecimiento económico y en la

generación de empleos, Colima ha instalado un Sistema de Apertura Rápida de

Empresas (SARE) en 6 de sus 10 municipios; comprometiendo la apertura de los

4 restantes y certificación de todos en términos de la Norma 01-SARE Comisión

Federal de Mejora Regulatoria (COFEMER).

1.4. Problema a investigar

En la actualidad la empresa de comida rápida están procesando un gran volumen

de información administrativa, de la cuales esa información proviene de distintas

fuentes de datos, que actualmente esa información tiene que ser procesada

independientemente en diferentes sistemas y extraer un resultado por separado,

(12)

Por consecuencia mi propuesta es desarrollar una de herramienta de minería que

unifique toda esa información en un Data Wherehouse para extraen resultados

dentro del mismo software, así esa información estará procesada en conjunto y

con la posibilidad de definir el rumbo de una empresa, esta constituye un elemento

básico para desarrollo del mismo, combinado con las tecnologías de

programación, repercute ampliamente en la creación de un software adecuado

para la medición y apoyo a la toma de decisiones.

1.5. Hipótesis del trabajo

Utilizando las herramientas de minería de datos podremos reducir la incertidumbre

y el tiempo en la toma decisiones dentro de la empresa.

Identificación de variables

El Tiempo. Reducir el tiempo en la toma de decisiones de la empresa.

Precisión. Mayor precisión en la toma de decisiones dentro de la empresa.

1.6. Objetivos

Objetivo general

Desarrollar una de herramienta de minería de datos que unifique toda esa información en un Data Wherehouse para la extracción de información así reduciendo la incertidumbre y el tiempo en la toma decisiones dentro de la empresa.

Objetivos específicos

(13)

 Analizar los requerimientos y procesos relacionados con la minería de datos.

 Diseño del sistema de extracción de datos, data wherehouse y visualización de la información.

 Diseño de aplicación para consulta de información para dispositivos móviles (Andriod).

 Desarrollar una aplicación para agilizar el proceso de extracción de datos de diferentes fuentes de datos y la generación de información de forma

gráfica.

 Desarrollo de Servicios Web de información.

 Desarrollo de aplicación para consulta de información para dispositivos móviles (Andriod).

 Implementación de un servidor IIS para la consulta de información desde servicios web.

1.7. Descripción de la organización del trabajo

La organización del documento parte de la introducción del proyecto donde se

analizan algunos aspectos como lo son el planteamiento del problema, hipótesis y

objetivos que persigue el mismo, posteriormente se revisan las temáticas

históricas, conceptuales y relacionadas al mismo.

Esta tesis cuenta con 3 capítulos más. En el capítulo 2 se presenta el proceso de

diseño de un Data Warehouses y se mencionan trabajos existentes así como la

metodología utilizada para desarrollar el software para minería de datos.

En el capítulo 3 se desarrolla el proyecto de minería de datos, la data Warehouses

así como los servicios web y la aplicación móvil, también se describe brevemente

(14)

El capítulo 4 se presenta las conclusiones, trabajo en curso y trabajo futuro. Por

último se presentan los apéndices referenciados en el documento y la bibliografía

(15)

C

A P Í T U L O

2 :

E

S TA D O D E L

C

A M P O D E L

C

O N O C I M I E N T O

2.1. Introducción

Este trabajo se sitúa en el área de diseño de un software de minería de datos para

la generación de un Data Warehouses; específicamente propone técnicas para la

construcción de un esquema lógico relacional de Data Warehouses a partir de un

esquema conceptual.

En este capítulo se presenta una revisión del marco histórico en dichas áreas. En

el capítulo 2 se presenta el proceso de diseño de un Data Warehouses y se

mencionan trabajos existentes, sobre la generación de modelos de inteligencias

de negocios están basados a partir de un modelo relacional pero para que ese

modelo relacional pase a ser un data Warehouses necesitamos aplicar nueva

técnicas, se estudiaron algunos de esos trabajos que por medio de la ayuda de los

data Warehouses se pueden definir herramientas para la inteligencia de negocios.

También mencionaremos sobre el uso de la tecnología web que se utilizara para la

consulta de la información de la data Warehouses.

En este capítulo conoceremos los conceptos así como las metodologías y

(16)

2.2. Marco histórico

2.2.1. Diseño de data Werehouse

Los sistemas de Data Warehouses han sido objeto de variados trabajos de investigación en la última década. Los trabajos comprenden diferentes áreas y diferentes enfoques.

Sus marcadas diferencias con los sistemas operacionales provocaron el estudio de nuevas técnicas y metodologías de diseño. Como en los sistemas de bases de datos tradicionales, el proceso de diseño de la Data Warehouses puede dividirse en tres etapas secuenciales: diseño conceptual, diseño lógico y diseño físico [Bat92].

En la Figura 4 se muestran las etapas con sus respectivas entradas y salidas de información

(17)

En la etapa de diseño conceptual se construye un esquema conceptual de la realidad a partir de los requerimientos y/o bases fuentes. Dicho esquema conceptual es enriquecido con requerimientos de performance y almacenamiento durante la etapa de diseño lógico, y a partir de él se genera un esquema lógico, que es dependiente del tipo de modelo y tecnología de DBMS.

Hay dos familias de esquemas lógicos: relacionales y multidimensionales, y actualmente se están considerando esquemas híbridos. Por último, en la etapa de diseño físico se implementa el esquema lógico en el manejador de bases de datos elegido, teniendo en cuenta técnicas de optimización física, como son: índices particiones, etc.

Las diferentes propuestas de diseño de Data Warehouses se enfocan en alguna de estas etapas; algunos trabajos proveen metodologías que involucran varias etapas. Algunos autores proponen metodologías con más etapas, que son, sub-etapas de las planteadas [Gol98],

2.2.2. Evolución de las tecnologías Web

En éste apartado se mencionan las tecnologías que se dieron inicio al desarrollo

de los servicios Web.

La tecnología de cómputo distribuido ha sido desarrollada durante los últimos 30

años sin embargo al inicio de su desarrollo era muy cara su implementación, no

fue sino hasta principio de 1970 cuando esto cambio con la aparición de los

mainframes, los cuales fueron más accesibles de adquirir (Krafzig, Banke, Slama,

2004).

Durante los años 80’s y 90’s la tecnología existente permitía a los equipos de

cómputo acceder a las aplicaciones de manera remota, fue entonces cuando la

ejecución lógica fue dividida entre un cliente y un servidor de base de datos. Para

ayudar en la labor de acceder a las aplicaciones de forma remota surge la

tecnología Common Object Request Broker Architecture (CORBA). La

funcionalidad de CORBA consistía en un identificador único llamado Object

(18)

proveer servidores que expusieran un gran número de funciones remotamente

accesibles.

La evolución del ámbito distribuido cambió su rumbo a mitad de los años 90’s, un

ejemplo de ello fue el año 1997 cuando Sun Microsystems introdujo la tecnología

de ambiente distribuido Enterprise Java Beans (EJB). EJB es similar a CORBA,

una característica importante de EJB es el concepto de contenedor, que es el

responsable de la administración de recursos como objetos, conexiones y

transacciones en un servidor EJB. Algunas tecnologías como Remote Procedure

Call (RPC), CORBA, Distributed Component Object Model (DCOM) y EJB dieron

inicio al surgimiento de un gran número de soluciones de ámbito distribuido

basadas en middleware. Sin embargo, el surgimiento de estas soluciones presenta

un problema, la heterogeneidad de los middleware, para hacer frente a este

inconveniente surgió el Extensible Markup Language (XML) como un formato

independiente de los middleware para el intercambio de datos y documentos entre

diferentes aplicaciones (Krafzig, Banke, Slama, 2004).

Debido a la necesidad de un estándar para el intercambio de mensajes en XML, la

compañía Microsoft propuso la iniciativa de crear los servicios Web basados en

XML con la utilización del protocolo Simple Object Access Protocol (SOAP), y a su

vez, realizó un lenguaje de definición de interfaz llamado Web Service Description

Language (WSDL) para describir la interfaz de servicio, en la actualidad esta

iniciativa forma parte de los estándares del consorcio World Wide Web donde han

colaborado las empresas más importantes e influyentes de la Web.

Con el problema de la heterogeneidad de los middleware, SOAP y WSDL

permitieron la unión de varios protocolos de comunicación de bajo nivel, por

ejemplo, SOAP permite la comunicación sobre un middleware existente.

El desarrollo de arquitecturas de cómputo distribuido como CORBA, DCOM, EJB y

(19)

manera, proveen las bases de la Arquitectura Orientada a Servicios (SOA por sus

siglas en inglés).

Desde el punto de vista tecnológico es importante contar con una arquitectura de

software que sea interoperable, escalable y que además permita la reutilización de

los servicios ofrecidos a los diferentes consumidores. De tal manera que si en el

futuro se desea hacer una actualización al servicio prestado, no se tenga que

modificar la aplicación completa, sino únicamente el servicio, es decir, la

independencia de los servicios. Esta es una de las ventajas de trabajar con SOA.

La utilización de SOA está en aumento, según un estudio realizado por la empresa

de investigación tecnológica Gartner, predijo que para el 2010 el software de

aplicación tendrá un crecimiento del 80% en sus ganancias a través de productos

basados en SOA (Josuttis, 2007). Dentro de las ventajas que podemos mencionar

acerca de SOA destaca el desarrollo eficiente, reutilización de los servicios,

evolución, interoperabilidad e independencia de los servicios.

2.3. Marco contextual

2.3.1. Trabajos relacionados

La compañía Alteryx se dedica a la creación de tecnologías para la inteligencia de

negocios (BI), proporcionando a sus clientes de todas las herramientas necesarias

para combinar toda la comercialización, las ventas y los datos del producto que

necesitan, así como analizar el impacto real de la comercialización y tomar las

mejores decisiones del mercado.

Otra compañía internacional (Stocker Group, 2004), provee a sus clientes

soluciones integrales a través de cuatro líneas de negocio: Gestión de

conocimiento, marketing en internet, servicios de consultoría, análisis, monitoreo y

(20)

Los trabajos existentes en diseño conceptual para data Warehouse corresponden

fundamentalmente a modelos de datos.

Calvanese, D. De Giacomo, G. Lenzerini, M. Nardi, D. Rosati, R.: “Source

integration in data warehousing”. Technical Report. 1998.

Hahn, K. Sapia, C. Blaschka, M.: ”Automatically Generating OLAP Schemata from Conceptual Graphical Models", DOLAP’00, USA, 2000.

2.4. Marco teórico

2.4.1. Conceptos básicos de Inteligencia de negocios

Sistemas de Información ejecutivo

Un Sistema de Información Ejecutivo (SIE) ayuda a los ejecutivos a contar con

información oportuna y precisa para tomar decisiones. Un sistema de información

para ejecutivos es un sistema que proporciona al ejecutivo información sobre el

desempeño global de la compañía. La información se puede recuperar fácilmente

y pude presentarse con distintos niveles de detalle. También se usa el término

sistema de apoyo para ejecutivos (McLeod Jr., 2000).

Un Sistema de Información Ejecutivo (SIE-EIS: Executive Information Systems por

sus siglas en inglés) es “un sistema de información informático que se ha

concebido con el objetivo de que los directivos de una organización mejoren la

calidad de su trabajo. Por este motivo, facilita el acceso a las informaciones de

mayor relevancia, mejora la comunicación dentro de la organización y permite una

(21)

Instituto Tecnológico de Colima Página 14 Data warehouse

Un data warehouse es el lugar donde se recoge toda aquella información que es

necesaria para la toma de tomar decisiones por los diferentes departamentos de

una compañía. Para generar esta información es necesario acceder a datos de

distintos esquemas de datos de la organización y construir los procesos que

apliquen la lógica del negocio y trasladen los resultados hasta el data warehouse

(Barranco, 2001).

Data mart

Un data mart es un data Warehouses, pero con un dominio mucho más pequeño.

El data mart se puede restringir a un tipo particular de datos, a determinada

función de negocios, a una unidad de negocios específica, o a un

Área geográfica (Kroenke, 2003).

Minería de datos

Los almacenes de datos (data Warehouses) y los mercados de datos (data marts)

son usados en un amplio rango de aplicaciones. Los ejecutivos de negocios usan

los datos almacenados en un data warehouse y en un data mart para realizar

análisis de datos y tomar decisiones estratégicas. Los almacenes de datos son

muy utilizados en la banca y en las compañías que proporcionan servicios

financieros, para detectar necesidades de consumidores y sectores de distribución

rentables.

Los almacenes de datos tuvieron que pasar por diferentes fases. Inicialmente,

eran muy utilizados para la generación de reportes y para contestar a preguntas

predefinidas. Progresivamente, los almacenes de datos fueron usados para

analizar información resumida y detallada, donde los resultados eran presentados

en forma de reportes y gráficas. Posteriormente, los almacenes de datos fueron

usados con propósitos estratégicos, realizando análisis multidimensional y

(22)

Finalmente, los almacenes de datos fueron empleados para el descubrimiento de

conocimiento y toma de decisiones estratégicas usando herramientas de minería

de datos.

En este contexto, las herramientas para data Warehouses pueden ser clasificadas

en herramientas de acceso y recuperación de datos, herramientas de reporteo de

datos, herramientas de análisis de datos y herramientas de minería de datos.

Los usuarios de negocio necesitan conocer el contenido de su data Warehouses o

data mart, cómo explotarlo por medio de herramientas de análisis y como

presentar el resultado de dicho análisis.

Existen tres tipos de aplicaciones de data warehouse: procesamiento de

información, procesamiento analítico y minería de datos (Han, 2006).

 El procesamiento de información soporta consultas, análisis estadístico básico y reporteo usando hojas de cálculo, tablas, gráficas.

 El procesamiento analítico soporta operaciones OLAP básicas, incluyendo drill-down, roll-up y pivoteo. Estas operaciones generalmente se hacen en

datos históricos ya sea sumarizada o a detalle. El mayor esfuerzo en este

tipo de procesamiento es el análisis multidimensional.

 La minería de datos soporta el descubrimiento de conocimiento buscando patrones y asociaciones ocultas, construyendo modelos analíticos,

realizando clasificación y predicción y presentando los resultados de la

minería usando herramientas de visualización.

Y, ¿qué significa entonces el concepto de minería de datos? Se refiere a extraer o

“minar” conocimiento de grandes cantidades de datos (Han, 2006).

Mucha gente se refiere a la minería de datos como un sinónimo de otros términos

como Descubrimiento de Conocimiento (KDD por sus siglas en inglés Knowledge

Dicovery from Data). Otras personas ven a la minería de datos como un paso

(23)

podemos analizar en la figura 2 y consiste en una secuencia iterativa de los pasos

siguientes (Han, 2006).

Fig. 2 La minería de datos como un paso en el proceso

1. Limpieza de datos (remover inconsistencias en los datos).

2. Integración de los datos (múltiples fuentes de datos pueden ser

combinadas).

3. Selección de datos (los datos importantes para determinado análisis son

recuperados de la base de datos).

4. Transformación de los datos (convertir o consolidar los datos en alguna

forma apropiada para minar, realizando operaciones de resumen o

agregación, por ejemplo).

5. Minería de datos (es un proceso en donde mediante la aplicación de

métodos inteligentes se extrae patrones de datos).

6. Evaluación de patrones (identificar los patrones realmente importantes que

(24)

7. Presentación de conocimiento (técnicas de visualización y representación

de conocimiento son usadas para presentar el conocimiento minado al

usuario).

Los paso del 1 al 4 son diferentes formas de pre procesamiento de datos, en

donde los datos son preparados para minar. El paso 5 (minería de datos) puede

interactuar con el usuario o con la base de conocimiento. Los patrones de interés

son presentados al usuario y pueden ser almacenados como un nuevo

conocimiento en la base de conocimiento. Es importante resaltar que de acuerdo a

lo anterior, la minería de datos es solo un paso en el proceso completo, aunque es

un paso esencial porque permite descubrir patrones escondidos para su

evaluación (paso 6) , como último tenemos la presentación de la información de

los datos los cuales ya fueron procesados y depurados (paso 7)

Inteligencia de negocios

El termino Inteligencia de Negocios (Business Intelligence), es un concepto que

“está de moda” (Daft, R. (2007)) . La inteligencia de negocios se refiere a un análisis

de alta tecnología de los datos corporativos, con el fin de tomar mejores

decisiones estratégicas. También conocida como minería de datos, la inteligencia

de negocios implica buscar y analizar datos provenientes de múltiples fuentes

ubicadas en toda la empresa, y algunas veces derivados de fuentes externas, a fin

de identificar patrones y relaciones que pueden ser importantes.

Arquitectura de la minería de datos

La arquitectura de un sistema de minería de datos típico puede tener los

(25)

Fig. 3 Arquitectura general de un sistema de minería de datos

Una base de datos, un data Warehouses, la www (Word Wide Web) u otro

repositorio de información: Esto es una o un conjunto de bases de datos,

almacenes de datos, hojas de cálculo u otros tipos de repositorios de información.

Un servidor de base de datos o de data warehouse: El servidor de base de datos o del data warehouse es responsable de buscar datos relevantes, basado

en las solicitudes de minería de datos del usuario.

Conocimiento base: Es el dominio de conocimiento que es usado para guiar la búsqueda o evaluar la importancia de los patrones resultantes. Tal dominio de

conocimiento puede incluir el concepto de jerarquías, usadas para organizar

(26)

Motor de minería de datos: Este es esencial para el sistema de minería de datos

y consiste en un conjunto de módulos funcionales para realizar tareas de

caracterización, asociación y análisis de correlación, clasificación, predicción,

análisis de valores atípicos y evaluación.

Módulo de evaluación de patrones: Este componente normalmente emplea

métricas de interés e interactúa con el módulo de minería de datos para enfocar la

búsqueda hacia ciertos patrones. Alternativamente, el módulo de evaluación de

patrones puede estar integrado con el módulo de minería de datos, dependiendo

de la implementación del método de minería utilizado.

Interface de usuario: Este módulo es el medio de comunicación entre el usuario y

el sistema de minería de datos, permitiendo al usuario interactuar con el sistema

especificando consultas, proveyendo información de ayuda para enfocar la

búsqueda y realizando exploración basado en resultados previos. Este

componente le permite al usuario navegar en bases de datos y almacenes de

datos o estructuras de datos, evaluar patrones de minería y visualizar patrones de

diferentes maneras.

Técnicas de la minería de datos

Las técnicas de minería de datos y los tipos de patrones que pueden encontrar

son los siguientes:

Discriminación de datos. Es una comparación de las características generales de una clase objetivo de datos contra uno o un conjunto de clases en contraste.

Por ejemplo, para el usuario puede ser importante comparar las características de

algún equipo electrónico cuyas ventas se hayan incrementado en determinado

porcentaje en el último año, contra otros equipos cuyas ventas hayan disminuido

(27)

Asociación. Corresponde al descubrimiento de patrones que ocurren

frecuentemente de manera simultánea. Como la compra de leche y pan o la

compra de una computadora seguido por la compra de una cámara digital que a

su vez le puede seguir la compra de una tarjeta de memoria.

Clasificación y predicción. Consiste en buscar un modelo que permita describir y

distinguir clases de datos o conceptos, con el propósito de usar el modelo para

predecir objetos de clases no conocidas. El modelo obtenido se basa en el análisis

de un conjunto de datos de prueba. Por ejemplo, El número de personas que

pudieran comprar cierto tipo de auto con base en su edad, ingreso, trabajo y

género.

Clustering. A diferencia de la clasificación y predicción (punto anterior), el cual

analiza clases etiquetadas de objetos de datos, esta funcionalidad analiza objetos

de datos sin tener una clase ya conocida. En general, no existe una clase

conocida para cierto tipo de objetos. Los objetos son agrupados según sus

similitudes en comparación con objetos que a su vez son muy diferentes con

respecto a objetos pertenecientes a otros grupos. Por ejemplo, los clientes en

diferentes poblaciones pueden agruparse con base en sus preferencias o

diferencias de compra por población, edad, ingreso, región

Análisis evolutivo. Este tipo de análisis describe y modela regularidades o tendencias para objetos cuyo comportamiento cambia con el tiempo. Por ejemplo

un inversionista que vende o compra acciones de una empresa, con base en el

(28)

2.4.2. Metodologías

Metodología KDD utilizada para el descubrimiento del conocimiento.

En este proyecto se utilizó la metodología KDD basada en la metodología para el descubrimiento del conocimiento de base de datos (KDD Fig. 4).

Metodología XP utilizada para el desarrollo del software del proyecto.

La Programación Extrema es una metodología ligera de desarrollo de software

que se basa en la simplicidad, la comunicación y la realimentación o reutilización

del código desarrollado. Desarrollada por (Beck , Fowle, 2000). En la figura 5 se

muestran las etapas de la metodología XP, con las características que definen a

cada una de ellas.

(29)

Fig. 5 Fases de la metodología XP

2.4.3. Herramientas Web utilizadas para este proyecto.

 Servicios Web.

El consorcio de tecnologías Web, (W3C, 2004) define a los servicios Web como un

sistema de software identificado por un URL (Uniform Resource Locator), cuyas

interfaces públicas y enlaces están definidos y descritos usando XML (eXtended

Markup Language). Su definición puede ser descubierta por otros sistemas de

software. Estos sistemas pueden interactuar con el servicio Web de la manera

preestablecida en su definición, usando mensajes basados en XML y

transportados por los protocolos de Internet.

Los servicios Web no son programas ejecutables, sino que se encuentran dentro

de programas de aplicación y scripts. Requieren de varias tecnologías basadas en

XML para transportar y transformar datos dentro y fuera de programas y base de

datos, dichas tecnologías se mencionan en los siguientes apartados. (Guruge,

(30)

 XML

Consiste en una serie de etiquetas anidadas abiertas (<) y cerradas (>), entre los

delimitadores de apertura y cierre se indica un nombre, denominado nombre de la

etiqueta, donde cada etiqueta tiene ciertos valores. El programador define el

nombre de cada una de las etiquetas y las combinaciones que pueden darse entre

ellas (Márquez Solís, 2007).

 Aspx (Database Management System, DBMS)

Es la base de datos de código abierto más popular del mundo, proporcionado por

MySQL AB. Este lenguaje permite crear bases de datos, así como agregar,

manipular y recuperar datos en función de criterios específicos (Angel Cobo,

2005).

 Arquitectura orientada a servicios (SOA)

Se define como un paradigma para la realización y conservación de los procesos

de negocios que abarcan los sistemas distribuidos. También menciona que esta

arquitectura se encuentra basada en tres conceptos servicios, interoperabilidad a

través del Enterprise Service Bus (ESB) e independencia (loose coupling)

(Josuttis, 2007).

2.4 Conclusión.

Las diferencias de los data Warehouses con respecto a las bases de datos

tradicionales provocaron el desarrollo de nuevas metodologías de diseño y la

creación de nuevos modelos de datos.

Por lo que se utilizan técnicas para creación de modelos data Warehouses

aplicados a la inteligencia de negocios, obteniendo información rápida y más

(31)

Por otra parte el uso de la tecnología web para la generación de servicio web ha

facilitado la integración de sistemas generando una plataforma hibrida de sistemas

la cual se comunican por medio del protocolo SOAP.

Esta parte no ayuda en nuestro trabajo de tesis porque así lograr comunicar

nuestra aplicación que de genera el data werehouse con nuestra aplicación móvil,

(32)

C

A P Í T U L O

3 :

D

E S A R R O L L O D E L

P

R O Y E C T O

3.1. Introducción

En este capítulo habláramos sobre el desarrollo que se llevó del proyecto de tesis,

aquí vamos aplicar las metodologías mencionadas en el capítulo anterior.

La construcción de nuestro modelo para el proyecto de tesis cuenta con una serie

de pasos a desarrollar:

 Análisis del sistema

 Modelo conceptual

 Creación del software para la extracción de información.

 Creación de los servicios web.

 Configuración del IIS.

 Desarrollo de la aplicación móvil.

3.2. Análisis del sistema

En esta sección nos enfocaremos a describir como se elaboró la aplicación para la