Redes privadas virtuales y la inteligencia de negocios.

(1)

I

INSTITUTO POLITÉCNICO NACIONAL

ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELECTRICA UNIDAD CULHUACAN

TESINA

Seminario de Titulación:

“Las tecnologías aplicadas en redes de computadoras”

DES/ESIME-CUL/5092005/07/09

REDES PRIVADAS VIRTUALES Y LA INTELIGENCIA DE NEGOCIOS

Que como prueba escrita de su examen Profesional para obtener el Título de: Licenciado en Ciencias de la Informática

Presentan:

RICARDO ALBERTO CHÁVEZ MATEHUALA ALDO GARCÍA JIMÉNEZ

ERNESTO SILVA MONTOYA

México D.F Diciembre 2009.

(2)

II Objetivo:

Integrar el uso de dos tecnologías de vanguardia en el ramo de la tecnología de la información con el objetivo de contar con canales seguros por medio del uso de Redes Virtuales Privadas para tener un canal seguro y eficiente en el cual se puedan acceder a los sistemas de inteligencia de negocios para hacer uso de los mismo en el momento que el usuario lo requiera, sin tener que estar físicamente en el lugar donde se encuentra concentrada o instalados los sistemas que manejan esta información.

Justificación:

La información es crucial para la mayoría de las empresas a tal grado que actualmente ven a la información como un activo de gran valor y gastan miles de pesos en resguardar esa información, por otro lado dado al estar en la era de la información. La mayoría de las organizaciones hacen lo posible por conseguir buena información de manera oportuna, pero el logro de ese objetivo depende fundamentalmente de su arquitectura actual, tanto de hardware como de software.

Por lo tanto lo que nos provee inteligencias de negocios es un conjunto de procesos, tecnologías y técnicas para proveer información valiosa, en el momento adecuado y por canales de comunicación idóneos, para que el usuario de negocio soporte su toma de decisiones.

Al hablar de canales de comunicación idóneos estamos hablando de canales seguros ya que se está manejando información confidencial y crucial por ello que decidimos enfocarnos a redes privadas virtuales que son enlaces seguros y confiables al integrarlos con tecnologías de negocios.

Al conjuntar estas dos tecnologías nos encontramos con un potencial enorme ya que nos brindan movilidad, seguridad y confiablidad lo cual garantiza una información oportuna en el momento que se requiera para el análisis de la misma y así los analistas de la información o usuarios del negocio podrán hacer uso de la misma sin necesidad de estar

(3)

III físicamente en el lugar donde esta almacenada podrán hacer uso de la información desde una conexión remota, a través de Internet o un dispositivo móvil.

Hace unos años no era tan necesario conectarse a Internet por motivos de trabajo.

Conforme ha ido pasado el tiempo las empresas han visto la necesidad de que las redes de área local superen la barrera de lo local permitiendo la conectividad de su personal y oficinas en otros edificios, ciudades, comunidades autónomas e incluso países.

Desgraciadamente, en el otro lado de la balanza se encontraban las grandes inversiones que era necesario realizar tanto en hardware como en software y por supuesto, en servicios de telecomunicaciones que permitiera crear estas redes de servicio.

Afortunadamente con la aparición de Internet, las empresas, centros de formación, organizaciones de todo tipo e incluso usuarios particulares tienen la posibilidad de crear una Red privada virtual que permita, mediante una moderada inversión económica y utilizando Internet, la conexión entre diferentes ubicaciones salvando la distancia entre ellas.

Las redes virtuales privadas utilizan protocolos especiales de seguridad que permiten obtener acceso a servicios de carácter privado, únicamente a personal autorizado de una empresa, centros de formación, organizaciones, etcétera; cuando un usuario se conecta vía Internet, la configuración de la red privada virtual le permite conectarse a la red privada del organismo con el que colabora y acceder a los recursos disponibles de la misma como si estuviera tranquilamente sentado en su oficina.

(4)

IV

INDICE TEMATICO

INTRODUCCION 1

Capítulo 1. Introducción a las Redes 3

1.1 ¿Qué es una Red? 3

1.2 Clasificación de redes 3

1.3 Tipos de redes 4

Capítulo 2. Red Virtual Privada (Virtual Private Network) 7

2.1 ¿Qué es una VPN? 7

2.2 Requerimientos Básicos 8

2.3 Funcionamiento de una VPN: 9

2.4 Tipos de VPN 11

2.4.1 VPN de acceso remoto 11

2.4.2 VPN punto a punto 11

2.4.3 VPN interna VLAN 12

Capítulo 3. Tunneling (Túnel) 13

3.1 Protocolos de Tunneling 13

3.1.1 El protocolo portador (carrier) 13

3.1.2 El protocolo del encapsulamiento (empaquetamiento) 16

3.1.3 El protocolo pasajero 21

Capítulo 4. Business Intelligence (Inteligencia de Negocios) 22

4.1 Conceptos de información 22

4.2 Introducción a la Inteligencia de Negocios 27

4.3 Data Warehousing 28

(5)

V

4.4 Inteligencia de negocios 29

4.5 Arquitecturas de sistemas 31

4.5.1 Sistemas OLAP 31

4.6 Procesos 33

4.7 El modelo de Data Warehouse 34

4.8 Calidad de la información 36

4.9 Distribución y recepción de información del BI 37

4.9.1 Intranet 38

4.9.1.1 Funciones Genéricas De Una Intranet 39

4.9.1.2 Como crear una Intranet 40

4.9.1.3 Componentes de una Intranet 40

4.9.1.4 Las diferentes áreas de Intranet 41

4.9.2 Extranet 44

Capítulo 5. ¿Por qué BI y VPNs? 47

5.1 Instalación y configuración de VPN en Linux UBUNTU 49 5.2 Configuración del cliente VPN con Windows XP 53 5.3 Instalación y configuración de MySQL en Linux UBUNTU 56

Conclusiones 62

Bibliografía 63

Glosario 64

(6)

VI INDICE DE IMAGENES

Figura 2.1 Estructura de Intranet 7

Figura 2.2 Ejemplo Red Empresarial 8

Figura 3.1Protocolo Portador 15

Figura 4.1 Escala de Información y Responsabilidad 27 Figura 4.2 Arquitectura de Inteligencia de Negocios 29

Figura 4.3 Proceso ETL 34

Figura 4.4 Modelo del Data Warehouse 35

Figura 4.5 Metadato 35

Figura 4.6 Extracción ETL 38

Figura 4.7 Intranet 39

Figura 4.8 Diagrama de una Extranet 45

Figura 4.9 Modelo de Extranet 46

Figura 5.1 Interacción BI y VPNs 48

Figura 5.2 Conexión Nueva 53

Figura 5.3 Tipo de conexión 53

Figura 5.4 Conexión de Red 54

Figura 5.5 Nombre de Red 54

Figura 5.6 Selección Servidor VPN 55

Figura 5.7 Conectarse a una Red VPN 55

Figura 5.8 Instalación MySQL 56

Figura 5.9 Instalación Administrador MySQL 57

(7)

VII Figura 5.10 Creación de Tablas de Bases De Datos 57

Figura 5.11 Configuración Conexión Remota 59

Figura 5.12 ETL 60

Figura 5.13 Tableros de Control 61

(8)

1

Introducción

Información. Es una palabra que se escucha muy a menudo, palabra cuya importancia nunca fue tan relevante como lo es en esta era, la era de la información.

Sin embargo la forma en la que esta información ha ido adquiriendo importancia se encuentra íntimamente ligada con el avance tecnológico en las telecomunicaciones y en la seguridad. Uno de los principales activos dentro de las empresas es su información y la manera en la que este activo se convierte en una seria ventaja con relación a la competencia, puede representar el éxito o fracaso de cualquier organización. El problema con la información radica en los costos, la Inteligencia de Negocios requiere de una infraestructura de Hardware y Software caracterizados por tener un costo elevado.

Una vez más, la tecnología y sus pasos agigantados verían nacer a Internet, herramienta que se adentraría en casi todos los ámbitos de la actividad humana incluido por supuesto el empresarial, que vio en Internet la posibilidad de comunicarse a distancia y compartir recursos.

Es con estos acontecimientos que también se vio nacer a la seguridad informática y a su evolución de la mano de los avances tecnológicos, dando como resultado una actualidad lo suficientemente madura tecnológicamente como para aprovechar las ventajas de la Inteligencia de Negocios, apoyada en la reducción de los costos gracias a Internet y con el menor riesgo posible.

(9)

2 Las VPN´s (Redes Privadas Virtuales) representan una de las mejores aliadas en el uso de Internet como intermediario entre el receptor y el emisor de la información de negocios, convirtiéndose en la carretera segura por la que viajara la información que se convertirá en conocimiento y en la ventaja competitiva que lleve al éxito a la empresa u organización.

(10)

3

Capítulo 1. Introducción a las Redes

1.1 ¿Qué es una Red?

Una red de computadoras, es un conjunto de equipos (computadoras y/o dispositivos) conectados por medio de cables, señales, ondas o cualquier otro método de transporte de datos, que comparten información (archivos), recursos (CD-ROM, impresoras, etc.) y servicios (acceso a Internet, e-mail, chat, juegos), etc.

Una red de comunicaciones es un conjunto de medios técnicos que permiten la comunicación a distancia entre equipos autónomos (no jerárquica -master/slave-).

Normalmente se trata de transmitir datos, audio y vídeo por ondas electromagnéticas a través de diversos medios (aire, vacío, cable de cobre, fibra óptica, etc.)

1.2 Clasificación de redes

• Por alcance:

• Red de área personal

• Red de área local

• Red de área de campus

• Red de área metropolitana

• Red de área amplia

• Por método de la conexión:

• Medios guiados: cable coaxial, cable de par trenzado, fibra óptica y otros tipos de cables.

• Medios no guiados: radio, infrarrojos, microondas, láser y otras redes inalámbricas.

(11)

4

• Por relación funcional:

• Cliente-servidor

• Igual-a-Igual (point-to-point)

• Por Topología de red:

• Red de bus

• Red de estrella

• Red de anillo (o doble anillo)

• Red en malla (o totalmente conexa)

• Red en árbol

• Red Mixta (cualquier combinación de las anteriores)

• Por la direccionalidad de los datos (tipos de transmisión)

• Simplex (unidireccionales), un Equipo Terminal de Datos transmite y otro recibe. (p. ej.streaming)

• Half-Duplex (bidireccionales), sólo un equipo transmite a la vez. También se llama Semi-Duplex (p. ej. una comunicación por equipos de radio, si los equipos no son full dúplex, uno no podría transmitir (hablar) si la otra persona está también transmitiendo (hablando) porque su equipo estaría recibiendo (escuchando) en ese momento).

• Full-Duplex (bidireccionales), ambos pueden transmitir y recibir a la vez una misma información. (p. ej. videoconferencia).

1.3 Tipos de redes

• Red pública: una red pública se define como una red que puede usar cualquier persona y no como las redes que están configuradas con clave de acceso personal. Es una red de computadoras interconectadas, capaz de compartir información y que permite comunicar a usuarios sin importar su ubicación geográfica.

• Red privada: una red privada se definiría como una red que puede usarla solo algunas personas y que están configuradas con clave de acceso personal.

(12)

5

• Red de área Personal (Personal Área Network) es una red de ordenadores usada para la comunicación entre los dispositivos de la computadora (teléfonos incluyendo las ayudantes digitales personales) cerca de una persona. Los dispositivos pueden o no pueden pertenecer a la persona en cuestión. El alcance de una PAN es típicamente algunos metros. Las PAN se pueden utilizar para la comunicación entre los dispositivos personales de ellos mismos (comunicación del intrapersonal), o para conectar con una red de alto nivel y el Internet (un up link). Las redes personales del área se pueden conectar con cables con los buses de la computadora tales como USB y FireWire. Una red personal sin hilos del área (Red Inalámbrica de Área Personal) se puede también hacer posible con tecnologías de red tales como IrDA y Bluetooth.

• Red de área local (Local Area Network): una red que se limita a un área especial relativamente pequeña tal como un cuarto, un solo edificio, una nave, o un avión. Las redes de área local a veces se llaman una sola red de la localización. Nota: Para los propósitos administrativos, la rede de área local grande se divide generalmente en segmentos lógicos más pequeños llamados los Workgroups (Grupos de trabajo). Un Workgroups es un grupo de las computadoras que comparten un sistema común de recursos dentro de una red de área local.

• Red del área del campus: se deriva a una red que conecta dos o más LANs los cuales deben estar conectados en un área geográfica específica tal como un campus de universidad, un complejo industrial o una base militar.

• Red de área metropolitana (Metropolitan Area Network): una red que conecta las redes de un área dos o más locales juntos pero no extiende más allá de los límites de la ciudad inmediata, o del área metropolitana. Los enrutadores (routers) múltiples, los interruptores (switch) y los cubos están conectados para crear a una MAN.

• Red de área amplia (Wide Area Network): es una red de comunicaciones de datos que cubre un área geográfica relativamente amplia y que utiliza a menudo las instalaciones de transmisión proporcionadas por los portadores comunes, tales como compañías del

(13)

6 teléfono. Las tecnologías WAN funcionan generalmente en las tres capas más bajas del Modelo de referencia OSI: la capa física, la capa de transmisión de datos, y la capa de red.

• Red irregular: Es un sistema de cables y buses que se conectan a través de un módem, y que da como resultado la conexión de una o más computadoras. Esta red es parecida a la mixta, solo que no sigue con los parámetros presentados en ella. Muchos de estos casos son muy usados en la mayoría de las redes.

(14)

7

Capítulo 2. Red Virtual Privada (Virtual Private Network)

2.2 ¿Qué es una VPN?

La Red Privada Virtual VPN (Virtual Private Network), es una tecnología de red que permite una extensión de la red local sobre una red pública o no controlada, como por ejemplo Internet.

Ejemplos comunes son, la posibilidad de conectar dos o más sucursales de una empresa utilizando como vínculo Internet, permitir a los miembros del equipo de soporte técnico la conexión desde su casa al centro de cómputo, o que un usuario pueda acceder a su equipo doméstico desde un sitio remoto, como por ejemplo un hotel. Todo ello utilizando la infraestructura de Internet.

Figura 2.1 Estructura de Intranet

(15)

8 Realmente una VPN no es más que una estructura de red corporativa implantada sobre una red de recursos de carácter público, pero que utiliza el mismo sistema de gestión y las mismas políticas de acceso que se usan en las redes privadas, al fin y al cabo no es más que la creación en una red pública de un entorno de carácter confidencial y privado que permitirá trabajar al usuario como si estuviera en su misma red local.

Figura 2.2 Ejemplo red empresarial

2.2

Requerimientos Básicos

• Identificación de usuario: las VPN deben verificar la identidad de los usuarios y restringir su acceso a aquellos que no se encuentren autorizados.

• Codificación de datos: los datos que se van a transmitir a través de la red pública (Internet), antes deben ser cifrados, para que así no puedan ser leídos. Esta tarea se

(16)

9 realiza con algoritmos de cifrado como DES o 3DES que solo pueden ser leídos por el emisor y receptor.

• Administración de claves: las VPN deben actualizar las claves de cifrado para los usuarios.

• Administración de direcciones: La VPN debe establecer una dirección del cliente en la red privada y debe cerciorarse que las direcciones privadas se conserven así.

• Soporte a protocolos múltiples: La VPN debe ser capaz de manejar los protocolos comunes que se utilizan en la red pública. Estos incluyen el protocolo de internet (Internet Protocol), el intercambio de paquete de internet (Internetwork Packet Exchance) entre otros.

2.3

Funcionamiento de una VPN:

Desde el punto de vista del usuario que se conecta a ella, el funcionamiento de una VPN es similar al de cualquier red normal, aunque realmente para que el comportamiento se perciba como el mismo hay un gran número de elementos y factores que hacen esto posible.

La comunicación entre los dos extremos de la red privada a través de la red pública se hace estableciendo túneles virtuales entre esos dos puntos y usando sistemas de encriptación y autentificación que aseguren la confidencialidad e integridad de los datos transmitidos a través de esa red pública. Debido al uso de estas redes públicas, generalmente Internet, es necesario prestar especial atención a las cuestiones de seguridad para evitar accesos no deseados.

La tecnología de túneles (Tunneling) es un modo de envío de datos en el que se encapsula un tipo de paquetes de datos dentro del paquete de datos propio de algún protocolo de comunicaciones, y al llegar a su destino, el paquete original es desempaquetado volviendo así a su estado original.

En el traslado a través de Internet, los paquetes viajan encriptados, por este motivo, las técnicas de autenticación son esenciales para el correcto funcionamiento de las VPNs, ya que se aseguran a emisor y receptor que están intercambiando información con el usuario o dispositivo correcto.

(17)

10 La autenticación en redes virtuales es similar al sistema de inicio de sesión a través de usuario y contraseña, pero tienes unas necesidades mayores de aseguramiento de validación de identidades.

La mayoría de los sistemas de autenticación usados en VPN están basados en sistema de claves compartidas.

La autenticación se realiza normalmente al inicio de una sesión, y luego, aleatoriamente, durante el transcurso de la sesión, para asegurar que no haya algún tercer participante que se haya podido entrometer en la conversación.

Todas las VPNs usan algún tipo de tecnología de encriptación, que empaqueta los datos en un paquete seguro para su envío por la red pública.

La encriptación hay que considerarla tan esencial como la autenticación, ya que permite proteger los datos transportados de poder ser vistos y entendidos en el viaje de un extremo a otro de la conexión.

Existen dos tipos de técnicas de encriptación que se usan en las VPN: Encriptación de clave secreta, o privada, y Encriptación de clave pública.

En la encriptación con clave secreta se utiliza una contraseña secreta conocida por todos los participantes que van a hacer uso de la información encriptada. La contraseña se utiliza tanto para encriptar como para desencriptar la información. Este tipo de sistema tiene el problema que, al ser compartida por todos los participantes y debe mantenerse secreta, al ser revelada, tiene que ser cambiada y distribuida a los participantes, lo que puede crear problemas de seguridad.

La encriptación de clave pública implica la utilización de dos claves, una pública y una secreta. La primera es enviada a los demás participantes. Al encriptar, se usa la clave privada propia y la clave pública del otro participante de la conversación. Al recibir la información, ésta es desencriptada usando su propia clave privada y la pública del generador de la información. La gran desventaja de este tipo de encriptación es que resulta ser más lenta que la de clave secreta.

En las redes virtuales, la encriptación debe ser realizada en tiempo real, de esta manera, los flujos de información encriptada a través de una red lo son utilizando encriptación de clave secreta con claves que son válidas únicamente para la sesión usada en ese momento.

(18)

11

2.4 Tipos de VPN

Básicamente existen tres arquitecturas de conexión VPN:

• VPN de acceso remoto.

• VPN punto a punto.

• VPN interna VLAN.

2.4.1 VPN de acceso remoto

Es quizás el modelo más usado actualmente y consiste en usuarios o proveedores que se conectan con la empresa desde sitios remotos (oficinas comerciales, domicilios, hoteles, aviones preparados, etcétera) utilizando Internet como vínculo de acceso. Una vez autentificados tienen un nivel de acceso muy similar al que tienen en la red local de la empresa. Muchas empresas han reemplazado con esta tecnología su infraestructura dial- up (módems y líneas telefónicas).

2.4.2 VPN punto a punto

Este esquema se utiliza para conectar oficinas remotas con la sede central de la organización. El servidor VPN, que posee un vínculo permanente a Internet, acepta las conexiones vía Internet provenientes de los sitios y establece el túnel VPN. Los servidores de las sucursales se conectan a Internet utilizando los servicios de su proveedor local de Internet, típicamente mediante conexiones de banda ancha. Esto permite eliminar los costosos vínculos punto a punto tradicional, sobre todo en las comunicaciones internacionales. Es más común el siguiente punto, también llamado tecnología de túnel o tunneling.

(19)

12 2.4.3 VPN interna VLAN

Este esquema es el menos difundido pero uno de los más poderosos para utilizar dentro de la empresa. Es una variante del tipo "acceso remoto" pero, en vez de utilizar Internet como medio de conexión, emplea la misma red de área local (LAN) de la empresa. Sirve para aislar zonas y servicios de la red interna. Esta capacidad lo hace muy conveniente para mejorar las prestaciones de seguridad de las redes inalámbricas (WiFi).

Un ejemplo clásico es un servidor con información sensible, como las nóminas de sueldos, ubicado detrás de un equipo VPN, el cual provee autenticación adicional más el agregado del cifrado, haciendo posible que sólo el personal de recursos humanos habilitado pueda acceder a la información

(20)

13

Capítulo 3. Tunneling (Túnel)

Se conoce como túnel al efecto de la utilización de ciertos protocolos de red que encapsulan a otro protocolo. Así, el protocolo A es encapsulado dentro del protocolo B, de forma que el primero considera al segundo como si estuviera en el nivel de enlace de datos. La técnica de tunelizar se suele utilizar para trasportar un protocolo determinado a través de una red que, en condiciones normales, no lo aceptaría. Otro uso de la tunelización de protocolos es la creación de diversos tipos de redes privadas virtuales.

La mayoría de las VPNs utilizan el "Tunneling" para comunicarse a través de Internet. En esencia el Tunneling es el proceso de colocación de cada paquete de información que se envía dentro de otro paquete que hace de "envoltorio". El protocolo del paquete que hace de envoltorio solo es entendido por el emisor y por el receptor, en concreto, por el Gateway que lo envía y por el Gateway que lo recibe. Para los usuarios que utilizan esos routers el proceso es transparente ya que el empaquetamiento y el des-empaquetamiento se realiza en el Gateway y no, normalmente en el PC.

El Tunneling se basa en tres protocolos:

3.1 Protocolos de Tunneling

3.1.1 El protocolo portador (carrier)

Carrier Sense, Multiple Access, Collision Avoidance (acceso múltiple por detección de portadora con evasión de colisiones) es un protocolo de control de redes de bajo nivel que permite que múltiples estaciones de trabajo utilicen un mismo medio de transmisión. Cada equipo anuncia opcionalmente su intención de transmitir antes de hacerlo para evitar colisiones entre los paquetes de datos (comúnmente en redes inalámbricas, ya que estas no

(21)

14 cuentan con un modo práctico para transmitir y recibir simultáneamente). De esta forma, el resto de equipos de la red sabrán cuando hay colisiones y en lugar de transmitir la trama en cuanto el medio está libre, se espera un tiempo aleatorio adicional corto y solamente si, tras ese corto intervalo el medio sigue libre, se procede a la transmisión reduciendo la probabilidad de colisiones en el canal. CSMA/CA es utilizada en canales en los que por su naturaleza no se puede usar CSMA/CD. CSMA/CA se utiliza en 802.11 basada en redes inalámbricas.

Aunque CSMA/CD y CSMA/CA aseguren que un nodo va a obtener un acceso al medio no se asegura que el nodo destino esté en contacto con el nodo origen. Para solucionar este problema se ha añadido un procedimiento de saludo adicional al protocolo de la capa MAC.

Este procedimiento se ha denominado protocolo de MAC inalámbrico de fundamento distribuido (DFW MAC) con el fin de que sirva para los diferentes métodos de la capa MAC.

Para enviar una trama, el equipo origen primero envía una trama corta de control de solicitud de transmisión RTS Request To Send (Requerimiento de envío) mediante el método CSMA/CD o CSMA/CA. Este mensaje de control RTS contiene las direcciones de MAC del equipo origen y destino. Si el equipo destino recibe esta trama corta de control, significa que está preparado para recibir un paquete. Este equipo devolverá una trama de contestación: preparado para transmitir CTS Clear To Send (limpieza de envió) o receptor ocupado (RxBUSY). Si la respuesta es afirmativa el equipo origen transmite la trama en espera (DATA). Si el equipo destino recibe correctamente el mensaje contesta con la trama de confirmación positiva y si no la recibe correctamente contesta con la trama de confirmación negativa y el equipo origen tratará de volver a enviarlo. Este procedimiento se repite un número predefinido de veces hasta conseguirse una transmisión correcta de la trama DATA (Dato).

(22)

15 Figura 3.1 Protocolo Portador

Este método asegura así que el mensaje se recibe correctamente. Sin embargo, debido a las dos transmisiones, la del mensaje original y la del reconocimiento del receptor, pierde un poco de eficiencia. Este sistema incrementa el volumen de tráfico en el cable y reduce las prestaciones de la red, motivo por el que se usa poco.

(23)

16

3.1.2 El protocolo del encapsulamiento (empaquetamiento)

Es el protocolo que aplica al envoltorio del paquete enviado, y según el tipo será más o menos seguro, pudiendo ser:

• L2TP Layer 2 Tunneling Protocol (Protocolo de túnel de 2 capas)

• MPLS Multiprotocol Label Switching (Traspuesta de multiprotocolo de etiqueta)

• GRE (Generic Routing Encapsulation) (Encapsulado generic de Enrutamiento)

• PPTP (Point-to-Point Tunneling Protocol) (Protocolo de túnel punto a punto)

• PPPoE point-to-point protocol over Ethernet (Protocolo punto a punto de enternet)

• PPPoA point-to-point protocol over ATM ( ATM protocol punto a punto)

• IPSec Internet Protocol security (Protocolo de seguridad de internet)

L2TP (Layer 2 Tunneling Protocol) fue diseñado por un grupo de trabajo de IETF como el heredero aparente de los protocolos PPTP y L2F, creado para corregir las deficiencias de estos protocolos y establecerse como un estándar aprobado por el IETF (RFC 2661). L2TP utiliza PPP para proporcionar acceso telefónico que puede ser dirigido a través de un túnel por Internet hasta un punto determinado. L2TP define su propio protocolo de establecimiento de túneles, basado en L2F. El transporte de L2TP está definido para una gran variedad de tipos de paquete, incluyendo X.25, Frame Relay y ATM.

Al utilizar PPP para el establecimiento telefónico de enlaces, L2TP incluye los mecanismos de autenticación de PPP, PAP y CHAP. De forma similar a PPTP, soporta la utilización de estos protocolos de autenticación, como RADIUS.

A pesar de que L2TP ofrece un acceso económico, con soporte multiprotocolo y acceso a redes de área local remotas, no presenta unas características criptográficas especialmente robustas. Por ejemplo:

• Sólo se realiza la operación de autenticación entre los puntos finales del túnel, pero no para cada uno de los paquetes que viajan por él. Esto puede dar lugar a suplantaciones de identidad en algún punto interior al túnel.

• Sin comprobación de la integridad de cada paquete, sería posible realizar un ataque de denegación del servicio por medio de mensajes falsos de control que den por acabado el túnel L2TP o la conexión PPP subyacente.

(24)

17

• L2TP no cifra en principio el tráfico de datos de usuario, lo cual puede dar problemas cuando sea importante mantener la confidencialidad de los datos.

• A pesar de que la información contenida en los paquetes PPP puede ser cifrada, este protocolo no dispone de mecanismos para generación automática de claves, o refresco automático de claves. Esto puede hacer que alguien que escuche en la red y descubra una única clave tenga acceso a todos los datos transmitidos.

A causa de estos inconvenientes, el grupo del IETF “Internet Engineering Task Force”

(Grupo de Trabajo en Ingeniería de Internet) que trabaja en el desarrollo de PPP consideró la forma de solventarlos. Ante la opción de crear un nuevo conjunto de protocolos para L2TP del mismo estilo de los que se están realizando para IPSec, y dado la duplicación del trabajo respecto al propio grupo de desarrollo de IPSec que supondría, se tomó la decisión de utilizar los propios protocolos IPSec para proteger los datos que viajan por un túnel L2TP.

L2TP es en realidad una variación de un protocolo de encapsulamiento IP. Un túnel L2TP se crea encapsulando una trama L2TP en un paquete UDP, el cual es encapsulado a su vez en un paquete IP, cuyas direcciones de origen y destino definen los extremos del túnel.

MPLS (siglas de Multiprotocol Label Switching) es un mecanismo de transporte de datos estándar creado por la IETF y definido en el RFC 3031. Opera entre la capa de enlace de datos y la capa de red del modelo OSI. Fue diseñado para unificar el servicio de transporte de datos para las redes basadas en circuitos y las basadas en paquetes. Puede ser utilizado para transportar diferentes tipos de tráfico, incluyendo tráfico de voz y de paquetes IP.

MPLS es una red de datos de transporte de mecanismo que emula algunas de las propiedades de un circuito de conmutación de red en una red de conmutación de paquetes. MPLS funciona a una capa de modelo OSI que se considera generalmente que se encuentran entre las definiciones tradicionales de la capa 2 (capa de enlace de datos) y de capa 3 (nivel de red), y por lo tanto se refiere a menudo como un "protocolo de capa de 2.5". Fue diseñado para proporcionar una base de datos unificada de transporte de servicio tanto para clientes basados en circuitos y conmutación de paquetes, los clientes que proporcionan un modelo de servicio de datagramas. Puede ser utilizado para realizar

(25)

18 diferentes tipos de tráfico, incluyendo los paquetes IP, así como ATM nativa, SONET, y tramas Ethernet.

El GRE “Generic Routing Encapsulation” (Encapsulador genérico de enrutamiento) es un protocolo para el establecimiento de túneles a través de Internet. Está definido en la RFC 1701 y en la RFC 1702, pudiendo transportar hasta 20 protocolos de red distintos.

• Permite emplear protocolos de encaminamiento especializados que obtengan el camino óptimo entre los extremos de la comunicación.

• Soporta la secuencialidad de paquetes y la creación de túneles sobre redes de alta velocidad.

• Permite establecer políticas de encaminamiento y seguridad.

PPTP es un protocolo de red creado por Microsoft que permite la realización de transferencias seguras desde clientes remotos a servidores emplazados en redes privadas, empleando para ello tanto líneas telefónicas conmutadas como Internet. En el escenario típico de PPTP, el cliente establecerá una conexión dial−up con el servidor de acceso a red (NAS) del proveedor del servicio, empleando para ello el protocolo PPP. Una vez conectado, el cliente establecerá una segunda conexión con el servidor PPTP (necesariamente Windows NT

Server 4.0) el cual estará situado en la red privada. Dicho servidor será utilizado como intermediario de la conexión, recibiendo los datos del cliente externo y transmitiéndolos al correspondiente destino en la red privada.

PPTP encapsula los paquetes PPP en datagramas IP. Una vez que los datagramas llegan al servidor PPTP, son desensamblados con el fin de obtener el paquete PPP y desencriptados de acuerdo al protocolo de red transmitido. Por el momento, PPTP únicamente soporta los protocolos de red IP, IPX, y NetBEUI. El protocolo PPTP especifica además una serie de mensajes de control con el fin de establecer, mantener y destruir el túnel PPTP. Estos mensajes son transmitidos en paquetes de control en el interior de segmentos TCP. De este modo, los paquetes de control almacenan la cabecera IP “Internet Protocol” (Protocolo de internet), la cabecera TCP, el mensaje de control PPTP y los trailers apropiados.

(26)

19 La autenticación PPTP está basada en el sistema de acceso de Windows NT, en el cual todos los clientes deben proporcionar un par usuario/contraseña. La autenticación remota de clientes PPTP es realizada empleando los mismos métodos de autenticación utilizados por cualquier otro tipo de servidor de acceso remoto (RAS). En el caso de Microsoft, la autenticación utilizada para el acceso a los RAS soporta los protocolos CHAP, MS−CHAP, y PAP. Los accesos a los recursos NTFS o a cualquier otro tipo, precisa de los permisos adecuados, para lo cual resulta recomendable utilizar el sistema de ficheros NTFS para los recursos de ficheros a los que deben acceder los clientes PPTP.

En cuanto a la encriptación de datos, PPTP utiliza el proceso de encriptación de secreto compartido en el cual sólo los extremos de la conexión comparten la clave. Dicha clave es generada empleando el estándar RSA RC−4 a partir del password del usuario. La longitud de dicha clave puede ser 128 bits (para usuarios de Estados Unidos y Canada) o 40 bits (para el resto de usuarios).

PPPoE (Point-to-Point Protocol over Ethernet o Protocolo Punto a Punto sobre Ethernet) es un protocolo de red para la encapsulación PPP sobre una capa de Ethernet. Es utilizada mayormente para proveer conexión de banda ancha mediante servicios de cablemódem y xDSL. Este ofrece las ventajas del protocolo PPP como son la autenticación, cifrado y compresión.

En esencia, es un protocolo túnel, que permite implementar una capa IP sobre una conexión entre dos puertos Ethernet, pero con las características de software del protocolo PPP, por lo que es utilizado para virtualmente "marcar" a otra máquina dentro de la red Ethernet, logrando una conexión "serial" con ella, con la que se pueden transferir paquetes IP, basado en las características del protocolo PPP.

Esto permite utilizar software tradicional basado en PPP para manejar una conexión que no puede usarse en líneas seriales pero con paquetes orientados a redes locales como Ethernet para proveer una conexión clásica con autenticación para cuentas de acceso a Internet.

Además, las direcciones IP en el otro lado de la conexión sólo se asignan cuando la conexión PPPoE es abierta, por lo que admite el reuso de direcciones IP (direccionamiento dinámico).

(27)

20 Gracias a este protocolos, las señales del roteador pueden negociar los parámetros de conexión o de red entre el router y el ISP, con lo que sólo necesitas saber tu Identificador de Usuario y tu clave de acceso para poder comenzar a navegar, puesto que el resto de datos se obtienen automáticamente en el momento en que se efectúa la conexión. Con PPPoE, el router efectúa el encaminamiento IP con Network Address Translation (NAT) para la LAN. El router que cuente con PPPoE también es compatible con la asignación dinámica de direcciones IP a nodos de red local. Cuando se use la asignación dinámica, el router actuará como servidor DHCP “Dynamic Host Configuration Protocol”(Protocolo Configuración Dinámica de Servidor).

PPPOA o PPPoA, Protocolo de Punto a Punto (PPP) sobre ATM (PPP over ATM), es un protocolo de red para la encapsulación PPP en capas ATM (Modo de Transferencia Asíncrona o Asynchronous Transfer Mode) AAL5.

El protocolo PPPoA se utiliza principalmente en conexiones de banda ancha, como cable y DSL. Este ofrece las principales funciones PPP como autenticación, cifrado y compresión de datos. Actualmente es algo mejor que PPPoE debido a que reduce la pérdida de calidad en las transmisiones.

IPsec (abreviatura de Internet Protocol security) es un conjunto de protocolos cuya función es asegurar las comunicaciones sobre el Protocolo de Internet (IP) autenticando y/o cifrando cada paquete IP en un flujo de datos. IPsec también incluye protocolos para el establecimiento de claves de cifrado.

IPsec está implementado por un conjunto de protocolos criptográficos para (1) asegurar el flujo de paquetes, (2) garantizar la autenticación mutua y (3) establecer parámetros criptográficos.

La arquitectura de seguridad IP utiliza el concepto de asociación de seguridad (SA) como base para construir funciones de seguridad en IP. Una asociación de seguridad es simplemente el paquete de algoritmos y parámetros (tales como las claves) que se está usando para cifrar y autenticar un flujo particular en una dirección. Por lo tanto, en el tráfico normal bidireccional, los flujos son asegurados por un par de asociaciones de

(28)

21 seguridad. La decisión final de los algoritmos de cifrado y autenticación (de una lista definida) le corresponde al administrador de IPsec.

Para decidir qué protección se va a proporcionar a un paquete saliente, IPsec utiliza el índice de parámetro de seguridad (SPI), un índice a la base de datos de asociaciones de seguridad (SADB), junto con la dirección de destino de la cabecera del paquete, que juntos identifican de forma única una asociación de seguridad para dicho paquete. Para un paquete entrante se realiza un procedimiento similar; en este caso IPsec coge las claves de verificación y descifrado de la base de datos de asociaciones de seguridad.

En el caso de multicast, se proporciona una asociación de seguridad al grupo, y se duplica para todos los receptores autorizados del grupo. Puede haber más de una asociación de seguridad para un grupo, utilizando diferentes SPIs, y por ello permitiendo múltiples niveles y conjuntos de seguridad dentro de un grupo. De hecho, cada remitente puede tener múltiples asociaciones de seguridad, permitiendo autenticación, ya que un receptor sólo puede saber que alguien que conoce las claves ha enviado los datos. Hay que observar que el estándar pertinente no describe cómo se elige y duplica la asociación a través del grupo;

se asume que un interesado responsable habrá hecho la elección.

3.1.3 El protocolo pasajero

Es el protocolo del paquete de información que se envía dentro del envoltorio, es decir, el paquete original de información. Los "protocolos pasajero" habituales son IPX, NetBeui e IP.

(29)

22

Capítulo 4. Business Intelligence (Inteligencia de Negocios)

4.1 Conceptos De Información

Datos: Los datos son la mínima unidad semántica, y se corresponden con elementos primarios de información que por sí solos son irrelevantes como apoyo a la toma de decisiones. También se pueden ver como un conjunto discreto de valores, que no dicen nada sobre el por qué de las cosas y no son orientativos para la acción. Un número telefónico o un nombre de una persona, por ejemplo, son datos que, sin un propósito, una utilidad o un contexto no sirven como base para apoyar la toma de una decisión.

Información: La información se puede definir como un conjunto de datos procesados y que tienen un significado (relevancia, propósito y contexto), y que por lo tanto son de utilidad para quién debe tomar decisiones. Los datos se pueden transforman en información añadiéndoles valor:

• Contextualizando: se sabe en qué contexto y para qué propósito se generaron.

• Categorizando: se conocen las unidades de medida que ayudan a interpretarlos.

• Calculando: los datos pueden haber sido procesados matemática o estadísticamente.

• Corrigiendo: se han eliminado errores e inconsistencias de los datos.

Conocimiento: El conocimiento es una mezcla de experiencia, valores, información y know-how (saber-hacer) que sirve como marco para la incorporación de nuevas experiencias e información, y es útil para la acción. En las organizaciones con frecuencia no sólo se encuentra dentro de documentos o almacenes de datos, sino que también esta en rutinas organizativas, procesos, prácticas, y normas. El conocimiento se deriva de la información, así como la información se deriva de los datos. Para que la información se

(30)

23 convierta en conocimiento es necesario realizar acciones como:

• Comparación con otros elementos.

• Predicción de consecuencias.

• Búsqueda de conexiones.

• Conversación con otros portadores de conocimiento.

La información es un conjunto organizado de datos procesados, que constituyen un mensaje sobre un determinado ente o fenómeno. Los datos se perciben, se integran y generan la información necesaria para producir el conocimiento que es el que finalmente permite tomar decisiones para realizar las acciones cotidianas que aseguran la existencia. La sabiduría consiste en determinar correctamente cuándo, cómo, dónde y con qué objetivo emplear el conocimiento adquirido.

La información también indica mediante códigos y conjuntos de datos, los modelos del pensamiento humano. La información por lo tanto, procesa y genera el conocimiento humano. De esta manera, si por ejemplo organizamos datos sobre un país, tales como:

número de habitantes, densidad de población, nombre del presidente, etc. y escribimos por ejemplo, el capítulo de un libro, podemos decir que ese capítulo constituye información sobre ese país. Cuando tenemos que resolver un determinado problema o tenemos que tomar una decisión, empleamos diversas fuentes de información (como podría ser el capítulo mencionado de este libro imaginario), y construimos lo que en general se denomina conocimiento o información organizada que permite la resolución de problemas o la toma de decisiones (ver apartado sobre conocimiento). Aunque muchos seres vivos se comunican transmitiendo información para su supervivencia, la diferencia de los seres humanos radica en su capacidad de generar y perfeccionar tanto códigos como símbolos con significados que conformaron lenguajes comunes útiles para la convivencia en sociedad, a partir del establecimiento de sistemas de señales y lenguajes para la comunicación. Existe una relación indisoluble entre los datos, la información, el conocimiento, el pensamiento y el lenguaje, por lo que una mejor comprensión de los conceptos sobre información redundará en un aumento del conocimiento, ampliando así las posibilidades del pensamiento humano, que también emplea el lenguaje -oral, escrito, gesticular, etc.-, y un sistema de señales y símbolos interrelacionados.

(31)

24

• Significado (semántica)

• Importancia (relativa al receptor)

• Vigencia (en la dimensión espacio-tiempo)

• Validez (relativa al emisor)

• Valor (activo intangible volátil)

Seguridad de la Información tiene como fin la protección de la información y de los sistemas de la información del acceso, uso, divulgación, interrupción o destrucción no autorizada.

El termino Seguridad de Información, Seguridad informática y garantía de la información son usados con frecuencia y aunque su significado no es el mismo, persiguen una misma finalidad al proteger la Confidencialidad, Integridad y Disponibilidad de la información;

Sin embargo entre ellos existen algunas diferencias sutiles. Estas diferencias radican principalmente en el enfoque, las metodologías utilizadas, y las zonas de concentración.

La Seguridad de la Información se refiere a la Confidencialidad, Integridad y Disponibilidad de la información y datos, independientemente de la forma los datos pueden tener: electrónicos, impresos, audio u otras formas.

Además, la seguridad de la información involucra la implementación de estrategias que cubran los procesos en donde la información es el activo primordial. Estas estrategias deben tener como punto primordial el establecimiento de políticas, controles de seguridad, tecnologías y procedimientos para detectar amenazas que puedan explotar vulnerabilidades y que pongan en riesgo dicho activo, es decir, que ayuden a proteger y salvaguardar tanto información como los sistemas que la almacenan y administran.

Cabe mencionar que la seguridad es un proceso continuo de mejora por lo que las políticas y controles establecidos para la protección de la información deberán revisarse y adecuarse, de ser necesario, ante los nuevos riesgos que surjan, a fin de tomar las acciones que permitan reducirlos y en el mejor de los casos eliminarlos.

Los Gobiernos, entidades militares, instituciones financieras, los hospitales y las empresas privadas acumulan una gran cantidad de información confidencial sobre sus empleados, clientes, productos, investigación y su situación financiera. La mayor parte de esta información es recolectada, tratada, almacenada y puesta a la disposición de sus usuarios, en computadoras y trasmitida a través de las redes entre los ordenadores.

(32)

25 En caso de que la información confidencial de una empresa, sus clientes, sus decisiones, su estado financiero o nueva línea de productos caigan en manos de un competidor; se vuelva pública de forma no autorizada, podría ser causa de la perdida de credibilidad de los clientes, pérdida de negocios, demandas legales o incluso la quiebra de la misma.

Por lo que proteger la información confidencial es un requisito del negocio, y en muchos casos también un imperativo ético y una obligación legal.

Para el individuo común, la Seguridad de la Información tiene un efecto significativo respecto a su privacidad, la que puede cobrar distintas dimensiones dependiendo de la cultura del mismo.

El campo de la Seguridad de la Información ha crecido y evolucionado considerablemente en los últimos años. Convirtiéndose en una carrera acreditada a nivel mundial. La misma ofrece muchas áreas de especialización, incluidos la auditoría de sistemas de información, Planificación de la continuidad del negocio, Ciencia Forense Digital y Administración de Sistemas de Gestión de Seguridad por nombrar algunos.

La correcta Gestión de la Seguridad de la Información busca establecer y mantener programas, controles y políticas, que tengan como finalidad conservar la confidencialidad, integridad y disponibilidad de la información, si alguna de estas características falla no estamos ante nada seguro. Es preciso anotar, además, que la seguridad no es ningún hito, es más bien un proceso continuo que hay que gestionar conociendo siempre las vulnerabilidades y las amenazas que se ciñen sobre cualquier información, teniendo siempre en cuenta las causas de riesgo y la probabilidad de que ocurran, así como el impacto que puede tener. Una vez conocidos todos estos puntos, y nunca antes, deberán tomarse las medidas de seguridad oportunas.

Confidencialidad: La confidencialidad es la propiedad de prevenir la divulgación de información a personas o sistemas no autorizados.

Por ejemplo, una transacción de tarjeta de crédito en Internet requiere que el número de tarjeta de crédito a ser transmitida desde el comprador al comerciante y el comerciante de a una red de procesamiento de transacciones. El sistema intenta hacer valer la confidencialidad mediante el cifrado del número de la tarjeta y los datos que contiene la

(33)

26 banda magnética durante la transmisión de los mismos. Si una parte no autorizada obtiene el número de la tarjeta en modo alguno, se ha producido una violación de la confidencialidad.

La perdida de la confidencialidad de la información puede adoptar muchas formas. Cuando alguien mira por encima de su hombro, mientras usted tiene información confidencial en la pantalla, cuando se publica información privada, cuando un laptop con información sensible sobre una empresa es robado, cuando se divulga información confidencial a través del teléfono, etc. Todos estos casos pueden constituir una violación de la confidencialidad.

Integridad: Para la Seguridad de la Información, la integridad es la propiedad que busca mantener los datos libres de modificaciones no autorizadas. (No es igual a

integridad referencial

en bases de datos.) La violación de integridad se presenta cuando un empleado, programa o proceso (por accidente o con mala intención) modifica o borra los datos importantes que son parte de la información, asi mismo hace que su contenido permanezca inalterado a menos que sea modificado por personal autorizado, y esta modificación sea registrada, asegurando su precisión y confiabilidad. La integridad de un mensaje se obtiene adjuntándole otro conjunto de datos de comprobación de la integridad:

la huella digital

Disponibilidad: La Disponibilidad es la característica, cualidad o condición de la información de encontrarse a disposición de quienes deben acceder a ella, ya sean personas, procesos o aplicaciones.

En el caso de los sistemas informáticos utilizados para almacenar y procesar la información, los controles de seguridad utilizado para protegerlo, y los canales de comunicación protegidos que se utilizan para acceder a ella deben estar funcionando correctamente. La Alta disponibilidad sistemas objetivo debe seguir estando disponible en todo momento, evitando interrupciones del servicio debido a cortes de energía, fallos de hardware, y actualizaciones del sistema.

Garantizar la disponibilidad implica también la prevención de ataque Denegación de servicio.

La disponibilidad además de ser importante en el proceso de seguridad de la información,

(34)

27 es además variada en el sentido de que existen varios mecanismos para cumplir con los niveles de servicio que se requiera, tales mecanismos se implementan en infraestructura tecnológica, servidores de correo electrónico, de bases de datos, de web etcétera, mediante el uso de clusters o arreglos de discos, equipos en alta disponibilidad a nivel de red, servidores espejo, replicación de datos, redes de almacenamiento, enlaces redundantes, etc.

La gama de posibilidades dependerá de lo que queremos proteger y el nivel de servicio que se quiera proporcionar.

4.2 Introducción a la Inteligencia de Negocios

La administración reconoce que la información reduce la incertidumbre, por lo que nos permite tomar mejores decisiones y, por ende, elevar la eficiencia al hacer el mejor uso de los recursos de información que ya existen dentro de la organización o que son adquiridos de fuentes externas.

La mayoría de las organizaciones hacen lo posible por conseguir buena información de manera oportuna, pero el logro de ese objetivo depende fundamentalmente de su arquitectura actual, tanto de hardware como de software.

Figura 4.1 Escala de información y responsabilidad

(35)

28 La información y el uso que se hace de ella ha variado a través de los años, es así como hoy en día el personal de empresas e instituciones requiere mayor información que antes, sin embargo, la gente que realiza esos trabajos tiene poco control en su acceso y, de cierto modo, existe dependencia de quienes deciden la información que será proporcionada. Es decir, tanto la información que debe almacenarse como su manejo difieren cada vez más del tratamiento tradicional, por lo que surge la necesidad de plantear nuevos modelos y sistemas de bases de datos que aporten un valor añadido a las bases de datos relacionales.

Se busca proporcionar un panorama general acerca de las tecnologías orientadas al análisis de información en la toma de decisiones, como son la minería de datos, Data Warehousing y bases de datos inteligentes; además de destacar la relación existente entre ellas e instruir sobre los elementos de decisión que permitan su aplicación adecuada con base en los objetivos del negocio.

Se observa que un proyecto de Data Warehouse involucra una serie de factores que es necesario considerar antes de iniciar su desarrollo. El conocimiento del negocio se convierte en un elemento esencial ya que, generalmente, un Data Warehouse afecta a todas las áreas de la organización y, como tal, requiere de la participación y apoyo de cada una de las partes involucradas. Asimismo, la calidad de la información y los tiempos de respuesta son dos factores que determinan la aceptación o rechazo del proyecto, en ese sentido, juegan un papel fundamental la arquitectura, hardware y herramientas de explotación seleccionados.

4.3 Data Warehousing (Almacen de Datos)

Un Data Warehouse puede definirse como un repositorio de datos centralizado para apoyo de las actividades de análisis del negocio. Permite almacenar datos operacionales y eliminar inconsistencias entre los diferentes formatos existentes en los sistemas fuente.

Además de integrar los datos de toda la empresa, no importando su ubicación, formato o requerimientos de comunicación; permite incorporar información adicional integrada por el experto del negocio.

(36)

29

4.4 Inteligencia de negocios

Es el conjunto de procesos, tecnologías y técnicas para proveer información valiosa, en el momento adecuado y por los canales de comunicación idóneos, para que el usuario de negocio soporte su toma de decisiones.

Figura 4.2 Arquitectura de inteligencia de negocios

Características

De acuerdo con Bill Inmon, considerado el creador del concepto de Data Warehousing, existen cuatro características principales que describen un Data Warehouse:

1. Orientado al sujeto. Los datos son organizados en áreas específicas de estudio, relevantes para el analista, en lugar de orientarse a una aplicación. Un sistema OLTP puede dividir sus datos por diferentes regiones o periodos. Un Data Warehous almacena la misma información ordenada por temas como pueden ser ventas, embarques, clientes y productos, entre otros.

(37)

30 2. Integrado: Cuando los datos residen en aplicaciones separadas en el ambiente operacional, la codificación de los datos a menudo es inconsistente. La información que contiene un Data Warehouse proviene de diferentes fuentes, y conforme es alimentado, las inconsistencias en los datos que vienen en las fuentes son eliminadas y se integran con un formato único.

3. Variante en el tiempo: El Data Warehouse representa un lugar para almacenar datos de cinco a 10 años de antigüedad, incluso más, para utilizarse en comparaciones, análisis de tendencias y pronósticos. La información en un Data Warehouse siempre tiene un componente tiempo. El Data Warehouse contiene datos que representan el estado del negocio en un periodo específico. Por ejemplo, la información de un inventario podría almacenarse en una serie de fotografías donde cada imagen representa el estado del inventario en un tiempo particular.

4. No Volátil: Los datos no son modificados o cambiados en forma alguna, una vez que entran al Data Warehouse, únicamente son cargados y se puede acceder a éstos.

Cuando una dirección cambia en un sistema operacional, muchas aplicaciones lo que hacen es sobrescribir el registro. En el Data Warehouse, una vez que el dato es almacenado, nunca cambia, excepto para corregir errores. Si una dirección cambia, ambas direcciones, la nueva y la anterior, serán almacenadas en el Data Warehouse y cada una reflejará el estado de una realidad en un periodo determinado.

5. Detallado y sumarizado: El Data Warehouse almacena la información de forma atómica, pues describe la operación del negocio y contiene, además, vistas sumarizadas del material.

(38)

31

4.5 Arquitecturas de sistemas

4.5.1 Sistemas OLAP

La mejor forma de describir una herramienta OLAP es explicando su funcionamiento. En todo negocio se utilizan hojas de cálculo para detallar actividades, además de que existen reportes mensuales que contienen pilas de hojas, con un esfuerzo significativo en su creación, sin embargo, su uso es difícil cuando se buscan piezas de información específicas, aunado al hecho de que no incluyen información adicional.

Una herramienta OLAP provee al analista del negocio de millones de hojas de cálculo a un tiempo. Estas hojas se encuentran disponibles en una estructura lógica y jerárquica, de forma tal que el analista puede moverse con rapidez a un nivel general o específico de detalle o bien, observar la información desde perspectivas sumarizadas.

Codd ha desarrollado algunas reglas o requerimientos para un sistema OLAP:

• Vista multidimensional conceptual.

• Transparencia.

• Accesibilidad.

• Desempeño.

• Arquitectura cliente/servidor.

• Dimensionalidad genérica.

• Soporte multi-usuario.

• Operaciones multidimensionales sin restricción.

• Manipulación de datos intuitiva.

• Reporteo flexible.

• Dimensiones ilimitadas y niveles de agregación.

La pregunta fundamental en este sentido es ¿qué es un dato multidimensional y cuándo se convierte en OLAP? Esto es, esencialmente, una forma de construir asociaciones entre piezas de información semejantes, mediante reglas de negocio predefinidas acerca de la información que se maneja.

(39)

32 Pueden identificarse tres componentes de OLAP:

• Una base de datos multidimensional debe ser capaz de expresar cálculos complejos de manera sencilla. Los datos tienen que ser referenciados y definidos matemáticamente.

• Navegación intuitiva.

• Respuesta instantánea, el usuario tiene la necesidad de obtener la información lo más pronto posible.

Entre las ventajas que ofrece el sistema dimensional está la libertad que ofrece al usuario para explorar libremente los datos y recibir el tipo de reporte deseado, sin tener restringido un formato predefinido.

Los servidores OLAP soportan operaciones analíticas que incluyen procesos de

Consolidation, drill-down (taladrar hacia abajo) y slicing and dicing (cortar y jugar con cubos):

• Consolidación: Involucra la agregación de datos, tales como simples solarizaciones o expresiones complejas que involucran datos interrelacionados. Por ejemplo, las oficinas de ventas pueden ser descompuestas por distritos y los distritos en regiones.

• Drill-DownLos servidores OLAP pueden ir en dirección inversa y desplegar de forma automática datos detallados que comprenden los consolidados. La consolidación y el drill- down son una propiedad inherente a los servidores OLAP.

• Slicing and Dicing Se refiere a la habilidad de consultar la base de datos desde diferentes puntos de vista, un corte (slice) de la base de datos de ventas puede mostrar todas las ventas de un producto por región. Otro corte puede mostrar todas las ventas por canal de venta y producto. Slicing and dicing se realiza, generalmente, a través de un eje de tiempo con la finalidad de analizar tendencias y encontrar patrones.

Los servidores OLAP almacenan datos multidimensionales, esto se logra mediante arreglos de almacenamiento y técnicas de compresión que maximizan el espacio utilizado y mediante la optimización en el uso de espacio. Los servidores OLAP pueden minimizar los requerimientos de espacio haciendo posible el análisis de grandes cantidades de datos.

Además, hace posible cargar más datos en memoria, lo cual ayuda a mejorar de manera significativa el rendimiento debido a la reducción en el acceso a disco.

(40)

33

4.6 Procesos

El primer paso que se tiene que llevar a cabo en un Data Warehouse es el de aislar los datos operacionales actuales para preservar la seguridad e integridad de los sistemas

OLTP de misión crítica, con la finalidad de acceder a todas las bases de datos y la resultante o Data Warehouse, puede consumir cientos de gigabytes –e incluso terabytes–de espacio en disco, por lo que se requieren técnicas de almacenamiento y recuperación de información masiva. A este respecto, las organizaciones han encontrado que los sistemas de procesamiento paralelo ofrecen un ancho de banda suficiente.

El Data Warehouse extrae datos de una variedad de bases de datos heterogéneas. Los datos son transformados y entregados al Data Warehouse que está basado en un modelo seleccionado previamente. Este proceso de transformación de datos es realizado siempre que una modificación al Data Warehouse es requerida, de modo que la ejecución de estas funciones debe efectuarse de forma automática. La información que describe el modelo y la definición de los datos fuente se llama metadato, que representa el significado que el usuario final entenderá de la información contenida en el Warehouse y al menos debe contener:

• La estructura de los datos.

• El algoritmo utilizado para las sumarizaciones.

• El mapeo del ambiente operacional al Data Warehouse.

La limpieza de datos es un aspecto importante en la creación de un Data Warehouse eficiente porque elimina, en la medida de lo posible, las inconsistencias presentadas en los datos operacionales. Por otro lado, esta limpieza debe ser lo más dinámica posible para satisfacer todos los tipos de consultas, incluyendo aquéllas que pueden requerir información de bajo nivel. Los datos deben extraerse de los sistemas operacionales en intervalos regulares e integrados centralmente, pero el proceso de limpieza tiene que remover la duplicación y conciliar diferencias entre los distintos estilos de almacenamiento de datos.

Una vez que los datos se limpian, son integrados al Data Warehouse que, generalmente, es una gran base de datos almacenada en un equipo de alto desempeño como puede ser SMP

(41)

34 (Symmetric Multi-Processing / Multiprocesamiento simétrico) o MPP (Massively Parallel Processing / procesamiento masivo en paralelo).

Otro concepto importante en el entorno del Data Warehouse es el datamart. Los data marts son considerados pequeños Data Warehouses, definidos para proveer subconjuntos de información sumarizada del almacén principal y dependen de los requerimientos específicos de un grupo o departamento de la organización.

Muchos proveedores tienen productos que satisfacen una o más de las funciones descritas anteriormente, sin embargo, puede tomar una cantidad de trabajo considerable en programación especializada para proveer la interoperabilidad necesaria entre productos de múltiples proveedores para ejecutar los procesos del Data Warehouse

Figura 4.3 Proceso ETL

4.7 El modelo de Data Warehouse

Data Warehousing es el proceso de extraer y transformar datos operacionales en analíticos para integrarlos en una estructura central de datos. Una vez que los datos son cargados, se puede acceder a éstos vía consultas SQL (Lenguaje de Consulta Estructurado) o bien con el uso de herramientas de análisis disponibles para los tomadores de decisiones. El modelo de Data Warehouse se ilustra en el siguiente diagrama:

(42)

35 Figura 4.4 Modelo del Data Warehouse

.Los datos dentro del propio Data Warehouse tienen una estructura diferente con base en los distintos niveles de sumarización manejados.

Figura 4.5 Metadato

(43)

36 La importancia del nivel de detalle radica en lo siguiente:

• Refleja los hechos más recientes que, por lo general, son los de mayor interés.

• Aumenta el volumen de almacenamiento conforme disminuye el nivel de granularidad.

• Generalmente, la información se almacena en disco para hacer más rápido su acceso, pero la vuelve más costosa y difícil de administrar.

La información de detalle con mayor antigüedad se guarda con algún proceso de almacenamiento masivo, ya que su acceso no es tan frecuente. En cambio, la que está sumarizada y que se obtiene del nivel de detalle, se almacena en disco la mayoría de las veces para su acceso rápido. Si se considera lo anterior, cuando se construye un Data Warehouse se debe considerar la unidad de tiempo sobre la cual se va a sumarizar la información, además del contenido o atributos que se van a integrar, con objeto de que los datos altamente sumarizados sean compactos y fácilmente accesibles.

El metadato es el componente final del Data Warehouse cuya función es:

• Ayudar al analista de negocio a localizar el contenido del Data Warehouse.

• Guiar el mapeo de datos conforme éstos se transforman desde el ambiente operacional al Data Warehouse.

• Servir de guía para los algoritmos utilizados en la sumarización, entre los datos de detalle actuales y aquellos levemente sumarizados, y también en la sumarización entre los datos levemente y altamente sumarizados.

4.8 Calidad de la información

Es todo un reto asegurar la calidad de la información en un Data Warehouse debido, principalmente, al hecho de que muchos sistemas operacionales no realizan validaciones a la información ingresada, de manera que la información podría ser inconsistente, incorrecta y en un porcentaje faltante. Al proceso de mejoramiento de la información se le llama limpieza de datos. Algunas formas en que puede ser necesario limpiar la información son las siguientes:

Eliminar duplicados. Existen entidades con registros duplicados, que pueden tener errores ortográficos o incluso escritos exactamente igual.

(44)

37 Homogenización de datos. Diferentes sistemas fuente utilizan diferentes códigos.

Uso de campos separados. En algunos sistemas fuente, los campos pueden usarse para más de un propósito.

Campos vacios/nulos. Si los valores correspondientes pueden definirse, entonces los correctos deben ingresarse en los campos, de lo contrario debe definirse una forma consistente de desplegar los desconocidos.

Eliminar datos sin significado. En ocasiones, los operadores de los sistemas fuente deben llenar un campo requerido y desconocen la información, por lo que ingresan una cadena de caracteres sin significado.

Comparar datos entre fuentes. Si el dato puede ser incorrecto y se tiene la posibilidad de verificarlo con otra fuente, entonces se eliminan posibilidades de error.

Existen tres cursos de acción generales:

• Cambiar los datos en la base de datos fuente e implementar procedimientos que eviten la ocurrencia de estos errores.

• Modificar los datos conforme ingresan al Data Warehouse.

• Integrar el dato tal y como se encuentra en la fuente y documentar el problema, de forma tal que los usuarios estén conscientes de la situación.

Ciertamente, lo mejor es corregir el problema desde los sistemas fuente pero, a menudo, no resulta práctico. La limpieza de datos es costosa y requiere mucho tiempo; la calidad de la información puede mejorarse, y sin embargo, probablemente no llegará a ser perfecta.

4.9 Distribución y Recepción de Información Del BI

El Data Warehouse extrae datos de una variedad de bases de datos heterogéneas, tanto datos operacionales como externos, estas bases de datos pueden estar situadas físicamente dentro de la misma organización o fuera de ella por lo que es importante contar con seguridad e integración de los datos esto se obtiene creando canales de flujo de transmisión segura usando algoritmos de encriptación y autorización, llamados VPNs mediante intranet.

(45)

38 Figura 4.6 Extracción ETL

4.9.1 Intranet

Una Intranet es una red de ordenadores privados que utiliza tecnología, Internet para compartir de forma segura cualquier información o programa del sistema operativo para evitar que cualquier usuario de Internet pueda ingresar. En las arquitecturas que el software servidor se ejecuta en una Intranet anfitriona

Entiéndase como intranet una LAN y/o WAN corporativa que está asegurada por los firewalls de la compañía y que usa las tecnologías de Internet.

Aunque las intranets son desarrolladas usando el mismo protocolo TCP/IP de Internet, operan como redes privadas con acceso limitado.

Sólo los empleados que tienen las claves y códigos de acceso son capaces de usarlas. Por eso, las Intranets limitan la información relativa a la compañía y contienen información exclusiva y de acceso restringido.

(46)

39 El firewall protegen a la intranet de accesos no autorizados.

Figura 4.7 Intranet

4.9.1.1 Funciones Genéricas de una Intranet

Tiene como función principal proveer lógica de negocios para aplicaciones de captura, informes y consultas con el fin de facilitar la producción de dichos grupos de nivel de grupo de trabajo. Las redes internas corporativas son potentes herramientas que permiten divulgar información de la compañía a los empleados con efectividad, consiguiendo que estos estén permanentemente informados con las últimas novedades y datos de la organización.

También es habitual su uso en universidades y otros centros de formación, ya que facilita la consulta de diferentes tipos de información y el seguimiento de la materia del curso.

Tienen gran valor como repositorio documental, convirtiéndose en un factor determinante para conseguir el objetivo de la oficina sin papeles. Añadiéndoles funcionalidades como un buen buscador y una organización adecuada, se puede conseguir una consulta rápida y eficaz por parte de los empleados de un volumen importante de documentación. Los