Mineria de dades, setembre 2003

Texto completo

(1)Mineria de dades Enric Mor i Pera (Coordinador) Ramon Sangüesa i Solé Luis Carlos Molina Félix XP03/05054/01032.

(2)  Universitat Oberta de Catalunya • XP03/05054/01032. Enric Mor i Pera Enginyer en Informàtica per la Universitat Politècnica de Catalunya l’any 1997. Està fent la tesi doctoral a la Universitat Oberta de Catalunya, on ha obtingut el diploma d’Estudis Avançats. Des de l’any 1998 és professor dels Estudis d’Informàtica i Multimèdia de la UOC. Les àrees de recerca inclouen la interacció humana amb els ordinadors, interfícies intel·ligents i la mineria de dades.. Ramon Sangüesa i Solé Doctor en Informàtica per la Universitat Politècnica de Catalunya. Especialitzat en Intel·ligència Artificial, Aprenentatge Automàtic i Agents Autònoms sobre Internet. Professor a la Facultat d’Informàtica de la UPC.. Segona edició: setembre 2003  Fundació per a la Universitat Oberta de Catalunya Av. Tibidabo, 39-43, 08035 Barcelona Disseny: Manel Andreu Material realitzat per Eureca Media, SL ISBN: 84-8429-590-7 Dipòsit legal: B-30.137-2003 Cap part d’aquesta publicació, incloent-hi el disseny general i de la coberta, no pot ser copiada, reproduïda, emmagatzemada o transmesa de cap manera ni per cap mitjà, tant si és elèctric, com químic, mecànic, òptic, de gravació, de fotocòpia, o per altres mètodes, sense l’autorització prèvia per escrit dels titulars del copyright.. Mineria de dades. Luis Carlos Molina Félix Enginyer en Electrònica per l’Institut Politècnic Nacional (Mèxic). Màster en Ciències de la Computació i Estadística, Universitat de São Paulo (Brasil). Actualment cursa el doctorat en Intel·ligència Artificial a la UPC..

(3)  Universitat Oberta de Catalunya • XP03/05054/01032. 3. Continguts. Mòdul didàctic 1 El procés de descobriment de coneixement a partir de dades Ramon Sangüesa i Solé 1. Descobriment de coneixement en grans volums de dades 2. Les fases del procés d’extracció de coneixement 3. Les eines de mineria de dades i les àrees relacionades 4. Cas d’estudi: la cadena Hyper-Gym Mòdul didàctic 2 Preparació de dades Ramon Sangüesa i Solé 1. Repàs de conceptes estadístics 2. Terminologia de preparació de dades: tipus d’atributs 3. Operacions de preparació de dades 4. Reducció de dimensionalitat 5. Tractament de la manca de dades Mòdul didàctic 3 Classificació: arbres de decisió Ramon Sangüesa i Solé 1. Introducció: l’estructura dels arbres de decisió 2. Mètodes de construcció d’arbres de decisió per a classificació: ID3 i C4.5 3. Mètodes de construcció d’arbres de decisió per a regressió i classificació (CART) 4. Mètodes de construcció d’arbres de decisió per a predicció numèrica (CHAID) 5. Mètodes de construcció d’arbres de decisió multivariants (LMDT) 6. Interpretació dels resultats obtinguts amb arbres de decisió Mòdul didàctic 4 Classificació: xarxes neuronals Ramon Sangüesa i Solé 1. Què són les xarxes neuronals? 2. El perceptró 3. Xarxes amb capes múltiples: retropropagació 4. Ponderació final de les xarxes neuronals Mòdul didàctic 5 Agregació (clustering) Ramon Sangüesa i Solé 1. Motivació 2. La similitud, base per a l’agrupació d’objectes 3. Espai, distància i semblança. Mineria de dades.

(4)  Universitat Oberta de Catalunya • XP03/05054/01032. 4. 4. Mètodes d’agregació 5. Interpretació dels models obtinguts 6. Ponderació dels mètodes d’agregació Mòdul didàctic 6 Regles d’associació Ramon Sangüesa i Solé; Luis Carlos Molina Félix 1. Què són les regles d’associació? 2. Ponderació de les regles d’associació Mòdul didàctic 7 Xarxes bayesianes Ramon Sangüesa i Solé 1. Què són les xarxes bayesianes? 2. Mètodes de construcció de xarxes bayesianes a partir de dades 3. Classificació amb xarxes bayesianes Mòdul didàctic 8 Avaluació de models Ramon Sangüesa i Solé 1. Avaluació de models Mòdul didàctic 9 Cas d’estudi: pous de petroli Luis Carlos Molina Félix; Ramon Sangüesa i Solé 1. El problema 2. Metodologia 3. Resultats. Mineria de dades.

(5)  Universitat Oberta de Catalunya • XP03/05054/01032. 5. Mineria de dades. Introducció. Els darrers anys hi ha hagut un increment sense precedents en la informatització de les organitzacions i la distribució de potència informàtica en tot àmbit d’activitat. Exemple de l’abast de l’increment en la potència informàtica Les dades generades per una sola de les darreres missions de la NASA equivalen en nombre de bytes a cent vegades les de totes les missions de la NASA fins al moment..., i aquestes dades s’han d’analitzar. En concret, el sistema de satèl·lits Earth Orbiting System (EOS) de la NASA generarà 50 gigabytes de dades cada dia (Way, 1991).. Al mateix temps, s’ha reconegut com a important per a l’avantatge competitiu. de les organitzacions la seva capacitat de gestionar i crear coneixement basantse en la informació generada dins l’organització i captada del seu entorn. Es disposa de més i més dades respecte del mateix funcionament de cada empresa, sobre les transaccions amb els seus clients i proveïdors i les estadístiques sobre altres fenòmens d’interès (per exemple, les bases de dades fisicogeogràfiques sobre condicions climàtiques, sequeres, etc., obtingudes per satèl·lit, són interessants per a qui negocia amb productes agrícoles); quant a aquest punt consulteu Fayyad, 1996. La base de dades de la Mobil Oil La Mobil Oil ha recollit i continua recollint dades en una gegantina base de dades sobre exploració de petroli a fi i efecte de detectar llocs d’extracció nous, millorar l’eficiència dels mètodes, etc. El volum d’aquesta base de dades es calcula entorn dels 100 terabytes en l’actualitat i continua creixent (Brachman, 1996).. Les grans empreses de distribució comercial, en particular les companyies que operen en grans superfícies comercials, estan interessades a conèixer i anticipar l’evolució de les vendes i pautes de comportament dels seus clients, les seves diferències regionals, etc., per a poder anticipar-ne les necessitats, programar ofertes i planificar les compres (Anand, 1998; Berry, 1997). Utilitzen una gran quantitat de dades procedents dels moviments de materials, i també de l’anàlisi de cadascuna de les compres de cadascun dels clients (i n’analitzen les dades recollides a les caixes o terminals de punt de venda). Processos semblants de recollida de dades serveixen per a dur a terme la gestió financera (Barr, 1994) o prendre decisions respecte a la concessió de privilegis per als clients (targetes de crèdit, per exemple; consulteu Carter, 1987). Aquesta manera de reconèixer el valor que poden tenir les dades s’estén també a altres àmbits. Els grans sistemes hospitalaris recullen i analitzen, per exemple, dades a fi i efecte de minimitzar els costos deguts a la prolongació innecessària de l’estada dels pacients. O bé localitzen problemes en el tractament, o relacions entre complicacions postoperatòries i un tipus d’intervencions determinat.. Mineria de dades en la gestió d’empreses Cadenes com Wal-Mart (USA), Sanbury’s (Gran Bretanya) o Carrefour (França) gestionen entorn dels 20 milions de transaccions al dia, que s’emmagatzem i s’analitzen (Babcock, 1994)..

(6)  Universitat Oberta de Catalunya • XP03/05054/01032. 6. Aquest mateix enfocament s’utilitza per a establir els patrons d’accés dels visitants de diversos webs (Viveros, 1997; Sangüesa, 1997), conèixer quins temes els interessen i oferir-los recomanacions. Exemples senzills d’aquesta mena de funcionament es poden trobar en diversos negocis virtuals, com la llibreria Amazon. Amb l’augment del comerç electrònic, disposar de dades respecte als patrons de conducta dels clients virtuals és cada cop més important (Business Week, 1999), més encara si considerem, per exemple, la facilitat aparent amb què es poden observar les pautes de navegació a partir de l’anàlisi dels fitxers d’accés i enregistrament de dades (fitxers de log). Mineria de dades a la NBA A títol d’anècdota, però de manera reveladora, els entrenadors de la lliga professional de bàsquet americana utilitzen un producte de mineria de dades, InfoScout (IBM), per a analitzar tots els partits d’una temporada i poder decidir en un moment donat quina configuració de jugadors els pot donar avantatge en una situació de joc concreta. Els resultats asseguren de dos a quatre punts més per partit, la qual cosa, en una lliga com aquesta, pot tenir tota mena de conseqüències.. Hi ha, doncs, una estesa lògica d’apreciació del valor que les dades poden tenir. Consegüentment, s’han generat noves necessitats a les empreses, que es reflecteixen en la creació de nous perfils professionals corresponents a les tasques de mineria de dades. I aquesta tendència continua i s’amplia. La racionalitat que actua darrere aquest procés és perfectament aplicable a àmbits més modestos. De fet, les petites empreses que adopten aquesta manera de considerar els conjunts de dades, potser no tan grans com els apuntats anteriorment, adquireixen ràpidament un nova manera de veure i organitzar els seus propis processos de treball i negoci i de millorar-los. És important adonar-se del fet que tota aquesta acumulació i processament de dades està dirigida a obtenir coneixements d’importància estratègica o tàctica per a les diverses organitzacions (Anand, 1998). Si una gran superfície, per exemple, coneix millor les pautes de compres de temporada i geogràfiques dels seus clients, pot millorar el servei i els beneficis. Sense aprofitar el coneixement que està amagat sota un munt de dades no ho podria aconseguir. Trobar aquest “coneixement ocult” o no fer-ho té repercussions econòmiques i organitzatives importants. Aplicar-lo o no pot marcar diferències definitives respecte a la competència i representar guanys o pèrdues milionaris. Per això, aquest descobriment s’assimila a la tasca de la mineria, que ha d’enretirar tones de runa (les dades) per a trobar el mineral (el coneixement). La paradoxa rau en el fet que tot i que hi ha més capacitat de generar i tractar de manera automàtica i rutinària les dades –és a dir, d’estar en condicions òptimes per a obtenir bones anàlisis–, el volum mateix de les dades en dificulta el tractament ràpid i eficient per a la presa de decisions. Per aquest motiu, és molt important el desenvolupament de noves eines que accelerin el procés d’anàlisi i que l’adaptin tan dinàmicament com sigui possible a les necessitats canviants dels qui han de prendre decisions: un repte fenomenal per a tots els qui treballen en estadística, algorísmica, intel·ligència artificial, aprenentatge automàtic, bases de dades i sistemes d’informació.. Mineria de dades.

(7)  Universitat Oberta de Catalunya • XP03/05054/01032. 7. Per a assolir un bon nivell de coneixements en aquesta nova activitat de mineria de dades, cal ser capaç de combinar conceptes i mètodes procedents de disciplines diferents. Per exemple: • De les bases de dades (que es dediquen a millorar la captació, l’organització i la consulta de dades, però no s’havien proposat de bon principi la disposició correcta per a l’extracció del coneixement). • De l’estadística, que té una tradició provada en l’extracció de models a partir de dades, però que no s’havia plantejat la problemàtica d’extreure’n a partir de bases de dades amb una organització complicada, d’interactuar contínuament amb l’usuari o d’extreure models més simbòlics que no pas numèrics. • De l’aprenentatge automàtic, una subdisciplina de la intel·ligència artificial que s’havia encarregat d’extreure coneixement d’observacions i exemples, però que havia simplificat les fonts de dades, obviant les oportunitats d’aprenentatge implícites en les complexitats pròpies de les bases de dades reals.. En conjunt, la mineria de dades és una empresa interessant que permet d’aprendre moltes coses de camps diferents i integrar-les sota una mateixa perspectiva al servei d’objectius pràctics concrets.. Aquest curs prova de donar a conèixer les diferents aplicacions de mineria de dades, els mètodes que es poden utilitzar en cada cas i, sobretot, desenvolupar una actitud, que podríem anomenar de disposició d’alerta o amatent, per a detectar quan cal endegar un projecte de mineria de dades i com s’ha d’organitzar. És crucial adonar-se que la mineria de dades és més una metodologia i un procés continus que no pas una tècnica o un conjunt de tècniques. Per tant, és molt important reforçar aquesta actitud a força d’esprémer el cas pràctic que actua com a fil conductor al llarg dels diversos mòduls i els altres casos d’estudi que es presenten al curs de manera que es pugui interioritzar el procés adequadament.. Mineria de dades.

(8)  Universitat Oberta de Catalunya • XP03/05054/01032. 8. Objectius. Amb els materials didàctics associats a aquest curs l’estudiant assolirà els objectius següents: 1. La comprensió del procés de mineria de dades. 2. El reforç del procés per a la pràctica amb casos “reals”. 3. El coneixement de cadascuna de les tècniques que serveixen a l’objectiu final dels diversos projectes de mineria de dades possibles. 4. El coneixement de dues fases normalment menyspreades en assignatures d’aquesta mena com són la de preparació de les dades i l’avaluació dels models finals obtinguts.. Mineria de dades.

(9)  Universitat Oberta de Catalunya • XP03/05054/01032. 9. Bibliografia. Bibliografia bàsica Adriaans, P.; Zantinge, D. (1996). Data Mining. Massachusetts: AddisonWesely Longman Limited. Llibre molt senzill i clar, encara que superficial. Suficient per a tenir una primera idea dels objectius, la problemàtica, els mètodes i les tècniques de la disciplina. Comenta molt breument alguns casos pràctics prou interessants. Berry, M.J.A.; Linofff, G. (1997). Data Mining Techniques for Marketing, Sales and Customer Support. Nova York: Wiley Computer Publishing, John Wiley & Sons. Superficial però adequat en la descripció de tècniques adreçades a màrqueting i relació amb clients. Fayyad, U.M.; Piatetsky-Shapiro, G.; Smyth, P.; Uthurusamy, R. (ed.) (1996). Advances in Knowledge Discovery and Data Mining. Cambridge: MIT Press. Més acadèmic que Adriaans (1996), aquest llibre recull articles amb exposició de les tècniques més conegudes i discussió en profunditat de diversos aspectes teòrics. Inclou descripcions dels aspectes pràctics d’implementació de sistemes reals. Weiss, S.M.; Indurkhya, N. (1998). Predictive Data Mining: A practical guide. San Francisco: Morgan Kaufmann Publishers. Molt enfocat als problemes de predicció però força ben tractats, si bé ho fa de manera massa succinta a vegades. Es completa amb un CD amb programes i conjunts de dades per a practicar. Witten, I.H.; Frank, E. (2000). Data Mining. Practical Machine Learning Tools and Techniques with JAVA implementations. Morgan Kaufmann Publishers. Excel·lent. Combina molt adequadament la presentació de les tècniques procedents de l’aprenentatge automàtic amb les que procedeixen de l’estadística i tracta adequadament de la preparació de dades i avaluació de models. A més, inclou llibreries de JAVA per implementar els mètodes descrits. Bibliografia complementària ACM (1996, novembre). “Special Issue on Data Mining”. Communications of ACM. Anand, S.; Büchner, A. (1998). “Decision Support Using Data Mining”. Financial Times Pitman Publishing.. Mineria de dades.

(10)  Universitat Oberta de Catalunya • XP03/05054/01032. 10. Babcock, C. (1994, 26 de novembre de 1994). “Parallel Processing Mines Retail Data”. ComputerWorld (núm. 6). Barr, D.I; Mani, G. (1994, febrer). “Using Neural Nets fo Manage Investments”. AI Expert (pàg. 16-21). Bertold, M.; Hand, D. (1999). Intelligent Data Analysis: An Introduction. Springer Verlag. Bhandari, I.; Colet, E.; Parker, J.; Pines, Z.; Pratap, R.; Ramanujan, K. (1997). “Advanced Scout: Data Mining and Knowledge Discovery in NBA Data”. Data Mining and Knowledge Discovery (vol 1, núm. 1, pàg. 121-125). Brachman, R.; Khabaza, T; Kloesgen, W.; Piatetsky-Shapiro, G.; Simoudis, E. (1996, novembre). “Industrial Applications of Data Mining and Knowledge Discovery”. Communications of ACM. Bramer, M.A. (ed.) (1999). Knowledge Discovery and Data Mining: Theory and Practice . Londres: IEEE Books. Business Week (1999, 26 de juliol). “The Information Gold Mine”. Carter, C.; Catlett, J. (1987, tardor). “Assessing Credit Card Applications Using Machine Learning”. IEEE Expert (pàg. 71-79). Cios K.; Pedrycz, W.; Swiniarski, R. (1998). Data Mining Methods for Knowledge Discovery. Kluwer. IEEE (1996, desembre). IEEE Transactions Knowledge and Data Engineering (vol. 6, núm. 8). Special Section On Mining Of Databases. IEEE (1999, agost). “Special Issue on Data Mining”. IEEE Computer (vol. 32, núm. 8). Elder, J.F. (IV); Abbott, D.W. (1998). A Comparison of Leading Data Mining Tools. Guia d’aprenentatge desenvolupada en la conferència KDD-98. Nova York. Fayyad, U.; Haussler, D.; Sotolorz, P. (novembre). “Mining Science Data”. Communications of ACM. Kohavi, R.; Provost, F. (1998, abril). “Special Issue on Applications of Machine Learning and the Knowledge Discovery Process”. Machine Learning Journal. Mena, J. (1999). Data Mining Your Website. Digital Press.. Mineria de dades.

(11)  Universitat Oberta de Catalunya • XP03/05054/01032. 11. Sangüesa, R.; Saxon, S.; Nicolás, M.; Cortés, U. (1997, novembre). “WebProfile or Agents the other Way Round”. Proceedings of the First International Workshop on Applications of Agents to Web-based Information Systems. Mèxic. Viveros, M.S.; Elo-Dean, S.; Wright; Duri, S.S. (1997). “Visitor’s Behaviour: Mining Web Servers”. Proceedings of the First International Conference on the Practical Application of Knowledge Discovery and Data Mining, PADD-97. Londres. Way, J.; Smith, E.A. (1991). “The Evolution of Synthetic Aperture Radar Systems and their Progression to the EOS SAR”. Transactions on Geoscience and Remote Sensing (núm. 29, vol. 6, pàg. 962-985). IEEE. Fayyad, U.M.; Mannila, H.; Piatetsky-Shapiro, G. (ed.). Data Mining and Knowledge Discovery. ISSN: 1384-5810. http://www.kluweronline/issn/ 1384-5810. Potser les pàgines més àmplies i que apleguen més contingut (articles, presentacions en transparències i programari d’ús públic) i referències que d’altres siguin les següents: kdnuggets. http://www.kdnuggets.com i la seva llista de distribució, mantinguda per Gregory Piatetsky-Sahpiro (subscripció: kdd-request@gte.com). SIGKDD Explorations. Butlletí de l’Special Interest Group on Knowlege Discovery from DataBases (ACM). http://www.acm.org/sigs/sigkdd/explorations. Neuronet. Informació sobre paquets de domini públic per a construir xarxes neuronals. http://www.kcl.ac.uk/neuronet.. Mineria de dades.

(12)  Universitat Oberta de Catalunya • XP03/05054/01032. 12. Mineria de dades.

(13)

Figure

Actualización...

Referencias

Actualización...