Top PDF Preprocesamiento y Calidad de los Datos - Big Data

Preprocesamiento y Calidad de los Datos - Big Data

Preprocesamiento y Calidad de los Datos - Big Data

Después de la aplicación de la fase de pre- procesamiento, el conjunto resultante puede ser visto como una fuente consistente y ade- cuada de datos de calidad para la aplicación de algoritmos de minería de datos. El pre- procesamiento incluye un rango amplio de técnicas que podemos agrupar en dos áreas: preparación de datos y reducción de datos. La preparación de datos está formada por una serie de técnicas que tienen el objetivo de inicializar correctamente los datos que servirán de entrada para los algoritmos de minería de datos. Este tipo de técnicas pue- den clasificarse como de uso obligado, ya que sin ellas los algoritmos de extracción de conocimiento no podrían ejecutarse u ofre- cerían resultados erróneos. En esta área se incluye la transformación de datos y norma- lización, integración, limpieza de ruido e im- putación de valores perdidos (ver figura 3 ). Las técnicas de reducción de datos se orien- tan a obtener una representación reducida de los datos ori ginales, manteniendo en la mayor medida posible la integridad y la in- formación existente en los datos.
Show more

7 Read more

Técnicas de preprocesamiento para mejorar la calidad de los datos en un estudio de caracterización de ingresantes universitarios

Técnicas de preprocesamiento para mejorar la calidad de los datos en un estudio de caracterización de ingresantes universitarios

El estudio del gran volumen de información que se obtiene de los alumnos que ingresan a la universidad permitirá lograr una caracterización de los mismos. Esto servirá de punto de partida para relacionar estos datos con otras variables que contribuyan a identificar situaciones o factores que estén relacionados con el bajo rendimiento académico de los estudiantes en el primer año de carrera universitaria. Para este propósito, se han aplicado técnicas de minería de datos mediante una herramienta de software libre. Sin embargo, a través de las pruebas realizadas, se ha detectado una gran cantidad de datos inconsistentes, incoherentes y, principalmente, faltantes. Debido a esto, se propone analizar, en profundidad, las técnicas de preprocesamiento de datos disponibles en los programas que implementan técnicas de datamining con el fin de incrementar la calidad de los datos previo a su procesamiento, principalmente, y por otra parte, detectar posibles dificultades de interpretación de los requerimientos del formulario diseñado para recabar la información por parte de los aspirantes a ingresar a la universidad.
Show more

5 Read more

MDQV: entorno big data para el intercambio de datos maestros asegurando su calidad

MDQV: entorno big data para el intercambio de datos maestros asegurando su calidad

Los datos son el “nuevo recurso natural” para las empresas [1]. Cada día se generan más y más datos que son digitalizados, automatizados y procesados en grandes volúmenes, cantidades impensables hace décadas. Estos datos son habitualmente almacenados e intercambiados entre organizaciones [2], que están sufriendo un fuerte proceso de “transformación digital” [3] basado en la cuantificación continua de prácticamente todas las actividades debido a nuevos paradigmas tecnológicos (como Internet de las Cosas [4] ) o empresariales (como la Empresa 4.0 [5] ). Para aprovechar el potencial de estos cambios, y ser más competitivos en un mercado cada vez más globalizado, las organizaciones generan cada día más y más datos, pero a medida que crece la necesidad de conseguir datos, surgen otras nuevas oportunidades de negocio basadas en la separación de roles en la explotación y uso de los datos, hasta el punto de que algunas organizaciones se convierten en auténticas generadoras y proveedoras de datos, como si de materias primas se tratase, adquiriendo un rol similar a la agricultura, ganadería o minería en el siglo pasado al generar productos básicos. La consecuencia principal de este hecho es que muchas organizaciones necesitan adquirir datos (y en ocasiones, hasta análisis sobre datos) de estas empresas productoras (fuentes externas) e incorporarlos a sus repositorios organizacionales para formar parte de los procesos de negocio habilitando el equivalente a lo que serían unas nuevas cadenas de distribución. En este sentido, se podría hablar de empresas como Facebook, Twitter, Netflix, Amazon, o Instagram, que actúan como grandes sensores para capturar datos de personas y/o de sus comportamientos en la red, para luego utilizarlos en determinados análisis que permitan personalizar la interacción que dichas organizaciones van a tener con sus usuarios, habilitando nuevos modelos de negocio basados en el ofrecimiento personalizado de productos o servicios.
Show more

175 Read more

Big Data en la Banca y sus implicaciones para el futuro

Big Data en la Banca y sus implicaciones para el futuro

Lo único que nos queda por analizar es cómo se pueden utilizar los datos para conseguir crear valor. Las organizaciones son uno de los principales actores hoy en día dependientes de la información de calidad y de los datos que disponen ya que de ellos depende el éxito futuro de su negocio. Vivimos en un mundo en el cual se generan enormes cantidades de datos en todas partes: Google solamente recibe 2 millones de consultas de búsqueda cada minuto y los usuarios de Facebook publican alrededor de 700 mil piezas de contenido al mismo tiempo (Kubina, Varmus, y Kubinova, 2015). La aparición del término Big Data cambió el significado de los datos, permitiéndonos sacar información de calidad a esos datos e implementarlos dentro de las empresas con el objetivo de obtener mayores beneficios. Esto es posible, en gran parte, por la aparición de las Redes Sociales (Facebook, LinkedIn, Twitter, Instagram…). Estas plataformas tecnológicas han revolucionado la forma de conectarse con otra gente, no solo permiten que nos conectemos constantemente los unos con los otros en todas partes, sino que también aportan información sobre tendencias.
Show more

65 Read more

Diseño de datos: del big-data al urbanismo

Diseño de datos: del big-data al urbanismo

que nuestras sociedades están hechas. Esto significa que el espacio físico deja de considerarse como absoluto, sin poder separarse de su dimensión digital. (Castells, 1996). Este nuevo dominio del espacio de flujos, habla de fusionar las redes virtuales y el espacio material, en el cual los flujos de lo digital y lo físico se configuran y se influyen de manera activa el uno sobre el otro. En este contexto, la ciudad dominada por este espacio recibe el nombre de smart city 9 (Ciudad inteligente). Aunque no existe una definición consensuada de lo que es una ciudad inteligente o smart city, o de los elementos mínimos que han de estar presentes para ser considerada como tal. Las empresas e instituciones coinciden en que son ciudades que aplican las TIC para mejorar la vida de sus habitantes al tiempo que apuestan por la sostenibilidad. Por otra parte, el concepto implica un nuevo tipo de relación con sus ciudadanos, turistas, proveedores y trabajadores públicos basada en la transparencia, la rendición de las cuentas, el adecuado uso y consumo de los recursos y la identificación temprana de las necesidades. Para esta investigación nos acogeremos a la definición propuesta por la Asociación Española de Normalización y Certificación (2015): “Ciudad inteligente (smart city) es la visión holística de una ciudad que aplica las TIC para la mejora de la calidad de vida y la accesibilidad de sus habitantes y asegura un desarrollo sostenible económico, social y ambiental en mejora permanente. Una ciudad inteligente permite a los ciudadanos interactuar con ella de forma multidisciplinar y se adapta en tiempo real a sus necesidades, de forma eficiente en calidad y costes, ofreciendo datos abiertos 10 , soluciones y servicios orientados a los
Show more

36 Read more

Big Data. Análisis de grandes volúmenes de datos en Organizaciones

Big Data. Análisis de grandes volúmenes de datos en Organizaciones

Estas organizaciones se caracterizan por una cultura colaborativa, abierta, democrática e inquieta. La toma de decisiones está basada en hechos, disponer de datos es imprescindible para cualquier iniciativa y en cualquier proyecto se testean todos los datos. Existe un uso entendido de los datos, los usuarios son autónomos para conocer, acceder y cruzar los datos, las opiniones y las discusiones se basan siempre en ellos y las herramientas de análisis y preparación son siempre colaborativas. Además de un equipo analítico existe un CDO (Chieff Data Officer), dependiente del CEO, que garantiza la calidad y gestión de los datos. La tecnología es escalable, flexible, móvil e hibrida; las nuevas tecnologías no son nuevas barreras.
Show more

83 Read more

Evaluación  del Rendimiento en la  Integración de Datos con Herramientas de Sofware Libre, en Ambientes cuyas Fuentes de Datos sean Big Data

Evaluación del Rendimiento en la Integración de Datos con Herramientas de Sofware Libre, en Ambientes cuyas Fuentes de Datos sean Big Data

Más de 900 millones de usuarios de Facebook registrados generan más de 1500 actualizaciones de estado cada segundo de sus intereses y su paradero. En 2011, la plataforma de comercio electrónico eBay, recolectó datos sobre más de 100 millones de usuarios activos, incluyendo los 6 millones de nuevos bienes que se ofrecen todos los días. Cuando el 14 de febrero del 2013, cerró sus puertas tras tres años de operación para una etapa de mantenimiento y renovación de equipos, el Large Hadron Collider (LHC), que hizo posible el descubrimiento de la Partícula de Higgs, entre la frontera de Suiza y Francia, había logrado acumular 100 petaflops de datos, dos veces una biblioteca colectiva que incluiría cada palabra escrita de todas las lenguas, más o menos el equivalente a 700 años de películas HD de plena calidad o mil veces todo el texto disponible en la Biblioteca del Congreso de los Estados Unidos.
Show more

97 Read more

Big Data

Big Data

During the course, students will learn the most relevant aspects of big data technology, go through real cases from leading industrial actors, and carry out some lab practices based on these cases. By the end of the course, students should have enough knowledge of big data technology to understand its potential, and have developed an informed criterion to determine when and how to use it in a professional context.

8 Read more

El valor de los datos: oportunidades, implicaciones y ética del fenómeno del Big Data

El valor de los datos: oportunidades, implicaciones y ética del fenómeno del Big Data

(68) Para reforzar aún más el control sobre sus propios datos, cuando el tratamiento de los datos personales se efectúe por medios automatizados, debe permitirse asimismo que los interesados que hubieran facilitado datos personales que les conciernan a un responsable del tratamiento los reciban en un formato estructurado, de uso común, de lectura mecánica e interoperable, y los transmitan a otro responsable del tratamiento. Debe alentarse a los responsables a crear formatos interoperables que permitan la portabilidad de datos. Dicho derecho debe aplicarse cuando el interesado haya facilitado los datos personales dando su consentimiento o cuando el tratamiento sea necesario para la ejecución de un contrato. No debe aplicarse cuando el tratamiento tiene una base jurídica distinta del consentimiento o el contrato. Por su propia naturaleza, dicho derecho no debe ejercerse en contra de responsables que traten datos personales en el ejercicio de sus funciones públicas. Por lo tanto, no debe aplicarse, cuando el tratamiento de los datos personales sea necesario para cumplir una obligación legal aplicable al responsable o para el cumplimiento de una misión realizada en interés público o en el ejercicio de poderes públicos conferidos al responsable. El derecho del interesado a transmitir o recibir datos personales que lo conciernan no debe obligar al responsable a adoptar o mantener sistemas de tratamiento que sean técnicamente compatibles. Cuando un conjunto de datos personales determinado concierna a más de un interesado, el derecho a recibir tales datos se debe entender sin menoscabo de los derechos y libertades de otros interesados de conformidad con el presente Reglamento. Por otra parte, ese derecho no debe menoscabar el derecho del interesado a obtener la supresión de los datos personales y las limitaciones de ese derecho recogidas en el presente Reglamento, y en particular no debe implicar la supresión de los datos personales concernientes al interesado que este haya facilitado para la ejecución de un contrato, en la medida y durante el tiempo en que los datos personales sean necesarios para la ejecución de dicho contrato. El interesado debe tener derecho a que los datos personales se transmitan directamente de un responsable del tratamiento a otro, cuando sea técnicamente posible.
Show more

191 Read more

Del Big Data al Creative Data

Del Big Data al Creative Data

125 Sabiendo que todas las campañas analizadas en el presenta trabajo tienen como objetivo principal ofrecer una solución a un problema del público o de la sociedad, podemos observar una estructura común. En primer lugar, se investiga sobre una problemática ya existente o se encuentra una nueva problemática que afecta a un determinado colectivo, y que de alguna forma se puede relacionar con la marca y ser coherente con la misma. En segundo lugar, se aplica un enfoque creativo a dicha problemática con el objetivo de obtener una solución parcial o total, pero sobre todo que sea llamativa y eficaz. Por último, dicha solución se comunica a través de una estrategia comunicativa creativa, llamativa, coherente con la marca, y sobre todo que busque la interacción con el usuario. En todas las campañas, se utiliza el Creative Data en una o varias de estas etapas: utilizando la información de infinitas bases de datos para la investigación, aplicando la tecnología del Big Data para la solución, o empleando algoritmos de Big Data para su comunicación; siempre bajo un enfoque creativo.
Show more

154 Read more

Hidden Gender Bias in Big Data as Revealed Through Neural Networks:  Man is to Woman as Work is to Mother?

Hidden Gender Bias in Big Data as Revealed Through Neural Networks: Man is to Woman as Work is to Mother?

El segundo gran problema, que por su trascendencia debiera ser el primero, es que la producción de los big data puede traducirse en una visión distorsionada y, con frecuencia, interesada del fenómeno que representan. Esta distorsión sería el reflejo de una sociedad dividida por múl- tiples fracturas y desigualdades (econó- micas, de género, educativas, étnicas, de salud, interseccionales, etc.), y traduciría los propios intereses de quienes elabo- ran los datos en cuestión. Campos de co- nocimiento como la agnotología (Proctor y Shiebinger, 2008) y la epistemología de la ignorancia (Tuana y Sullivan, 2006) han mostrado los numerosos sesgos que ta- ran los datos convencionales. Cuando los datos son complejos y masivos, como es el caso de los big data, el problema de los sesgos es más profundo: esos sesgos no aparecen meramente en la superficie de los datos, sino en la estructura profunda de los mismos, es decir, en las relaciones implícitas que mantienen. Esas relaciones solo son accesibles estadísticamente, en la medida en que solo se revelan a través de correlaciones complejas a través de grandes conjuntos de datos, y permane- cen invisibilizadas —como la redondez de la Tierra— para el observador micro.
Show more

36 Read more

Sobre el ‘big data’

Sobre el ‘big data’

Podemos hacer un buen uso de las novedades que nos ofrece el análisis de macrodatos. Sin em- bargo, no podemos esperar reemplazar principios y procedimientos que se han empleado y refi- nado a lo largo de muchos siglos de investigación científi ca. La ciencia de hoy en día sigue estando fundamentada en la teoría y la experimentación, y es muy probable que lo siga estando en el futuro. El valor del big data es más bien que representa un instrumento heurístico muy potente e innovador. El big data y el enfoque computacional ayudan a completar la caja de herramientas de los inves- tigadores. La palabra clave aquí es el pluralismo, porque al aumentar el número de herramientas heurísticas disponibles, es posible desarrollar múl- tiples estrategias de investigación que se comple- menten entre sí. Por ejemplo, existe la posibilidad de comparar y establecer sinergias entre un enfo- que de hipótesis y uno basado en datos. Tal vez en el futuro lleguemos incluso a explorar nuevas maneras de desarrollar teorías. En cualquier caso, un gran número de proyectos de big data como EXPOsOMICS muestran que los datos y los ele- mentos teóricos se «infl uyen mutuamente» y que ambos participan repetidamente en el ciclo de la investigación científi ca (Canali, 2016, p. 8).
Show more

8 Read more

Big Data - Analítica del aprendizaje y minería de datos aplicados en la Universidad

Big Data - Analítica del aprendizaje y minería de datos aplicados en la Universidad

El término Big Data abarca el manejo de grandes volúmenes de información, está tecnología ha tenido un enorme impacto en las organizaciones deseosas de administrar sus datos eficientemente. Es así que, el presente artículo tiene como objetivo hacer una revisión de los conceptos de Big Data y la influencia que ésta tecnología ha tenido en diferentes sectores, enfocándose principalmente en el sector de la educación, que hoy en día se ha convertido en un repositorio de mucha información que pocas veces es tratada de manera eficiente. Al mismo tiempo, la Analítica del Aprendizaje y la Minería de datos permiten mejorar las metodologías pedagógicas, obtener patrones y tomar decisiones a partir de datos procedentes de Big Data. El presente artículo expone información sobre Big Data y el framework Hadoop, Analítica del Aprendizaje, Minería de Datos y cómo estas pueden ayudar en la problemática de deserción estudiantil, a través de la revisión de información relacionada con la temática abordada.
Show more

16 Read more

Construcción de infraestructura Big Data para el procesamiento y visualización de datos de Twitter

Construcción de infraestructura Big Data para el procesamiento y visualización de datos de Twitter

de bases de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.4. Script para creación de usuarios en bases de datos Mongo. . . . . . . . . . . . . . 36 4.5. Dockerfile para la creación de bases de datos. . . . . . . . . . . . . . . . . . . . . 37 4.6. Script de inicialización de bases de datos. . . . . . . . . . . . . . . . . . . . . . . 38 4.7. Comandos para la construcción y el despliegue de Docker Compose. . . . . . . . 40 4.8. Script de eliminación de registros de bases de datos. . . . . . . . . . . . . . . . . 40 4.9. Comandos para la construcción y el despliegue de Docker Compose. . . . . . . . 41 4.10. Script para instalación de Spark y sus dependencias en instancia Openstack. . . . 42 4.11. Declaración de hosts en cada nodo. . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.12. Inicialización del nodo maestro desde el directorio /opt/spark. . . . . . . . . . . . 43 4.13. Inicialización de nodos esclavos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.14. Inicialización de Zookeeper desde el directorio de instalación de Kafka. . . . . . . 45 4.15. Fragmento del archivo conf/server.properties. . . . . . . . . . . . . . . . . . . . . 45 4.16. Inicialización de servidor Kafka. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.17. Creación de topic ”twitter”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.18. Seguimiento de topic ”twitter”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.19. Script producer de tweets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.20. Método main de la aplicación Spark. . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.21. Fragmento del método parse_json(). . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.22. Método get_coordinates(). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.23. Método write_to_databases(). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.24. Comando
Show more

129 Read more

Diseño de modelo tecnológico para el uso de big data en el análisis y visualización de información para pequeñas y medianas empresas

Diseño de modelo tecnológico para el uso de big data en el análisis y visualización de información para pequeñas y medianas empresas

Big Data es un término que hace referencia a una cantidad de datos que supera la capacidad del software habitual para ser capturados, ges- tionados y procesados en un tiempo razonable. Los Big Data han sido muy usados en el medio de la informática y de las grandes empresas por su capacidad para visualizar la gran cantidad de información que se maneja hoy en día. El volumen de los datos masivos crece constan- temente. En 2012, su tamaño se estimaba entre una docena de terabytes hasta varios petabytes de datos en un único conjunto de datos. Se continúan usando datos masivos y en mayor escala que hace 14 años, por lo tanto, para las empresas se hace necesario buscar herramien- tas que permitan dar soluciones a la demanda de grandes cantidades de datos para el pro- cesamiento y análisis, tal es el caso de MapR, Cyttek Group, Cloudera, Hadoop, entre otros (Rosa y Rivera Pleitez, 2016).
Show more

7 Read more

Big Intelligence. Nuevas capacidades big data para los sistemas de vigilancia estratégica e inteligencia competitiva.

Big Intelligence. Nuevas capacidades big data para los sistemas de vigilancia estratégica e inteligencia competitiva.

Una de las situaciones más comunes que tengan un nivel de granularidad inferior al necesario, es decir que se queden en un nivel de abstracción superior al necesario. Por ejemplo si queremos clasificar “Neo4j” como una base de datos NoSQL orientada a grafos, como mencionaremos en el apartado dedicado a Big Data, va a ser frecuente que la taxonomía se quede, como mucho, en Base de Datos, sin discernir si es relacional o NoSQL ni el tipo de base de datos NoSQL del que se trata. Consecuentemente a la fuente en la que se encuentre este tipo de información no voy a poder hacer pregun- tas del tipo “¿qué empresas puedo contratar porque tienen experiencia haciendo proyectos sobre las revolucionarias tecnologías Big Data?” o “¿qué personas son especialistas en bases de datos NoSQL para ofrecerles un puesto de trabajo remu- nerado con un sueldo un 30% por encima de mercado?”. El freno, en este caso, a la innovación, es evidente.
Show more

252 Read more

Calidad de datos en Linked Data

Calidad de datos en Linked Data

Los conjuntos de datos publicados cubren una diversa gama de dominios como la geografía, las ciencias y los medios de comunicación, por nombrar algunos. Sin embargo, para lograr que la Web de datos sea una realidad, es importante tener una gran cantidad de datos en la Web disponibles en un formato estándar, alcanzable y manejable por herramientas de la Web Semántica. Más aún, no sólo se necesita tener acceso a los datos sino que además deben estar disponibles las relaciones entre los mismos para poder crear una Web de datos y no sólo una mera colección de conjuntos de datos. La colección de conjuntos de datos interrelacionados en la Web se denomina Linked Data.
Show more

43 Read more

Plan para el desarrollo de la Ciencia de Datos y Big Data (PDCDBD) en la UNAM

Plan para el desarrollo de la Ciencia de Datos y Big Data (PDCDBD) en la UNAM

ü  Iniciar  la  formación  de  especialistas  que  apoyen  a  la  comunidad  universitaria  en   el  desarrollo  de  sus  proyectos  de  Ciencia  de  Datos  y  Big  Data,  y  que  asesoren  la   implementación   de   estas   tecnologías   en   otras   instancias   locales,   regionales   o   nacionales.  

27 Read more

TítuloSostenibilidad ambiental en la era del Big Data

TítuloSostenibilidad ambiental en la era del Big Data

La Organización de las Naciones Unidas para la Alimentación y la Agricultura (FAO, 1995) ha indicado que el desarrollo “inicialmente, se ha medido a través de indicadores económicos y políticos que nos indican un mayor o menor crecimiento económico, así como, un análisis de redistribución de la riqueza.” Durante muchos años se ha pensado en el desarrollo económico como la forma más importante de reducir la pobreza y mejorar los estándares de calidad de vida. Esta visión, sí que ha llevado a obtener grandes ganancias económicas a nivel mundial, pero, como aún a día de hoy es evidente, la pobreza no ha desaparecido. Lo que implica que para conseguir unos estándares de calidad de vida mínima aceptables debemos de ir mucho más allá del desarrollo económico.
Show more

28 Read more

Hacia un universo digital de datos: el Big Data y Open Data

Hacia un universo digital de datos: el Big Data y Open Data

Otra preocupación más que se plantea es la necesidad del tratamiento de la información personal como un derecho de propiedad. Es muy importante que la traza de datos que un usuario deja durante su navegación por buscadores de otros sitios web-las costumbres, los hábitos de compra, etc-pertenezcan al usuario y no al sitio Web o empresas que los recolecta. La portabilidad de los datos no puede alentar la competición entre los sitios que manipulan los datos y no se puede permitir el tráfico de datos; un caso similar se presenta en el caso de portabilidad de los números telefónicos en los que el usuario tiene derecho reconocido por las leyes de que el propietario de una línea telefónica fija o celular (móvil) es el propietario del número y, por consiguiente, se le puede llevar consigo a otra compañía u otra operadora teléfonica de la competencia si no está satisfecho con el servicio que le ofrece su operadora.
Show more

17 Read more

Show all 10000 documents...