UNIVERSIDAD CARLOS III DE MADRID
FACULTAD DE HUMANIDADES COMUNICACIÓN Y DOCUMENTACIÓN DEPARTAMENTO DE BIBLIOTECONOMÍA Y DOCUMENTACIÓN
Máster en Investigación en Documentación 2011/2012
Trabajo de Fin de Máster
LA RELACIÓN DEL PERIODISMO DE DATOS CON BIG DATA Y OPEN DATA
Autora: Ángeles Mariño Tutor: Dr. Luis Joyanes Aguilar
TRABAJO DE FIN DE MÁSTER HA SIDO POSIBLE GRACIAS A LA BECA MAEC-AECID PARA EXTRANJEROS, CONVOCADA POR LA AGENCIA ESPAÑOLA DE COOPERACIÓN INTERNACIONAL PARA EL DESARROLLO Y QUE ME FUE CONCEDIDA EN EL PERÍODO ACADÉMICO 2011-2012.
CONTENIDO
1.INTRODUCCIÓN A LA INVESTIGACIÓN ... 5
1.1ANTECEDENTES Y MOTIVACIÓN ... 5
1.2OBJETIVOS ... 5
1.3OBJETO Y ESTADO DE LA CUESTIÓN ... 6
1.4HIPÓTESIS ... 9 1.5JUSTIFICACIÓN ... 9 1.6 METODOLOGÍA ... 9 1.6.1LA WEB 2.0 EN MI TRABAJO DE INVESTIGACIÓN ... 12 2.PERIODISMO DE DATOS ... 13 2.1INTRODUCCIÓN ... 13
2.2LOS ANTECEDENTES DEL PERIODISMO DE DATOS:PERIODISMO DE PRECISIÓN Y CAR ... 15
2.3DEFINICIONES DE PERIODISMO DE PRECISIÓN ... 16
2.4LA EVOLUCIÓN DEL PERIODISMO DE PRECISIÓN Y DEL PERIODISMO DE DATOS ... 17
2.5CARACTERÍSTICAS DEL PERIODISMO DE DATOS ... 25
2.5.1OBJETIVIDAD Y TRANSPARENCIA ... 25
2.5.2NECESIDAD DE ORDENAR ... 26
2.5.3 TRABAJO EN GRUPO ... 27
2.6¿CÓMO SE HACE PERIODISMO DE DATOS? ... 27
2.6.1COMPILAR LOS DATOS ... 28
2.6.2FILTRADO Y LIMPIEZA DE DATOS ... 29
2.6.3CONTEXTUALIZAR LA INFORMACIÓN ... 30
2.6.4COMBINAR LOS DATOS ... 31
2.6.5COMUNICACIÓN DE LOS DATOS ... 32
2.7DOS EJEMPLOS DE PERIODISMO DE DATOS ... 38
2.7.1“¿DÓNDE VAN MIS IMPUESTOS?” ... 38
2.7.2 “METADONA Y LA POLÍTICA DEL DOLOR” ... 39
3.HERRAMIENTAS PARA EL PERIODISMO DE DATOS ... 40
3.1MAPAS ... 40
3.2SCREEN SCRAPING (RASPADO)... 41
3.3LENGUAJE DE SCRIPTS ... 41
3.4MANEJO DE BASES DE DATOS ... 41
3.5VISUALIZACIÓN DE DATOS ... 42
3.6LIMPIEZA DE DATOS ... 42
3.7ANÁLISIS ESTADÍSTICO ... 43
3.8OTRAS HERRAMIENTAS ... 43
4.BIG DATA ... 44
4.1BIG DATA Y SU INFLUENCIA EN EL PERIODISMO ... 49
5.OPEN DATA (DATOS ABIERTOS) ... 52
5.1OPEN DATA Y EL PERIODISMO ... 53
5.2ESPAÑA ... 54 5.3FORMATO ... 56 6.CONCLUSIÓN ... 56 7. ANEXO ... 58 7.1FRASES ... 58 7.2BIBLIOGRAFÍA ... 59
7.2.1BIBLIOGRAFÍA INTRODUCCIÓN A LA INVESTIGACIÓN ... 59
7.2.2BIBLIOGRAFÍA PERIODISMO DE DATOS ... 60
7.2.3BIBLIOGRAFÍA BIG DATA Y OPEN DATA ... 62
ILUSTRACIONES ILUSTRACIÓN 1."THE COLOUR OF MONEY". ... 18
ILUSTRACIÓN 2. "LESS WIND, LOTS OF DAMAGE". ... ¡ERROR!MARCADOR NO DEFINIDO. ILUSTRACIÓN 3."THE HOMICIDE REPORT". ... 21
ILUSTRACIÓN 4."AFGHANISTAN IEDS MAPPED". ... 22
ILUSTRACIÓN 5.“THE INVERTED PYRAMID OF DATA JOURNALISM”. ... ¡ERROR!MARCADOR NO DEFINIDO. ILUSTRACIÓN 6.“EXPORTS AND IMPORTS TO AND FROM DENMARK &NORWAY FROM 1700 TO 1780”. ... 33
ILUSTRACIÓN 7.“MAPA GEOLÓGICO DE WILLIAM SMITH”(1815). ... 33
ILUSTRACIÓN 8. “DISTRIBUCIÓN DE LA AYUDA INTERNACIONAL DE ESTADOS UNIDOS EN ELTIEMPO:1946-2005”.. 34
ILUSTRACIÓN 9.“SIETE GÉNEROS”.. ... 35
ILUSTRACIÓN 10.“WHERE THE HEAT AND THE THUNDER HIT THEIR SHOTS”.. ... 37
ILUSTRACIÓN 11."¿DÓNDE VAN MIS IMPUESTOS?". ... 38
ILUSTRACIÓN 12.“METHADONE AND THE POLITICS OF PAIN”. ... 40
ILUSTRACIÓN 13.“A DECADE OF DIGITAL UNIVERSE GROWTH”.. ... 45
ILUSTRACIÓN 14."DATA INFLATION".. ... 46
1. INTRODUCCIÓN A LA INV ESTIGACIÓN
A medida que la información disponible en Internet se ha ido multiplicando, el Periodismo también fue ampliando sus fuentes de información de manera tan relevante que nació una nueva forma de contar historias: el Periodismo de Datos (Data Journalism en inglés), aquel que se basa principal o exclusivamente en bases de datos y documentación en línea para crear una historia.
Dos de los fenómenos que más han ido acelerando el desarrollo de esta nueva especialidad han sido Big Data y Open Data, los cuales han ido impulsando el desarrollo de nuevas herramientas para su análisis y comunicación. De ahí que los periodistas fueron –y continúan- adquiriendo nuevas habilidades en orden a analizar, filtrar y hacer visibles grandes masas de datos.
Lo que pretende este Trabajo de Fin de Máster es estudiar esta nueva disciplina en el marco de la Documentación y ser tanto material de consulta para periodistas que quieren adentrarse en la actividad como para documentalistas que quieren hacer llegar el material de su trabajo a la población a través de los medios de comunicación.
1.1 ANTECEDENTES Y MOTIVACIÓN
Mi formación de grado y mi experiencia profesional se han dado más que nada en el periodismo gráfico. Por ello, cuando comencé el Máster de Investigación en Documentación en la Universidad Carlos III creí que mis estudios apuntarían a perfeccionar la tarea documentalista del periodista. Sin embargo, diferentes factores se conjugaron para que encontrara en el Periodismo de Datos un interés aún mayor. Pues en este caso no se trata sólo de la tarea de documentarse para contextualizar una noticia, sino de que los datos se vuelven la noticia misma.
Y entre los factores que me llevaron a tomar esta decisión se encuentra el rápido desarrollo del Periodismo de Datos a nivel internacional, aunque con todavía poco anclaje en el mundo académico en español. Y, aunque el Periodismo de Datos tiene sus antecedentes en tiempos previos a la llegada de Internet, éste sumado a Big Data, Open Data y otros fenómenos han cambiado el panorama hasta llegar al actual contexto que es de sobreabundancia de información.
Profesionalmente entonces, es de mi interés que tanto los periodistas conozcan el potencial de las enormes cantidades de datos disponibles para la creación de noticias como que los mismos responsables de la creación y puesta a disposición de datos, los documentalistas, conozcan dicho potencial.
Por lo tanto, el objetivo general planteado para esta investigación, es realizar una introducción actualizada al Periodismo de Datos (tanto su contextualización y definición como las herramientas y habilidades que involucra) y relacionarla con los fenómenos de Big Data y Open Data.
Por ende, los objetivos específicos que se han determinado son los siguientes:
1. El Periodismo de Datos. Dar a conocer las características de esta especialización del periodismo, analizando tanto sus antecedentes como su presente.
2. Big Data y Open Data y su influencia en el Periodismo de Datos. Describir cómo ambos fenómenos potencian nuevos contenidos informativos.
3. Herramientas del Periodismo de Datos. Repasar las principales herramientas que facilitan el trabajo de elaboración y lectura de los datos aplicables a los medios de comunicación.
1.3 OBJETO Y ESTADO DE LA CUESTIÓN
Wikileaks didn't invent data journalism. But it did give newsrooms a reason to adopt it. There was just too much data for it to happen any other way.
Simon Rogers, enero 2011
Es de destacar que el trabajo presente se centrará en el tratamiento con fines periodísticos del enorme volumen de datos disponibles en el entorno digital. Esto es, el Periodismo de Datos o Data Journalism como se le llama más comúnmente en su terminología anglosajona.
El término “Periodismo de Datos” comienza a divulgarse en los años noventa como respuesta a cantidades de información antes desconocidas y a nuevas herramientas para su tratamiento en las noticias. Sin embargo, cobró más fuerza en los últimos años, con las iniciativas aisladas sobre todo de diarios de Estados Unidos y de Gran Bretaña, hasta la actualidad cuando ya se han sumado al movimiento medios de otros países y no sólo diarios sino también programas de televisión.
Para entender mejor el agitado momento en que se encuentra el Periodismo de Datos alcanza con destacar acontecimientos relevantes recientes:
- En 2011, de 16 ganadores del concurso “Knight News Challenge” de la Knight Foundation
para subvencionar innovaciones en los medios de difusión, 14 eran de proyectos relacionados con el Periodismo de Datos. Asimismo, la convocatoria 2012 también repartirá más de 1 millón de dólares en iniciativas centradas específicamente en este tema.
- En enero de 2012 se lanza el primer concurso internacional de Periodismo de Datos. La
Journalism Centre. Durante los tres meses que se mantiene abierta la convocatoria, se postulan más de 300 trabajos procedentes de 60 países.
- Recientemente, en abril de 2012, en el marco de “The School of Data”, durante el Festival
Internacional de Periodismo en Italia se lanzó “The Data Journalism Handbook”, un manual para Periodismo de Datos de código abierto y escrito de manera colaborativa entre especialistas de todo el mundo.
Y, a pesar de que hechos como este hacen parecer que el Periodismo de Datos es un fenómeno nuevo, este tiene importantes antecedentes. Pero el caudal informativo actual y las herramientas a disposición de los periodistas son los que marcan la gran diferencia.
De estos antecedentes, cabe destacar que el Periodismo de Datos tiene sus raíces en el “Computer Assisted Reporting” (CAR), que en español se traduce como “Periodismo Asistido por Computadora” y en el “Periodismo de Precisión”, el cual cobró impulso en los años sesenta sobre todo gracias al
profesional y académico Philip Meyer1.
Por parte de CAR, este nació en la década del ’50 transformándose en el primer acercamiento organizado y sistemático del uso de los ordenadores para recolectar y analizar datos en orden a mejorar las noticias. Su primer uso fue por parte de la CBC (Canadian Broadcasting Corporation) que en 1952 que lo implementó para predecir los resultados de las elecciones presidenciales (BOUNEGRU, 2012).
Y, en tanto que CAR es una técnica, basándose en ella es que Meyer comienza a vislumbrar un “cambio de concepción de la actividad periodística”, en la que “la vieja tradición de los periodistas transportadores de información está siendo sustituida por periodistas procesadores de información”
1
(MEYER, 1993). Y fue el mismo Philip Meyer quien, inspirado en la propuesta de un colega, llamó así entonces al Periodismo que era el objeto de sus estudios y afición y asentó el nombre en su libro del año 1973, “Precision Journalism. A Reporter’s Introduction to Social Science Methods”. Este libro fue fundamental para un acercamiento académico a esta práctica del Periodismo, rol que cumple hasta la actualidad ya que sigue siendo un manual de consulta.
Este último tipo de Periodismo, según la definición de Meyer (1993) es “la aplicación de métodos científicos de investigación social y comportamental a la práctica del Periodismo”. Tales métodos pueden incluir sondeos, encuestas, análisis de contenido…consiguiendo que su eje sean los números y las estadísticas.
Sin embargo, aunque hay una relación directa entre el Periodismo de Precisión y el Periodismo de Datos, este último término es más amplio ya que abarca toda información procesable por ordenadores. Su práctica se ha fortalecido desde 2010 a partir de la forma en que medios como The Guardian y The
New York Times trataron las grandes cantidades de información que se derivaron de los cables de
WikiLeaks.
Pero hasta llegar allí, según Liliana Bounegru (2012), del European Journalism Centre una de las primeras alusiones a lo que hoy se conoce como Periodismo de Datos es la que hizo en 2006 el periodista Adrian Holovaty en su ensayo “A fundamental way newspaper sites need to change”. El texto de Holovaty discurre sobre que hay contenidos que si se los tratase a partir de una base de datos podrían complementar los “big blob of text”, es decir los “grandes bloques de texto”.
A la actualidad todavía existe una discusión sobre si Periodismo de Datos no es lo mismo que CAR o el Periodismo de Precisión pero actualizado. Sin embargo, quienes lo defienden como una nueva especialización apuntan a que los datos son la noticia en sí.
1.3.1 TÉCNICAS Y HERRAMIENTAS QUE LO HACEN POSIBLE
Asimismo, el Periodismo de Datos no puede comprenderse en su totalidad sin mencionar las herramientas tecnológicas que involucra y que constantemente están evolucionando. Por lo tanto, este existe no sólo porque hay más información a disposición sino también porque surgen nuevas técnicas para el proceso de esta.
“Hablar de Periodismo de Datos es referirnos a técnicas nuevas en la creación de información periodística que requiere de conocimientos específicos y destrezas en el uso de bases de datos y presentación (visualización) de la información en nuevas interfaces”. (FLORES Y CEBRIÁN, 2012)
Tal es la conclusión de Jesús Flores Vivar – Doctor en Ciencias de la Información de la Universidad Complutense de Madrid- y de Cebrián Herreros, quienes en la actualidad trabajan en un proyecto de
investigación de técnicas del Periodismo de Datos2.
1.4 HIPÓTESIS
El caudal de información disponible que se ha visto potenciado en los últimos años gracias a Internet ha derivado en una nueva manera de información periodística: el Periodismo de Datos. Especialmente la extensión de fenómenos como Big Data y Open Data ha llevado a que los periodistas aprendan tanto el uso de las nuevas herramientas que exige la lectura de grandes cantidades de datos, como la limpieza (o normalización y unificación) de estos para luego comunicar la información al público. 1.5 JUSTIFICACIÓN
Por una parte, la intención de este trabajo es dar a conocer el nuevo uso que se está haciendo en el Periodismo de la cantidad de información disponible en el mundo digital, especialmente de bases de datos tanto públicas como privadas.
Por otra parte, entendemos que hay una necesidad de dar un anclaje académico en español a un tema que prolifera a gran velocidad pero que lo hace más que nada en inglés y más en circuitos profesionales de la información que en mundo universitario.
Además, aquello que se desarrolla en el presente trabajo es de utilidad tanto para periodistas e informadores como para documentalistas, quienes son los responsables de crear y hacer accesibles bases de datos y documentos.
1.6 METODOLOGÍA
El presente trabajo requirió una documentación incesante debido a que el Periodismo de Datos es un tema que está floreciendo tanto desde el ámbito de la investigación como del profesional y relacionado al cual surgen constantemente nuevos conocimientos y, más que nada, herramientas.
Así pues, entre las fuentes de información utilizadas para realizar esta investigación es de mencionar que primero se hizo una lectura de los contenidos más recientes, para luego ir a los antecedentes y a las fuentes académicas. De los primeros destacamos el “Data Journalism Handbook”, el cual fue publicado muy recientemente, ya iniciado este trabajo, y es un manual completo y actualizado sobre el tema.
2
En el marco del “Proyecto Cybermedia II: Desarrollos e innovaciones del periodismo en las redes sociales en Internet y telefonía móvil. Convergencias, modelos de negocios, servicio y formación”.
Este nació como una iniciativa colectiva en el Festival Mozilla 2011 en Londres y culminó en abril de 2012 cuando fue presentado en el International Journalism Festival, en Perugia (Italia). Sus principales propulsores fueron la Open Knowledge Foundation y el European Journalism Centre que convocaron a algunos de los profesionales más expertos en el tema para colaborar de manera conjunta en su redacción.
La intención era escribir un manual que sirviese de introducción al Periodismo de Datos y que respondiese a las siguientes preguntas:
- ¿Dónde puedo encontrar datos?
- ¿Cómo puedo pedir datos?
- ¿Qué herramientas puedo utilizar?
- ¿Cómo puedo encontrar historias en los datos?
Por otra parte, entre las fuentes de constante actualización caben mencionar los artículos que brindan fundaciones e instituciones con autorizada voz en lo que respecta al estudio constante del Periodismo y de las Ciencias de la Información como el Nieman Journalism Lab -un proyecto conjunto de la Nieman Foundation y la Universidad de Harvard-, el Poynter Institute y el Freedom Forum for Media Studies (www.freedomforum.org).
También están aquellos contenidos de consultoras privadas especialistas en temas de tecnología como O’Reilly Media que posee un sello editorial propio y la asociación Investigative Reporters and Editors (IRE) que en su sitio web cuenta con revistas, publicaciones y enlaces a su centro asociado, el National Institute for Computer-Assisted Reporting (NICAR). También son importantes los estudios de la consultora internacional McKinsey Global Institute, al igual que los de Cisco Systems o IBM. En cuanto a publicaciones, algunas de las más prestigiosas que han tratado de manera especial los temas que se citan en este trabajo son “The Economist”, “Wired” y “Nature”. Luego están los aportes de blogs de profesionales –en el marco o no de sus medios de trabajo- y que se han convertido en unos de los principales promotores del tema en cuestión, como el de Paul Bradshaw, también consultor y profesor de Periodismo on-line de la Universidad de Birmingham o las columnas de Simon Rogers en “The Data Blog”, del diario inglés The Guardian.
Este último también es autor del libro que se cuenta entre los de más reciente publicación relacionados al Periodismo de Datos, llamado “Facts are sacred” (ROGERS, 2011) que, basado en la experiencia propia, propone que una nueva misión del periodista es la de mediar entre la información disponible de organizaciones públicas o privadas y el procesamiento de esta para la audiencia.
Otra voz especializada que cabe mencionar es la del profesor y periodista español Alberto Cairo, con quien tomé el curso en línea "Introducción a la Infografía y Visualización para Periodistas”, ofrecido por el Centro Knight para el Periodismo en las Américas. El español es autor de dos libros recomendables para la puesta en práctica de este periodismo, especialmente en lo que refiere a la visualización de los datos: “El arte funcional: infografía y visualización de la información” e “Infografía 2.0: visualización interactiva de información en prensa”.
En cuanto a los antecedentes académicos, basé gran parte de la bibliografía en el creador del concepto de Periodismo de Precisión Philip Meyer y en quienes siguieron y ampliaron sus enseñanzas.
De Meyer revisé aquella bibliografía suya a mi alcance incluyendo el discurso de su última comparecencia pública de relevancia, la cual la hizo en 2011 con ochenta años de edad. Su gran aporte ha estado en reforzar el costado científico del Periodismo con sus métodos de investigación tomados de las ciencias sociales (encuestas, estadísticas, matemáticas…).
En España, su traductor y principal divulgador es José Luis Dader, profesor de la Universidad Complutense de Madrid y quien amplió también su teorización con libros como “Periodismo de Precisión: vía socioinformática de descubrir noticias”. En él procura dar importancia y contenido teórico a una rama del periodismo descuidada en su criterio ya que afirma que “mientras disponemos de ríos de tinta sobre el deber ser o los valores del periodismo, la cuestión de los métodos ingenuamente se soslaya y resulta casi inexistente en la discusión de la profesión” (DADER, 1997). Dader sugiere también el aprovechamiento de las bases de datos, de las nuevas tecnologías informativas y de Internet para descubrir y tratar nuevas noticias mediante técnicas estadísticas y científicas que lleven a un periodismo preciso.
Así pues, estos dos autores han sido la base bibliográfica de este trabajo, a partir de quienes enlacé para conocer otros académicos y otros estudiosos del Periodismo de Precisión.
En la actualidad se habla más del Periodismo de Datos y su bibliografía ha ido actualizándose de manera permanente y por vías no sólo académicas: publicaciones, libros, ponencias y congresos, medios de comunicación e Internet, sobre todo.
Para este trabajo he procurado concentrarme sobre todo en estas últimas publicaciones, de las cuales por lo menos el setenta por ciento se encuentran en inglés.
Cabe mencionar también que en el mes de julio de 2012 (del 23 al 27) asistí al Curso de Verano “Periodismo de Datos” organizado por la Universidad Complutense. Allí también amplié mis conocimientos y fuentes de información.
1.6.1 LA WEB 2.0 EN MI TRABAJO DE INVESTIGACIÓN
“El desarrollo de Internet y de las tecnologías de la información ha alterado el panorama de las fuentes y de los sistemas de recuperación inherentes a ellas, debido a la aparición de tipos documentales completamente nuevos y de aplicaciones de navegabilidad e intercambio de información que han potenciado la interconexión entre usuarios y la transferencia de información entre ellos”. (CORDÓN et alter, 2012)
Con esta frase de las primeras páginas del libro “Las Nuevas fuentes de información: información y búsqueda documental en el contexto de la web 2.0” quiero destacar cuánto me ha servido el intercambio de información al que se refieren los autores, para llegar a contenido valioso y de importancia para este trabajo.
Pues tanto Internet como la web 2.0 han venido a complementar los medios convencionales de información. Entre las herramientas utilizadas y más consultadas para este trabajo destaco:
- Herramientas RSS o de Sindicación de Contenidos: imprescindibles para el manejo de la
información y la actualización permanente.
- Twitter: las cuentas de especialistas en Periodismo de Datos como Alberto Cairo
@albertocairo, Guardian Data Store @datastore, Paul Bradshaw @paulbradshaw, Sandra Crucianelli @spcrucianelli, Mar Cabra @cabralens, La Nación Data @LNdata, Marcelo Soares @msoares, entre otros
- Wikis: destaco sobre todo el del grupo de Periodismo de Datos del MediaLab Prado de
Madrid donde los profesionales aportan todo aquello que consideran de relevancia para el desarrollo de esta práctica.
- Blogs de actualización permanente y novedades constantes. Cabe mencionar:
o Data Driven Journalism (datadrivenjournalism.net), una iniciativa del European Journalism Centre (http://ejc.net/) para acercar a los periodistas al uso de bases de datos y fuentes de información con distintas técnicas, herramientas y habilidades. o Open Knwoledge Foundation Blog (http://okfn.org/)
o El Online Journalism Blog (http://onlinejournalismblog.com/), el cual comenta y debate acerca de entre otros temas, el Periodismo de Datos. Su editor es Paul Bradshaw
o NaciónData (http://blogs.lanacion.com.ar/data/), blog del diario La Nación de Argentina especializado en periodismo y datos. Nació en 2012, durante el proceso de este trabajo.
o DataBlog (http://datablog.ahref.eu/), el cual forma parte del proyecto iData, patrocinado por la fundación Ahref y que pretende desarrollar la primera plataforma italiana para el Periodismo de Datos.
o A final de contas (http://afinaldecontas.blogfolha.uol.com.br/), blog del diario Folha
de São Paulo con iniciativa similar a la de otros medios. Escrito por el periodista
Marcelo Soares, también nació en abril de 2012.
o DataBlog de The Guardian(http://www.guardian.co.uk/news/datablog), blog pionero especializado en este tema e inspirador de otros. Nació en 2009 como parte del proyecto DataStore que dirige Simon Rogers.
o ProPublica (http://www.propublica.org/), fundación periodística sin fines de lucro de Estados Unidos que ya ha ganado dos premios Pulitzer por sus trabajos de investigación. Destaca por la importancia que da al Periodismo de Datos.
- Revistas y libros electrónicos, a algunos de los cuales tuve acceso mediante la biblioteca y los
recursos electrónicos de la Universidad Carlos III de Madrid.
Sistema de citas y fuentes bibliográficas
En el texto del trabajo he utilizado el sistema de citas “autor-fecha” y para crear las referencias bibliográficas de las fuentes de información consultadas he utilizado las normas ISO 690 e ISO 690-2. En cuanto a la bibliografía, esta se ha reunido y figuran tras lo grandes bloques que conforman el trabajo. En primer lugar, figura la dedicada a la introducción; le sigue el apartado relacionado con el Periodismo de Datos y, por último, la destinada a fuentes sobre Big Data y Open Data.
Para la gestión de toda la información bibliográfica y documental me he auxiliado con los gestores de información Refworks y Zotero. Este último ha sido usado particularmente para las páginas web.
1.PERIODISMO DE DATOS
2.1 INTRODUCCIÓN
Un campo que se está perfeccionando y está desarrollando una nueva especialización a raíz de la multiplicación de los datos en el mundo digital es el Periodismo. Y, si bien para esta disciplina no es algo nuevo la lectura, el análisis y la publicación de bases de datos, sí lo son la importancia que estas han adquirido y las nuevas herramientas y habilidades necesarias para mejor aprovechamiento de los datos en orden a su comunicación.
De ello trata el Periodismo de Datos, una especialización que suena cada vez más entre los profesionales de los medios a partir sobre todo de la avalancha de información que ha significado la
aparición de Internet y de fenómenos como Big Data, Open Data y la lectura y comunicación de las historias que hay detrás de los datos.
Pues en este tipo de periodismo el eje no es retransmitir los datos de las bases de datos tal cual se consiguen o están disponibles –si bien puede hacerse-, sino que su función es la de informar a partir de ellas. Entonces, se pueden establecer relaciones entre los datos, practicar minería de datos, aplicar estadísticas, armar una secuencia… Es decir, extraer una historia de los datos. Y los datos pueden ser tanto el origen de una investigación para una noticia como pueden acompañar una noticia o pueden ser la noticia misma.
Periodismo de Datos hace entonces referencia al conjunto de herramientas y prácticas que utilizan datos para la construcción de una historia (o noticia). Y estos datos pueden tanto acompañar una historia como ser fuentes de una investigación.
Según la definición del profesor Jesús Flores Vivar (2012): “El Periodismo de Datos es una forma de periodismo de investigación que utiliza la informática (ordenadores y sistemas algorítmicos) para buscar, contrastar, visualizar, combinar datos y proporcionar información de diferentes fuentes, públicas o privadas”.
El video documental “Journalism in the age of data” (2010) que llevó a cabo el periodista especializado en multimedia Geoff McGhee (2009) para la universidad de Standford, fue un disparador para dejar asentado tanto la necesidad de desarrollar más este Periodismo como las iniciativas que ya apuntaban en esa dirección.
En el vídeo, McGhee procura mostrar la importancia de fusionar las narrativas tradicionales del periodismo con los avances tecnológicos en torno a la explotación de los datos. Para ello entrevistó a profesionales de medios de comunicación e investigadores de distintos centros que trabajaban tanto en el desentrañar y comunicar los datos como en las herramientas idóneas para ello, sobre todo en lo que refiere a su visualización.
Y como ya demostraba McGhee en dicho material, en la actualidad, cada vez más los medios son conscientes de la cantidad de historias que hay detrás de los datos y que no se las conoce porque no se las busca. Pero están ahí, están en los archivos, en las bases de datos, en los Boletines Oficiales de Estados, en los informes oficiales, en las bibliotecas, en las empresas, en Internet.
Desentrañarlas, darles contexto y hacerlas visibles y notorias al resto de la población es la misión del Periodismo de Datos (en inglés, Data Journalism), más que nunca ahora que existe tanta información al alcance de la mano gracias a Internet y a las nuevas tecnologías de la información.
Claro que hay algunos medios que han sido pioneros o que llevan la delantera respecto de otros. Así por ejemplo, el periódico estadounidense The New York Times tiene un equipo de 25 personas sólo para proyectos de visualización de datos. Algunas de ellas son expertas en estadísticas, otras en Periodismo, otras en diseño gráfico, programación…
También hay medios que destacan por haber hecho una verdadera apuesta al Periodismo de Datos, tanto desde la incorporación de herramientas específicas como desde su promoción. Entre los que cabe mencionar se encuentran el diario británico The Guardian con su “Datablog”, el estadounidense Los
Angeles Times, el diario La Información de España, el proyecto “NaciónData” del diario La Nación de
Argentina y el blog “Ao final de Contas” del diario Folha de São Paulo.
2.2 LOS ANTECEDENTES DEL PERIODISMO DE DATOS: PERIODISMO DE PRECISIÓN Y CAR
Pero, ¿qué es exactamente y en qué consiste el Periodismo de Datos? Para entenderlo conviene revisar sus antecedentes pues esta no es una forma nueva y desconocida de comunicar. La diferencia está en cómo se la practica en la actualidad, en un contexto de una cantidad de información difícil de prever hace un tiempo.
El movimiento principal que antecede al Periodismo de Datos es el ya mencionado Periodismo de Precisión, una rama del Periodismo de Investigación que surgió como una respuesta al Nuevo Periodismo de la década del ’60 y que se entiende como la utilización de programas informáticos y técnicas de las ciencias sociales como las estadísticas para aportar pruebas y no sólo anécdotas en reportajes periodísticos.
Como término, “Periodismo de Precisión” toma fuerza a partir del libro de 1973 del académico Philip Meyer “Precision Journalism. A Reporter’s Introduction to Social Science Methods”. Y, a pesar de que Meyer ha sido el principal promotor de esta disciplina, académicos sugieren que su historia podría remontarse a los años treinta cuando la revista Fortune publicó la que se cree fue la primera encuesta científica llevada a cabo por un medio de comunicación (DEMERS Y NICHOLS, 1987),.
A ello le seguirán otros ejemplos periodísticos esporádicos hasta que en la década del ’60 los ordenadores hicieron más fácil el trabajo de la recolección de datos y su análisis (DEMERS Y NICHOLS, 1987). Es para estos años que Philip Meyer se interesa en el estudio de los métodos empíricos de investigación social para su aplicación en el periodismo y lo lleva a cabo con una beca Nieman en la Universidad de Harvard.
A partir de allí combinará una carrera tanto académica y de investigación como una profesional en medios periodísticos. Así es que en 1968 gana un premio Pulitzer por su publicación en el Detroit
Free Press acerca de las causas de una protesta racial en Detroit. Esta investigación se realizó con los
métodos del Periodismo de Precisión y se volvió una referencia en la historia de este hasta la actualidad.
Lo que allí había hecho el estudio del equipo de Meyer fue un cruce de datos que llevaron a contradecir la idea errónea de que los disturbios habían sido causados por negros procedentes del sur de Estados Unidos o por personas de bajo nivel educativo.
Después de ello, Meyer se dedicará a divulgar sus conocimientos y métodos de investigación periodística en el ámbito académico - actualmente es profesor emérito de la School of Journalism and
Mass Communication en la Universidad de North Carolina at Chapel Hill- y con publicaciones y
libros.
De manera paralela, una variante del Periodismo de Precisión que se desarrolla junto con este, es el Periodismo de Investigación Asistido por Ordenador (Computer-Assisted Investigative Reporting, CAR por sus siglas en inglés).
Este periodismo es todavía promovido bajo este nombre si bien podría enmarcarse dentro de la disciplina más general que tratamos en este trabajo, el Periodismo de Datos. Su principal divulgador es el National Institute for Computer-Assisted Reporting (NICAR) un programa del Investigative Reporters and Editors, Inc. Bajo su patrocinio es que anualmente desde 1989 se lleva a cabo la conferencia CAR, donde se difunden los avances en herramientas para encontrar y analizar información en formato electrónico.
2.3 DEFINICIONES DE PERIODISMO DE PRECISIÓN
Para Meyer, el Periodismo de Precisión es “la aplicación de métodos científicos de investigación social y comportamental a la práctica del Periodismo” (MEYER, 1993). Para el autor, en 1973 algunos de esos métodos incluían el sondeo o encuesta de opinión, el experimento psicosocial y el análisis de contenido.
Es decir, proponía tomar herramientas de las ciencias sociales para el análisis cuantitativo para que fueran aplicadas en el periodismo, sin por ello alterar la misión de “localizar hechos, comprenderlos y explicarlos sin pérdida de tiempo”.
Demers y Nichols (1987) también sugieren que el Periodismo de Precisión es un método de investigación, “un modo de aprender sobre el mundo”. Y su diferencial, según afirman, radica en que esos métodos cuantitativos de investigación social sirven para conseguir la noticia.
Por su parte, la definición que brinda el académico español José Luis Dader es: “se entiende por ‘Periodismo de Precisión’ la información periodística que, sobre cualquier asunto de trascendencia social, aplica o analiza sistemáticamente métodos empíricos de investigación científica, de carácter numérico o no numérico, con especial inclinación al campo de las ciencias sociales. En dicha actividad el énfasis corresponderá a la validez y fiabilidad del método de análisis, por encima de la mayor o menor espectacularidad de los resultados” (DADER, 1997).
Respecto a su comparación con el Periodismo de Investigación, Dader ha escrito que estos guardan relación pero no se tratan de lo mismo pues “ni todo el Periodismo de Investigación aplica las estrategias metodológicas y conocimientos instrumentales del Periodismo de Precisión, ni este último se aplica tan sólo en proyectos de investigación periodística” (DADER, 1997).
La diferencia está en la metodología de investigación pues el periodista de precisión es el que aplica métodos como el análisis estadístico, la encuesta sociológica y el rastreo en bases de datos.
2.4 LA EVOLUCIÓN DEL PERIODISMO DE PRECISIÓN Y DEL PERIODISMO DE DATOS
Al momento en que Philip Meyer comienza a hacer difusión y practica el Periodismo de Precisión, todavía no era posible pensar en computadores personales para cada periodista, lo que dificultaba su puesta en marcha.
Es durante la década del setenta que esto empieza a ser posible y es finalmente en los ochenta que los ordenadores se vuelven más accesibles y permiten a los periodistas tener acceso a un conjunto de datos que antes no era posible.
Por ese entonces proliferan también las encuestas y los sondeos de opinión. Incluso para finales de los ochenta los principales periódicos anglosajones tenían ya departamentos exclusivamente de información socio-estadística. Estos eran llevados por profesionales de las ramas de estadísticas y gestión de bases de datos que, entre otras misiones, daban soporte a casos de investigación periodística.
De a poco entonces, esta rama del periodismo fue generando visibilidad, sobre todo en los Estados Unidos. Algunos de los hechos que lo ilustran y marcan antecedentes en la historia reciente del Periodismo de Datos son:
1986. Reconocimiento con un premio Pulitzer al reportaje del Dallas Morning News que, basándose
en cruce de bases de datos por ordenador, denunciaron la existencia de discriminación racial en la adjudicación de viviendas públicas en Texas.
1989. Premio Pulitzer de Periodismo Investigativo al periodista Bill Dedman por el reportaje “The colour of money”. Este se trataba de una serie de artículos publicados en el diario estadounidense The
Atlanta Constitution en los que, a partir de un análisis informático de los formularios que debían
rellenar prestamistas hipotecarios, quedaba en evidencia que había discriminación por parte de estos. Como consecuencia de dicha investigación se introdujeron reformas en las condiciones crediticias de bancos de todo el país. A continuación, una imagen que formaba parte del reportaje:
ILUSTRACIÓN 1."THE COLOUR OF MONEY".FUENTE: HTTP://POWERREPORTING.COM/COLOR/
1991. Philip Meyer publica “The new precision journalism: a reporter’s introduction to social science
methods”, tercera edición de su libro donde explica y actualiza cómo hacer análisis de datos y estadística con los ordenadores del momento.
1993. The Miami Herald gana un premio Pulitzer por su especial sobre la devastación producida por el
huracán Andrew titulado “What went wrong?”. En este número, un equipo de periodistas entre los que se encontraba Steve Doigt -hoy un férreo impulsor del Periodismo de Datos-, decidió comprobar cuánto del nivel de destrucción del huracán había sido responsabilidad de autoridades municipales y constructores. Para ello recopiló cuatro bases de datos oficiales que, según el académico José Luis Dader (2006) fueron las siguientes:
1) Los informes de las 50.000 inspecciones de daños realizadas en el condado tras el paso del huracán 2) El registro de datos de la propiedad de 1992, que incluía información detallada del tipo de vivienda, valor y año de construcción de todas las edificaciones del área
3) El fichero de Memorias de Edificación de todas esas construcciones, que recogía información minuciosa sobre los tipos y calidades de los materiales utilizados
4) El Censo de Edificación y Planificación del condado, con más de 7 millones de expedientes de permisos de construcción e inspecciones realizadas en los últimos años.
Tras un cruce de toda esta información, el Miami Herald realizó un especial de 16 páginas en las que podía verse un mapa de las zonas afectadas por el huracán y cuadros estadísticos. Lo que terminaron por demostrar fue que el número de casas construidas después de 1979 y que declaraban haber sido destruidas totalmente doblaba a las de construcción previa. Además, dejaban evidencia de que los vientos más fuertes no habían sido causantes de más destrucción sino que también, esto se correlacionaba con los hogares de construcción posterior a 1979.
En conclusión, había sido causante de más daño la reducción de los controles de calidad de construcción que la fuerza el huracán.
ILUSTRACIÓN 2 "LESS WIND, LOTS OF DAMAGE". FUENTE: CUENTA DE FLICKR DE DANIEL X. O'NEIL, HTTP://WWW.FLICKR.COM/PHOTOS/JUGGERNAUTCO/SETS/72157607210036175/DETAIL/
2006. El periodista Adrian Holovaty (2006) publica su ensayo “A fundamental way newspaper sites
need to change” a partir del cual se extiende la necesidad de profundizar en el “Periodismo de Datos”. Según especialistas en el tema como el periodista Simon Rogers, Holovaty pudo haber sido el primero en hablar de “Data Journalism”, término anglosajón de “Periodismo de Datos”, para anclarlo como una tendencia.
2007. Entre ejemplos de Periodismo de Datos que empiezan a multiplicarse destaca el de Los Angeles Times llamado “The homicide report” y consiste en un mapa interactivo (http://projects.latimes.com/homicide/map/) con una base de datos para conocer todos los casos de homicidio en el distrito de Los Ángeles desde 2007 hasta la actualidad, presentando detalles de cada uno de los asesinatos que de la región. En este mapa se pueden filtrar los datos de las víctimas según raza, edad, género, causa de muerte, ubicación y otros parámetros. También pueden verse fotos de estos.
Para Rich Gordon (2007), profesor asociado de la escuela Medill de Periodismo en la Northwetern University de Estados Unidos), esta iniciativa representa que cuando se unen el reportaje tradicional con las nuevas capacidades de uso de las bases de datos, surgen nuevas formas de periodismo.
2009. Premio Pulitzer para el diario estadounidense St. Petersburg Times por el proyecto “Politi Fact”
en el que se comparaban las declaraciones juradas de políticos con hechos reales y concretos para evaluar el grado de veracidad. Trabajo basado en el uso de estadísticas y bases de datos.
2010. Las filtraciones más importantes de Wikileaks cambian el panorama del Periodismo de Datos y
sitios de noticias como The Guardian, a través de su “Datablog”, y The New York Times llevan esta modalidad a su auge.
ILUSTRACIÓN 4."AFGHANISTAN IEDS MAPPED".FUENTE: GUARDIAN.COM.UK
2011. Los 16 proyectos ganadores del Knight News Challenge, un concurso anual de la Knight
Foundation destinado a promover las mejores ideas relacionadas con la innovación en el ámbito del periodismo, tienen al Periodismo de Datos como principal objetivo. El total de dinero que se les destina testimonia su importancia, 4,7 millones de dólares.
En 2011 nace también el proyecto Overview, una herramienta de visualización de documentos. Ofrece organizarlos y conectarlos para ayudar a los periodistas a encontrar historias en medio de tanta información. Es una iniciativa del periodista Jonathan Stray con la financiación de la agencia de noticias Associated Press.
2012. Algo que marcó la transición que está viviendo el Periodismo de Datos fue el lanzamiento en
enero de 2012 del primer concurso internacional de esta especialidad, una iniciativa del Global Editors
Network en alianza con Google. Además, este mismo año se publica el manual de Periodismo de
Datos, ya citado anteriormente, “The Data Journalism Handbook”, una iniciativa colaborativa en la que participaron periodistas de todo el mundo.
Como puede deducirse, el Periodismo de Precisión tuvo al comienzo una mayor incidencia en Estados Unidos mientras que en Europa la evolución fue más lenta (Dader, 1993). En España incluso, como también documenta el académico José Luis Dader, habían aplicaciones de un Periodismo de Precisión pero sin que sus profesionales supieran del movimiento: “la relativa presencia de actuaciones periodísticas intuitivas, catalogables entre nosotros bajo el rótulo que nos ocupa, choca con la perplejidad generalizada que su sola mención continúa produciendo entre la mayoría de los periodistas y profesores españoles de Ciencias de la Información”.
Años después, ya para cuando comienza a hablarse de Periodismo de Datos a raíz de la multiplicación de bases de datos y herramientas para su tratamiento, la evolución se da paralelamente en distintos ámbitos geográficos. Estados Unidos no pierde su vanguardia con medios de comunicación cabeceras como The New York Times mientras que en Europa sus primeros promotores están en Inglaterra con
The Guardian y en Alemania con Der Spiegel.
Y la gran bisagra en la evolución del Periodismo de Datos no está sólo en fenómenos de desarrollo continuo como puede ser Big Data. También, hubo hechos puntuales y entre ellos es de mencionar el “Cablegate”, la filtración de documentos diplomáticos -especialmente de Estados Unidos- y que difundió el sitio Wikileaks.
Al respecto, en diciembre de 2010, Paul Bradshaw escribió en su blog onlinejournalismblog.com un artículo que tituló “Un embajador avergonzado es una tragedia, 15 mil civiles muertos es una estadística”. Allí deducía, a partir del efecto Wikileaks en la prensa, que el Big Data traía nuevos desafíos: “hay que humanizar y personalizar grandes conjuntos de datos de una manera tal que ello no vaya en contra de la complejidad del tema que se está tratando”.
Es decir, en medio de enormes cantidades de datos, el periodista debe intentar lograr un interés con ellos a pesar de que a los lectores les interesen más las historias individualizadas, como la del embajador avergonzado con el que ejemplifica este punto.
Al respecto, es válido también comentar que los mismos datos necesitan de los medios de comunicación pues de otra manera es posible que el público no se acerque a ellos, por la complejidad que esto representa.
Como escribió el periodista John Keenan (agosto 2010) en The Guardian: “Sin el análisis, el comentario y la explicación de periodistas especializados, los documentos habrían quedado en el sitio de Wikileaks llamando la atención sólo de aquellos con un ferviente interés en el conflicto. La Casa Blanca y el Pentágono, apenas se habrían inmutado”.
Eso es precisamente lo que entendió Julian Assange, el fundador de Wikileaks, cuando decidió hacer la distribución de sus documentos a través de grandes diarios occidentales, los cuales fueron El País de España; The New York Times de Estados Unidos; The Guardian de Reino Unido, Le Monde de Francia y Der Spiegel de Alemania.
Al mismo tiempo, en una visión actualizada del Periodismo de Precisión y ya con el Periodismo de Datos como una tendencia, Philip Meyer dio un discurso el 3 de octubre de 2011, como invitado a la
Hedy Lamarr Lecture sobre Changing Needs in Journalism en la Academia Austríaca de las Ciencias.
En su exposición, que luego fue difundida por los reportes Nieman, dijo:
Necesitamos una estructura para ver la verdad de los hechos. (…). ¿Es posible que encontremos la manera de unir estas dos estrategias (Periodismo Narrativo y Periodismo de Precisión) y contar historias sobre los datos que se basan en teorías verificables?
Para dar una respuesta a este interrogante, se remontó a la historia del término “Periodismo de Precisión”, el cual fue acuñado por el profesor Everette E. Dennis en la Universidad de Obregón en 1971. Lo que intentaba este, era explicar el nuevo Periodismo, basado en métodos científicos. Pero como desde hacía unos años se hablaba de “nuevo periodismo” para referirse a la corriente literaria del oficio, lo diferenciaron.
Y continuó entonces con su discurso, acercándose a la definición de lo que se conoce como Periodismo de Datos:
“Ambos géneros, el Periodismo Narrativo y el Periodismo de Precisión, son especialidades que requieren determinadas habilidades. Si tuviéramos que mezclar ambos, ¿cómo lo llamaríamos? El término que me gusta es ‘narrativa basada en evidencia’. Ello implica una buena historia basada en
evidencia verificable. Sí, esa sería una especialidad esotérica. Pero creo que hay un mercado que se está desarrollando para ella. El mercado de la información nos está llevando cada vez hacia una mayor especialización. Y tanto el Periodismo de precisión como el Periodismo narrativo atraen a una audiencia sofisticada, una que aprecia la necesidad de estructurar la información de una manera que centre la atención en la verdad.”
Y casi cuarenta años después de que el profesor Meyer remarcara por primera vez la necesidad de aplicar métodos sociales en la investigación periodística hoy no sólo se aplican en los más importantes medios de comunicación, sino que también las nuevas tecnologías permiten toda una variante de actividades a partir de ello. El ejemplo principal es la exploración personal que puede hacer la audiencia de tantas bases de datos ahora a su disposición.
2.5 CARACTERÍSTICAS DEL PERIODISMO DE DATOS
En la actualidad, el Periodismo de Datos exige una especialización, tal como remarcó Philip Meyer. De ahí que sobrevenga la necesidad de aprender las nuevas herramientas, de sortear las dificultades que representa la lectura de cierto formato de datos y de facilitar la tarea de lectura de la audiencia. Es decir que, como cualquier nueva tendencia también tiene sus puntos fuertes y débiles. En cuanto a una de sus principales consecuencias positivas se encuentra la objetividad y transparencia que pueden brindar los datos, ya que el lector también tiene la posibilidad de interpretarlos y sacar sus propias conclusiones.
Por otra parte, tanta información a disposición puede complicar la tarea de su lectura. De ahí la necesidad de ordenar. A continuación, un listado de características del Periodismo de Datos.
2.5.1 OBJETIVIDAD Y TRANSP ARENCIA
"Aquel periodista que adapte los instrumentos del método científico a su propia tarea, gozará de la posibilidad de realizar útiles evaluaciones con la mucha más potente objetividad de la ciencia”
Philip Meyer, 1993
El profesor de gráficos en la Universidad de Miami, Alberto Cairo (25 de abril 2011) coincide indirectamente con Philip Meyer cuando en un texto sobre “infográficos peligrosos” se refiere al método científico como “el mayor avance de la Humanidad en su lucha por superar limitaciones perceptivas, ilusiones inconscientes e impulsos emocionales: un sistema que antepone la evidencia empírica a la opinión subjetiva, aunque esta última se rebele contra sus conclusiones, a veces contrarias a la intuición, al statu quo... y al sentido común”.
Como es común aprender en las carreras de Periodismo, la objetividad es un principio de este, si bien hay quienes la defienden y quienes no pues la neutralidad absoluta no es algo que pueda asegurarse en el discurso comunicativo
En relación con el Periodismo de Datos, la lectura de los datos y su puesta a disposición contribuye a una mayor transparencia y objetividad en la tarea comunicativa. Es más, hay quienes defienden que “la transparencia es la nueva objetividad” (THE ECONOMIST, julio 2011).
2.5.2 NECESIDAD DE ORDENAR
Philip Meyer también reflexionó en 2011 en su discurso en la Academia Austríaca de las Ciencias acerca de la gran cantidad de información actual y la necesidad de organizar: “Creería que todos estamos de acuerdo en que las tecnologías de la era de la información producen datos más rápido de lo que producen conocimiento. En lugar de remplazar el periodismo, Internet está creando una nueva necesidad de mercado: para la síntesis y la interpretación del flujo constante de hechos”.
Para el académico, los datos sin procesar son lo mismo que el ruido, de ahí que a medida que se multiplica la información disponible en el mundo, también se multiplican las necesidades para procesarlo.
Asimismo, Guy Laurence, CEO de Vodafone Reino Unido argumentaba en una entrevista de Simon Rogers –editor del “Datablog” del periódico británico The Guardian- que antes el acceso a la información era un gran problema mientras que ahora, la prioridad es saber manejarla: “Nos hicieron creer que cuanto más datos, mejor, pero eso ya no es verdad”.
Regresando a Meyer, en su discurso ya mencionado (2011) también dijo que ahora que la información es abundante lo importante es su procesamiento: “Necesitamos una estructura para ver ‘la verdad de los hechos”.
Para ello, Meyer (1993) reconoce que en la actualidad no sólo alcanza con aplicar el método científico a los datos. Ahora también es necesario saber nadar entre un mundo de datos: “El periodista debe ahora ser un administrador de datos acumulados, un procesador de datos y un analista de esos datos”. Los pasos que Meyer enumera para trabajar con los datos en periodismo son:
1. Recopilarlos 2. Almacenarlos 3. Recuperarlos 4. Analizarlos
5. Resumirlos 6. Comunicarlos
2.5.3 TRABAJO EN GRUP O
Una característica que todos los expertos en Periodismo de Datos coinciden es que cuanto más un trabajo en equipo sea, mejores resultados se pueden obtener. Sobre todo a la actualidad, cuando las herramientas se multiplican y se valoran cada vez más las especializaciones.
Cierto es que así como se multiplican las herramientas estas se simplifican. Sin embargo, en un trabajo completo de Periodismo de Datos intervienen diferentes capacidades como las que dan la Estadística, la Sociología, la Programación, el Diseño Gráfico y el Periodismo.
Puede haber reporteros que reúnan conocimientos de estadística por ejemplo, pero no es lo más común. Por tanto, según mencionaba Meyer (2011) ello exige una inversión por parte de los medios: “Necesitaremos más reportaje en equipo y editores capaces de reclutar y manejar los talentos que hacen falta”.
José Luis Dader (1993) asegura también en el prólogo de la versión española de “Periodismo de Precisión. Nuevas Fronteras para la investigación periodística” que “este tipo de aventura profesional es una tarea de equipo”. Pues el periodista puede encontrarse en su tarea con dificultades técnicas y de métodos, para lo que es una solución buscar la ayuda de especialistas.
2.6 ¿CÓMO SE HACE PERIODISMO DE DATOS?
En un post de julio de 2011 Paul Bradshaw propuso en su blog cuatro fases de trabajo en el Periodismo de Datos: compilar los datos, filtrarlos, contextualizarlos y combinarlos para luego transmitirlos.
Ilustración 5 “THE INVERTED PYRAMID OF DATA JOURNALISM”. FUENTE: ONLINEJOURNALISMBLOG.COM
2.6.1 COMPILAR LOS DATOS
Para Paul Bradshaw, la búsqueda de datos puede iniciarse por dos razones: o porque hay una pregunta que necesita datos para su respuesta o porque hay datos que plantean un interrogante. Como sea, hay que encontrarlos o incluso crearlos, por ejemplo, a través de encuestas.
Para ello están las bases de datos, públicas o privadas. Las privadas no necesariamente son secretas, pero no está pensadas para el uso de los periodistas por lo que se puede pedir consultarlas o pagar por ellas, dado el caso.
Algunas de las fuentes más consultadas a partir de las cuales surgen historias son (BRADSHAW, abril 2010):
- Fuentes gubernamentales, locales, nacionales e internacionales
- Organismos que monitorean a diferentes organizaciones
- Instituciones académicas y científicas
- Grupos de presión y organizaciones sociales
- Empresas
- Los medios comunicación
Los modos de recuperación que Philip Meyer enumeraba en la versión actualizada de Periodismo de Precisión eran los siguientes:
- CdRom, para ser leídas en el ordenador personal.
- Conexión
- Fuentes de acceso público
- Recepción mediante conexión a Internet
- De texto completo y bibliográficas
Con las nuevas tecnologías y facilidades de la informática, las maneras de recuperación se han ampliado considerablemente. De ahí que las enumeradas por Paul Bradshaw en su artículo de 2011 sean diferentes y actualizadas. A continuación, citamos algunas de las que el periodista inglés propone, más otras a considerar:
- Información provista al periodista directamente por una organización (todavía no es común
que los datos estén adjuntos a los comunicados de prensa)
- Recuperada luego de búsquedas avanzadas dentro de sitios gubernamentales
- Haciendo scraping en bases de datos ocultas con herramientas como Scraperwiki,
Yahoo!Pipes y el complemento de Firefox Outwit Hub.
- A través de la conversión de documentos para su análisis.
- Tomando información de las APIs
- Recolectando información por uno mismo a través de observaciones, encuestas o formularios,
entre otras formas.
2.6.2 FILTRADO Y LIMPIEZA DE DATOS
Un problema que presenta el trabajar con bases de datos públicas o ajenas –incluso propias- es que pueden contener errores de tipeo –o de otro tipo- que podrían alterar la verdad de los contenidos que se pretenden comunicar.
“Para evaluar la información de una base de datos hay que preguntarse siempre quién suministró los datos originales y cuándo y cómo se recolectaron. Muchas bases de datos gubernamentales son compilaciones de material procedente de muy diversas fuentes, cuya fiabilidad y meticulosidad no es uniforme”. (MEYER, 1993)
Para ello es que un paso fundamental al trabajar con estas bases de datos es proceder a su revisión y “limpieza”. Numerosas herramientas permiten descubrir típicos errores humanos sin necesidad de ir registro por registro. Una de ellas es Google Refine que descubre palabras aproximadas, entradas vacías y duplicados.
Philip Meyer también repetía en su libro “Periodismo de Precisión. Nuevas Fronteras para la investigación periodística.” (1993): “Nunca consideres como palabra de Dios lo que el ordenador te
indica. Habrá siempre que rastrear el paso anterior a la creación de la base de datos, comprobando los documentos impresos o lo realizado por las personas que reunieron los datos.”
Asimismo, este ítem también incluye la conversión de datos al formato con el que se pretende trabajar. Lo más común en este caso es el paso de información presente en archivos PDF a planillas de cálculo como Microsof Excel. No siempre es una tarea sencilla y, a pesar de que existen herramientas gratuitas (PDFtotext, Cometdocs.com, PDFtoexcelonline.com, Zamzar.com) y de pago (PDFconverter, Adobe Acrobat X Pro, Nitro PDF), es necesaria una revisión meticulosa.
Relacionado a este punto, otra tarea frecuente en el Periodismo de Datos es la extracción de información de una página web a un documento de texto. Y, para cuando el “copiar” y “pegar” no funciona correctamente, sobre todo con listas y tablas, existen herramientas para convertir información en lenguaje HTML para su uso en un documento de texto o planilla de cálculo. Un ejemplo de ellas es la que facilita Google: ImportHTML.
2.6.3 CONTEXTUALIZAR LA INFORMACIÓN
Es necesario preguntarse de dónde viene la información, cuál es su historia, qué instituciones intervinieron, porqué se recolectó, cómo, dónde…
Entonces, si llega a manos de un periodista la base de datos de crímenes de una ciudad esta sólo tendrá sentido si se conoce la cantidad de población, el historial, la calidad de vida, el desempleo, la inflación, etcétera.
Es decir, una base de datos puede no ser interesante en sí misma hasta que se cruzan dos variables. Así por ejemplo, un registro de accidentes de una ciudad que se combina con el nivel educativo de los conductores protagonistas de estos puede tal vez dar lugar a una conclusión relevante. Es entonces cuando entra en juego la capacidad del periodista para hacerse las preguntas que deriven en material de noticia.
Respecto a las estadísticas, en una entrevista de 2008 a Hal Varian, economista jefe de Google y profesor de Tecnologías de la Información en la Universidad de Berkeley, este ya predecía que en la próxima década se iba a tender inevitablemente al campo estadístico: "La capacidad de trabajar los datos - ser capaz de entenderlos, procesarlos, extraer valor de ellos, visualizarlos, comunicarlos- va a ser una habilidad de enorme importancia en las próximas décadas (..). Porque es ahora que realmente se dispone de datos, esencialmente libres y en todas partes. Así que el factor que falta es la capacidad de entenderlos y extraer valor de ellos” (MCKINSEY QUARTERLY, enero 2009)
Y Philip Meyer (1993) también ya lo decía en cuanto a su aplicación en el oficio del periodista:
“Hubo un tiempo en que todo lo que hacía falta era amor a la verdad, vigor físico y cierta gracia literaria. Todavía el periodista necesita esos recursos, pero ya han dejado de ser suficientes.”
Un número por sí solo no significa mucho. Debe tener un contexto, debe ser comparado con otros números. Para José Luis Dader (1997), la estadística consiste “en una aplicación práctica de la matemática, destinada a hacer visible, mediante una explicación condensada –y por tanto asequible al conocimiento humano-, la variabilidad de relaciones ciertas, pero a primera vista invisibles, que existen en grandes masas de datos o poblaciones”.
Es de mencionar que, en la actualidad, uno de los más grandes precursores de las estadísticas es el médico sueco Hans Rosling. Él no sólo insiste en la necesidad de aplicar las estadísticas en la tarea de la comunicación sino también en todas las áreas de la vida para entender el mundo actual.
Conocido también por sus presentaciones en las charlas TED (organización internacional de divulgación de ideas) para promover el entendimiento del mundo a través de las estadísticas, en una entrevista de Ulrike Reinhard (marzo 2011), Rosling pone en palabras su percepción respecto al universo de datos actual: “Mi idea fundamental es que el mundo ha cambiado tanto que lo que la gente necesita no es más datos sino una nueva mentalidad. Necesita un nuevo sistema de almacenamiento con el que poder manejar esta información”.
2.6.4 COMBINAR LOS DATOS
Este paso se refiere a la fusión de datos de diferentes fuentes en una sola. Un modo típico en periodismo que incluye esta tarea está representado por los mashups, aplicaciones que toman y mezclan datos existentes en la web para crear algo nuevo.
El de mapas es de los más utilizados en el periodismo y sirve para ver cómo se distribuye algo en el espacio. Un ejemplo sería un mapa qué muestre cuáles son los países que acumulan más de cien
medallas de oro en la historia de los Juegos Olímpicos basándose en los datos de una tabla de información extraída de, por mencionar una fuente probable, Wikipedia.
2.6.5 COMUNICACIÓN DE LOS DATOS
La forma de transmitir los datos a la audiencia es lo que más ha variado en los últimos años gracias a las nuevas tecnologías de la información y herramientas que permiten que estos se vuelvan más fáciles de manipular y de acceder. De allí que una característica fundamental del Periodismo de Datos actual es la visualización de estos en tablas y gráficos.
2.6.5.1 INFOGRAFÍA Y VISUALIZACIÓN DE DATOS
En el mundo académico suele diferenciarse entre la “infografía” y la “visualización de datos” alegando que la infografía se preocupa en presentar la información de una manera que pueda ser asimilada por la audiencia, mientras que la visualización permite la exploración al usuario a través de esos datos. Sin embargo, Alberto Cairo, autor del libro “El arte funcional: infografía y visualización de información” habla de una “frontera difusa” entre ambos conceptos (16 de abril, 2011). Pues este periodista español considera que “la relación entre infografía y visualización es un continuo” ya que “todo gráfico (de datos, cartográfico, etc.) presenta, pero también puede convertirse en una herramienta que una audiencia manipule mentalmente para explicarse unos datos, para extraer de ellos significados, tendencias, para vincularlos con su propia vida, para buscar en ellos su propio barrio, su ciudad, su vivienda.”
He ahí parte del potencial de la visualización de datos en los medios de comunicación ya que permite esa interacción del lector sobre todo con las nuevas herramientas.
Y, aunque las formas visuales de presentar datos parecen novedosas, lo cierto es que, al menos las más típicas, existen desde hace dos siglos gracias a los estudios de mapas en historia y geografía y en otras disciplinas como las matemáticas.
Así, al que se considera como el inventor de la tabla moderna es al ingeniero escocés William Playfair quien en The Commercial and Political Atlas de 1786 y en el Statistical Breviary de 1801 inventó y utilizó un gráfico de barras, uno de fiebre y otro de tarta, los gráficos estadísticos que son más utilizados en la actualidad. Uno de ellos es el que presentamos a continuación y que plasma en un diseño gráfico la evolución del comercio de Inglaterra en relación a Dinamarca y Noruega entre 1700 y 1780.
ILUSTRACIÓN 6. “EXPORTS AND IMPORTS TO AND FROM DENMARK & NORWAY FROM 1700 TO 1780”. FUENTE: HTTP://UPLOAD.WIKIMEDIA.ORG/WIKIPEDIA/COMMONS/D/D8/PLAYFAIR_TIMESERIES.PNG
Además de las mencionadas, otras formas de comunicación visual de datos se inventaron durante el siglo XIX como el mapa geológico de William Smith de 1815 que los cartografistas llaman “el mapa que cambió el mundo”:
ILUSTRACIÓN 7. “MAPA GEOLÓGICO DE WILLIAM SMITH” (1815). FUENTE:
Pero cuando comienzan a asomar las cantidades masivas de datos, se tornan necesarias nuevas herramientas para su lectura y comprensión. De ahí que se comenzaran a utilizar aquellas específicas para la visualización de datos que poco a poco fueron mejorando y convirtiéndose de uso común, sobre todo desde el momento en que se las comprendió como una forma alternativa de comunicación. Así, cada vez más herramientas facilitan a cualquier usuario la visualización de datos. Una que tuvo especial repercusión fue ManyEyes, de IBM, la cual funciona en Internet y es de acceso gratuito. Con esta herramienta, a partir de bases de datos se pueden diseñar visualizaciones para cruzar los datos y encontrar nuevas relaciones.
ILUSTRACIÓN 8. “DISTRIBUCIÓN DE LA AYUDA INTERNACIONAL DE ESTADOS UNIDOS EN ELTIEMPO:1946-2005”.FUENTE: MANYEYES.
La visualización entre otras cosas, sirve para “poner datos en contexto”, según explica Jeffrey Heer, de la Universidad de Stanford en el video de Geoff McGhee (2010) “Journalism in the age of data” (2010).
A su vez, Cole Nussbaumer (2011), experta en visualización de datos en Silicon Valley- prefiere hablar de “humanización” de datos, pues al presentarlos de manera creativa es posible hacer de ellos una historia más transparente.
Uno de los medios precursores y que constantemente está innovando en visualización de datos es The
New York Times.
2.6.5.1.1 “LA NARRATIVA DE LA VISUALIZACIÓN”
Para Edwar Segel y Jeffrey Heer (2010), de la Universidad de Stanford, la visualización de datos no sólo revela historias sino que también puede contarlas, igual que si fuese una historia escrita.
Para ambos académicos las visualizaciones estáticas a lo largo del tiempo han sido utilizadas para apoyar la narración, generalmente en forma de diagramas insertos en un cuerpo mayor de texto. Y es en este formato que el texto transmite la historia, y la imagen por lo general proporciona evidencia de apoyo o detalles relacionados.
Ahora, para ellos, una nueva clase de visualizaciones cada vez más complejas tratan de combinar narraciones con gráficos interactivos y narradores y periodistas, especialmente en línea.
A su vez, describieron siete géneros de narrativas de visualización: el estilo revista, el gráfico anotado, el diagrama de flujo, la tira cómica, las diapositivas, el vídeo y el “cartel dividido”.
ILUSTRACIÓN 9.“SIETE GÉNEROS”.FUENTE:(SEGEL Y HEER,2010).
El gurú del Periodismo de Precisión, Philip Meyer (2011) también considera que la narrativa va a la par de los datos, pues en el siglo XXI es necesario tanto el Periodismo de precisión –el cual toma sus herramientas de la ciencia- como el Periodismo narrativo, basado en el arte:
“La ciencia crea estructura con lo que Lippmann denomina modelos esquemáticos, que provienen de la teoría. El arte crea la estructura a través del diseño de la narrativa en la narración.”
Por ello no es cuestión de poner los datos como son y abrumar al lector. Hay que preguntarse qué es lo que este quiere saber a partir del gráfico, qué es lo que puede llegar a preguntarse.
Igualmente, Alberto Cairo insiste en la necesidad de no caer en la simplificación excesiva. Y habla de dos corrientes en el campo de la visualización de la información: la de los minimalistas (racionales, científicos) y la de los de una perspectiva más emocional y estética.