Datasets COVID-19 - Data Observatory
Introducción
La pandemia causada por el COVID-19 es posiblemente el evento que definitorio de este siglo. Los gobiernos de distintos países han tenido que tomar medidas de control y mitigación, alguna de ellas extremas, logrando diversos tipos de resultados.
Para hacer sentido de un fenómeno vertiginoso y complejo, se requiere de una mayor colaboración entre equipos multidisciplinarios. De una aproximación pragmática y positiva, para identificar, validar y aplicar soluciones efectivas que atiendan este urgente requerimiento sanitario. Con este objetivo, el equipo de ingenieros del Data Observatory ha apoyado al Ministerio de Ciencia, Tecnología, Conocimiento e Innovación en la creación de su repositorio de datos abiertos, complementada por la comunidad, y que hoy es usada en forma directa por múltiples equipos.
En este sitio compartimos esta y otras fuentes de datos, nacionales e internacionales, que pueden ser de utilidad para la comunidad, para desarrollar modelos, sistemas descriptivos y predictivos, y estudiar el efecto de diferentes factores asociados al COVID-19. Agregamos, además, ejemplos de cómo usar algunas bases, combinarlas, y crear dashboards con la información aquí compartida.
Fuentes de Datos Nacionales
-
Repositorio COVID-19 del Ministerio de Ciencia: Datos epidemiológicos provenientes del Ministerio de Salud (MINSAL), Ministerio de Transportes, Ministerio del Medio Ambiente y datos de otras fuentes, documentados y abiertos para el análisis de la comunidad, en concordancia con la Ley Nº 19.628. Datos disponibles como archivos CSV.
-
Instituto Nacional de Estadísticas: Abundantes indicadores y estadísticas en una serie de temas Económicos y Sociales:
- Económicos: Índices de precios e inflación; Energía y medioambiente; Agricultura, agroindustria y pesca; Transporte y comunicaciones; Comercio, servicios y turismo; Edificación y construcción; Industria manufacturera; Economía regional; Minería.
- Sociales: Mercado laboral; Demografía y vitales; Censos de Población y Vivienda; Género; Ingresos y gastos de las personas; Condiciones de vida y cultura; Seguridad pública y justicia.
- Los tipos de datos suelen ser CSVs o XLS. Muchos datos históricos, pero algunos son actuales, como los sobre Informalidad y condiciones laborales o Sueldos y salarios.
-
Repositorio de datos INE: Repositorio de datos estadísticos flexible, interactivo y de uso gratuito, administrado por el Instituto Nacional de Estadísticas. Se enfoca en datos ambientales y laborales, en formato CSV y XLS.
-
Bases de Datos de Parques Vehiculares (Subsecretaría de Transportes): Datos sobre el parque automotriz de transporte público, incluyendo taxis, taxis colectivos urbanos por ciudad, Minibuses, Buses y Buses urbanos por ciudades. Desagregado por regiones, publicado mensualmente. Datos disponibles en formato XLS.
-
Departamento de Estadísticas e Información de Salud: Datos abiertos disponibles sobre defunciones y egresos hospitalarios, desde 1990 hasta 2017-2018. Incluye listado de establecimientos de salud, problemas de salud GES y resumenes estadísticos mensuales (consolidados por años en años recientes). Datos disponibles en formato CSV, y varios dashboards interactivos de Tableau.
-
Series de Precios de productos agrícolas (Oficina de Estudios y Políticas Agrarias): Información histórica mensual de un conjunto de precios, entre los que se encuentran: precios mayoristas (frutas – hortalizas y flores), consumidor (minorista y supermercado), productor, insumos e internacionales. La información disponible se encuentra en períodos de cinco años (series quinquenales) y desde el año 1975 en adelante (series históricas y combinadas). Datos disponibles en formato XLS.
-
Datos Públicos del Gobierno de Chile: Datos públicos del gobierno de Chile en diversos formatos, incluyendo CSV y XLS.
-
Estadisticas de Transporte aereo (Junta de Aeronáutica Civil):
-
Informes Estadísticos Mensuales del Tráfico Aéreo: Información mensual y acumulada del tráfico de pasajeros, carga y correo de cada una de las aerolíneas que realizan servicios en el país en destinos domésticos y/o internacionales. Además, se incluye resumen estadístico del transporte aéreo comercial en Chile.
-
Informes Estadísticos de Regularidad y Puntualidad: Información trimestral de la puntualidad y regularidad del despegue de vuelos de las aerolíneas regulares que operan en Chile, según aeropuertos/aeródromos y rutas principales.
-
Estadísticas Históricas: Información de pasajeros, carga, correo, pasajeros-kilómetros, toneladas-kilómetros de carga y toneladas-kilómetros de correo, anual y mensual, de los últimos 10 años.
-
Todos los datos e información disponibles como archivs XLS.
-
Fuentes de Datos Internacionales
-
Corona Data Scraper: Fuente de datos que extrae datos de casos de COVID-19 de fuentes verificadas, encuentra las correspondientes features GeoJSON, y añade datos poblacionales. Todas las fuentes son citadas en la misma linea de cada dato. Datos disponibles en formato GeoJSON.
-
A public data lake for analysis of COVID-19 data: Repositorio centralizado de datos curados y actualizados sobre o en relación a la transmisión y características del virus SARS-CoV-2, y su enfermedad asociada, COVID-19. Lista para ser consumida por diversas tecnologías AWS, o que puede ser inspeccionada directamente en el bucket público disponible. Archivos disponibles en varios formatos, junto a Dashboard de ejemplo.
-
Data and COVID-19: Compendio de diversas fuentes de datos, incluyendo los datos globales aunados por John Hopkins University, Our World in Data, UNESCO, OMS, Portal de Datos Abiertos de la Union Europea, entre otras organizaciones. Incluye publicaciones, investigación, análisis y recursos. Datos disponibles en diversos formatos, incluyendo CSV y XLS.
-
Labratfinder: Repositorio de investigación científica relacionada con COVID-19. Basado en Inteligencia Artificial, se analizan millones de papers publicados para presentar reportes resumidos incluyendo investigadores, publicaciones, productos, entre otros datos de relevancia.
-
CoronaNet Research Project: Proyecto de tracking para respuestas gubernamentales respecto al COVID-19. Prioriza disponibilidad por sobre curaduría, pero permite realizar distintas comparaciones entre países en cuanto a políticas públicas.
-
Apple Mobility Trends: Datos sobre movilidad de Apple, reflejando búsquedas de direcciones en Apple Maps. Datos disponibles en formato CSV.
-
Google Mobility Trends: Esfuerzo análogo al de Apple por parte de google, utilizando la data de localización por parte de los usuarios que han consentido a activarla, y con técnicas de anonimato. Datos disponibles en formato CSV.
-
MOVID19 (Hackaton COVID-19 en Colombia): Gran cantidad de datos globales que podrían ser útiles para hacer estudios comparativos. Datos disponibles en diversos formatos, incluyendo CSV y XLS.
Visualizador de datos
Complementario a los datos, es posible visualizarlos mediante un Dashboard en Grafana.
-
Es posible complementar el dashboard, haciendo un fork y un pull request en el Repositorio del Data Observatory. El código lee archivos CSV y los transforma y genera archivos en protocolo line, para que los consuma influxDB, dentro del entorno AWS. El proceso de actualizacion se efectua cada hora automaticamente, y es consultable desde Grafana.
-
Es posible replicar el Dashboard. Para ello, ver acá. Para conectar los datos con el server Influx, ver acá y para montar Grafana sobre Influx, ver acá. De este modo, es posible visualizar en un mismo Dashboard datos de distintas fuentes, como el MINSAL o el Registro Civil, en este Dashboard de contribuciones a nuestro repositorio.
Agradecimientos
Estos recursos han sido disponibilizados por el Data Observatory, junto a la Universidad Adolfo Ibañez, Amazon Web Services, Ministerio de Ciencia, Tecnología, Conocimiento e Innovación y Ministerio de Economía, Fomento y Turismo.