Los conjuntos de datos (datasets) son una parte integral del desarrollo, prueba y ejecución de modelos de aprendizaje automático o Machine Learning (ML). Sabemos que, si se requieren datos específicos de un tema, la creación o recopilación de los datos necesarios será un proceso que llevará mucho tiempo en la mayoría de los casos. Por esta razón, los conjuntos de datos públicos pueden ayudar a mejorar la productividad, al reducir la necesidad de crearlos desde cero.
En años recientes, múltiples organizaciones han creado y compartido miles de conjuntos de datos públicos para ayudar al avance de la industria tecnológica. Entre los datasets públicos más populares están ImageNet y MNST. Actualmente, los conjuntos de datos públicos están disponibles para su uso en verticales como clasificación de imágenes, reconocimiento facial, clima, detección de objetos y mucho más.
Ciertamente, los conjuntos de datos públicos pueden ser útiles para trabajar con modelos de ML que aborden problemas como enfermedades cardíacas, sequías, diabetes y la pobreza. Sin embargo, es necesario entender los desafíos que plantean, incluso a nivel ético. Tomemos como ejemplo el reconocimiento facial: catalogar rostros de personas puede ser considerado una invasión a la privacidad en el dominio público.
En la siguiente sección, se presentan 25 conjuntos de datos o datasets públicos:
Nombre | Creador | Descripción | ||
AWS | Varios | Hospedado públicamente | ||
Varios | Hospedado públicamente | |||
Kaggle | Kaggle | Hospedado públicamente | ||
Microsoft | Varios | Hospedado públicamente | ||
Notre Dame | Universidad de Notre Dame | Rostros 3D | ||
VisualData.io | VisiualData.io | Visión artificial | ||
ACS | Censo de EE. UU. | Datos demográficos detallados de EE. UU. | ||
ApolloScape | Baidu | Conducción autónoma | ||
Berkeley DeepDrive | UC Berkeley | Conjunto de datos de video | ||
Data EE. UU. | Deloitte y otros | Visualización de los problemas de EE. UU. | ||
Diabetes | UCI | Datos de pacientes diabéticos | ||
El Niño Dataset | UCI | Lecturas oceanográficas y meteorológicas | ||
Feret | DoD/NIST | Seguridad pública | ||
HAR Dataset | UCI | Reconocimiento de la actividad humana: sentarse, andar en bicicleta, estar de pie… | ||
Heart Disease | UCI | Datos personales – edad, sexo, … | ||
ImageNet | Universidad de Stanford | Base de datos de imágenes | ||
Movieslens | GroupLens | Calificaciones de películas | ||
Million Song | Kaggle | Música | ||
Netflix Prize | Netflix | Calificaciones de películas | ||
Open Images | Imágenes | |||
Overhead Imagery Research Dataset | ORID | Imágenes aéreas | ||
SAT-4 Airborne Dataset | ASU | Imágenes de paisajes | ||
Serre Lab | Universidad Brown | Acciones humanas como sonreír, reír, hablar, fumar… | ||
SIFT10M Dataset | UCI | El método de algoritmo de “búsqueda del vecino más cercano” | ||
SpaceNet | SpaceNet | Imágenes satelitales de alta resolución con tags de precisión |