Conjuntos de datos públicos para Machine Learning

Los conjuntos de datos (datasets) son una parte integral del desarrollo, prueba y ejecución de modelos de aprendizaje automático o Machine Learning (ML). Sabemos que, si se requieren datos específicos de un tema, la creación o recopilación de los datos necesarios será un proceso que llevará mucho tiempo en la mayoría de los casos. Por esta razón, los conjuntos de datos públicos pueden ayudar a mejorar la productividad, al reducir la necesidad de crearlos desde cero.

En años recientes, múltiples organizaciones han creado y compartido miles de conjuntos de datos públicos para ayudar al avance de la industria tecnológica. Entre los datasets públicos más populares están ImageNet y MNST. Actualmente, los conjuntos de datos públicos están disponibles para su uso en verticales como clasificación de imágenes, reconocimiento facial, clima, detección de objetos y mucho más. 

Ciertamente, los conjuntos de datos públicos pueden ser útiles para trabajar con modelos de ML que aborden problemas como enfermedades cardíacas, sequías, diabetes y la pobreza. Sin embargo, es necesario entender los desafíos que plantean, incluso a nivel ético. Tomemos como ejemplo el reconocimiento facial: catalogar rostros de personas puede ser considerado una invasión a la privacidad en el dominio público.

En la siguiente sección, se presentan 25 conjuntos de datos o datasets públicos:

Nombre Creador Descripción
AWS Varios Hospedado públicamente
Google Varios Hospedado públicamente
Kaggle Kaggle Hospedado públicamente
Microsoft Varios Hospedado públicamente
Notre Dame Universidad de Notre Dame Rostros 3D
VisualData.io VisiualData.io Visión artificial
ACS Censo de EE. UU. Datos demográficos detallados de EE. UU.
ApolloScape Baidu Conducción autónoma
Berkeley DeepDrive UC Berkeley Conjunto de datos de video
Data EE. UU. Deloitte y otros Visualización de los problemas de EE. UU.
Diabetes UCI Datos de pacientes diabéticos
El Niño Dataset UCI Lecturas oceanográficas y meteorológicas
Feret DoD/NIST Seguridad pública
HAR Dataset UCI Reconocimiento de la actividad humana: sentarse, andar en bicicleta, estar de pie…
Heart Disease UCI Datos personales – edad, sexo, …
ImageNet Universidad de Stanford Base de datos de imágenes
Movieslens GroupLens Calificaciones de películas
Million Song Kaggle Música
Netflix Prize Netflix Calificaciones de películas
Open Images Google Imágenes
Overhead Imagery Research Dataset ORID Imágenes aéreas
SAT-4 Airborne Dataset ASU Imágenes de paisajes
Serre Lab Universidad Brown Acciones humanas como sonreír, reír, hablar, fumar…
SIFT10M Dataset UCI El método de algoritmo de “búsqueda del vecino más cercano”
SpaceNet SpaceNet Imágenes satelitales de alta resolución con tags de precisión
Scroll to Top