Conjuntos de datos públicos para Machine Learning

Los conjuntos de datos (datasets) son una parte integral del desarrollo, prueba y ejecución de modelos de aprendizaje automático o Machine Learning (ML). Sabemos que, si se requieren datos específicos de un tema, la creación o recopilación de los datos necesarios será un proceso que llevará mucho tiempo en la mayoría de los casos. Por esta razón, los conjuntos de datos públicos pueden ayudar a mejorar la productividad, al reducir la necesidad de crearlos desde cero.

En años recientes, múltiples organizaciones han creado y compartido miles de conjuntos de datos públicos para ayudar al avance de la industria tecnológica. Entre los datasets públicos más populares están ImageNet y MNST. Actualmente, los conjuntos de datos públicos están disponibles para su uso en verticales como clasificación de imágenes, reconocimiento facial, clima, detección de objetos y mucho más.

Ciertamente, los conjuntos de datos públicos pueden ser útiles para trabajar con modelos de ML que aborden problemas como enfermedades cardíacas, sequías, diabetes y la pobreza. Sin embargo, es necesario entender los desafíos que plantean, incluso a nivel ético. Tomemos como ejemplo el reconocimiento facial: catalogar rostros de personas puede ser considerado una invasión a la privacidad en el dominio público.

En la siguiente sección, se presentan 25 conjuntos de datos o datasets públicos:

Nombre	Creador	Descripción
AWS	Varios	Hospedado públicamente
Google	Varios	Hospedado públicamente
Kaggle	Kaggle	Hospedado públicamente
Microsoft	Varios	Hospedado públicamente
Notre Dame	Universidad de Notre Dame	Rostros 3D
VisualData.io	VisiualData.io	Visión artificial
ACS	Censo de EE. UU.	Datos demográficos detallados de EE. UU.
ApolloScape	Baidu	Conducción autónoma
Berkeley DeepDrive	UC Berkeley	Conjunto de datos de video
Data EE. UU.	Deloitte y otros	Visualización de los problemas de EE. UU.
Diabetes	UCI	Datos de pacientes diabéticos
El Niño Dataset	UCI	Lecturas oceanográficas y meteorológicas
Feret	DoD/NIST	Seguridad pública
HAR Dataset	UCI	Reconocimiento de la actividad humana: sentarse, andar en bicicleta, estar de pie…
Heart Disease	UCI	Datos personales – edad, sexo, …
ImageNet	Universidad de Stanford	Base de datos de imágenes
Movieslens	GroupLens	Calificaciones de películas
Million Song	Kaggle	Música
Netflix Prize	Netflix	Calificaciones de películas
Open Images	Google	Imágenes
Overhead Imagery Research Dataset	ORID	Imágenes aéreas
SAT-4 Airborne Dataset	ASU	Imágenes de paisajes
Serre Lab	Universidad Brown	Acciones humanas como sonreír, reír, hablar, fumar…
SIFT10M Dataset	UCI	El método de algoritmo de “búsqueda del vecino más cercano”
SpaceNet	SpaceNet	Imágenes satelitales de alta resolución con tags de precisión

Post Views: 203

Conjuntos de datos públicos para Machine Learning

Categories

Algoritmos y IA: Una Mirada Interna en GA

Modelos generativos de IA: LaMDA

Modelos generativos de IA: ChatGPT

Rastreadores Web en Motores de Búsqueda

Modelos de Inteligencia Artificial Generativa

Visualización Interactiva en la Era de los Datos: Plotly