Przegląd DataSets według EliteDataScience
Źródło: Datasets for Data Science and Machine Learning na EliteDataScience
Portal EliteDataScience postanowił pogrupować różne zbiory danych (DataSets) według przeznaczenia
Exploratory Analysis (ogólna analiza)
(więcej: Kaggle Datasets, r/datasets (Reddit))
Machine Learning (regresja, klasyfikacja, grupowanie)
-
jakość wina białego i czerwonego z północnej Portugali (regresja) (i tutorial)
-
karty kredytowe (klasyfikacja)
-
spis ludności USA (grupowanie)
(więcej: UCI Machine Learning Repository)
Deep Learning
-
MNIST - ręcznie pisane cyfry (i tutorial)
-
CIFAR - 60 000 obrazków podzielone na 10 klas (lub 100 klas)
-
ImageNet - obrazki podzielone na 1000 klas
-
YouTube 8M - zbiory filmów i nagrań audio podzielone na klasy
(więcej: Deeplearning.net, DeepLearning4J.org)
Natural Language Processing
(więcej: nlp-datasets (Github), Quora Answer)
Cloud Machine Learning
Time Series
(więcej: Quandl, The World Bank)
Recommender Systems
(więcej: entaroadun (Github))
Specific Industries
Streaming
(więcej: Satori)
Web Scraping
- ToScrape.com - strona stworzona do nauki pobierania danych (tzw. sandbox).
Twórcą jest portal Scraping Hub, który sam udostępnia narzędzia do zbierania danych
(i wykorzystuje pythonowe moduły Scrapy oraz Portia)
Current Events
