Search on blog:

Przegląd DataSets według EliteDataScience

Źródło: Datasets for Data Science and Machine Learning na EliteDataScience


Portal EliteDataScience postanowił pogrupować różne zbiory danych (DataSets) według przeznaczenia

Exploratory Analysis (ogólna analiza)

(więcej: Kaggle Datasets, r/datasets (Reddit))

Machine Learning (regresja, klasyfikacja, grupowanie)

(więcej: UCI Machine Learning Repository)

Deep Learning

  • MNIST - ręcznie pisane cyfry (i tutorial)

  • CIFAR - 60 000 obrazków podzielone na 10 klas (lub 100 klas)

  • ImageNet - obrazki podzielone na 1000 klas

  • YouTube 8M - zbiory filmów i nagrań audio podzielone na klasy

(więcej: Deeplearning.net, DeepLearning4J.org)

Natural Language Processing

(więcej: nlp-datasets (Github), Quora Answer)

Cloud Machine Learning

Time Series

(więcej: Quandl, The World Bank)

Recommender Systems

(więcej: entaroadun (Github))

Specific Industries

Streaming

(więcej: Satori)

Web Scraping

  • ToScrape.com - strona stworzona do nauki pobierania danych (tzw. sandbox).
    Twórcą jest portal Scraping Hub, który sam udostępnia narzędzia do zbierania danych
    (i wykorzystuje pythonowe moduły Scrapy oraz Portia)

Current Events

If you like it
Buy a Coffee