blog.furas.pl
# prywatne notatki - Python, Linux, Machine Learning, etc.

Przegląd DataSets według EliteDataScience

Źródło: Datasets for Data Science and Machine Learning na EliteDataScience


Portal EliteDataScience postanowił pogrupować różne zbiory danych (DataSets) według przeznaczenia

Exploratory Analysis (ogólna analiza)

(więcej: Kaggle Datasets, r/datasets (Reddit))

Machine Learning (regresja, klasyfikacja, grupowanie)

(więcej: UCI Machine Learning Repository)

Deep Learning

  • MNIST - ręcznie pisane cyfry (i tutorial)

  • CIFAR - 60 000 obrazków podzielone na 10 klas (lub 100 klas)

  • ImageNet - obrazki podzielone na 1000 klas

  • YouTube 8M - zbiory filmów i nagrań audio podzielone na klasy

(więcej: Deeplearning.net, DeepLearning4J.org)

Natural Language Processing

(więcej: nlp-datasets (Github), Quora Answer)

Cloud Machine Learning

Time Series

(więcej: Quandl, The World Bank)

Recommender Systems

(więcej: entaroadun (Github))

Specific Industries

Streaming

(więcej: Satori)

Web Scraping

  • ToScrape.com - strona stworzona do nauki pobierania danych (tzw. sandbox).
    Twórcą jest portal Scraping Hub, który sam udostępnia narzędzia do zbierania danych
    (i wykorzystuje pythonowe moduły Scrapy oraz Portia)

Current Events

Książki: python-dla-kazdego-podstawy-programowania python-wprowadzenie python-leksykon-kieszonkowy python-receptury python-programuj-szybko-i-wydajnie python-projekty-do-wykorzystania black-hat-python-jezyk-python-dla-hackerow-i-pentesterow efektywny-python-59-sposobow-na-lepszy-kod tdd-w-praktyce-niezawodny-kod-w-jezyku-python aplikacje-internetowe-z-django-najlepsze-receptury