Wprowadzenie
Nic dziwnego, że rola analityka danych obejmuje przede wszystkim eksplorowanie i analizowanie danych. Chociaż wynikiem końcowym analizy danych może być raport lub model uczenia maszynowego, analitycy danych rozpoczynają pracę z danymi, a język Python jest najpopularniejszym językiem programowania używanym przez analityków danych do pracy z danymi.
Po dziesięcioleciach opracowywania rozwiązań typu open source język Python udostępnia rozbudowane funkcje z zaawansowanymi bibliotekami statystycznymi i liczbowymi:
- Biblioteki NumPy i Pandas upraszczają analizowanie i manipulowanie danymi
- Biblioteka Matplotlib udostępnia atrakcyjne wizualizacje danych
- Biblioteka Scikit-learn oferuje prostą i efektywną analizę danych predykcyjnych
- TensorFlow i PyTorch zapewniają możliwości uczenia maszynowego i uczenia głębokiego
Przykładowy scenariusz
Zazwyczaj projekt analizy danych jest przeznaczony do ustanawiania szczegółowych informacji dotyczących konkretnego scenariusza lub testowania hipotezy.
Załóżmy na przykład, że profesor uniwersytecki zbiera dane o swoich uczniach, w tym liczbę uczęszczanych wykładów, godziny spędzonych na studiach i ostatnią ocenę osiągniętą na koniec egzaminu. Profesor może przeanalizować dane, aby ustalić, czy istnieje relacja między ilością studiów, którą podejmuje student, a ostateczną oceną, jaką osiągną. Profesor może wykorzystać dane do przetestowania hipotezy, że tylko studenci, którzy studiują przez minimalną liczbę godzin, mogą spodziewać się osiągnięcia oceny zejścia.
Co zrobimy?
W tym module szkoleniowym przeanalizujemy i przeanalizujemy dane klasy dla fikcyjnej klasy uniwersyteckiej z punktu widzenia profesora. Użyjemy notesów Jupyter i kilku narzędzi i bibliotek języka Python, aby wyczyścić zestaw danych, zastosować techniki statystyczne, aby przetestować kilka hipotez dotyczących danych i zwizualizować dane w celu określenia relacji między zmiennymi.