Wprowadzenie

Ukończone

Nic dziwnego, że rola analityka danych obejmuje przede wszystkim eksplorowanie i analizowanie danych. Chociaż wynikiem końcowym analizy danych może być raport lub model uczenia maszynowego, analitycy danych rozpoczynają pracę z danymi, a język Python jest najpopularniejszym językiem programowania używanym przez analityków danych do pracy z danymi.

Po dziesięcioleciach opracowywania rozwiązań typu open source język Python udostępnia rozbudowane funkcje z zaawansowanymi bibliotekami statystycznymi i liczbowymi:

  • Biblioteki NumPy i Pandas upraszczają analizowanie i manipulowanie danymi
  • Biblioteka Matplotlib udostępnia atrakcyjne wizualizacje danych
  • Biblioteka Scikit-learn oferuje prostą i efektywną analizę danych predykcyjnych
  • TensorFlow i PyTorch zapewniają możliwości uczenia maszynowego i uczenia głębokiego

Przykładowy scenariusz

Zazwyczaj projekt analizy danych jest przeznaczony do ustanawiania szczegółowych informacji dotyczących konkretnego scenariusza lub testowania hipotezy.

Załóżmy na przykład, że profesor uniwersytecki zbiera dane o swoich uczniach, w tym liczbę uczęszczanych wykładów, godziny spędzonych na studiach i ostatnią ocenę osiągniętą na koniec egzaminu. Profesor może przeanalizować dane, aby ustalić, czy istnieje relacja między ilością studiów, którą podejmuje student, a ostateczną oceną, jaką osiągną. Profesor może wykorzystać dane do przetestowania hipotezy, że tylko studenci, którzy studiują przez minimalną liczbę godzin, mogą spodziewać się osiągnięcia oceny zejścia.

Diagram przedstawiający czas wykładu i nauki związany z ocenami uczniów.

Co zrobimy?

W tym module szkoleniowym przeanalizujemy i przeanalizujemy dane klasy dla fikcyjnej klasy uniwersyteckiej z punktu widzenia profesora. Użyjemy notesów Jupyter i kilku narzędzi i bibliotek języka Python, aby wyczyścić zestaw danych, zastosować techniki statystyczne, aby przetestować kilka hipotez dotyczących danych i zwizualizować dane w celu określenia relacji między zmiennymi.