Ανάλυση Δεδομένων

Διδάσκοντες Χρήστος Δουλκερίδης
Κωνσταντίνος Μούτσελος
Κατηγορία μαθήματος Κ
Κωδικός μαθήματος ΨΣ-529
Πιστωτικές μονάδες 5
Ώρες μαθήματος 3 ώρες
Ώρες εργαστηρίων 2 ώρες
Ηλεκτρονικό υλικό Προβολή στον Αρίσταρχο (Open e-Class)

Μαθησιακά Αποτελέσματα

Στα πλαίσια του μαθήματος διδάσκονται μέθοδοι και τεχνικές ανάλυσης δεδομένων: μέθοδοι οπτικοποίησης για εξερεύνηση δεδομένων, αναλυτική μοντελοποίηση δεδομένων, υπολογιστική εξόρυξη δεδομένων, και εφαρμογές ανάλυσης/χρήσης δεδομένων. Ο στόχος του μαθήματος είναι να εξοικειωθούν οι φοιτητές με την έννοια της ανάλυσης δεδομένων και να αποκτήσουν δεξιότητες στη διαχείριση και ανάλυση συνόλων δεδομένων στην πράξη.

Με την επιτυχή ολοκλήρωση του μαθήματος ο φοιτητής /τρια θα είναι σε θέση:

  • να έχει κατανοήσει τις βασικές έννοιες ανάλυσης δεδομένων
  • να χρησιμοποιεί εργαλεία και τεχνικές διερευνητικής ανάλυσης δεδομένων
  • να κατανοεί τις ιδιότητες και τα χαρακτηριστικά οποιουδήποτε δοθέντος συνόλου δεδομένων
  • να επιλύει πρακτικά προβλήματα ανάλυσης συνόλων δεδομένων
  • να μοντελοποιεί προβλήματα που αφορούν στην ανάλυση δεδομένων και να χρησιμοποιεί το μοντέλο για την εξαγωγή συμπερασμάτων για το εκάστοτε υποκείμενο σύνολο δεδομένων
  • να εφαρμόζει μοντέλα και αλγόριθμους πρόβλεψης σε σύνολα δεδομένων

Περιεχόμενα

  • Εισαγωγή στην ανάλυση δεδομένων: δεδομένα, τύποι δεδομένων, ποιότητα δεδομένων, προεπεξεργασία δεδομένων, μέτρα ομοιότητας, ομοιότητα πολυδιάστατων δεδομένων, ομοιότητα αλφαριθμητικών, ομοιότητα συνόλων-λιστών, ομοιότητα κειμένων.
  • Μονομεταβλητή και διμεταβλητή ανάλυση: οπτικοποίηση, ιστογράμματα, συνάρτηση αθροιστικής κατανομής, στοιχεία συνοπτικής στατιστικής, μέτρα θέσης και διασποράς, εντοπισμός συσχετίσεων ανάμεσα σε δύο μεταβλητές, εναλλακτικοί τρόποι απεικόνισης με χρήση διαγραμμάτων.
  • Ανάλυση χρονοσειρών: τάση, εποχικότητα, θόρυβος, μέθοδοι εξομάλυνσης, κινούμενοι μέσοι όροι, συνάρτηση συσχέτισης και αυτοσυσχέτισης, πρακτική μέθοδος ανάλυσης χρονοσειρών.
  • Εισαγωγή στην προγνωστική μοντεολοποίηση: επιλογή γνωρισμάτων, εντροπία, κέρδος πληροφορίας, δέντρα απόφασης.
  • Προσαρμογή μοντέλου σε δεδομένα: προσαρμογή γραμμικού μοντέλου, γραμμική παλινδρόμηση, λογιστική παλινδρόμηση, μηχανές διανυσμάτων υποστήριξης, μέθοδος Κ-κοντινότερων γειτόνων, κατηγοριοποιητής Bayes.
  • Υπερπροσαρμογή και αξιολόγηση μοντέλων: το πρόβλημα της κατηγοριοποίησης, αλγόριθμοι κατηγοριοποίησης, η διαδικασία εκπαίδευσης, η διαδικασία ελέγχου, αποτίμηση κατηγοριοποίησης, τεχνικές βελτίωσης ακρίβειας, αναγνώριση υπερπροσαρμογής, γράφημα προσαρμογής (fitting graph), παρακράτηση δεδομένων (hold out data), διασταυρωτική επικύρωση (cross-validation), καμπύλη μάθησης, μέτρα αξιολόγησης κατηγοριοποιητών.
  • Εύρεση συστάδων, ορισμός συσταδοποίησης, προεπεξεργασία και μετεπεξεργασία, μέθοδοι συσταδοποίησης, αλγόριθμοι αναζήτησης κέντρων, αλγόριθμοι κατασκευής δέντρων, αλγόριθμοι μεγέθυνσης γειτονιών.
  • Ανάλυση συσχέτισης: σύνολα συχνών στοιχείων, παραγωγή συχνών στοιχειοσυνόλων, ο αλγόριθμος Apriori, παραγωγή κανόνων, σύντομη αναπαράσταση συχνών στοιχειοσυνόλων.
  • Ανάλυση κύριων συνιστωσών, το πρόβλημα ανακάλυψης σχετιζόμενων γνωρισμάτων, μέθοδοι επιλογής γνωρισμάτων, εφαρμογή της ανάλυσης κύριων συνιστωσών στην πράξη.
  • Πιθανοτική θεώρηση και προσομοιώσεις: διωνυμική κατανομή και δοκιμές Bernoulli, η σημασία της κανονικής κατανομής, το Κεντρικό Οριακό Θεώρημα, κατανομές power-law, μέθοδος κατασκευής γεννήτριας τυχαίας κατανομής, ο ρόλος της προσομοίωσης για την εξαγωγή πληροφορίας από δεδομένα, προσομοίωση Μόντε-Κάρλο, χρήση προσομοίωσης για περιπτώσεις που η αναλυτική μοντελοποίηση είναι πολύπλοκη, ανάπτυξη μοντέλων με προσομοίωση, επικύρωση μοντέλων με προσομοίωση.
  • Ανίχνευση ανωμαλιών: χαρακτηριστικά προβλήματα, χαρακτηριστικά μεθόδων ανίχνευσης ανωμαλιών, προσεγγίσεις βάσει εγγύτητας, προσεγγίσεις βάσει πυκνότητας, προσεγγίσεις βάσει συσταδοποίησης, αξιολόγηση ανίχνευσης ανωμαλιών.

Προτεινόμενα Συγγράμματα

  • Mohammed J. Zaki, Wagner Meira Jr.(2017): Εξόρυξη και Ανάλυση Δεδομένων: Βασικές Έννοιες και Αλγόριθμοι, Εκδόσεις Κλειδάριθμος.
  • Anand Rajaraman, Jeffrey David Ullman (2013): Εξόρυξη από Μεγάλα Σύνολα Δεδομένων, Εκδόσεις Νέων Τεχνολογιών.
  • Pang-Ning Tan, Michael Steinbach, Vipin Kumar (2010): Εισαγωγή στην Εξόρυξη Δεδομένων, Εκδόσεις Τζιόλα.
  • Philipp K. Janert (2011): Data Analysis with Open Source Tools, O’Reilly Press.

Πρόσθετη βιβλιογραφία

Στο σύστημα ΕΥΔΟΞΟΣ αναρτώνται σε ηλεκτρονική μορφή χρήσιμες πληροφορίες καθώς και ασκήσεις για την εξάσκηση των φοιτητών/τριών.