Ανάλυση Δεδομένων

Διδάσκοντες Χρήστος Δουλκερίδης
Κατηγορία μαθήματος Κ
Κωδικός μαθήματος ΨΣ-529
Πιστωτικές μονάδες 5
Ώρες μαθήματος 3 ώρες
Ώρες εργαστηρίων 2 ώρες
Ηλεκτρονικό υλικό Προβολή στον Εύδοξο (Open e-Class)

Μαθησιακά Αποτελέσματα

Στα πλαίσια του μαθήματος διδάσκονται μέθοδοι και τεχνικές ανάλυσης δεδομένων: μέθοδοι οπτικοποίησης για εξερεύνηση δεδομένων, αναλυτική μοντελοποίηση δεδομένων, υπολογιστική εξόρυξη δεδομένων, και εφαρμογές ανάλυσης/χρήσης δεδομένων. Ο στόχος του μαθήματος είναι να εξοικειωθούν οι φοιτητές με την έννοια της ανάλυσης δεδομένων και να αποκτήσουν δεξιότητες στη διαχείριση και ανάλυση συνόλων δεδομένων στην πράξη.

Με την επιτυχή ολοκλήρωση του μαθήματος ο φοιτητής /τρια θα είναι σε θέση:

  • να έχει κατανοήσει τις βασικές έννοιες ανάλυσης δεδομένων
  • να χρησιμοποιεί εργαλεία και τεχνικές διερευνητικής ανάλυσης δεδομένων
  • να κατανοεί τις ιδιότητες και τα χαρακτηριστικά οποιουδήποτε δοθέντος συνόλου δεδομένων
  • να επιλύει πρακτικά προβλήματα ανάλυσης συνόλων δεδομένων
  • να μοντελοποιεί προβλήματα που αφορούν στην ανάλυση δεδομένων και να χρησιμοποιεί το μοντέλο για την εξαγωγή συμπερασμάτων για το εκάστοτε υποκείμενο σύνολο δεδομένων
  • να εφαρμόζει μοντέλα και αλγόριθμους πρόβλεψης σε σύνολα δεδομένων

Περιεχόμενα

  • Εισαγωγή στην ανάλυση δεδομένων: δεδομένα, τύποι δεδομένων, ποιότητα δεδομένων, προεπεξεργασία δεδομένων, μέτρα ομοιότητας, ομοιότητα πολυδιάστατων δεδομένων, ομοιότητα αλφαριθμητικών, ομοιότητα συνόλων-λιστών, ομοιότητα κειμένων.
  • Μονομεταβλητή και διμεταβλητή ανάλυση: οπτικοποίηση, ιστογράμματα, συνάρτηση αθροιστικής κατανομής, στοιχεία συνοπτικής στατιστικής, μέτρα θέσης και διασποράς, εντοπισμός συσχετίσεων ανάμεσα σε δύο μεταβλητές, εναλλακτικοί τρόποι απεικόνισης με χρήση διαγραμμάτων.
  • Ανάλυση χρονοσειρών: τάση, εποχικότητα, θόρυβος, μέθοδοι εξομάλυνσης, κινούμενοι μέσοι όροι, συνάρτηση συσχέτισης και αυτοσυσχέτισης, πρακτική μέθοδος ανάλυσης χρονοσειρών.
  • Πολυμεταβλητή ανάλυση: χρήση τεχνικών οπτικοποίησης για πολυμεταβλητή ανάλυση δεδομένων, η «κατάρα» των πολλών διαστάσεων, το φαινόμενο «κενού χώρου», τεχνικές μείωσης διάστασης.
  • Μοντελοποίηση: υπολογισμοί και εκτιμήσεις, κατασκευή μοντέλων, από περιγραφική μοντελοποίηση σε μαθηματική μοντελοποίηση.
  • Πιθανοτική θεώρηση και στατιστική: διωνυμική κατανομή και δοκιμές Bernoulli, η σημασία της κανονικής κατανομής, το Κεντρικό Οριακό Θεώρημα, κατανομές power-law, μέθοδος κατασκευής γεννήτριας τυχαίας κατανομής.
  • Προσομοίωση: ο ρόλος της προσομοίωσης για την εξαγωγή πληροφορίας από δεδομένα, προσομοίωση Μόντε-Κάρλο, χρήση προσομοίωσης για περιπτώσεις που η αναλυτική μοντελοποίηση είναι πολύπλοκη, ανάπτυξη μοντέλων με προσομοίωση, επικύρωση μοντέλων με προσομοίωση.
  • Εύρεση συστάδων, ορισμός συσταδοποίησης, προεπεξεργασία και μετεπεξεργασία, μέθοδοι συσταδοποίησης, αλγόριθμοι αναζήτησης κέντρων, αλγόριθμοι κατασκευής δέντρων, αλγόριθμοι μεγέθυνσης γειτονιών.
  • Ανάλυση κύριων συνιστωσών, το πρόβλημα ανακάλυψης σχετιζόμενων γνωρισμάτων, μέθοδοι επιλογής γνωρισμάτων, εφαρμογή της ανάλυσης κύριων συνιστωσών στην πράξη.
  • Προβλεπτική αναλυτική, το πρόβλημα της κατηγοριοποίησης, αλγόριθμοι κατηγοριοποίησης, η διαδικασία εκπαίδευσης, η διαδικασία ελέγχου, αποτίμηση κατηγοριοποίησης, τεχνικές βελτίωσης ακρίβειας.

Προτεινόμενα Συγγράμματα

  • Mohammed J. Zaki, Wagner Meira Jr.(2017): Εξόρυξη και Ανάλυση Δεδομένων: Βασικές Έννοιες και Αλγόριθμοι, Εκδόσεις Κλειδάριθμος.
  • Anand Rajaraman, Jeffrey David Ullman (2013): Εξόρυξη από Μεγάλα Σύνολα Δεδομένων, Εκδόσεις Νέων Τεχνολογιών.
  • Pang-Ning Tan, Michael Steinbach, Vipin Kumar (2010): Εισαγωγή στην Εξόρυξη Δεδομένων, Εκδόσεις Τζιόλα.
  • Philipp K. Janert (2011): Data Analysis with Open Source Tools, O’Reilly Press.

Πρόσθετη βιβλιογραφία

Στο σύστημα ΕΥΔΟΞΟΣ αναρτώνται σε ηλεκτρονική μορφή χρήσιμες πληροφορίες καθώς και ασκήσεις για την εξάσκηση των φοιτητών/τριών.