Συσταδοποίηση κειμένων με χρήση της μετρικής Wasserstein και τεχνικές βέλτιστης μεταφοράς ; Clustering documents with Wasserstein metric and optimal transport
2018
Online
Hochschulschrift
Zugriff:
Για τη διερεύνηση ομοιότητας ανάμεσα σε κείμενα υπάρχουν πολλές τεχνικές που χρησιμοποιούν τις συχνότητες εμφάνισης λέξεων και άλλες στατιστικές πληροφορίες που παράγονται από τα μητρώα όρων - κειμένων. Τι γίνεται όμως όταν οι λέξεις εκλαμβάνονται ως οντότητες σε ειδικούς χώρους με ειδικά επιλεγμένες αποστάσεις ομοιότητας; Στόχος της παρούσας εργασίας είναι η διερεύνηση τεχνικών μέτρησης υπολογισμού ομοιότητας και ομαδοποίησης κειμένων χρησιμοποιώντας ως μετρική την απόσταση Wasserstein . Ονομάζουμε τη μεθοδολογία αυτή W2EC (Wasserstein by Word Embedding Clustering). Για την εξαγωγή των πληροφοριών (στατιστικών και λεξιλογίου) χρησιμοποιείται η εργαλειοθήκη {\sc TMG} (Text to Matrix Generator). Κάθε κείμενο εκλαμβάνεται ως μια κατανομή και κάθε στοιχείο της κατανομής ως ένας όρος από ένα λεξικό που έχει μετασχηματιστεί σε διανυσματικό χώρο μέσω ενσωματώσεων λέξεων (word embeddings) όπως word2vec και GloVe . Το κάθε κείμενο αποτελείται από τους όρους που εμφανίστηκαν σε αυτό και ο έλεγχος ομοιότητας πραγματοποιείται επιλύοντας ένα πρόβλημα βέλτιστης μεταφοράς (optimal transport) \cite{kantorovich} της μιας κατανομής στην άλλη. Η εύρεση της στρατηγικής βέλτιστης μεταφοράς γίνεται είτε με επίλυση προβλήματος γραμμικού προγραμματισμού είτε με ομαλοποίηση του προβλήματος και εφαρμογή του αλγορίθμου Sinkhorn για αμφίπλευρη στοχαστικοποίηση. %Ένα πρόβλημα που μελετάται είναι η απόδοση ως προς την ταχύτητα της βέλτιστης μεταφοράς καθώς είναι γνωστό ότι πρόκειται για μια διαδικασία με υψηλό υπολογιστικό κόστος και μπορεί να γίνει απαγορευτική καθώς μεγαλώνει ο όγκος των δεδομένων. Εντέλει, για κάθε κείμενο υπολογίζεται η βέλτιστη μεταφορά του ως προς τα υπόλοιπα κείμενα και δημιουργείται ένα μητρώο με αποστάσεις Wasserstein. Η συσταδοποίηση επιτυγχάνεται βάσει αυτού του μητρώου με γνωστούς φασματικούς αλγόριθμους (kMeans, PDDP κλπ) και γίνεται σύγκριση των αποτελεσμάτων σε σχέση με την συσταδοποίηση που προκύπτει από το μητρώο όρων-κειμένων. Τα δεδομένα που χρησιμοποιήθηκαν αποτελούνται από γνωστές συλλογές κειμένων και ...
Titel: |
Συσταδοποίηση κειμένων με χρήση της μετρικής Wasserstein και τεχνικές βέλτιστης μεταφοράς ; Clustering documents with Wasserstein metric and optimal transport
|
---|---|
Autor/in / Beteiligte Person: | Καλογερόπουλος, Διονύσιος ; Γαλλόπουλος, Ευστράτιος ; Στεφανόπουλος, Ευάγγελος ; Μεγαλοοικονόμου, Βασίλειος ; Kalogeropoulos, Dionysios |
Link: | |
Veröffentlichung: | 2018 |
Medientyp: | Hochschulschrift |
Schlagwort: |
|
Sonstiges: |
|