Google PageRank – θεωρητικές βάσεις

Google PageRank – θεωρητικές βάσεις

600 400 master
  • master
  • 0

Η εταιρεία Google ήταν η πρώτη εταιρεία που εφήυρε το σύστημα που λαμβάνει υπόψη τους εισερχόμενους συνδέσμους.
Ο αλγόριθμος ονομάστηκε PageRank. Σε αυτή την ενότητα, θα περιγράψουμε αυτόν τον αλγόριθμο, και πώς αυτός μπορεί να επηρεάσει την κατάταξη των αποτελεσμάτων αναζήτησης.

Ο PageRank εκτιμάται ξεχωριστά για κάθε ιστοσελίδα και καθορίζεται από το PageRank (αναφορά) των άλλων σελίδων που αναφέρονται σε αυτή. Αυτός είναι ένας τύπος “ενάρετου κύκλου”. Το κύριο έργο είναι η εύρεση του κριτηρίου που καθορίζει τη σημαντικότητα της σελίδας. Στην περίπτωση του PageRank, αυτό είναι η πιθανή συχνότητα επισκέψεων σε μία σελίδα.

Τώρα θα περιγράψω πώς μοντελοποιείται η συμπεριφορά του χρήστη, όταν ακολουθεί συνδέσμους για να πλοηγηθεί στο δίκτυο. Θα υποθέσουμε ότι ο χρήστης αρχίζει να βλέπει ένα website άπο κάποια τυχαία σελίδα. Κατόπιν ακολουθεί συνδέσμους σε άλλες πηγές του δικτύου. Υπάρχει πάντα η πιθανότητα ότι ο χρήστης μπορεί να εγκαταλείψει ένα website χωρίς να ακολουθήσει κάποιον εξωτερικό σύνδεσμο, και να αρχίσει να βλέπει έγγραφα από μία άλλη τυχαία σελίδα. Ο αλγόριθμος PageRank εκτιμά την πιθανότητα αυτού του γεγονότος ως 0,15 σε κάθε βήμα. Η πιθανότητα ότι ο χρήστης μας εξακολουθεί να περιηγείται ακόλουθώντας έναν από τους συνδέσμους που είναι διαθέσιμοι στην τρέχουσα σελίδα είναι λοιπόν 0,85, υποθέτοντας ότι όλοι οι σύνδεσμοι είναι ισότιμοι σε αυτή την περίπτωση. Εάν εξακολουθήσει να περιηγείται επ’αόριστον, θα επισκεφθεί περισσότερο τις πιο δημοφιλείς σελίδες, παρά τις λιγότερο δημοφιλείς σελίδες.

Έτσι το PageRank μίας καθορισμένης ιστοσελίδας ορίζεται ως η πιθανότητα ότι ένας χρήστης ενδέχεται να επισκεφθεί την ιστοσελίδα. Ακολουθεί ότι, το άθροισμα των πιθανοτήτων για όλες τις υπάρχουσες ιστοσελίδες είναι ακριβώς ένα, επειδή έχουμε υποθέσει ότι ο χρήστης θα επισκέπτεται τουλάχιστον μία σελίδα στο Internet σε κάθε δεδομένη στιγμή.

Εφόσον δεν είναι πάντα εύκολο να εργαστούμε με αυτές τις πιθανότητες, το PageRank μπορεί να μετατραπεί μαθηματικά σε έναν αριθμό που γίνεται πιο εύκολα κατανοητός, για την προβολή. Για παράδειγμα, έχουμε συνηθίσει να βλέπουμε έναν PageRank αριθμό μεταξύ μηδέν και δέκα στην Google Toolbar.

Σύμφωνα με το μοντέλο κατάταξης που περιγράφηκε παραπάνω:
– Κάθε σελίδα στο Διαδίκτυο (ακόμη και αν δεν υπάρχουν εισερχόμενοι σύνδεσμοι σε αυτήν), αρχικά έχει έναν PageRank μεγαλύτερο από μηδέν, παρόλο που θα είναι πολύ μικρό. Υπάρχει μία μικροσκοπική πιθανότητα ότι ένας χρήστης μπορεί να περιηγηθεί σε αυτήν.
– Κάθε σελίδα που έχει εξερχόμενους συνδέσμους διανέμει μέρος του PageRank της στην αναφερόμενη σελίδα. Ο PageRank που συνέβαλλε σε αυτές τις σελίδες με τους εξερχόμενους συνδέσμους είναι αντιστρόφως ανάλογος με το συνολικό αριθμό συνδέσμων στη σελίδα – όσο περισσότερους συνδέσμους έχει, τόσο χαμηλότερος είναι ο PageRank που αντιστοιχεί σε καθεμιά σελίδα.
– Ο PageRank A “παράγοντας απόσβεσης” εφαρμόζεται σε αυτή τη διαδικασία ώστε η συνολική κατανεμημένη κατάταξη της σελίδας να μειωθεί κατά 15%. Αυτό είναι ισοδύναμο με την πιθανότητα, που περιγράφεται παραπάνω, ότι ο χρήστης δε θα επισκεφθεί καμία από τις συνδεδεμένες σελίδες, αλλά θα περιηγηθεί σε ένα άσχετο website.

Τώρα ας δούμε πώς αυτή η PageRank διαδικασία μπορεί να επηρεάσει τη διαδικασία κατάταξης των αποτελεσμάτων αναζήτησης. Λέμε “μπορεί” επειδή ο καθαρός PageRank αλγόριθμος που μόλις περιγράφηκε δεν έχει χρησιμοποιηθεί στον Google αλγόριθμο για αρκετό καιρό τώρα. Θα συζητήσουμε σχετικά μία πιο πρόσφατη και εξελιγμένη έκδοση σύντομα. Δεν υπάρχει τίποτα το δύσκολο σχετικά με την PageRank επιρροή – αφότου η μηχανή αναζήτησης βρει έναν αριθμό σχετικών εγγράφων (χρησιμοποιώντας εσωτερικά κριτήρια κειμένου), μπορούν να ταξινομηθούν σύμφωνα με το PageRank εφόσον θα ήταν λογικό να υποθέσουμε ότι ένα έγγραφο που έχει ένα μεγαλύτερο αριθμό εισερχόμενων συνδέσμων υψηλής-ποιότητας περιέχει πιο σημαντικές πληροφορίες.