Ξεκίνησα να φτιάξω ένα seo tool για να μπορώ να καταχωρώ ένα web site σε πολλούς ελληνικούς καταλόγους μέσα από μία μόνο φόρμα. Μέχρι τώρα αυτό που έκανα, και φαντάζομαι και πολλοί άλλοι, είναι να καταχωρώ το web site σε κάθε κατάλογο ξεχωριστά.
Σκέφτηκα λοιπών να συνδέομαι με curl στις φόρμες που έχουν το καθένα για την προσθήκη web site, και να σώζω το cookie ώστε να μπορώ να το χρησιμοποιήσω στην συνεχεία, στο submit. Πολλά από αυτά όμως έχουν captcha. Στην αρχή είπα να ψάξω να βρω κάποιο open source project με ocr για να μπορέσω να σπάσω τα captcha. Πάνω στην ερευνά μου βρήκα κάποια project που όμως δεν με ενθουσίασαν και πολύ (Pwntcha, Php Captcha Decoder).
Ένας φίλος, ο Νίκος Παπανώτας ιδρυτής του webdigity ένα community από webmasters, μου πρότεινε ένα πολύ καλό web site που έχει ένα api για captcha decoder το Captcha Killer. Αν και θα μπορούσα να το χρησιμοποιήσω, γιατί το δοκίμασα και παίζει πολύ καλά, (ο τύπος έβγαλε και μπλουζάκια), τελικά κατέληξα σε μια ιδέα που είχα να φέρω τα captcha image urls και να τα δείχνω στη δικιά μου φόρμα.
Αυτό είναι και το θέμα του post. Πως μπορείς να χρησιμοποιήσεις το curl έτσι ώστε να διαβάσει το cookie από τον header και να το στείλει απ΄ ευθείας στην επόμενη σελίδα, που υπάρχει στο header location. Περισσότερες λεπτομέρειες για τον php κώδικα βρήκα στα user comments στο επίσημο web site του php.
Αυτό που χρειάζετε είναι μια function που διαβάζει τον header, βρίσκει τα cookie και τα ξαναστέλνει στο curl, πριν αυτό τελειώσει. Αυτό ορίζετε με την εντολή
curl_setopt($ch,CURLOPT_HEADERFUNCTION,’read_header’).
Για να περάσουμε απευθείας στην σελίδα που υπάρχει στο header location χρησιμοποιούμε την εντολή curl_setopt($ch,CURLOPT_FOLLOWLOCATION, true).
Έτσι τα αποτελέσματα που θα πάρουμε από το curl θα είναι το html της σελίδας μετά το redirect.
Μόλις τελειώσει αυτό το tool θα ανακοινώσω το url που θα βρίσκεται γιατί θα είναι free.
cURL, php
cookie, cURL, php, session