Πως μπορώ να επεξεργαστώ ένα κείμενο που έχω μόνο τυπωμένο;

Πως μπορώ να επεξεργαστώ ένα κείμενο που έχω μόνο τυπωμένο;

Όταν πληκτρολογούμε ένα κείμενο στον υπολογιστή, μπορούμε να το αποθηκεύσουμε σε μία κατάλληλη μορφή και να το επεξεργαστούμε όποτε και όπως θέλουμε.

Τι γίνεται όμως όταν έχουμε ένα ήδη τυπωμένο κείμενο και θέλουμε να το επεξεργαστούμε;

Η απλή λύση βέβαια είναι να πληκτρολογήσουμε πάλι όλο το κείμενο, αλλά κάτι τέτοιο απαιτεί πολύ χρόνο και κόπο. Η άλλη λύση είναι να σκανάρουμε απλά το κείμενο που θέλουμε να επεξεργαστούμε και με ένα πρόγραμμα OCR να το περάσουμε στον υπολογιστή σε μία επεξεργάσιμη μορφή.

 

Πως μπορώ να επεξεργαστώ ένα κείμενο που έχω μόνο τυπωμένο;
Για να επεξεργαστούμε ένα τυπωμένο κείμενο μπορούμε να το σκανάρουμε και με ένα πρόγραμμα OCR να το περάσουμε στον υπολογιστή σε επεξεργάσιμη μορφή

 

Τι είναι λοιπόν το OCR;

Το Optical Character Recognition (OCR) ή Οπτική Αναγνώριση Χαρακτήρων είναι η διαδικασία μέσω της οποίας γίνεται η μετατροπή ενός σαρωμένου έντυπου κειμένου σε κείμενο αναγνωρίσιμο από ηλεκτρονικό υπολογιστή. Έτσι μπορεί να γίνει επεξεργασία χωρίς να χρειάζεται να δακτυλογραφηθεί από την αρχή όλο το κείμενο.

Ουσιαστικά είναι η ίδια διαδικασία που ακολουθούν τα μάτια και ο εγκέφαλος ενός ανθρώπου όταν διαβάζει ένα κείμενο. Τα μάτια αναγνωρίζουν τα μοτίβα των διαφόρων χαρακτήρων (γραμμάτων, αριθμών, σημείων στίξης) και ο εγκέφαλος χρησιμοποιεί αυτές τις πληροφορίες, προκειμένου να καταλάβει τι ακριβώς λέει το κείμενο.

Έτσι και ο υπολογιστής αφού δεχθεί την εικόνα του κειμένου, μέσω ενός σαρωτή η μίας ψηφιακής φωτογραφίας,  χρησιμοποιεί ένα πρόγραμμα OCR και αναγνωρίζει τα μοτίβα των χαρακτήρων που απεικονίζονται. Αφού γίνει αυτό, μπορεί το αναγνωρισμένο πια κείμενο να αποθηκευτεί σε μία επεξεργάσιμη μορφή.

 

Πως μπορώ να επεξεργαστώ ένα κείμενο που έχω μόνο τυπωμένο;
Το πρόγραμμα OCR αναγνωρίζει τα μοτίβα των χαρακτήρων που απεικονίζονται στο τυπωμένο κείμενο και έτσι δημιουργείται στον υπολογιστή μία επεξεργάσιμη μορφή του αναγνωρισμένου πια κειμένου

 

Πώς λειτουργεί το OCR;

Ανάλογα με το ποια γραμματοσειρά χρησιμοποιείται κάθε γράμμα μπορεί να τυπωθεί με αρκετές διαφορετικές μορφές. Αυτό αποτελεί πρόβλημα για την αναγνώριση του γράμματος από τον υπολογιστή. Σε γενικές γραμμές οι λύσεις για αυτό το πρόβλημα είναι δύο: η αντιστοίχιση με πρότυπα (pattern recognition) και η εξαγωγή χαρακτηριστικών (feature extraction).

  • Αντιστοίχιση με πρότυπα. Τη δεκαετία του 1960 είχε δημιουργηθεί μία ειδική γραμματοσειρά που μπορούσε να αναγνωριστεί από τις συσκευές που χρησιμοποιούσαν OCR. Βέβαια δε γίνεται να τυπώνονται τα πάντα με αυτή τη γραμματοσειρά, οπότε αποθηκεύονται στο λογισμικό Οπτικής Αναγνώρισης πρότυπα χαρακτήρων σε διάφορους τύπους γραμματοσειρών. Όταν σαρωθεί ένα κείμενο, το λογισμικό προσπαθεί να ταιριάξει κάθε γράμμα με κάποιο από αυτά τα πρότυπα. Η όλη διαδικασία απαιτεί πολλές επαναλήψεις για κάθε χαρακτήρα και είναι ιδιαίτερα χρονοβόρα.
  • Εξαγωγή χαρακτηριστικών. Επίσης γνωστή ως Ευφυής Αναγνώριση Χαρακτήρων (ICR – Intelligent Character Recognition) η οπτική αναγνώριση αυτού του τύπου αναγνωρίζει τα επιμέρους στοιχεία του κάθε χαρακτήρα (π.χ. γραμμές, ενώσεις, γωνίες κ.λπ.). Έτσι για παράδειγμα αν το πρόγραμμα εντοπίσει δύο γραμμές που συγκλίνουν και ενώνονται από μία οριζόντια γραμμή, τότε αναγνωρίζει ότι πρόκειται για το γράμμα «Α», ανεξάρτητα από το μέγεθος και τη γραμματοσειρά. Τα περισσότερα προγράμματα που χρησιμοποιούνται σήμερα και είναι ικανά να αναγνωρίσουν χαρακτήρες από διάφορες γραμματοσειρές, χρησιμοποιούν την εξαγωγή χαρακτηριστικών. Επίσης τα tablets και τα κινητά τηλέφωνα που υποστηρίζουν την αναγνώριση χειρόγραφου κειμένου χρησιμοποιούν αυτή τη μέθοδο, προκειμένου να αναγνωρίσουν τους διάφορους χαρακτήρες, ενώ τους γράφουμε.
Πως μπορώ να επεξεργαστώ ένα κείμενο που έχω μόνο τυπωμένο;
Τα tablets και τα κινητά τηλέφωνα που υποστηρίζουν την αναγνώριση χειρόγραφου κειμένου χρησιμοποιούν τη μέθοδο της εξαγωγής χαρακτηριστικών

 

  • Αναγνώριση χειρόγραφου κειμένου. Η αναγνώριση ενός εκτυπωμένου κειμένου είναι μία σχετικά εύκολη διαδικασία για έναν υπολογιστή. Η αναγνώριση όμως χειρόγραφων χαρακτήρων είναι μία διαδικασία αρκετά πιο πολύπλοκη, για την οποία χρησιμοποιείται ένας συνδυασμός των παραπάνω μεθόδων, καθώς και στοιχεία για τον συγγραφέα και το περιεχόμενο του κειμένου.

Πώς χρησιμοποιώ την Οπτική Αναγνώριση Χαρακτήρων

Για να γίνει η αναγνώριση ενός κειμένου και η μετατροπή του σε επεξεργάσιμη μορφή, πρέπει να ακολουθηθεί μία απλή διαδικασία:

  1. Αρχικά χρειάζεται το κείμενο να είναι εκτυπωμένο στην καλύτερη δυνατή ποιότητα. Αντίστοιχα αν χρησιμοποιείτε κείμενο από φωτογραφία, φροντίστε η φωτογραφία να είναι καλής ποιότητας, αλλά και τραβηγμένη από καλή γωνία.
  2. Στη συνέχεια σαρώνετε τις σελίδες που θέλετε με ένα αξιόπιστο σκάνερ ή περνάτε τη φωτογραφία στον υπολογιστή.
  3. Το πρόγραμμα OCR μετατρέπει το κείμενο σε ασπρόμαυρο. Έτσι τα μαύρα σημεία αναγνωρίζονται σαν χαρακτήρες, ενώ τα λευκά αγνοούνται.
  4. Το πρόγραμμα προχωρά στην αναγνώριση του κειμένου, αναγνωρίζοντας κάθε χαρακτήρα ξεχωριστά. Κάποια σύγχρονα προγράμματα μπορούν να αναγνωρίσουν και κάποια πιο ιδιαίτερα χαρακτηριστικά του κειμένου, όπως την ύπαρξη στηλών, πινάκων, εικόνων κ.λπ.
  5. Τέλος ορισμένα προγράμματα εντοπίζουν και υποδεικνύουν γραμματικά και ορθογραφικά λάθη, ώστε να κάνετε χειροκίνητα την τελική διόρθωση του κειμένου. Όσο καλό και να είναι το λογισμικό OCR που χρησιμοποιείτε, υπάρχει πάντα η πιθανότητα του λάθους, οπότε εάν είναι δυνατό κάντε και εσείς έναν τελευταίο έλεγχο.
Πως μπορώ να επεξεργαστώ ένα κείμενο που έχω μόνο τυπωμένο;
Φροντίστε η εκτύπωση που θα σκανάρετε να είναι καλής ποιότητας και φυσικά πάντα να διενεργείτε έναν τελικό έλεγχο στο κείμενο που αποθηκεύεται για τον εντοπισμό τυχόν λαθών

 

Εφαρμογές του OCR

Οι περισσότεροι άνθρωποι δεν χρησιμοποιούν τη λειτουργία OCR στην καθημερινότητά τους, ενώ κάποιοι μπορεί να μη χρειαστεί να τη χρησιμοποιήσουν ποτέ. Για πολλούς όμως η λειτουργία αυτή είναι ανεκτίμητη.

Από την αρχή η λειτουργία OCR χρησιμοποιήθηκε για την εισαγωγή δεδομένων σε επαγγελματικούς χώρους, κάτι που συνεχίζεται ακόμα και σήμερα.

 

Πως μπορώ να επεξεργαστώ ένα κείμενο που έχω μόνο τυπωμένο;
Από την αρχή η λειτουργία OCR χρησιμοποιήθηκε για την εισαγωγή δεδομένων σε επαγγελματικούς χώρους, όπως στοιχεία επιταγών, διαβατηρίων, τιμολογίων, αποδείξεων κ.λπ.

 

Χρησιμοποιείται για την αναγνώριση στοιχείων επιταγών, διαβατηρίων, τιμολογίων, αποδείξεων, ενώ από τη δεκαετία του 1960 χρησιμοποιείται σε ταχυδρομεία σε διάφορες χώρες, για το διαχωρισμό και την κατηγοριοποίηση των γραμμάτων ανά περιοχή.

Επίσης χρησιμοποιείται για την ψηφιοποίηση βιβλίων, ώστε να είναι δυνατή όχι μόνο η πρόσβαση σε αυτά ηλεκτρονικά, αλλά και η αναζήτηση στο περιεχόμενό τους με τη χρήση λέξεων – κλειδιών (π.χ. Google Books).

 

Πως μπορώ να επεξεργαστώ ένα κείμενο που έχω μόνο τυπωμένο;
Η λειτουργία OCR χρησιμοποιείται και για την ψηφιοποίηση βιβλίων, ώστε να είναι δυνατή και η αναζήτηση στο περιεχόμενό τους

 

Σε μικρότερο επίπεδο μπορεί να χρησιμεύσει σε κάποιον που θέλει να επεξεργαστεί ένα έγγραφο στον υπολογιστή (π.χ. ένα συμβόλαιο) αλλά και σε ανθρώπους που θέλουν να χρησιμοποιήσουν τμήμα από ένα έντυπο κείμενο σε μία εργασία (π.χ. φοιτητές, διαχειριστές ιστοσελίδων κ.λπ.).

Φυσικά στην αγορά κυκλοφορούν διάφορα προγράμματα λογισμικού για Οπτική Αναγνώριση Χαρακτήρων, πολλά από τα οποία είναι δωρεάν, οπότε μπορεί ο καθένας να τα χρησιμοποιήσει για επαγγελματικούς ή προσωπικούς σκοπούς.

 

Write a Comment

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *