Ψηφιακή Αναπαράσταση της Πληροφορίας

Όλα τα συστήματα πολυμέσων στηρίζονται στην ψηφιακή αναπαράσταση της πληροφορίας για τους λόγους που περιγράφηκαν στο Κεφάλαιο 2. Αυτό όμως δεν σημαίνει ότι ο τρόπος με τον οποίο γίνεται η ψηφιοποίηση είναι μοναδικός. Ανάλογα με το είδος του σήματος και το σκοπό της εφαρμογής η μεθοδολογία που ακολουθούμε διαφοροποιείται. Επειδή, όπως έχουμε τονίσει, η ψηφιακή μορφή της πληροφορίας έχει το μειονέκτημα ότι απαιτεί μεγάλους όγκους αποθήκευσης και ταχύτητας μετάδοσης, εκτός από την ψηφιοποίηση, απαιτείται και συμπίεση του σήματος. Σ’ αυτό το Κεφάλαιο θα περιγράψουμε συνοπτικά τις σπουδαιότερες τεχνικές ψηφιοποίησης και συμπίεσης.

Τεχνικές Ψηφιοποίησης

 
 
ΠΑΛΜΟΚΩΔΙΚΗ ΔΙΑΜΟΡΦΩΣΗ (PCM)
 
 
Εισαγωγή

 

Η μετάδοση σημάτων πληροφορίας, όπως τα σήματα φωνής και εικόνας, τα οποία είναι από τη φύση τους αναλογικά, απαιτεί τα σήματα αυτά να μετατραπούν σε ψηφιακά. Η χρήση της ψηφιακής αναπαράστασης των αναλογικών σημάτων προσφέρει τα παρακάτω πλεονεκτήματα :

1. Αντοχή (ruggedness) στο θόρυβο μετάδοσης και στην παρεμβολή,

2. Αποτελεσματική αναγέννηση (regenaration) του κωδικοποιημένου σήματος κατά μήκος της διαδρομής μετάδοσης και

3. Δυνατότητα ομοιόμορφου σχήματος (uniform format) μετάδοσης για διαφορετικά είδη σημάτων βασικής ζώνης.

Αυτά τα πλεονεκτήματα, ωστόσο, επιτυγχάνονται με το κόστος της αύξησης της απαίτησης σε εύρος ζώνης μετάδοσης και την αύξηση της πολυπλοκότητας του συστήματος. Με την αυξανόμενη διαθεσιμότητα διαύλων επικοινωνίας ευρείας ζώνης και σε συνδυασμό με την εμφάνιση της απαιτούμενης τεχνολογίας, η χρήση της PCM (pulse-code modulation) έχει γίνει πραγματικότητα.

 

 

 

Στοιχεία της Παλμοκωδικής Διαμόρφωσης

 

Οι ουσιώδεις λειτουργίες του πομπού ενός συστήματος PCM είναι η δειγματοληψία (sampling), η κβαντοποίηση (quantizing), και η κωδικοποίηση (encoding) όπως φαίνεται στο σχήμα 1.α.

 

 

Βαθυπερατό

 φίλτρο

 

 

Δειγματολήπτης

 

 

Κβαντιστής

 

 

Κωδικοποιητής

 

 

 

 
 

 

 

 

Σχήμα 1.α

 

Οι λειτουργίες κβαντοποίησης και κωδικοποίησης, συνήθως εκτελούνται με το ίδιο κύκλωμα, το οποίο ονομάζεται μετατροπέας αναλογικού σε ψηφιακό (analog - to - digital converter). Οι ουσιώδεις λειτουργίες του δέκτη είναι η αναγέννηση (regenaration) των εξασθενισμένων σημάτων, η αποκωδικοποίηση (decoding) και η αποδιαμόρφωση (demodulation) της ακολουθίας των κβαντισμένων σημάτων, όπως φαίνεται στο σχήμα 1. Β

Η αναγέννηση συνήθως εμφανίζεται σε ενδιάμεσα στάδια κατά μήκος της διαδρομής μετάδοσης, όπου είναι απαραίτητο.

 

 Κύκλωμα

αναγέννησης

Αποκωδικο-

ποιητής

Φίλτρο

αποκατάστασης

Προορισμός

 

 
Σχήμα 1.β

 

Δειγματοληψία

 

 Η διαδικασία της δειγματοληψίας βασίζεται στο θεώρημα δειγματοληψίας για σήματα περιορισμένου εύρους ζώνης. Το θεώρημα δειγματοληψίας εν ολίγοις έχει ως εξής :

Έστω το σήμα m(t), περιορισμένου εύρους ζώνης το οποίο δειγματοληπτείται κάθε Τ sec όπου Τ£1/2fm και fm η μέγιστη συχνότητά του. Το σήμα m(t) είναι δυνατόν να ανακτηθεί από τις τιμές των δειγμάτων του m(nTs), όπου n=ακέραιος και Τs o ρυθμός δειγματοληψίας, χωρίς παραμόρφωση αρκεί ο χρόνος δειγματοληψίας Ts να είναι αρκετά γρήγορος ώστε τουλάχιστον δύο δείγματα να λαμβάνονται στην περίοδο που αντιστοιχεί στη μέγιστη συχνότητα του σήματος.

Κατά την διαδικασία λοιπόν της δειγματοληψίας, λαμβάνονται δείγματα της εισερχόμενης κυματομορφής πληροφορίας με μια ακολουθία στενών ορθογώνιων παλμών. Για να εξασφαλιστεί η τέλεια ανακατασκευή της πληροφορίας στο δέκτη, ο ρυθμός της δειγματοληψίας πρέπει να είναι μεγαλύτερος από το διπλάσιο της υψηλότερης συνιστώσας συχνότητας W της κυματομορφής πληροφορίας σύμφωνα με το θεώρημα δειγματοληψίας. Στην πράξη, πριν να εισάγουμε το σήμα στο δειγματολήπτη χρησιμοποιείται ένα βαθυπερατό φίλτρο έτσι ώστε να απορρίπτονται συχνότητες μεγαλύτερες από W πριν από την δειγματοληψία.

Στην περίπτωση λοιπόν κατά την οποία θέλουμε να μεταδώσουμε σήμα ομιλίας, είναι αρκετό το εύρος συχνοτήτων 0-4000Hz. Επομένως χρησιμοποιούμε ένα βαθυπερατό φίλτρο το οποίο επιτρέπει τη διέλευση των συχνοτήτων στο φάσμα 0-4000Hz ενώ αποκόπτει τις υπόλοιπες συχνότητες. Η μέγιστη συχνότητα του σήματος πληροφορίας θα είναι fmax = 4000Hz. Σύμφωνα με το θεώρημα δειγματοληψίας θα έχουμε όλη την πληροφορία που περιέχει το φάσμα μιας συνδιάλεξης αν μεταδώσουμε από το φάσμα αυτό τουλάχιστο 8000 δείγματα ανά sec, η αλλιώς η συχνότητα δειγματοληψίας θα πρέπει να είναι ίση με 8000Hz.

Κβαντισμός

 

Ένα συνεχές σήμα, όπως η φωνή, έχει συνεχές πεδίο τιμών πλάτους και συνεπώς τα δείγματά του έχουν συνεχές πεδίο τιμών πλάτους. Με άλλα λόγια μέσα στο πεπερασμένο πεδίο τιμών του σήματος βρίσκουμε έναν άπειρο αριθμό σταθμών πλάτους. Στην πραγματικότητα όμως δεν είναι απαραίτητο να μεταδίδουμε τα ακριβή πλάτη των δειγμάτων. Οποιαδήποτε ανθρώπινη αίσθηση (π.χ. το αυτί, το μάτι), σαν τελικός δέκτης, μπορεί να ανιχνεύσει πεπερασμένες διαφορές έντασης. Αυτό σημαίνει ότι το αρχικό συνεχές σήμα μπορεί να προσεγγιστεί από ένα σήμα το οποίο κατασκευάζεται από διακριτά πλάτη, επιλεγμένα από ένα διαθέσιμο σύνολο με βάση την ελαχιστοποίηση του σφάλματος. Η ύπαρξη ενός πεπερασμένου αριθμού διακριτών σταθμών πλάτους είναι μια βασική συνθήκη της PCM. Προφανώς εάν καθορίσουμε διακριτές στάθμες πλάτους με αρκετά μικρό βήμα μεταξύ τους, μπορούμε να κάνουμε το προσεγγιζόμενο σήμα να μη ξεχωρίζει πρακτικά από το αρχικό συνεχές σήμα.

Η μετατροπή ενός αναλογικού (συνεχούς) δείγματος του σήματος σε μια ψηφιακή (διακριτή) μορφή καλείται διαδικασία κβαντοποίησης (quantizing). Γραφικά, η διαδικασία κβαντοποίησης σημαίνει ότι μια ευθεία γραμμή που παριστάνει τη σχέση μεταξύ της εισόδου και της εξόδου ενός γραμμικού συνεχούς συστήματος αντικαθίσταται από μια κλιμακωτή (staicase) χαρακτηριστική. Η διαφορά μεταξύ των δύο γειτονικών διακριτών τιμών ονομάζεται κβάντο (quantum) ή μέγεθος βήματος (step - size). Τα σήματα που εφαρμόζονται σε έναν κβαντιστή (quantizer), ταξινομούνται σε στάθμες πλάτους (βήματα) και όλα τα σήματα εισόδου τα οποία βρίσκονται στο συν ή πλην μισό ενός κβάντου της μεσαίας τιμής μιας στάθμης, αντικαθίστανται στην έξοδο από την υπόψη μεσαία τιμή.

Οι διαφορές μεταξύ του αναλογικού σήματος στην είσοδο με το κβαντισμένο σήμα στην έξοδο ονομάζεται σφάλμα κβαντισμού (quantizing error) ή θόρυβος κβάντισης. Είναι φανερό ότι η μέγιστη στιγμιαία τιμή αυτού του σφάλματος είναι το μισό ενός κβάντου και το συνολικό εύρος της μεταβολής είναι από -μισό έως +μισό βήμα. Επίσης μπορεί να αποδειχθεί ότι η μέση τιμή του σφάλματος κβάντισης δίνεται από τη σχέση :

 

<qe2> = δ2/12

 

όπου δ είναι το μέγεθος του κβάντου.

 

Η έξοδος του κβαντιστή μπορεί αναλυτικά να εκφραστεί στη μορφή Ηi δ όπου ±Ηi=0, 1, 2... και δ όπως είπαμε το μέγεθος του κβάντου. Στην πιο απλή περίπτωση το δ είναι κανονικοποιημένο στην τιμή 1. Ένας κβαντιστής που έχει αυτή τη σχέση εισόδου - εξόδου καλείται τύπου μέσου πατήματος (mid - tread), επειδή η αρχή των αξόνων βρίσκεται στο μέσο ενός οριζόντιου τμήματος του σκαλοπατιού στο κλιμακωτό γράφημα.

Ένας άλλος τρόπος σχεδίασης του κβαντιστή, είναι να ορίσουμε την έξοδό του στη μορφή Ηi δ/2 όπου Hi=1, 3, 5... Αυτός ο κβαντιστής ονομάζεται τύπου μέσης ανύψωσης (mid - rizer), επειδή στην περίπτωση αυτή η αρχή των αξόνων βρίσκεται στο μέσο ενός κατακόρυφου τμήματος της κλιμακωτής σχέσης εισόδου - εξόδου.

Η διαδικασία κβαντοποίησης, όπως την περιγράψαμε πιο πάνω, χρησιμοποιεί ομοιόμορφη απόσταση μεταξύ των επιπέδων κβαντισμού. Σε κάποιες εφαρμογές, ωστόσο, είναι προτιμότερο να χρησιμοποιηθεί μεταβλητή απόσταση μεταξύ των επιπέδων κβαντισμού. Για παράδειγμα, η περιοχή των τάσεων που καλύπτονται από σήματα φωνής, από τα μέγιστα δυνατής φωνής μέχρι τα ασθενή διαστήματα της χαμηλής είναι της τάξης 1000 έως 1. Χρησιμοποιώντας έναν μη ομοιόμορφο κβαντιστή (nonuniform quantizer) με το χαρακτηριστικό ότι το μέγεθος του βήματος αυξάνει, καθώς η απόσταση από την αρχή των αξόνων της χαρακτηριστικής πλάτους εισόδου - εξόδου αυξάνει, το τελευταίο μεγάλο βήμα του κβαντιστή μπορεί να συμπεριλάβει όλες τις πιθανές περιπλανήσεις του σήματος φωνής στις μεγάλες στάθμες πλάτους, οι οποίες συμβαίνουν σχετικά σπάνια. Με άλλα λόγια, τα ασθενή διαστήματα, που χρειάζονται περισσότερη προστασία, προτιμούνται σε βάρος των ισχυρών διαστημάτων. Κατ ' αυτό τον τρόπο επιτυγχάνεται μια ποσοστιαία ομοιόμορφη ακρίβεια στο μεγαλύτερο τμήμα του πεδίου τιμών του σήματος εισόδου, με αποτέλεσμα να απαιτούνται λιγότερα βήματα από ότι στη περίπτωση που θα χρησιμοποιούνταν ομοιόμορφος κβαντιστής.

Η χρήση ενός μη ομοιόμορφου κβαντιστή είναι ισοδύναμη με τη διέλευση του σήματος βασικής ζώνης μέσω ενός συμπιεστή (compressor) και στη συνέχεια την εφαρμογή του συμπιεσμένου σήματος σε ομοιόμορφο κβαντιστή.

 

Για να επαναφέρουμε τα δείγματα του σήματος στην αντίστοιχη σωστή στάθμη πρέπει να χρησιμοποιήσουμε μια διάταξη στο δέκτη με χαρακτηριστική συμπληρωματικής εκείνης του συμπιεστή. Μια τέτοια διάταξη ονομάζεται αποσυμπιεστής (expander). Στην ιδανική περίπτωση, οι νόμοι συμπίεσης και αποσυμπίεσης είναι ακριβώς αντίστροφοι έτσι ώστε εκτός από την επίδραση της κβαντοποίησης η έξοδος του αποσυμπιεστή να είναι ίση με την είσοδο του συμπιεστή. Ο συνδυασμός ενός συμπιεστή και ενός αποσυμπιεστή ονομάζεται συμπιεστής - αποσυμπιεστής (compander).

Σε πραγματικά συστήματα PCM, τα κυκλώματα συμπίεσης - αποσυμπίεσης δεν αναπαράγουν ένα ακριβές αντίγραφο των γραμμικών καμπυλών συμπίεσης. Μάλλον, παράγουν μια τμηματικά γραμμική (piecewise linear) προσέγγιση της επιθυμητής καμπύλης. Χρησιμοποιώντας έναν αρκετά μεγάλο αριθμό γραμμικών τμημάτων, η προσέγγιση μπορεί να πλησιάσει αρκετά την αληθινή καμπύλη συμπίεσης.

 

 

Κωδικοποίηση

 

Συνδυάζοντας τις διαδικασίες δειγματοληψίας και κβαντοποίησης, ένα συνεχές σήμα βασικής ζώνης περιορίζεται σε ένα διακριτό σύνολο τιμών, αλλά όχι σε μορφή που να ταιριάζει καλά σε μετάδοση μέσω μίας γραμμής ή ενός ραδιοδιαύλου. Για να εκμεταλλευτούμε τα πλεονεκτήματα δειγματοληψίας και κβαντοποίησης απαιτείται η χρησιμοποίησης μίας διαδικασίας κωδικοποίησης (encoding process) για τη μετατροπή του διακριτού συνόλου των τιμών των δειγμάτων σε μια πιο κατάλληλη μορφή. Κάθε σχέδιο για την αναπαράσταση καθενός από αυτά τα διακριτά σύνολα τιμών σαν μια ιδιαίτερη διάταξη διακριτών γεγονότων ονομάζεται κώδικας (code). Ένα από τα διακριτά γεγονότα σε ένα κώδικα ονομάζεται στοιχείο του κώδικα (code element) ή σύμβολο (symbol). Για παράδειγμα η παρουσία ή η απουσία ενός παλμού είναι ένα σύμβολο. Μια ιδιαίτερη διάταξη συμβόλων, που χρησιμοποιείται σε ένα κώδικα, για την παράσταση μίας μόνο τιμής του διακριτού συνόλου ονομάζεται κωδική λέξη (codeword) ή χαρακτήρας (character).

Σε ένα δυαδικό κώδικα (binary code) κάθε σύμβολο μπορεί να πάρει μια από δύο διακριτές τιμές ή είδη, όπως η παρουσία ή η απουσία ενός παλμού. Τα δύο σύμβολα ενός δυαδικού κώδικα συνήθως συμβολίζονται με 0 και 1. Σε ένα τριαδικό κώδικα (ternary code), κάθε σύμβολο μπορεί να είναι μια από τρεις διακριτές τιμές ή είδη, και πάει λέγοντας για τους άλλους κώδικες. Ωστόσο, τα καλύτερα αποτελέσματα σε σχέση με την επίδραση του θορύβου σε ένα μέσο μετάδοσης, επιτυγχάνεται χρησιμοποιώντας δυαδικό κώδικα και αυτό επειδή ένα δυαδικό σύμβολο αντέχει μια σχετικά υψηλή στάθμη θορύβου και είναι εύκολο να αναγεννηθεί.

 

 

Αναγέννηση

 

Το πιο σημαντικό χαρακτηριστικό των συστημάτων PCM βρίσκεται στην ικανότητα να ελέγχουν τις επιδράσεις της παραμόρφωσης και του θορύβου που παράγονται κατά την μετάδοση μιας κυματομορφής PCM μέσω ενός διαύλου. Αυτή η δυνατότητα επιτυγχάνεται με την ανακατασκευή της κυματομορφής PCM μέσω μιας αλυσίδας αναγεννητικών επαναληπτών (regenerative repeaters) που είναι τοποθετημένοι σε αρκετά μικρή απόσταση κατά μήκος της διαδρομής μετάδοσης. Ο αναγεννητικός επαναλήπτης εκτελεί τρεις βασικές λειτουργίες. Την ισοστάθμιση (equalization), τον χρονισμό (timing) και τη λήψη απόφασης (decision making). Ο ισοσταθμιστής μορφοποιεί τους λαμβανόμενους παλμούς έτσι ώστε να αντισταθμίζει τις επιδράσεις παραμόρφωσης πλάτους και φάσης που παράγονται από τη χαρακτηριστική μετάδοσης του διαύλου. Το κύκλωμα χρονισμού περιέχει μια περιοδική ακολουθία παλμών, που παράγεται από τους λαμβανόμενους παλμούς, για τη δειγματοληψία των ισοσταθμισμένων παλμών σε χρονικές στιγμές όπου ο λόγος σήματος προς θόρυβο είναι μέγιστος. Η διάταξη απόφασης ενεργοποιείται όταν στο χρόνο δειγματοληψίας που καθορίζεται από το κύκλωμα χρονισμού, το πλάτος του ισοσταθμισμένου παλμού με το θόρυβο ξεπερνά μια προκαθορισμένη στάθμη τάσης. Έτσι για παράδειγμα, σε ένα σύστημα PCM με τροφοδοσία on - off, ο επαναλήπτης παίρνει μια απόφαση σε κάθε διάρκεια bit κατά πόσο υπάρχει ή όχι παλμός. Εάν η απόφαση είναι "ναι", μεταδίδεται ένας καινούργιος παλμός προς το επόμενο επαναλήπτη. Αν από την άλλη πλευρά η απόφαση είναι "όχι", μεταδίδεται μια καθαρή μηδενική στάθμη. Κατά αυτό τον τρόπο η συσσώρευση παραμόρφωσης και θορύβου σε ένα διάστημα μεταξύ επαναληπτών απαλείφεται πλήρως, με την προϋπόθεση ότι η παρενόχληση δεν είναι τόσο μεγάλη ώστε να προκαλέσει σφάλμα στη διαδικασία λήψης απόφασης. Στην ιδανική περίπτωση, εκτός από την καθυστέρηση, το αναδημιουργούμενο σήμα είναι ακριβώς το ίδιο όπως το αρχικά μεταδιδόμενο σήμα. Στην πράξη όμως, το αναδημιουργούμενο σήμα διαφέρει από το αρχικό σήμα για δύο κυρίως λόγους :

1.         Η παρουσία θορύβου μετάδοσης και η παρεμβολή περιστασιακά προκαλούν λανθασμένες αποφάσεις στον επαναλήπτη εισάγοντας έτσι λανθασμένα bit (bit errors) στο αναδημιουργούμενο σήμα.

2.         Εάν η απόσταση μεταξύ των λαμβανομένων παλμών αποκλίνει από την αρχική τιμή της, εισάγεται ένα παίξιμο (jitter) στη θέση του αναδημιουργούμενου παλμού προκαλώντας με αυτό τον τρόπο παραμόρφωση.

 

 

Αποκωδικοποίηση

 

Η πρώτη λειτουργία στον δέκτη είναι η αναγέννηση (επαναμορφοποίηση και καθαρισμός) των λαμβανόμενων παλμών. Αυτοί οι καθαροί παλμοί, στη συνέχεια, ομαδοποιούνται ξανά σε κωδικές λέξεις και αποκωδικοποιούνται (δηλαδή αντιστοιχίζονται) σε ένα κβαντισμένο σήμα PAM (διαμόρφωση πλάτους παλμών). Στη διαμόρφωση πλάτους παλμών (Pulse - Amplitude Modulation), τα πλάτη ισαπέχοντων ορθογώνιων παλμών μεταβάλλονται σύμφωνα με τις στιγμιαίες τιμές των δειγμάτων ενός συνεχούς σήματος πληροφορίας. Η διαδικασία αποκωδικοποίησης (decoding) περιλαμβάνει τη δημιουργία ενός παλμού, το πλάτος του οποίου είναι το γραμμικό άθροισμα όλων των παλμών στη κωδική λέξη, με τον κάθε παλμό να έχει βάρος την τιμή της θέσης του (20, 21, 22, 23,...) στον κώδικα.

 

 

 

Φιλτράρισμα

 

Η τελική λειτουργία στον δέκτη είναι η ανάκτηση της κυματομορφής σήματος περνώντας την έξοδο του αποκωδικοποιητή μέσω ενός βαθυπερατού φίλτρου ανακατασκευής, του οποίου η συχνότητα αποκοπής είναι ίση με το εύρος ζώνης W της πληροφορίας. Υποθέτοντας ότι η διαδρομή μετάδοσης είναι ελεύθερη από σφάλματα, το σήμα που ανακτάται δεν περιλαμβάνει θόρυβο, με εξαίρεση την αρχική παραμόρφωση που εισάγεται από την διαδικασία κβαντοποίησης.

 

Πολυπλεξία

 

Σε εφαρμογές που χρησιμοποιούν PCM, είναι φυσικό να πολυπλέκονται διάφορες πηγές πληροφορίας με διαίρεση στο χρόνο, ενώ κάθε πηγή κρατάει την ανεξαρτησία της, καθ ' όλη τη διαδρομή από τον πομπό στον δέκτη. Αυτή η ανεξαρτησία είναι υπεύθυνη για τη συγκριτική ευκολία με την οποία οι πηγές πληροφορίας μπορούν να βγούνε ή να ξαναμπούνε σε ένα σύστημα πολυπλεξίας με διαίρεση χρόνου. Καθώς ο αριθμός των ανεξάρτητων πηγών πληροφορίας αυξάνει, το διάστημα χρόνου που διατίθεται σε μία πηγή πρέπει να μειωθεί καθώς όλες πρέπει να εξυπηρετηθούν μέσα σε ένα χρονικό διάστημα ίσο με το αντίστροφο του ρυθμού δειγματοληψίας. Αυτό με τη σειρά του σημαίνει ότι μειώνεται η επιτρεπόμενη διάρκεια της κωδικής λέξης που παριστάνει ένα απλό δείγμα. Ωστόσο, η παραγωγή και μετάδοση των παλμών τείνει να γίνει δυσκολότερη καθώς η διάρκειά τους μειώνεται. Επιπλέον, εάν οι παλμοί γίνουν πολύ μικροί, τα σφάλματα στο μέσο μετάδοσης αρχίζουν να παρεμβάλλουν στην ορθή λειτουργία του συστήματος. Συνεπώς, στην πράξη είναι απαραίτητο να περιορίσουμε τον αριθμό των ανεξάρτητων πηγών πληροφορίας που μπορούν να περιληφθούν σε μια ομάδα διαίρεσης χρόνου.

 

 

Συγχρονισμός

 

Για να λειτουργήσει ικανοποιητικά ένα σύστημα PCM με πολυπλεξία διαίρεσης χρόνου, είναι απαραίτητο οι λειτουργίες χρονισμού στον δέκτη, εκτός από τον χρόνο που χάνεται στη μετάδοση και στην αναγέννηση, να ακολουθούν από κοντά τις αντίστοιχες λειτουργίες στον πομπό. Γενικά, αυτό ισοδυναμεί με ότι το τοπικό ρολόι στο δέκτη πρέπει να κρατάει τον ίδιο χρόνο με ένα σταθερό μακρινό ρολόι στον πομπό, εκτός του ότι το τοπικό ρολόι καθυστερεί κατά μια ποσότητα που αντιστοιχεί στο χρόνο που απαιτείται για τη μετάδοση του σήματος πληροφορίας από τον πομπό στον δέκτη. Μια διαδικασία για τον συγχρονισμό των ρολογιών πομπού και δέκτη είναι να προσαρτηθεί ένα στοιχείο του κώδικα ή παλμός στο τέλος ενός πλαισίου (frame) (το οποίο είναι η διαδοχή κωδικών λέξεων που προέρχονται από κάθε μία από τις ανεξάρτητες πηγές πληροφορίας και να μεταδίδει τον παλμό αυτό σε κάθε πλαίσιο. Σε μια τέτοια περίπτωση, ο δέκτης περιλαμβάνει ένα κύκλωμα το οποίο ψάχνει για το σχηματισμό εναλλασσόμενων 1 και 0, με ρυθμό το μισό του ρυθμού πλαισίων, και έτσι επιτυγχάνει συγχρονισμό μεταξύ του πομπού και του δέκτη.

Όταν η μετάδοση διακόπτεται είναι αρκετά απίθανο ότι τα ρολόγια πομπού και δέκτη θα συνεχίσουν να δείχνουν τον ίδιο χρόνο για αρκετό χρονικό διάστημα. Συνεπώς, κατά την εκτέλεση μιας διαδικασίας συγχρονισμού πρέπει να ορίσουμε μια διαφορετική διαδικασία για την ανίχνευση του παλμού συγχρονισμού. Η διαδικασία συνίσταται στην παρατήρηση στοιχείων του κώδικα ένα προς ένα, μέχρι να ανιχνευτεί ο παλμός συγχρονισμού. Δηλαδή μετά την παρατήρηση κάποιου συγκεκριμένου στοιχείου του κώδικα για αρκετό χρόνο ώστε να βεβαιωθούμε ότι δεν είναι παλμός συγχρονισμού, το ρολόι του δέκτη οπισθοχωρεί κατά ένα στοιχείο κώδικα και παρατηρείται το επόμενο στοιχείο κώδικα. Αυτή η διαδικασία αναζήτησης επαναλαμβάνεται μέχρις ότου ανιχνευτεί ο παλμός συγχρονισμού. Προφανώς, ο χρόνος που απαιτείται για τον συγχρονισμό εξαρτάται από την στιγμή κατά την οποία επανακαθίσταται η σωστή μετάδοση.

 

 

 

 

Απαιτούμενο Εύρος Ζώνης για τα Συστήματα PCM

 

Eστω ότι σε ένα σύστημα PCM χρησιμοποιούνται L στάθμες κβάντισης με :

L = 2 n Þ n = log2 L

 

όπου n ο ακέραιος αριθμός ψηφίων του δυαδικού συστήματος. Στην περίπτωση αυτή χρειάζονται n παλμοί για την κωδικοποίηση κάθε κβαντισμένου δείγματος του αναλογικού σήματος m(t).

Αν το αναλογικό σήμα m(t) έχει μέγιστη συχνότητα fm και ρυθμό δειγματοληψίας fs³2fm, τότε θα χρειαστούν nfs δυαδικοί παλμοί το δευτερόλεπτο. Δηλαδή αν το σήμα PCM είναι ένα σήμα βασικής ζώνης με συχνότητα fPCM, τότε ο απαιτούμενος ελάχιστος ρυθμός δειγματοληψίας είναι :

2fPCM

όπου :

2fPCM = nfs³nfm

 

Από την παραπάνω εξίσωση προκύπτει ότι το απαιτούμενο εύρος ζώνης συχνοτήτων για ένα σύστημα PCM εξαρτάται από το εύρος fm του αναλογικού σήματος και από τον αριθμό των παλμών n (bits) που χρησιμοποιούνται για τη μετάδοση των δειγμάτων.

 

Γραμμική και Λογαριθμική κωδικοποίηση

 

Ανάλογα με το μήκος λέξης που χρησιμοποιούμε, προκύπτει ένα πλήθος σταθμών που πρέπει να αντιστοιχηθεί σε κάποιες τιμές. Αυτή η αντιστοίχηση μπορεί να γίνει με διάφορους τρόπους. Δύο διαδεδομένες τεχνικές είναι η γραμμική κωδικοποίηση και η λογαριθμική κωδικοποίηση.

Σύμφωνα με τη γραμμική κωδικοποίηση το πλήθος των διαθέσιμων σταθμών κατανέμεται εξίσου σε όλο το εύρος του πεδίου τιμών του σήματος. Για παράδειγμα, ας υποθέσουμε ότι θέλουμε να ψηφιοποιήσουμε μια τάση που παίρνει τιμές από 0 έως 1000V, χρησιμοποιώντας λέξεις των 8bit. Το πλήθος των διαθέσιμων σταθμών θα είναι 28=256. Για απλοποίηση των πράξεων προσεγγίζουμε τη μέγιστη τιμή της τάσης με το 1024. Άρα, οι διαθέσιμες στάθμες θα απέχουν μεταξύ τους 1024/256=4V και οι αντίστοιχες τιμές θα είναι 0, 4, 8, ...1024V. Η γραμμική κωδικοποίηση, αν και απλή και λογική, δεν είναι ευρέως χρησιμοποιούμενη.

Αντίθετα, στη λογαριθμική κωδικοποίηση οι διάφορες στάθμες δεν ισαπέχουν καλύπτοντας ομοιόμορφα όλο το πεδίο τιμών του σήματος, αλλά ακολουθούν λογαριθμική κατανομή. Η λογαριθμική κωδικοποίηση αποτελεί την κύρια τεχνική κωδικοποίησης στην τηλεφωνία.

 

Τηλεφωνία PCM

Όπως είναι γνωστό πολλές φορές για τη μετάδοση ομιλίας είναι αρκετό το εύρος 0-4000 Hz. Έχουμε συνεπώς για το μεταδιδόμενο φάσμα μιας συνδιάλεξης μέγιστη συχνότητα fmax=4000 Hz. Σύμφωνα με το θεώρημα ομοιόμορφης δειγματοληψίας του Shannon θα έχουμε τότε όλη την πληροφορία που περιέχει το φάσμα 0-4000 Hz μιας συνδιάλεξης, αν μεταδώσουμε από το φάσμα αυτό τουλάχιστον 2 fmax δείγματα δηλαδή 8000 δείγματα ανά sec. Τα δείγματα αυτά σύμφωνα με το παραπάνω θεώρημα πρέπει να απέχουν ίσες αποστάσεις μεταξύ τους. Έτσι, εφόσον έχουμε 8000 δείγματα το δευτερόλεπτο, δηλαδή συχνότητα δειγματοληψίας ίση με 8000 Hz, η απόσταση μεταξύ δύο μεταδιδόμενων συνεχών δειγμάτων θα είναι ίση με :

1 / (8000 s-1) = 125 μs


» 4000 Hz

Πύλη


δειγματοληψίας


(Sampling gate)

»4000 Hz

 

Ρολόι

(Clock) 8000 Hz

 

 

 

Στο παραπάνω σχήμα φαίνεται ο περιορισμός του φάσματος του ρεύματος συχνοτήτων μιας συνδιάλεξης (αναλογικό σήμα) μέχρι τα 4000 Hz με ένα βαθυπερατό φίλτρο συχνότητας διακοπής 4000 Hz.

            Φαίνεται επίσης  η λήψη των ρευμάτων του ρεύματος της συνδιάλεξης αυτής μέσω μιας πύλης δειγματοληψίας που ανοίγει με τη βοήθεια ενός ρολογιού και αφήνει κάθε 125 μs να περάσει ένα δείγμα. Το σήμα που παίρνουμε τότε ονομάζεται σήμα διαμορφωμένο κατά πλάτος παλμού (σήμα PAM, Pulse Amplitude Modulation). Είναι προφανές ότι στην διαμόρφωση κατά πλάτος παλμού έχουμε μια σειρά παλμών που το πλάτος τους διαμορφώνεται από το αναλογικό σήμα. Εφόσον σύμφωνα με το θεώρημα δειγματοληψίας το ανωτέρω σήμα PAM περιέχει όλες τις πληροφορίες του αναλογικού σήματος μπορούμε να αναπαραγάγουμε από αυτό στη λήψη το αναλογικό σήμα. Η αναπαραγωγή γίνεται με ένα βαθυπερατό φίλτρο που έχει την ίδια ακριβώς συχνότητα διακοπής των 4000 Hz με το φίλτρο της δειγματοληψίας. Προϋπόθεση βεβαίως για την ακριβή αναπαραγωγή του αναλογικού σήματος είναι το να μην έχουμε κατά τη μετάδοση του σήματος PAM παραμόρφωσή του.

Έτσι για να αναπαραχθούν στη λήψη τα αναλογικά σήματα, στην περίπτωση διαμόρφωσης PAM, πρέπει να φτάνουν στη λήψη τα δείγματά τους με αρκετή ακρίβεια. Σε μεγάλες αποστάσεις δεν είναι πρακτικά δυνατό αυτό λόγω της παραμόρφωσης των παλμών κατά τη μεταφορά τους και των δυσκολιών που υπάρχουν για ενδιάμεση αναπαραγωγή τους (αναγέννησή τους) με ακρίβεια. Έτσι, παρά την απλότητά της, η διαμόρφωση PAM δεν χρησιμοποιείται όταν έχουμε μεταφορά σημάτων σε απόσταση. Στην περίπτωση αυτή χρησιμοποιούμε την παλμοκωδική διαμόρφωση, τη διαμόρφωση PCM (Pulse - Code Modulation) όπως ονομάζεται.

Πλεονεκτήματα του συστήματος PCM είναι το ότι η ποιότητα της μετάδοσης είναι σχεδόν ανεξάρτητη από την απόσταση γιατί είναι δυνατό με ενδιάμεσους αναγεννητές (repeaters, regenerators) να έχουμε αναγέννηση (αναπαραγωγή) του ψηφιακού σήματος. Αντίθετα με τους ενδιάμεσους ενισχυτές των αναλογικών σημάτων όπου ενισχύεται και ο θόρυβος, στους αναγεννητές των TDM - PCM συστημάτων, για την αναπαραγωγή ενός παλμού χρειάζεται να διακριθεί μόνο αν υπάρχει ή όχι παλμός. Έτσι λοιπόν, χρησιμοποιώντας αναγεννητές σε κατάλληλες αποστάσεις είναι δυνατό να έχουμε στη λήψη σήμα χωρίς καμία παραμόρφωση. Η λειτουργία της αναγέννησης είναι απλή. Χρειάζεται όπως είπαμε να διακριθεί μόνο εάν υπάρχει ή όχι παλμός. Οι αναγεννητές όμως διαθέτουν χρονοκυκλώματα (timing circuits) που η λειτουργία τους απαιτεί να υπάρχουν ψηφιακά σήματα με θετικούς και αρνητικούς (εναλλασσόμενους) παλμούς. Eτσι αν κατά τη μετάδοση του διπολικού σήματος RZ έχουμε μια μεγάλη σειρά από 0, διαταράσσεται η λειτουργία των χρονοκυκλωμάτων αυτών. Για την αντιμετώπιση του γεγονότος αυτού χρησιμοποιείται κατά τη μετάδοση κατάλληλος κώδικας. Eνας τέτοιος κώδικας είναι για παράδειγμα ο κώδικας ΗΒ3.

Ήχος Ποιότητας CD (Compact Disk-Digital Audio)

Και στην περίπτωση του CD-DA, η τεχνική ψηφιοποίησης που χρησιμοποιείται είναι η PCM και πιο συγκεκριμένα η γραμμική μέθοδος κωδικοποίησης. Η επιλογή αυτή έγινε γιατί αφενός, η μουσική δεν έχει τόσο περιορισμένο εύρος συχνοτήτων όσο η φωνή, και αφετέρου στο CD-DA υπάρχουν μεγάλες απαιτήσεις πιστότητας.

Το εύρος των συχνοτήτων των ήχων που μπορεί να ακούσει ο άνθρωπος είναι περίπου 20kHz. Άρα, σύμφωνα με τη θεωρία του Nyquist, απαιτείται συχνότητα δειγματοληψίας τουλάχιστον 40kHz. Στην πράξη, χρησιμοποιείται η συχνότητα των 44,1 kHz. Κατά συνέπεια, απαιτείται η λήψη ενός δείγματος κάθε 23μs. Οι λέξεις που χρησιμοποιούνται για να παραστήσουν το πλάτος του σήματος στο CD-DA έχουν μήκος 16bit. Το bit rate που προκύπτει από αυτά τα δεδομένα πρέπει να πολλαπλασιαστεί με 2, γιατί το CD-DA υποστηρίζει στερεοφωνία. Πρακτικά αυτό σημαίνει ότι υπάρχουν δύο κανάλια, κάθε ένα από τα οποία ακολουθεί τις προδιαγραφές που έχουν αναφερθεί. Τελικά προκύπτει ότι το bit rate για το CD-DA είναι: .

 

Ψηφιακή Τηλεόραση

Υπάρχουν δύο τρόποι για να γίνει η απεικόνιση της κινούμενης εικόνας σε ψηφιακή μορφή. Η πρώτη γίνεται χρησιμοποιώντας μια αναλογική κάμερα και ψηφιοποιώντας το προκύπτων αναλογικό σήμα. Ο δεύτερος τρόπος προϋποθέτει τη χρήση μιας ψηφιακής κάμερας, η οποία παρέχει το σήμα κατ’ ευθείαν σε ψηφιακή μορφή.

Στη συνέχεια, θα περιγράψουμε πως μπορεί να γίνει η ψηφιοποίηση του αναλογικού σήματος που παρέχει μια συνήθης κάμερα, έτσι ώστε να παραχθεί εικόνα με ποιότητα κατάλληλη για εφαρμογές στούντιο (π.χ. εισαγωγή ψηφιακών εφέ). Υπάρχουν και άλλα πρότυπα, όπως τηλεόραση υψηλής ευκρίνειας (high definition TV), ποιότητα εικόνας μετάδοσης (broadcast TV quality), ποιότητα βίντεο (VCR), ποιότητα τηλεδιάσκεψης (video conferencing).

Ο τρόπος που γίνεται η μετατροπή της εικόνας σε αναλογικό και στην συνέχεια ψηφιακό σήμα δεν είναι προφανής, όπως στον ήχο. Ας μην ξεχνάμε ότι η κινούμενη εικόνα έχει τις μεγαλύτερες απαιτήσεις σε ταχύτητα μεταφοράς, γεγονός που δυσκολεύει τους αναλογικούς τρόπους μετάδοσης και πολύ περισσότερο, όπως είναι φυσικό, τους ψηφιακούς. Αν δεν καταφύγουμε σε μεθόδους συμπίεσης, πρέπει τουλάχιστον να γίνει αποδοτική ψηφιοποίηση. Η ανθρώπινη όραση έχει κάποια ιδιαίτερα χαρακτηριστικά τα οποία μπορούμε να εκμεταλλευθούμε για να επιτύχουμε καλύτερη αξιοποίηση του διαθέσιμου εύρους ζώνης (bandwidth).

 

Φως, Χρώμα και Ανθρώπινη Όραση

Το φως είναι ηλεκτρομαγνητική ακτινοβολία, η οποία προκαλεί την οπτική αντίδραση του ανθρώπου. Για να είναι ορατή αυτή η ακτινοβολία, πρέπει να έχει μήκος κύματος λ μεταξύ 250nm και 780nm. Μια πηγή φωτός συνήθως παράγει ακτινοβολία που περιέχει πολλά μήκη κύματος. Στην ειδική περίπτωση που υπάρχει μόνο ένα μήκος κύματος λ, έχουμε μια μονοχρωματική πηγή. Η ενέργεια που έχει αυτή η πηγή ονομάζεται ένταση (intensity) και συμβολίζεται C. Στην γενικότερη περίπτωση, που υπάρχουν πολλά μήκη κύματος, ορίζουμε τη φασματική κατανομή (spectral distribution) C(λ), που περιγράφει την ένταση όλων των μηκών κύματος που αποτελούν την πηγή.

Η  ανθρώπινη όραση μπορεί να διακρίνει αποτελεσματικά τα διαφορετικά μήκη κύματος  μονοχρωματικού φωτός. Κάθε μήκος κύματος το βλέπουμε ως διαφορετικό χρώμα. Επιπλέον, δεν προκαλούν όλα τα χρώματα την ίδια αντίδραση. Η όραση μας είναι πιο ευαίσθητη, για παράδειγμα, στο κίτρινο παρά στο κόκκινο. Συμβολίζουμε την ευαισθησία της ανθρώπινης όρασης σε ένα χρώμα (φως κάποιου συγκεκριμένου μήκους κύματος λ) ως V(λ).


Σχήμα 4-1. Δύο διαφορετικές φασματικές κατανομές μπορούν
να παράγουν την ίδια χρωματική αίσθηση

 


Ένα μέγεθος που σχετίζεται με την οπτική αντίληψη του ανθρώπου είναι η lightness, που υποδηλώνει πόσο μαύρο ή λευκό είναι ένα αντικείμενο. Με άλλα λόγια, περιγράφει την αίσθηση ότι ένα αντικείμενο αντανακλά η μεταδίδει περισσότερο η λιγότερο από το προσπίπτων φως. Αν ένα αντικείμενο αντανακλά λιγότερο από το 30% του προσπίπτοντος φωτός, το αντιλαμβανόμαστε ως μαύρο. Αν αντανακλά περισσότερο από το 80%, ως λευκό.

Ένα άλλο μέγεθος, η σχετική φωτεινότητα (brightness), περιγράφει την οπτική αντίληψη ότι μια περιοχή ή αντικείμενο εκπέμπει περισσότερο φως από τον περίγυρο της.

Τέλος, θα ορίσουμε ένα μέγεθος που δεν αποτελεί φυσικό χαρακτηριστικό της πηγής η του αντικειμένου που φωτίζεται, αλλά είναι πολύ χρήσιμο για την μετατροπή της εικόνας σε σήμα, την απόλυτη φωτεινότητα (luminance). Η απόλυτη φωτεινότητα ορίζεται ως το άθροισμα της οπτικής απόκρισης του ανθρώπου σε όλα τα μήκη κύματος της πηγής και συμβολίζεται ως L. Πιο αυστηρά η L θα δίδεται από τον τύπο:

Σύνθεση χρωμάτων

Όπως είδαμε, τα χρώματα δεν είναι παρά ο τρόπος με τον οποίο αντιλαμβανόμαστε κάποια μήκη κύματος μονοχρωματικού φωτός. Το ίδιο αποτέλεσμα μπορούμε να έχουμε και με πολλές άλλες φασματικές κατανομές. Έχει βρεθεί, ότι οποιοδήποτε χρώμα μπορεί να συντεθεί ανακατεύοντας όχι περισσότερα από τρία άλλα χρώματα. Η τριάδα χρωμάτων που μπορεί να χρησιμοποιηθεί ως βάση κατασκευής των υπολοίπων χρωμάτων δεν είναι μοναδική. Στην πραγματικότητα, οποιαδήποτε τρία διαφορετικά χρώματα, κανένα από τα οποία δεν έχει παραχθεί από τα άλλα δύο, μπορεί να παίξει το ρόλο της βάσης που παράγει τα υπόλοιπα χρώματα.

Άρα, αν έχουμε τρία βασικά χρώματα Α, Β, Γ, οποιοδήποτε χρώμα Ζ μπορεί να παραχθεί αναμιγνύοντας α% από το Α, β% από το Β και γ% από το Γ. Μπορούμε δηλαδή να γράψουμε:

 

Ζ= αΑ + βΒ + γΓ

 

Αυτός ο κανόνας κρύβει μια παγίδα. Είναι πιθανό να χρειαστεί αρνητικός συντελεστής α, β ή γ για την παραγωγή κάποιου χρώματος. Άρα στην πράξη δεν είναι δυνατή η παραγωγή οποιουδήποτε χρώματος από τρία άλλα.


Σχήμα 4-2. Οι κάμερες παράγουν σήμα που αποτελείται από
τρεις συνιστώσες

Συνήθως τα βασικά χρώματα που χρησιμοποιούνται είναι το κόκκινο, το πράσινο και το μπλε (Red, Green, Blue-RGB). Οι κάμερες παράγουν τρία διαφορετικά συνεχή σήματα, ένα για κάθε χρώμα, η σύνθεση των οποίων δίνει την εικόνα. Η ίδια τριάδα σημάτων χρησιμοποιείται και κατά την απεικόνιση της εικόνας στις έγχρωμες τηλεοράσεις και στις οθόνες των υπολογιστών. Όμως, για να μεταδοθεί ή ψηφιοποιηθεί το σήμα της τηλεόρασης, η τριάδα αυτή σημάτων μετασχηματίζεται σε μια άλλη. Ο μετασχηματισμός αυτός βασίζεται στις ιδέες της απόλυτης φωτεινότητας ή απλά φωτεινότητας (luminance) και της chrominance.

Luminance and Chrominance

Η μέθοδος μετασχηματισμού του RGB σήματος σε σήματα φωτεινότητας και chrominance χρησιμοποιείται από τις πρώτες μέρες της έγχρωμης τηλεόρασης και διατηρείται μέχρι σήμερα. Μάλιστα, ακόμα και τα πρότυπα ψηφιακής τηλεόρασης στηρίζονται σε αυτό το μετασχηματισμό. Γιατί όμως καταφεύγουμε σε αυτόν το μετασχηματισμό;

Υπάρχουν δύο λόγοι. Ο πρώτος αφορά στην ευκολία μετάδοσης. Η ανθρώπινη όραση είναι γενικά πολύ πιο ευαίσθητη στη φωτεινότητα της εικόνας παρά στα χρώματα. Μετασχηματίζοντας το RGB σήμα σε ένα σήμα φωτεινότητας και δύο άλλα που μεταφέρουν τη χρωματική πληροφορία, μπορούμε να βελτιστοποιήσομε την ταχύτητα μετάδοσης της εικόνας. Τα δύο χρωματικά σήματα μπορούν να παρασταθούν και μεταδοθούν με μικρότερη ακρίβεια από ότι το σήμα φωτεινότητας, κάνοντας έτσι οικονομία του διαθέσιμου bandwidth. Ο δεύτερος λόγος είναι η διατήρηση της συμβατότητας με τα παλαιότερα συστήματα τηλεόρασης. Μια ασπρόμαυρη τηλεόραση θα αγνοήσει τα χρωματικά σήματα και θα απεικονίσει μόνο τη φωτεινότητα.

Σχήμα 4-3. Μετατροπή RGB σήματος σε YUV στις τηλεοράσεις

Η φωτεινότητα συμβολίζεται συνήθως με Υ. Τα δύο χρωματικά σήματα υπολογίζονται από τα σήματα διαφοράς χρώματος (color difference signal). Ένα σήμα διαφοράς χρωμάτων για κάποιο από τα βασικά χρώματα υπολογίζεται αφαιρώντας τη φωτεινότητα από το αντίστοιχο σήμα χρώματος.

Στην πράξη, δεν μεταδίδονται και τα τρία σήματα διαφοράς χρώματος, αλλά συνδυάζονται με κάποιο γραμμικό τρόπο, σχηματίζοντας τα δύο χρωματικά σήματα (chrominance signals). Οι μετασχηματισμοί που χρησιμοποιούνται στα δύο πρότυπα τηλεόρασης NTSC και PAL[1] είναι οι εξής:

·       Στο NTSC πρότυπο τα χρωματικά σήματα συμβολίζονται ως I και Q και υπολογίζονται ως εξής:

          Y = 0,30R + O,59G + 0,14B

          I = 0,74(R-Y) - 0,27(B-Y) = 0,60R + 0,28G + 0,32B

          Q = 0,48(R-Y) + 0,41(B-Y) = 0,21R + 0,52G + 0,31B

·       Στο PAL πρότυπο τα χρωματικά σήματα συμβολίζονται ως U και V και υπολογίζονται ως εξής:

          Y = 0,30R + O,59G + 0,11B

          U = 0,493(B-Y) = -0,15R - 0,29G + 0,44B

          V = 0,877(R-Y) = 0,62R - 0,52G - 0,10B

Ψηφιοποίηση στην ψηφιακή τηλεόραση ποιότητας στούντιο

Ο τρόπος με τον οποίο γίνεται η ψηφιοποίηση της τηλεόρασης έχει προτυποποιηθεί από τον International Telecommunications Union στην πρόταση ITU-R- 601. Στην συνέχεια θα περιγράψουμε τις βασικές αρχές που διέπουν τις διαδικασίες δειγματοληψίας και κβαντοποίησης.

Η πρώτη αρχή που επιβάλλει η διαδικασία δειγματοληψίας σύμφωνα με την ITU-R- 601, είναι ότι η θέση κάθε δείγματος σε όλα τα πλαίσια[2] είναι η ίδια. Δεν υπάρχει, δηλαδή, χρονική ολίσθηση των σημείων που δειγματολειπτούνται. Οι θέσεις των δειγμάτων είναι μάλιστα τέτοιες, ώστε να σχηματίζεται ένα ορθογώνιο πλέγμα. Δε δειγματολειπτούνται όλες οι γραμμές κάθε πλαισίου, αλλά εναλλάξ οι μονές με τις ζυγές. Αυτό γίνεται γιατί στην τηλεόραση χρησιμοποιείται η πλεκτή σάρωση[3] (interlaced scanning) της εικόνας.


Σχήμα 4-4. Τα σημεία δειγματοληψίας στην ψηφιακή τηλεόραση
είναι σταθερά

Το αρχικό αναλογικό σήμα μπορεί να ακολουθεί είτε το αμερικάνικο πρότυπο NTSC είτε τα ευρωπαϊκά PAL και SECAM. Στο πρώτο από αυτά, η εικόνα έχει 525 γραμμές ενώ αποστέλλονται 30fps[4]. Στα άλλα δύο τα αντίστοιχα μεγέθη είναι 625 γραμμές και 25fps. Το πρότυπο ψηφιοποίησης έχει ως αρχή ότι οποιοδήποτε και να είναι το πρότυπο του αναλογικού σήματος, ο ρυθμός δειγματοληψίας πρέπει να είναι ο ίδιος. Για να συμβαίνει κάτι τέτοιο, πρέπει να διαλέξουμε συχνότητα σάρωσης της εικόνας που να είναι πολλαπλάσιο του 2,25MHz. Η  τελευταία αυτή συχνότητα προέκυψε ως το ελάχιστο κοινό πολλαπλάσιο των συχνοτήτων ανανέωσης των γραμμών στα δύο πρότυπα (525/2*60 και 625/2*25 αντίστοιχα).

Η συχνότητα δειγματοληψίας που έχει επιλεγεί είναι 13.5MHz για τη φωτεινότητα και 6.75MHz για τις δυο χρωματικές συνιστώσες. Με άλλα λόγια, ανεξάρτητα από την προέλευση του αναλογικού σήματος, το ψηφιακό σήμα θα περιέχει ένα δείγμα για τη φωτεινότητα κάθε 7,4nsec.

Σύμφωνα με την αρχή της μοναδικής συχνότητας δειγματοληψίας, ο αριθμός των δειγμάτων ανά γραμμή, ανάλογα με το πρότυπο τους αρχικού αναλογικού σήματος, που προκύπτει είναι: 858 δείγματα για το NTSC (858 ´ 525 ´ 30 = 13.500.000) και 864 για τα PAL και SECAM (864 ´ 625 ´ 25 = 13.500.000).

Το προκύπτον ψηφιακό σήμα θα αποτελείται από ακολουθίες με συχνότητα εμφάνισης των σημείων 13,5MHz και 6,75MHz για τη φωτεινότητα και τη χρωματική πληροφορία αντίστοιχα. Αυτό όμως δεν μπορεί να συμβαίνει στην πραγματικότητα, γιατί η ακτίνα που κάνει τη σάρωση θα καθυστερεί κατά την μεταγωγή από το τέλος κάθε γραμμής στην αρχή της επόμενης (οριζόντια επαναφορά), και από το τέλος κάθε πλαισίου στην αρχή του επόμενου (κάθετη επαναφορά). Σύμφωνα με τους αριθμούς που δώσαμε παραπάνω, η ακτίνα σάρωσης διαθέτει 858 ´ 7,4nsec ή 864 ´ 7,4nsec για να σαρώσει κάθε γραμμή. Αν συμπεριλάβουμε σε αυτά τα χρονικά διαστήματα και τους χρόνους επαναφοράς, προκύπτει ότι μπορούμε να έχουμε 720 δείγματα ανά γραμμή. Ο αριθμός αυτός υπολογίστηκε για τη φωτεινότητα. Για τις χρωματικές συνιστώσες θα είναι προφανώς ο μισός. Όσον αφορά στις γραμμές που σαρώνονται, μπορεί να βρεθεί ότι ο αριθμός τους θα είναι τελικά 486 στο NTSC και 576 στο PAL/SECAM.

Τέλος, όσον αφορά στην κβαντοποίηση των τιμών των δειγμάτων, χρησιμοποιούνται λέξεις των 8bits. Παρ’ όλα αυτά, δεν διατίθενται και οι 256 στάθμες για την κβαντοποίηση των δειγμάτων. Μερικές στάθμες φυλάσσονται για να αποθηκευτούν κάποιες άλλες πληροφορίες. Πιο αναλυτικά, για την φωτεινότητα υπάρχουν 220 διαφορετικές στάθμες,. Το μαύρο αντιστοιχεί στη στάθμη 16 και η μέγιστη τιμή φτάνει το 235. Η διαφορά χρώματος κινείται στο διάστημα 16 ως 240, με την τιμή 128 να αντιστοιχεί σε καθόλου χρώμα.


Σχήμα 4-5. Η δειγματοληψία ενός πλαισίου στην ψηφιακή τηλεόραση

Γενικές Αρχές Συμπίεσης

Σε αυτήν την ενότητα θα ασχοληθούμε με τις μεθόδους συμπίεσης που χρησιμοποιούνται σε εφαρμογές πολυμέσων. Δεν πρόκειται να επιχειρήσουμε αναλυτική περιγραφή αυτών, απλά θα δοθούν οι βασικές αρχές πάνω στις οποίες στηρίζονται.

Γιατί χρειαζόμαστε συμπίεση

Τα σημερινά αποθηκευτικά μέσα αδυνατούν να ικανοποιήσουν τις τεράστιες ανάγκες που επιβάλλουν οι εφαρμογές πολυμέσων που κάνουν ευρεία χρήση εικόνων, ήχου και βίντεο. Ένα CD-ROM, το οποίο έχει χωρητικότητα 650MB, χωρά 75 λεπτά ασυμπίεστου στερεοφωνικού ήχου ποιότητας CD αλλά μόλις 30δευτερόλεπτα ασυμπίεστης ψηφιακής τηλεόρασης. Ακόμα και οι μαγνητικοί δίσκοι, που φτάνουν τα 4GB, δεν επαρκούν, αφού μια ταινία 90 λεπτών απαιτεί γύρω στα 120GB.

Ψηφιοποιώντας μια φωτογραφία με μια λογική ανάλυση 2000´2000 σημείων, προκύπτουν 4εκατ. εικονοστοιχεία(pixels),  που αντιστοιχούν σε 10ΜΒ αποθηκευτικού χώρου. Αν αναλογιστούμε ότι ένα νοσοκομείο πρέπει να μπορεί να διατηρεί και προσπελαύνει μερικά εκατομμύρια ακτινογραφίες, καταλαβαίνουμε ότι, όσο γρήγορα και να αναπτύσσεται η τεχνολογία των αποθηκευτικών μέσων, χρειάζεται κάτι ακόμα για να υλοποιηθούν πραγματικές εφαρμογές πολυμέσων σε ευρεία κλίμακα.

Συμπίεση με απώλειες και χωρίς απώλειες

Τη λύση σε αυτό το πρόβλημα έρχεται να δώσει η συμπίεση. Στόχος της συμπίεσης είναι  ο περιορισμός του μεγέθους που καταλαμβάνει ένα ποσό πληροφορίας εις βάρος βέβαια της διαθεσιμότητας του, της υπολογιστικής ισχύος και πολύ συχνά και της ακρίβειας του περιεχομένου του.

Τα δύο πρώτα πράγματα που θυσιάζονται κατά την συμπίεση της πληροφορίας είναι η διαθεσιμότητα της και ένα ποσό υπολογιστικής ισχύος. Αυτό σημαίνει, ότι οι διαδικασίες συμπίεσης και αποσυμπίεσης έχουν υπολογιστικό κόστος, που μπορεί να είναι τόσο μεγάλο που να απαιτεί ειδικό υλικό για να γίνει σε πραγματικό χρόνο. Από την άλλη πλευρά, η συμπιεσμένη μορφή της πληροφορίας δεν είναι άμεσα αξιοποιήσιμη. Πρέπει να προηγηθεί το στάδιο της αποσυμπίεσης για να αποκτήσει ξανά το σημασιολογικό της περιεχόμενο. Συνήθως μας απασχολεί η ταχύτητα αποσυμπίεσης και όχι τόσο αυτή της συμπίεσης. Στις περισσότερες εφαρμογές η συμπίεση γίνεται μια φορά στο στάδιο της κατασκευής και με χρήση ειδικού υλικού, ενώ η αποσυμπίεση γίνεται από τους χρήστες που έχουν στην διάθεση τους υπολογιστές γενικής χρήσης.

Διακρίνουμε δύο τύπους αλγορίθμων συμπίεσης:

·       Αλγόριθμοι συμπίεσης χωρίς απώλειες ή αντιστρεπτοί (lossless compression)

          Αυτό το είδος αλγορίθμων έχει το ιδιαίτερο χαρακτηριστικό ότι η διαδικασία συμπίεσης δεν αλλοιώνει καθόλου την πληροφορία. Δηλαδή, μετά την αποσυμπίεση, η πληροφορία επανέρχεται ακριβώς στην μορφή που είχε πριν. Συνήθως, αυτοί οι αλγόριθμοι εφαρμόζονται σε περιπτώσεις που δεν υπάρχει κανένα περιθώριο απωλειών. Για παράδειγμα, αν η πληροφορία που μεταφέρεται είναι ένα πρόγραμμα υπολογιστή, ένα και μόνο αλλοιωμένο bit μπορεί να είναι αρκετό να καταστήσει το πρόγραμμα άχρηστο.

·       Αλγόριθμοι συμπίεσης με απώλειες ή μη αντιστρεπτοί (lossy compression)

          Αν, για παράδειγμα, η πληροφορία περιγράφει μια φωτογραφία, είναι δυνατόν να επιτύχουμε καλύτερη συμπίεση κάνοντας μερικές υποχωρήσεις όσον αφορά στην πιστότητα του συμπιεσμένου σήματος. Είναι φανερό ότι σε τέτοιες περιπτώσεις το σημασιολογικό περιεχόμενο ουσιαστικά δεν μεταβάλλεται αλλά υπεισέρχεται η έννοια της μείωσης της ποιότητας. Το ψηφιακό σήμα ως ακολουθία bits σαφώς και μεταβάλλεται.

Κωδικοποίηση εντροπίας και πηγής

Μια απλοποιημένη ταξινόμηση των τεχνικών συμπίεσης είναι η εξής:  κωδικοποίηση εντροπίας (entropy encoding) και κωδικοποίηση πηγής (source encoding).[5]

Κωδικοποίηση εντροπίας

Η κωδικοποίηση εντροπίας αναφέρεται σε τεχνικές, οι οποίες δεν λαμβάνουν υπ’ όψη τους το είδος της πληροφορίας που πρόκειται να συμπιεστεί. Με άλλα λόγια, αυτές οι τεχνικές αντιμετωπίζουν την πληροφορία ως μια απλή ακολουθία bits. Γι΄ αυτό το λόγο, η κωδικοποίηση εντροπίας μπορεί να εφαρμοσθεί ανεξάρτητα από το είδος της πληροφορίας. Επιπλέον, οι τεχνικές κωδικοποίησης εντροπίας προσφέρουν κωδικοποίηση  χωρίς απώλειες.

Ας δούμε ένα παράδειγμα. Μπορούμε να αντικαθιστούμε κάθε ακολουθία 10 διαδοχικών μηδενικών που βρίσκουμε με ένα ειδικό χαρακτήρα ακολουθούμενο από τον αριθμό 10. Με αυτόν τον τρόπο, μειώνουμε το μήκος της ακολουθίας χωρίς να κάνουμε καμία υπόθεση για την σημασία των μηδενικών, αλλά και χωρίς να αλλοιώνεται το σήμα.

Οι τεχνικές κωδικοποίησης εντροπίας διαχωρίζονται σε δύο βασικές κατηγορίες:

·       Περιορισμός των επαναλαμβανόμενων ακολουθιών (Suppression of repetitive sequences)

·       Στατιστική Κωδικοποίηση (Statistical encoding)

Κωδικοποίηση Πηγής

Η διαφορά αυτής της τεχνικής είναι ότι οι μετασχηματισμοί τους οποίους υφίστανται το αρχικό σήμα εξαρτώνται άμεσα από το τύπο του. Για παράδειγμα, ο λόγος χαρακτηρίζεται από συχνά διαστήματα σιωπής, που μπορούν να περιγραφούν με πιο αποτελεσματικό τρόπο. Δηλαδή, οι μετασχηματισμοί του σήματος κάνουν χρήση των ιδιαίτερων σημασιολογικών χαρακτηριστικών που μεταφέρει το σήμα.

Γενικά, αυτές οι τεχνικές μπορούν να παράγουν μεγαλύτερα ποσοστά συμπίεσης σε σχέση με την κωδικοποίηση εντροπίας. Μειονεκτούν όμως στη σταθερότητα, γιατί το ποσοστό συμπίεσης που επιτυγχάνουν διαφοροποιείται ανάλογα με το αντικείμενο που συμπιέζεται. Πάντως, η κωδικοποίηση πηγής μπορεί να λειτουργήσει και με απώλειες και χωρίς απώλειες.

Οι τεχνικές κωδικοποίησης πηγής διακρίνονται σε τρεις τύπους:

·       Κωδικοποίηση μετασχηματισμού (transform encoding)

·       Διαφορική ή προβλεπτική κωδικοποίηση (differential or predictive encoding)

·       Διανυσματική κβαντοποίηση (vector quantization)

Να σημειωθεί ότι οι δυο παραπάνω κατηγορίες κωδικοποίησης δεν αποκλείουν η μια την άλλη. Υπάρχουν αλγόριθμοι που συνδυάζουν τεχνικές και των δυο κατηγοριών για να επιτύχουν καλύτερα αποτελέσματα.

Περιορισμός των ακολουθιών επαναλαμβανόμενων χαρακτήρων


Αυτή η μέθοδος κωδικοποίησης εντροπίας είναι από τις παλαιότερες και πιο απλές που χρησιμοποιούνται. Η ιδέα είναι ότι σε μια τυχαία ακολουθία από bits είναι να πιθανό να εμφανιστούν κάποια τμήματα που αποτελούνται από κάποιο επαναλαμβανόμενο χαρακτήρα[6]. Αυτά τα τμήματα μπορούν να αντικατασταθούν από το χαρακτήρα, ένα ειδικό χαρακτήρα, που ονομάζεται σημαία, και το πλήθος των επαναλήψεων του χαρακτήρα σε αυτά. Η κωδικοποίηση αυτή έχει την παρακάτω σημασία: Κάθε φορά που συναντάται η σημαία, ο χαρακτήρας που προηγείται αυτής πρέπει να επαναληφθεί όσες φορές υποδεικνύει ο αριθμός που ακολουθεί τη σημαία.

Σχήμα 4-6. Παραδείγματα περιορισμού των επαναλαμβανόμενων
χαρακτήρων

Αυτή η μορφή που περιγράψαμε μπορεί να γίνει πιο αποδοτική, αν έχουμε συχνά εμφανιζόμενες ακολουθίες μηδενικών. Σ’ αυτές τις περιπτώσεις απαιτείται απλώς μια σημαία (που θα σημαίνει “επαναλαμβανόμενα μηδενικά”) και ο αριθμός των επαναλήψεων. Και στις δύο περιπτώσεις, το μήκος των ακολουθιών πρέπει να είναι τέτοιο, ώστε να υπάρχει ουσιαστικό όφελος από αυτήν την αντικατάσταση.

Στατιστική Κωδικοποίηση

Και η στατιστική κωδικοποίηση είναι μια μέθοδος που χρησιμοποιείται πολύ συχνά. Η βασική αρχή αυτής της τεχνικής βρίσκεται στο εντοπισμό των πιο συχνά εμφανιζόμενων ακολουθιών χαρακτήρων και στην κωδικοποίηση τους με λιγότερα bits. Δηλαδή οι σπάνια εμφανιζόμενες ακολουθίες θα έχουν μεγαλύτερους κωδικούς, ενώ οι συχνές μικρότερους.

Είναι φανερό ότι η μέθοδος απαιτεί την ύπαρξη λεξικού, όπου αποθηκεύονται οι ακολουθίες που αντιστοιχούν σε κάθε κωδικό για να μπορεί να γίνει η αποσυμπίεση. Καθοριστικής σημασίας για την επίδοση του αλγόριθμου είναι η στατιστική επεξεργασία των δεδομένων, για την ανεύρεση των ακολουθιών που θα κωδικοποιηθούν με μικρούς κωδικούς. Στην απλούστερη περίπτωση, το λεξικό είναι σταθερό, ενώ στην πιο σύνθετη το βρίσκουμε κάθε φορά που γίνεται η συμπίεση κάποιας ποσότητας δεδομένων.

Η στατιστική κωδικοποίηση παίρνει δύο μορφές: αντικατάσταση προτύπων (pattern substitution) και κωδικοποίηση Huffman (Huffman encoding).

Αντικατάσταση προτύπων

Η μέθοδος της αντικατάστασης προτύπων χρησιμοποιείται αποκλειστικά για κείμενα. Συχνά εμφανιζόμενα πρότυπα (ακολουθίες χαρακτήρων, λέξεις) αντικαθιστώνται με λίγους χαρακτήρες. Για παράδειγμα, θα μπορούσαμε να κωδικοποιήσουμε αυτές τις σημειώσεις αντικαθιστώντας τη λέξη “πολυμέσα” με τους χαρακτήρες “*π”. Σε  μια τέτοια περίπτωση, το λεξικό προκύπτει από ανάλυση του κειμένου, ενώ κάποιες λέξεις είναι εκ των προτέρων γνωστό ότι θα εμφανιστούν σίγουρα.

Κωδικοποίηση Huffman

Η κωδικοποίηση Huffman αποτελεί μια γενίκευση τις στατιστικής κωδικοποίησης. Για κάποιο ρεύμα[7] δεδομένων υπολογίζεται η συχνότητα εμφάνισης κάθε χαρακτήρα. Από αυτήν την συχνότητα, ο αλγόριθμος του Huffman υπολογίζει το ελάχιστο μήκος κωδικού που πρέπει να δοθεί σε κάθε χαρακτήρα και πραγματοποιεί τη βέλτιστη ανάθεση κωδικών. Αυτοί οι κωδικοί αποθηκεύονται στο λεξικό.

Η  μέθοδος του Huffman χρησιμοποιείται στη συμπίεση ακίνητης και κινούμενης εικόνας. Ανάλογα με τις λεπτομέρειες τις υλοποίησης, ένα νέο λεξικό δημιουργείται για κάθε εικόνα ή ομάδα εικόνων. Στην περίπτωση της κινούμενης εικόνας, το λεξικό μπορεί να επαναδημιουργείται για κάθε πλαίσιο ή σειρά πλαισίων. Σε κάθε περίπτωση, η διαδικασία συμπίεσης πρέπει να αποθηκεύει το λεξικό για να είναι δυνατή η αποσυμπίεση.

 

Κωδικοποίηση μετασχηματισμού

 

Η κωδικοποίηση μετασχηματισμού είναι ο πρώτος τύπος κωδικοποίησης πηγής που εξετάζουμε. Όπως έχουμε εξηγήσει, η κωδικοποίηση πηγής λαμβάνει υπ’ όψη και τις ιδιότητες του σήματος που πρόκειται να συμπιεστεί. Η κωδικοποίηση μετασχηματισμού χρησιμοποιείται συνήθως στη συμπίεση εικόνων. Η βασική της αρχή είναι η εξής:

 

 

Στη κωδικοποίηση μετασχηματισμού, το σήμα υφίσταται ένα μαθηματικό μετασχηματισμό από το αρχικό πεδίο του χρόνου ή του χώρου σε ένα αφηρημένο πεδίο το οποίο είναι πιο κατάλληλο για συμπίεση. Αυτή η διαδικασία είναι αντιστρεπτή, δηλαδή υπάρχει ο αντίστροφος μετασχηματισμός που θα επαναφέρει το σήμα στην αρχική του μορφή.

 

Ένας τέτοιος μετασχηματισμός είναι ο μετασχηματισμός Fourier. Μέσω του μετασχηματισμού Fourier μια συνάρτηση του χρόνου f(t) μπορεί να μετασχηματιστεί σε μια g(λ) στο πεδίο των συχνοτήτων. Η νέα αυτή συνάρτηση παρέχει το πλάτος (ή συντελεστή) g των συχνοτήτων λ που απαρτίζουν την αρχική συνάρτηση. Στην περίπτωση των εικόνων χρησιμοποιείται μια ειδική μορφή του μετασχηματισμού Fourier, o διακριτός συνημιτονικός μετασχηματισμός Fourier, και το σημαντικό σημείο που εκμεταλλευόμαστε είναι το εξής:

 

 

Στη φασματική (στο πεδίο των συχνοτήτων) αναπαράσταση των εικόνων, οι συχνότητες περιγράφουν πόσο γρήγορα μεταβάλλονται τα χρώματα και η απόλυτη φωτεινότητα.

 

Εκτός από τον μετασχηματισμό Fourier υπάρχουν και άλλοι, όπως οι μετασχηματισμοί των Hadamar, Haar και των Karhunen-Loeve. Ανάλογα με τις ιδιότητες του τύπου της πληροφορίας που θέλουμε να συμπιέσουμε, επιλέγουμε και τον καταλληλότερο μετασχηματισμού.

Σχήμα 4-7. Η βασική αρχή της κωδικοποίησης μετασχηματισμού

Αφού επιλεχθεί και εκτελεστεί ο μετασχηματισμός, βρίσκουμε τους πιο σημαντικούς από τους συντελεστές και τους περιγράφουμε με μεγάλη ακρίβεια. Τους λιγότερο σημαντικούς μπορούμε να τους περιγράψουμε με μικρότερη ακρίβεια ή και να τους αγνοήσουμε τελείως. Κάνοντας κάτι τέτοιο η διαδικασία συμπίεσης έχει απώλειες. Παρ’ όλα αυτά, οι μετασχηματισμοί από μόνοι τους είναι αντιστρεπτοί.

Διαφορική ή προβλεπτική κωδικοποίηση

Η διαφορική κωδικοποίηση αποτελεί τη δεύτερη από τις μεθόδους κωδικοποίησης πηγής που θα περιγράψουμε. Η βασική αρχή της είναι η εξής:

 

Μόνο η διαφορά ανάμεσα στην πραγματική τιμή ενός δείγματος και στην προβλεπόμενη τιμή του κωδικοποιείται.

 

Αυτή η διαφορά ονομάζεται διαφορά πρόβλεψης ή παράγοντας λάθους. Από αυτήν προκύπτει και η εναλλακτική ονομασία αυτής της τεχνικής που είναι προβλεπτική κωδικοποίηση. Η τεχνική αυτή μπορεί να υλοποιηθεί με ποικίλους τρόπους, ανάλογα με την μέθοδο που χρησιμοποιείται για την εκτίμηση των τιμών των δειγμάτων.

Η διαφορική κωδικοποίηση είναι κατάλληλη για σήματα, οι διαδοχικές τιμές των οποίων αναμένεται να διαφέρουν, αλλά όχι πολύ. Κατά συνέπεια, η διαφορική κωδικοποίηση μπορεί να χρησιμοποιηθεί για συμπίεση κινούμενης εικόνας (όπου μόνο οι διαφορές μεταξύ των διαδοχικών πλαισίων μπορούν να αποστέλλονται) ή ήχου.

Διακρίνουμε τρεις μορφές διαφορικής κωδικοποίησης: απλή διαφορική παλμοκωδική διαμόρφωση (differential pulse code modulation-DPCM), δέλτα διαμόρφωση (delta modulation) και προσαρμοστική διαφορική παλμοκωδική διαμόρφωση (adaptive pulse code modulation-ADPCM).

 

Απλή διαφορική παλμοκωδική διαμόρφωση

 

Η διαφορική παλμοκωδική διαμόρφωση είναι η πιο απλή από τις τρεις μορφές διαφορικής κωδικοποίησης. Ο μηχανισμός που χρησιμοποιείται για την πρόβλεψη των τιμών των δειγμάτων είναι σταθερός σε όλη τη διάρκεια της κωδικοποίησης. Η προβλεπόμενη τιμή κάθε δείγματος είναι απλά η τιμή του προηγούμενου δείγματος. Δηλαδή για τη χρονική στιγμή t θα κωδικοποιηθεί η διαφορά των δειγμάτων δt-δt-1 όπου ως προβλεπόμενη τιμή έχει χρησιμοποιηθεί η τιμή του δείγματος δt-1 τη χρονική στιγμή t-1.

 

Δέλτα διαμόρφωση

 

Η δέλτα διαμόρφωση αποτελεί μια ειδική μορφή της DPCM. Ο μηχανισμός πρόβλεψης είναι ακριβώς ο ίδιος. Η διαφορά έγκειται στον τρόπο κωδικοποίησης των διαφορών:

Στη δέλτα διαμόρφωση, η διαφορά μεταξύ της προβλεπόμενης και της τρέχουσας τιμής του δείγματος κωδικοποιείται με ένα μόνο bit.


Αυτό σημαίνει ότι κάθε δείγμα μπορεί να είναι είτε μεγαλύτερο είτε μικρότερο κατά ένα κβάντο από το προηγούμενο του. Αυτός ο περιορισμός οδηγεί σε μεγάλη οικονομία αλλά αν το σήμα αλλάζει γρήγορα θα υπάρχει μεγάλη απώλεια πληροφορίας. Άρα η δέλτα διαμόρφωση είναι κατάλληλη για σήματα χαμηλών συχνοτήτων.

Σχήμα 4-8. Τρία είδη διαφορικής κωδικοποίησης

Προσαρμοστική διαφορική παλμοκωδική διαμόρφωση

Η προσαρμοστική διαφορική παλμοκωδική διαμόρφωση (ADPCM) είναι μια πιο σύνθετη μορφή DPCM.

 

Στην ADPCM, αντί να χρησιμοποιείται ένας σταθερός μηχανισμός πρόβλεψης, χρημοποιείται ένας δυναμικός μηχανισμός που προσαρμόζεται ανάλογα με τα χαρακτηριστικά του προς δειγματοληψία σήματος

 

Κατά τα άλλα, όπως και στην απλή DPCM, μόνο η διαφορά μεταξύ της πραγματικής και της προβλεπόμενης τιμής κάθε δείγματος μεταδίδεται.

Διανυσματική κβαντοποίηση

Η διανυσματική κβαντοποίηση αποτελεί ίσως την πιο ελπιδοφόρα τεχνική κωδικοποίησης πηγής. Αποτελεί μια ειδική περίπτωση της μεθόδου αντικατάστασης προτύπων που περιγράψαμε παραπάνω. Τα βασικά χαρακτηριστικά λειτουργίας της είναι τα ακόλουθα:

·       Το ρεύμα δεδομένων χωρίζεται σε τμήματα που ονομάζονται διανύσματα. Για παράδειγμα, αν τα δεδομένα μας αποτελούν μια εικόνα, κάθε διάνυσμα μπορεί να είναι ένα τετράγωνο ή παραλληλόγραμμο τμήμα της εικόνας. Υποθέτουμε ότι όλα τα διανύσματα έχουν το ίδιο μικρό μέγεθος και ότι αποτελούνται από v οκτάδες.

·       Υπάρχει ένας πίνακας που περιέχει ένα σύνολο από πρότυπα διανύσματα. Αυτός ο πίνακας αποτελεί το λεξικό της μεθόδου και πρέπει να είναι διαθέσιμο τόσο κατά την συμπίεση, όσο και την αποσυμπίεση των δεδομένων. Το λεξικό μπορεί να είναι προκαθορισμένο, δηλαδή το ίδιο σε όλες τις διαδικασίες συμπίεσης ή δυναμικό. Στην τελευταία περίπτωση, κάθε φορά που ξεκινά η συμπίεση των δεδομένων, ένα νέο λεξικό δημιουργείται.

·       Η συμπίεση έγκειται στην αντικατάσταση κάθε διανύσματος της αρχικής πληροφορίας με το πιο ταιριαστό από τα πρότυπα του λεξικού. Κάνοντας χρήση του λεξικού, αντί για ολόκληρα τα πρότυπα, μόνο η ετικέτα τους ή ο αύξων αριθμός τους στο λεξικό είναι απαραίτητο να αποθηκευτεί.

Άρα η βασική αρχή αυτής της μεθόδου είναι:

 

Τα δεδομένα χωρίζονται σε διανύσματα. Αντί να μεταδίδεται η πραγματική πληροφορία, μεταδίδεται η ετικέτα των πιο ταιριαστών προτύπων μέσα από ένα λεξικό.

 

Η δυσκολία της μεθόδου επικεντρώνεται στη δημιουργία ενός λεξικού που περιέχει πρότυπα που μοιάζουν  όσον το δυνατόν περισσότερο με τα εμφανιζόμενα διανύσματα. Αν κάτι τέτοιο δεν συμβαίνει, θα έχουμε μεγάλη παραμόρφωση των δεδομένων. Πάντως, στη γενική περίπτωση, αναμένεται κάποια, έστω μικρή, απόκλιση από τα αρχικά δεδομένα..

Σχήμα 4-9. Η βασική αρχή της διανυσματικής κβαντοποίησης

Για να επιλυθεί το πρόβλημα της ύπαρξης διανυσμάτων που διαφέρουν σημαντικά από όλα τα πρότυπα του λεξικού, υπολογίζεται η διαφορά μεταξύ αυτών των διανυσμάτων και των αντίστοιχων πιο ταιριαστών προτύπων. Αυτή η διαφορά μεταδίδεται μαζί με την ετικέτα του πιο ταιριαστού προτύπου, οπότε μπορεί να συντεθεί μια ικανοποιητική προσέγγιση των προβληματικών διανυσμάτων. Η ποιότητα της προσέγγισης αυτής μπορεί να είναι όσο καλή θέλουμε και εξαρτάται από τον τρόπο υπολογισμού και μετάδοσης της διαφοράς.  Δηλαδή η διανυσματική κβαντοποίηση ανήκει είτε στις μεθόδους συμπίεσης με απώλειες είτε στις μεθόδους χωρίς απώλειες.

Σχήμα 4-10. Η βασική αρχή της διανυσματική κβαντοποίησης με μετάδοση
όρου λάθους

Η διανυσματική κβαντοποίηση είναι πολύ αποτελεσματική για την κωδικοποίηση τύπων πληροφορίας, των οποίων τα χαρακτηριστικά είναι γνωστά και άρα μπορούν να κατασκευαστούν για αυτά ικανοποιητικά λεξικά. Ο λόγος είναι ένα είδος πληροφορίας που έχει αυτήν την ιδιότητα.

Συμπίεση με fractals

Θα ολοκληρώσουμε την παρουσίαση των βασικών τεχνικών συμπίεσης με λίγα λόγια για μια πιο νέα τεχνική συμπίεσης, την συμπίεση με χρήση fractals.

Η γεωμετρία των fractals θεμελιώθηκε από τον B. Mandelbrot. Ο B. Mandelbrot παρατήρησε ότι η κλασσική γεωμετρία που μελετούσε απλά σχήματα με βάση της γραμμές και τους κύκλους, δεν μοιάζει με την γεωμετρία που συναντάται στη φύση. Στη φύση, τα περισσότερα σχήματα είναι εξαιρετικά σύνθετα αλλά προκύπτουν από την επανάληψη σε διαφορετικές κλίμακες και γωνίες του ιδίου βασικού σχήματος. Αυτού του είδους οι γεωμετρικοί σχηματισμοί ονομάζονται fractals. Οι διαφορετικές μορφές που μπορεί να πάρει ένα fractal περιγράφονται με μαθηματικούς τύπους που ονομάζονται, μετασχηματισμοί fractal (fractal transformations).

Οι πρώτες χρήσεις των fractals ήταν στη δημιουργία εικόνων. Τα τελευταία χρόνια μελετώνται και τρόποι εφαρμογής αυτής της θεωρίας για την συμπίεση εικόνων. Η βασική αρχή αυτών των μεθόδων είναι η εξής:

Η εικόνα χωρίζεται σε μικρά τμήματα. Στη συνέχεια, αναζητούνται περιοχές της εικόνας που μπορούν να προκύψουν, με ικανοποιητική ακρίβεια, με μετασχηματισμό fractal κάποιου τμήματος. Αυτή η διαδικασία επαναλαμβάνεται για όλα τα τμήματα της εικόνας. Στόχος είναι να περιγραφεί αυτή η εικόνα με ένα σύνολο τέτοιων μετασχηματισμών των μικρών τμημάτων που θα καταλαμβάνουν πολύ λιγότερο χώρο από την αρχική εικόνα.

Μπορούμε να παρατηρήσουμε κάποια ομοιότητα με την μέθοδο της διανυσματικής κβαντοποίησης. Το σύνολο των μαθηματικών μετασχηματισμών παίζει το ρόλο ενός εικονικού λεξικού (virtual code-book), που εξαρτάται άμεσα από την εικόνα που συμπιέζεται και πρέπει να μεταδίδεται ολόκληρο από τη διαδικασία συμπίεσης σε αυτήν της αποσυμπίεσης. Χαρακτηρίζεται εικονικό, γιατί προκύπτει με βάση τους μετασχηματισμούς fractal κατά το στάδιο της αποσυμπίεσης.

Αν και ακόμα δεν έχει ωριμάσει αυτή η τεχνική, οι ειδικοί ευελπιστούν ότι μπορεί να επιτύχει λόγους συμπίεσης της τάξης 1000:1. Περά όμως από την νεότητα, η τεχνική αυτή έχει ένα ακόμα μειονέκτημα. Η διαδικασία συμπίεσης είναι εξαιρετικά επίπονη και απαιτεί άφθονη υπολογιστική ισχύ. Αντίθετα, η αποσυμπίεση δεν έχει τέτοιες δυσκολίες.

Συμμετρία των τεχνικών συμπίεσης

Η fractal συμπίεση και γενικότερα η διανυσματική κβαντοποίηση, είναι χαρακτηριστικές περιπτώσεις ασύμμετρων τεχνικών συμπίεσης. Η ασυμμετρία αυτή αναφέρεται στη διαφορά πολυπλοκότητας και ταχύτητας μεταξύ των διαδικασιών συμπίεσης και αποσυμπίεσης.

Η ασυμμετρία αποτελεί ένα μείζον πρόβλημα εφαρμογή των τεχνικών συμπίεσης στην τεχνολογία των πολυμέσων γιατί δυσχεραίνει την υλοποίηση ορισμένων εφαρμογών. Για παράδειγμα, η μετάδοση σε πραγματικό χρόνο ήχου και βίντεο δεν επιτρέπει μεγάλες χρονικές καθυστερήσεις. Επιπλέον, πολλές interactive εφαρμογές δεν αντέχουν μεγάλες καθυστερήσεις συμπίεσης. Κατά συνέπεια, εφαρμογές όπως η τηλεδιάσκεψη, αναγκαστικά υλοποιούνται με μικρότερα ποσοστά συμπίεσης.

Οι μεγάλοι λόγοι συμπίεσης που επιτυγχάνουν οι ασύμμετρες τεχνικές, τις κάνουν ιδανικές για εφαρμογές όπου η πληροφορία συμπιέζεται μια φορά κατά την αποθήκευση της και στην συνέχεια ζητείται μονάχα η προβολή της. Για παράδειγμα, τέτοιες εφαρμογές είναι οι εκπαιδευτικοί τίτλοι που κυκλοφορούν σε CD-ROM.



[1] Περισσότερες λεπτομέρειες για αυτά τα πρότυπα ακολουθούν στην επόμενη παράγραφο.

[2] Η κινούμενη εικόνα αποτελείται από διαδοχικές εικόνες που ονομάζονται πλαίσια. Κάθε πλαίσιο αποτελείται από ένα καθορισμένο αριθμό γραμμών. Ο αριθμός των γραμμών σε κάθε πλαίσιο καθώς και η ταχύτητα εναλλαγής των πλαισίων καθορίζονται από το πρότυπο τηλεόρασης που χρησιμοποιείται.

[3] Σύμφωνα με την πλεκτή σάρωση, κάθε πλαίσιο χωρίζεται σε δύο τμήματα: ένα που αποτελείται από τις ζυγές γραμμές και ένα από τις μονές. Αντί λοιπόν να αποστέλλονται π.χ. 30 πλαίσια το δευτερόλεπτο, αποστέλλονται 60 τμήματα, εναλλάξ τα μονά με τα ζυγά. Αυτό έχει ως αποτέλεσμα να μειωθεί η ποιότητα της εικόνας, αλλά γίνεται οικονομία του bandwidth.

[4] Fps: πλαίσια ανά δευτερόλεπτο (frames per second).

[5] Στην ορολογία της ψηφιακής επεξεργασίας σήματος, ο όρος “κωδικοποίηση” περιλαμβάνει και την έννοια της συμπίεσης.

[6] Υποθέτουμε ότι η ακολουθία από bits που αποτελεί την πληροφορία ομαδοποιείται σε χαρακτήρες ή οκτάδες από bits. Οι χαρακτήρες αποτελούν το ελάχιστο ποσό πληροφορίας. Υπάρχουν βέβαια και κάποιοι αλγόριθμοι συμπίεσης που λειτουργούν με άλλες ομαδοποιήσεις.

[7] Ως ρεύμα (stream) ορίζουμε μια άπειρη ακολουθία στοιχείων