Ήχος

Ήχος και Εφαρμογές

Μέχρι σήμερα, η βιομηχανία των υπολογιστών δεν έχει επιδείξει ιδιαίτερα μεγάλο ενδιαφέρον για τον ήχο στις εφαρμογές πολυμέσων. Αυτό οφείλεται κυρίως στην εστίαση των προσπαθειών στην εισαγωγή του video αλλά και στη δυσκολία καθορισμού της χρησιμότητας του ήχου σε επαγγελματικές εφαρμογές (business applications). Σαν αποτέλεσμα, ο ήχος στα πολυμέσα περιορίζεται στις ψυχαγωγικές και εκπαιδευτικές εφαρμογές.

Παρ’ όλα αυτά, είναι φανερό ότι ο ήχος, κατάλληλα συνδυασμένος με τα άλλα είδη πληροφορίας, μπορεί να κάνει μια εφαρμογή πολυμέσων πιο αποτελεσματική. Ιδιαίτερα σε εκπαιδευτικές εφαρμογές και περίπτερα πληροφοριών (information kiosks) η αφήγηση και ο σχολιασμός των όσων παρουσιάζονται στην οθόνη βοηθά στην μετάδοση του μηνύματος ενώ η κατάλληλη ηχητικά υπόκρουση καθιστά την παρακολούθηση της εφαρμογής πιο ευχάριστη. Το μοναδικό χαρακτηριστικό του ήχου να γίνεται αντιληπτός χωρίς να έχουμε την προσοχή μας εστιασμένη, καθιστά τα ηχητικά σήματα αναντικατάστατα στην απόσπαση της προσοχής του χρήστη.

Υπάρχουν ορισμένες κατηγορίες εφαρμογών όπου ο ήχος αποτελεί την καρδιά του συστήματος. Εφαρμογές που έχουν ως αντικείμενο την μουσική ή ακόμα εφαρμογές που προορίζονται για ανθρώπους με προβλήματα όρασης κάνουν εκτενή και αποτελεσματική χρήση του ήχου.

Με την πρόοδο της τεχνολογίας, το ενδιαφέρον για την εφαρμογή της αναγνώρισης και σύνθεσης ομιλίας σε επαγγελματικές εφαρμογές μεγαλώνει. Ήδη έχουν εμφανιστεί τα πρώτα δείγματα συστημάτων χειρισμού ενός υπολογιστή με προφορικές εντολές  και υπαγόρευσης κειμένου στον υπολογιστή.

Σύλληψη (capture) και Συμπίεση

Ένας ψηφιοποιητής ήχου (sound digitiser) χρησιμοποιείται για τη σύλληψη σε ψηφιακή μορφή αναλογικού σήματος ήχου από κασέτες, δίσκους, και δίσκους CD. Εναλλακτικά, η μουσική μπορεί να ηχογραφηθεί μέσω μικροφώνου συνδεδεμένου στον υπολογιστή ή να συντεθεί μέσω μουσικών οργάνων που επικοινωνούν με τον υπολογιστή διαμέσου ενός MIDI interface.

Μουσική και υπολογιστές

Κάθε ήχος μπορεί να αποθηκευτεί στον υπολογιστή ως ψηφιοποιημένο ηχητικό σήμα. Αυτό το σήμα μπορεί να είναι συμπιεσμένο ή ασυμπίεστο. Σε κάθε όμως περίπτωση δεν περιέχει καμία σημασιολογική πληροφορία για τον ήχο που περιγράφει. Αυτή η μορφή αναπαράστασης του ήχου είναι το αντίστοιχο της χαρτογραφικής απεικόνισης των εικόνων. Σε αναλογία με τα γραφικά, υπάρχει για τη μουσική το πρότυπο MIDI (Musical Instrument Digital Interface).

Το πρότυπο αυτό αναπτύχθηκε στη αρχή της δεκαετίας του 80. Το MIDI καθορίζει πως κωδικοποιούνται τα διάφορα στοιχεία μιας μουσικής παρτιτούρας καθώς και τα όργανα που συμμετέχουν. Υπάρχει η δυνατότητα χρησιμοποίησης 127 οργάνων και ηχητικών εφέ. Το MIDI περιέχει και πρότυπα για την επικοινωνία μουσικών οργάνων με υπολογιστή. Ένας υπολογιστής με MIDI interface μπορεί να χειριστεί συσκευές που ακολουθούν αυτό το πρότυπο όπως ηλεκτρονικά synthesizers. Στις πιο πολλές κάρτες ήχου που προσφέρουν MIDI, η σύνθεση των ήχων των οργάνων γίνεται συνήθως με FM σύνθεση που δεν δίνει καλά αποτελέσματα. Σε πολλές όμως περιπτώσεις, περιέχουν αποθηκευμένα σε μνήμη ROM δείγματα πραγματικών οργάνων με αποτέλεσμα η μουσική MIDI να μοιάζει αρκετά με πραγματική.

Τα πλεονεκτήματα και μειονεκτήματα του MIDI έναντι της ψηφιοποιημένης μουσικής είναι ανάλογα με αυτά των εικόνων έναντι των γραφικών. Υπάρχει μεγαλύτερη ευελιξία στην επεξεργασία της μουσικής MIDI ενώ απαιτείται και σημαντικά μικρότερος αποθηκευτικός χώρος. Από την άλλη πλευρά, υπάρχει υπολογιστικό κόστος για να μετατραπεί η συμβολική αναπαράσταση MIDI σε ακουστή κυματομορφή. Επίσης, το αποτέλεσμα εξαρτάται από τη συσκευή εξόδου και συνήθως είναι υποδεέστερο της ψηφιοποιημένης μουσικής.

 

Ομιλία και υπολογιστές

Η εκμετάλλευση της ομιλίας σε εφαρμογές υπολογιστών αναμένεται να είναι πολύ σημαντικότερη σε σχέση με τη μουσική. Αρκετές εταιρείες όπως η Apple η Microsoft και η Creative Labs παρέχουν λογισμικό και κάρτες ήχου που κάνουν χρήση της ομιλίας. Για παράδειγμα, το Windows Sound System της Microsoft αποτελείται από μια κάρτα ήχου 16bit, μικρόφωνο, ακουστικά και λογισμικό που στοχεύει σε επαγγελματικές εφαρμογές (business applications). Το λογισμικό πακέτο περιλαμβάνει εργαλεία αναγνώρισης φωνής για τον προφορικό έλεγχο του συστήματος, σύνθεση φωνής και δυνατότητα εισαγωγής ηχητικών αντικειμένων σε εφαρμογές που υποστηρίζουν το πρότυπο OLE.

Ένα άλλο χαρακτηριστικό παράδειγμα που υποδηλώνει το μέλλον αυτής της τεχνολογίας είναι το Personal Dictation System της IBM που έχει ενσωματωθεί στο λειτουργικό της σύστημα OS/2. Υποστηρίζει υπαγόρευση 70 έως 100 λέξεων το λεπτό ενώ το σύστημα χρησιμοποιείται για το προφορικό χειρισμό του συστήματος OS/2 και των εφαρμογών του.

Η τεχνολογία αναγνώρισης ομιλίας, έχει προχωρήσει σημαντικά. Τυπικές επιδόσεις των σημερινών εργαλείων αναγνώρισης ομιλίας είναι 30000 λέξεις για σύστημα εκπαιδευμένο σε συγκεκριμένο ομιλητή και όταν οι λέξεις προφέρονται καθαρά και με μικρές παύσεις ανάμεσα τους. Αντίθετα, αν ο λόγος είναι συνεχής και ο ομιλητής άγνωστος, το λεξιλόγιο των συστημάτων πέφτει στις 400 λέξεις. Αν και αυτές οι επιδόσεις δίνουν σημαντικές πρακτικές εφαρμογές, χρειάζεται ακόμα δουλειά για να μπορούν τα συστήματα αυτά να δουλεύουν αποτελεσματικά στις μη ιδανικές συνθήκες της καθημερινής εργασίας σε ένα γραφείο.

Συμπίεση

Ο ήχος είναι γενικά δύσκολο να συμπιεστεί γιατί η ακοή είναι πιο ευαίσθητη στις αλλοιώσεις του ήχου σε σχέση με την όραση. Εξαιτίας του ενδιαφέροντος για συμπίεση του ήχου στην τηλεφωνία, έχουν αναπτυχθεί πολλές τεχνικές αποτελεσματικής κωδικοποίησης της ομιλίας. Στην μουσική τα πράγματα είναι πιο δύσκολα γιατί και οι απαιτήσεις ποιότητας είναι μεγαλύτερες και το εύρος ζώνης της είναι σημαντικά μεγαλύτερο από αυτό της ανθρώπινης φωνής.

Στον παρακάτω πίνακα παρουσιάζονται οι συχνότητες δειγματοληψίας και το μήκος της λέξης κατά την κβαντοποίηση για διάφορα πρότυπα συμπίεσης ήχου. Εκτός από την κατάλληλη επιλογή αυτών των παραμέτρων ανάλογα με τις απαιτήσεις της εφαρμογής, περαιτέρω συμπίεση μπορεί να επιτευχθεί με αφαίρεση των σιωπηλών τμημάτων και με καλύτερες μεθόδους κωδικοποίησης όπως: μη γραμμική PCM όπως λογαριθμική ή μ-law, διαφορική PCM και προσαρμοστική διαφορική PCM.

 

Συχνότητα Δειγματοληψίας

(kHz)

Κβαντοποίηση

(bits)

Τεχνική Κωδικοποίησης

Ποιότητα

44.1

16

PCM

Hi-fi

37.8

8

ADPCM

Hi-fi

37.8

8

ADPCM

FM μετάδοση (μουσική)

18.9

 

ADPCM

AM μετάδοση (ομιλία)

8

8

PCM

Τηλεφωνική

Πίνακας 5-2. Ηχητική ποιότητα και μέθοδος ψηφιοποίησης

Πρότυπα

Οπτικοακουστική Τηλεφωνία (Audiovisual Telephony)

Η οικογένεια προτύπων H.320 που δημοσιεύτηκαν από την ITU-TS και καλύπτουν εφαρμογές teleconferencing και videophony αποτελούν τη βάση επικοινωνίας μεταξύ συσκευών διαφορετικών κατασκευαστών. Το πρότυπο υποστηρίζει τόσο τηλεπικοινωνιακά δίκτυα όσο και δίκτυα υπολογιστών. Στην οικογένεια αυτή περιλαμβάνονται και τη σειρά προτύπων ITU-G για συμπίεση ήχου. Τα χαρακτηριστικά αυτών των προτύπων φαίνονται στον επόμενο πίνακα.

 

Πρότυπο

Περιγραφή

G.711

PCM συχνοτήτων φωνής

G.722

ADPCM με συχνότητα 7kHz και απαιτούμενο εύρος ζώνης 64Kbits/s

G.728

CELP[1] κωδικοποίηση που απαιτεί 16Kbits/s

Πίνακας 5-3. Πρότυπα για κωδικοποίηση ήχου

Τα πρότυπα MPEG

 

Η ομάδα Moving Pictures Experts Group (MPEG) του ISO/IEC αναπτύσσει πρότυπα για video και ήχο από το 1988. Το πρότυπο που προέκυψε από την πρώτη φάση είναι το MPEG-1 ενώ η έρευνα συνεχίζεται στο MPEG-2. Για κάποιο χρονικό διάστημα υπήρχε σε εξέλιξη το MPEG-3 αλλά εγκαταλείφθηκε και ένα τμήμα του ενσωματώθηκε στο MPEG-2.

Κάθε ένα από αυτά στοχεύει σε εφαρμογές με διαφορετικές απαιτήσεις ποιότητας και εύρους ζώνης και εκτός από τεχνικές συμπίεσης κινούμενης εικόνας περιέχει και ένα κομμάτι που αναφέρεται στην συμπίεση του ήχου. Οι τεχνικές συμπίεσης ήχου δεν περιορίζονται στη φωνή αλλά είναι σχεδιασμένες για τη γενικότερη περίπτωση της μουσικής.

Στη συνέχεια θα περιγράψουμε σε συντομία τα βασικά χαρακτηριστικά του ηχητικού κομματιού του MPEG-1 ενώ στην επόμενη ενότητα θα επεκταθούμε και στη κινούμενη εικόνα.

MPEG-1

Με δυο λόγια θα μπορούσαμε να περιγράψουμε το MPEG-1 ως εξής:

 

Το ηχητικό κομμάτι του MPEG-1 δεν αποτελεί έναν αλγόριθμο συμπίεσης, αλλά μια οικογένεια τριών διαφορετικών τεχνικών κωδικοποίησης και συμπίεσης ήχου. Αυτές οι οικογένειες ονομάζονται MPEG-Audio Layer-1, Layer-2, Layer-3.

 

Και οι τρεις αυτές τεχνικές στηρίζονται στην ίδια αρχή: η συμπίεση γίνεται συνδυάζοντας ένα είδος κωδικοποίησης μετασχηματισμού και sub-band division. Οι διαφορές αυτών των τριών στρωμάτων  εντοπίζονται στο τελικό στάδιο της κβαντοποίησης.

Τα βασικά βήματα που ακολουθούνται είναι:

·       Χωρισμός του φάσματος σε 32 τμήματα (sub-bands)

·       Εφαρμόζεται στο σήμα ένας ταχύς μετασχηματισμός Fourier (Fast Fourier Transform)

·       Ένα ψύχο-ακουστικό μοντέλο εφαρμόζεται στο μετασχηματισμένο σήμα για να υπολογιστεί το ελάχιστο επίπεδο θορύβου που γίνεται αντιληπτό από το μέσο ακροατή

To MPEG-1 προβλέπει δύο ηχητικά κανάλια. Αυτά μπορούν να απλά (μονοφωνικά), διπλά (δύο μονοφωνικά κανάλια), απλά στερεοφωνικά (ένα κανάλι μεταφέρει το αριστερό ηχητικό σήμα και το άλλο το δεξί) ή από κοινού στερεοφωνικά (joint stereo, το ένα κανάλι μεταφέρει το άθροισμα και το άλλο τη διαφορά των σημάτων). Το πρότυπο χρησιμοποιεί 16bits για την κωδικοποίηση των δειγμάτων ενώ η συχνότητα δειγματοληψίας είναι 44.1kHz, 48kHz ή 32kHz.

Οι επιδόσεις κάθε στρώματος είναι:

·       MPEG-Audio Layer-1: επιτρέπει την κατασκευή πολύ απλών κωδικοποιητών και αποκωδικοποιητών θυσιάζοντας βέβαια ένα μέρος της ποιότητας. Ως αποτέλεσμα, η ηχητική ποιότητα είναι μέτρια ενώ το bandwidth που απαιτείται είναι αυξημένο: 192 ή 256Kbps ανά κανάλι.

·       MPEG-Audio Layer-2: ο αλγόριθμος αυτή της κατηγορίας έχει βελτιστοποιηθεί για ένα εύρος ζώνης 96 ή 128Kbps ανά μονοφωνικό κανάλι. Η ποιότητα είναι εφάμιλλη του CD.

·       MPEG-Audio Layer-3: έχει την καλύτερη επίδοση από τα τρία στρώματα. Η ποιότητα του είναι  υποδεέστερη αλλά πολύ κοντά σε αυτή του CD. Το βασικό του πλεονέκτημα είναι ότι απαιτεί μόνο 64Kbps. Σε σύγκριση με MPEG-Audio Layer-2 στα 64Kbps λειτουργεί πολύ καλύτερα.

Να σημειωθεί ότι αυτά τα στρώμα έχουν προς τα πίσω συμβατότητα, δηλαδή μια συσκευή MPEG-Audio Layer-3 αποκωδικοποιεί και δεδομένα κωδικοποιημένα κατά MPEG-Audio Layer-1 ή 2.

 
 
MPEG-2

To MPEG-2 βρίσκεται ακόμα σε εξέλιξη. Στόχος του είναι η μετάδοση ψηφιακής τηλεόρασης και video telephony μέσω οπτικών ινών, δορυφορικών καναλιών, ISDN και άλλων δικτύων. Το bandwidth που απαιτεί βρίσκεται στα 3-10 Mbits/s. Βασική επέκταση που επιφέρει στο MPEG-2 είναι η εισαγωγή διακριτών surround-sound καναλιών καθώς και μερικών καναλιών χαμηλής ταχύτητας για σχολιασμό η υποστήριξη πολλών γλωσσών.

 

Ο Ήχος στο Δίκτυο  (Παράρτημα Ζ)

 


[1] CELP (Code Excited Linear Prediction): ένα είδος διανυσματικής κβαντοποίησης που χρησιμοποιείται στο US Federal Standard για συμπίεση ήχου μέχρι τα 4.8Kbps (ποιότητα τηλεφωνική)