Auerbach Verlag

Grundlagen der Audiokompression

Musik nutzen wir heute so gut wie nur noch digital. Für uns ist es auch ganz normal geworden, dass wir unsere Musiksammlungen, oft viele tausend Titel, stets bei uns tragen. Gespeichert auf einem Chip irgendwo in unserem Smartphone oder MP3-Player. Dass das überhaupt erst möglich wurde, haben wir der so genannten Audiokompression zu verdanken.

Ausgangssituation

Geräusche und Töne, wie etwa das Zwitschern eines Vogels oder das Läuten der Kirchenglocken, sind analoge Ereignisse mit einem äußerst umfangreichen Spektrum. Ein gutes Beispiel dafür ist eine Glocke. Wird sie angeschlagen, meinen wir, nur einen Ton zu hören. Tatsächlich besteht ihre Klangfarbe aus bis zu rund 200 Einzeltönen. Darin enthalten leise und laute Töne, sowie auch Frequenzen, die außerhalb unseres Hörbereichs liegen. Bei Musik ist es nicht anders. Das menschliche Gehör kann Töne aber erst ab einer bestimmten Grundlautstärke wahrnehmen, wobei die Schwellen für tiefe, mittlere und hohe Töne sehr unterschiedlich sind. Am empfindlichsten ist das Ohr im Tonbereich der menschlichen Sprache bei etwa 3 Kilohertz (kHz). Tiefere oder höhere Töne müssen viel lauter sein, um von uns überhaupt wahrgenommen zu werden. Der Lautstärke-Grenzwert, ab dem wir Töne wahrzunehmen beginnen, heißt Ruhehörschwelle. Ein lauter Ton überdeckt einen leiseren, wenn dessen Tonhöhe gleich oder ähnlich ist. So ist zum Beispiel ein lauter 1-kHz-Ton einer Orgelpfeife klar und deutlich zu vernehmen, während ein oder mehrere in der Frequenz dicht danebenliegende, leise Töne von lauteren maskiert werden. Obwohl sie vorhanden sind, können wir sie dennoch nicht wahrnehmen. Das Geheimnis, weshalb viele HiFi-Freaks nach wie vor auf die alte Schallplatte schwören, liegt auch darin, dass sie alle Töne und Frequenzen, so wie sie von den Musikinstrumenten abgegeben werden, 1:1 speichert. Damit sind auf ihr auch jene Töne enthalten, die wir genau genommen gar nicht bewusst wahrnehmen können.

Grundlegendes

Zur Audiokomprimierung gibt es viele Standards, wie etwa MP3, AAC oder WMA. Sie alle basieren auf den gleichen Grundlagen. Die Verfahren nutzen die psychoakustischen Effekte der menschlichen Hörwahrnehmung. Alle Toninformationen, die das menschliche Ohr nicht wahrnehmen kann, werden aus dem Datenstrom ausgefiltert und somit nicht gespeichert. MP3 und Co machen sich diese Effekte des menschlichen Gehörs zunutze, indem sie mit mathematischen Analyseverfahren die nicht wahrnehmbaren Toninformationen ermitteln und ausfiltern. Ein Beispiel: Möchten Sie sich in sehr lauter Umgebung mit einer zweiten Person unterhalten, werden Sie einander kaum hören. In solchen Fällen ist das Energieniveau des Geräusches (oder etwa der Musik in der Disco) höher als jenes Ihrer Stimmen. Dieser Effekt wird auch als Frequenzmaskierung bezeichnet. Solche überdeckten Töne werden entfernt. Genauso werden Töne im Frequenzbereich außerhalb unserer Wahrnehmung herausgefiltert. Ein weiteres Kriterium ist die so genannte Ruhehörschwelle. Alle vorhandenen Töne, die unter ihr liegen, hier spricht man von Hörschwellenmaskierung, werden per Komprimierungsverfahren ebenfalls ausgefiltert. Besonders spannend ist die Zeitmaskierung. Auch bei ihr werden von Tönen, die von anderen Signalen übertönt werden, ausgefiltert. Dabei wird auch die zeitliche Abfolge der Töne berücksichtigt. Unser Gehör ist für Töne bedingt aufnahmefähig und braucht eine kurze Erholungsphase, ehe es wieder aufnahmefähig ist. Diese Nachmaskierung dauert rund 200 Millisekunden. Dazu kommt auch eine Vormaskierung. Sie hat ihre Ursache darin, dass unser Gehirn für die Verarbeitung leiser Töne etwas länger braucht, als für laute. Die Vormaskierungszeit beträgt etwa 20 Millisekunden. Alleine die Zeitmaskierung sorgt für eine relevante Reduktion von Audiosignalen. Frei nach dem Motto: Es kommt alles weg, was keiner braucht. Damit wird Musik bereits auf einen Bruchteil ihres ursprünglichen Datenaufkommens reduziert.

Stereo

Ein Stereosignal enthält auf dem linken und rechten Audiokanal gleiche Anteile. Es reicht also, wenn diese nur einmal gespeichert werden. Da jeder Kanal aber auch exklusive Elemente enthält, lassen sie sich nicht einfach zusammenlegen. Damit kommen spezielle Techniken zum Einsatz, die den Stereoeffekt erhalten, aber gleichzeitig helfen, das Datenvolumen weiter zu reduzieren. Das Intensity-Stereo-Redundanzverfahren, kurz IS-Stereo, kommt für tiefe Frequenzen unterhalb von 80 Hz zum Einsatz. Dabei wird die Räumliche Redundanz ausgenutzt. Sie sagt aus, dass das menschliche Gehör tiefe Frequenzen nur schwer orten kann. Womit aus dem Summensignal für jeden Audiokanal ein Skalierungsfaktor bestimmt wird und tiefe Töne nur in Mono codiert werden. Denselben Effekt kennen wir auch von unseren Heimkinoanlagen. Sie arbeiten zwar mit fünf oder mehr Boxen für das räumliche Klangerlebnis. Für tiefe Töne sehen sie aber nur einen einzigen Subwoofer vor. Das Mid/Side-Stereo-Redundanzverfahren (MS-Stereo) bildet ein Summen- und ein Differenzsignal. Wobei für das Differenzsignal nur wenig Speicherplatz vorgesehen ist. MS-Stereo kann auch Surround-Signale kodieren.

Joint Stereo

Beim klassischen Stereo werden der linke und rechte Audiokanal unabhängig voneinander verarbeitet und gespeichert. Joint Stereo macht sich zunutze, dass in beiden Kanälen gleiche Inhalte vorhanden sind. Deshalb verarbeitet es einen Mitten- und einen Seitenkanal. Der Mitten- oder auch Mono-Kanal wird aus dem Summensignal beider Kanäle (L+R) gebildet. Der Seitenkanal enthält indes nur die Unterschiede zwischen linkem und rechtem Kanal (L-R). Dieses Verfahren erlaubt bei monoartigen Passagen mit höherer Kompression zu arbeiten. Joint Stereo ist keine Erfindung des digitalen Zeitalters. Das Verfahren wird seit 1962 für Stereo-Rundfunk auf UKW genutzt.

Abtastrate

Um ein analoges Signal, wie der Klang eines Klaviers, zu digitalisieren, muss es in eine Reihe von Einzelzuständen zerlegt werden, die dann erst in eine Folge von 0- und 1-Zuständen umgewandelt werden kann. Ziel ist es, das Ausgangssignal in so viele Einzelteile zu zerlegen, dass der ursprüngliche kontinuierliche Kurvenverlauf möglichst naturgetreu nachgebildet werden kann. Die Abtast- oder auch Samplingrate gibt an, wie oft ein Signal während einer bestimmten Zeiteinheit abgetastet wird. Bei der Audio-CD kommt eine Abtastrate von 44,1 kHz zur Anwendung. Das heißt, dass das Ausgangssignal pro Sekunde in 44 100 Segmente unterteilt wird. Bei DVD-Audio kommen Abtastraten bis zu 192 kHz zum Einsatz.Wird mit geringer Abtastrate gearbeitet, werden nur die wesentlichen Audioinformationen erfasst. Man kann es mit einem unscharfen Foto vergleichen, auf dem man zwar noch Häuser oder Bäume als solches erkennt, aber keine Fenster oder Äste mehr ausmachen kann. Das dafür benötigte Speichervolumen ist gering. Geringe Abtastraten im Audiobereich können etwa verwendet werden, wenn es ausschließlich um die Dokumentierung, Stichwort: Gesprächsnotizen oder Beweisführung, geht. Eine gute Wiedergabequalität ist dabei nicht gefordert und auch nicht zu erwarten. Einfach deshalb, weil bei geringer Samplingrate Feinheiten im Audiosignal, wie etwa schnelle Tonübergänge, einfach verloren gehen. Eine gute digitale Audioqualität wird nur durch hohe Abtastraten erreicht. Sie bringt aber auch ein entsprechend höheres Datenaufkommen mit sich und erfordert deutlich mehr an Speicherkapazität.

Arten von Audiokompressionen

Es wird zwischen verlustlosen und verlustbehafteten Audiokompressionsverfahren unterschieden. Bei verlustfreien Methoden erfolgt die Reduktion der Daten originalgetreu. Verlustbehaftete Systeme lassen einen Unterschied zum Ausgangsmaterial erkennen. Er fällt umso drastischer aus, je stärker komprimiert wurde. Diese Nachteile haften insbesondere älteren Codeces an. Moderne Verfahren vermögen eine so gute Qualität zu liefern, dass auch bei konzentriertem Zuhören kaum Unterschiede zum Original festzustellen sind.

Verlustbehaftete Verfahren

Die meisten Komprimierungsstandards nehmen Verluste und somit eine schlechter werdende Tonqualität in Kauf. In Folge wollen wir kurz die wichtigsten Formate vorstellen: Zu ihnen zählt auch der Klassiker unter den Audioformaten MP3. Bei ihm gilt als absolutes Minimum eine Abtastrate von 96 kBit/s. Für viele MP3s sind 128 kBit/s üblich. Für Pop mag das Mindestanforderungen erfüllen. Guten Sound darf man aber nicht erwarten. Den gibt es erst ab mindestens 192 kBit/s. AAC (konkret LC-AAC) gilt häufig als Nachfolger vom MP3. Das AAC-Format verdankt seiner Bekanntheit vor allem Apple, das insbesondere bei seiner kostenlosen Software iTunes darauf setzt. AAC versteckt sich in mehreren Dateiformaten. Enden diese mit .aac, .mp4, .m4a, .m4b oder .m4p, ist AAC drin. Gegenüber MP3 bietet AAC eine höhere Frequenz- und Zeitauflösung. Bei Joint Stereo teilt AAC das Frequenzspektrum in mehrere Bereiche auf, die unabhängig voneinander verarbeitet werden. Was die Effizienz der Komprimierung weiter steigert, ohne sich negativ auf die Tonqualität auszuwirken. Weiter verfügt AAC über zusätzliche Tools, die die Bitrate weiter senken können. HE-AAC (High Efficiency Advanced Audio Coding) wurde für geringe Bitraten entwickelt und sorgt unterhalb von 96 kBit/s für bessere Klangqualität als LC-AAC. Deshalb kommt HE-AAC teilweise bei Internetradiosendern mit geringer Bandbreite zum Einsatz. HE-AAC und LC-AAC lassen sich auch kombinieren. Was etwa als SBR (Spectral Band Replication) bekannt ist. OGG Vobis ist ein lizenzfreier Audio-Codec, der sich ebenfalls als MP3-Alternative anbietet. Er sorgt für sehr gute Resultate bei geringen Bitraten und auch bei hochwertiger Audiokodierung. WMA, Windows Media Audio, gibt es in mehreren Varianten. WMA Voice wurde etwa speziell für Sprache und WMA Lossless für verlustlose Komprimierung geschaffen. WMA-Files begegnen uns in vielen Online-Musik-Stores.

Verlustfreie Verfahren

Verlustfreie Komprimierungsverfahren gehen bei der Datenreduktion absolut originalgetreu vor. Was insbesondere bei starker Komprimierung für deutlich hörbare Vorteile sorgt. Audiodateien lassen sich verlustlos bis etwa auf die Hälfte ihrer ursprünglichen Dateigröße komprimieren. WAV, sowie das Mac-Äquivalent AIFF, ist eigentlich ein Sammelbegriff für mehrere Unterformate. Das bekannteste davon ist PCM. Dabei wird das Audiosignal zu jedem Zeitpunkt quantisiert und digitalisiert. Je öfter dies in einer Zeiteinheit geschieht, umso besser ist der Klang. Um CD-Niveau zu erreichen, wird pro Sekunde 44 100 mal mit einer Genauigkeit von 16 Bit abgetastet. Was heißt, dass das Signal einen von 65 536 möglichen Werten hat. Für eine originalgetreue Kopie einer CD werden auf der Festplatte pro Minute rund 10 MB belegt. WAV dient oft als Ausgangsmaterial für MP3-codierte Audiofiles. Weitere verlustfreie Komprimierungsverfahren sind unter Anderem FLAC und WavPack. Eine Doppelrolle spielt mp3HD. Das verlustfreie mp3HD enthält hat in seiner Datei auch ein verlustbehaftetes normale MP3-File enthalten. mp3HD hat auch die Dateiendung .mp3 und ist so nicht sofort als verlustlose Audiodatei zu erkennen. Kann ein Abspielgerät mp3HD nicht wiedergeben, spielt es stattdessen das ebenfalls darin enthaltene schlechtere mp3 ab.

Qualitätsempfinden sinkt

Auch wenn Audiokomprimierungsverfahren die Art, wie wir heute Musik konsumieren, grundlegend verändert haben, so dürfen MP3 und Co nicht alleine durch die rosa Brille betrachtet werden. Zu sehr wurde damit geworben, dass man bequem zehntausende Musiktitel am Smartphone jederzeit mit dabei haben kann. Unsichtbar und gänzlich ohne Gewicht in einem kleinen Kästchen verpackt. Früher brauchte es für 10 000 Titel rund 850 LPs oder CDs, die ganze Regale füllten (LP: rund 2,7 m mit 180 kg; CD mit Hülle: rund 9,3 m mit 85 kg). Womit die Musiksammlung zu Hause bleiben musste. Dafür war auf ihr Musik in höchster Qualität gespeichert. Das war ihren Besitzern auch wichtig und sie legten höchstes Augenmerk auf gute Hi-Fi-Anlagen. Heute geht es darum, Musik in möglichst kleinen Dateien zu pressen. Damit sinkt ihr Speicherbedarf und sie lässt sich leicht über das Internet verbreiten. So beansprucht ein durchschnittliches MP3-File nur etwa 7% des Datenvolumens im Vergleich zum unkomprimierten Ausgangssignal. Echt guter Sound ist, zumindest aus der Sicht jener, die digitalisierte Musik im Netz gratis oder gegen Kohle anbieten, meist nur nebensächlich. Die Folge: Man orientiert sich nicht mehr am CD-Niveau, sondern bestenfalls an dem, was UKW an Klang bietet. Etwas weniger darf es freilich auch sein. Merkt eh keiner. Was auch stimmt, solange man Musik nicht auch von höherwertigen Tonträgern kennt. Unzulänglichkeiten bei der Datenkomprimierung fallen besonders bei Sprache auf. Sie kann abgehakt und hohl klingen. Was ein deutliches Zeichen für zu geringe Datenrate ist. Für gute Sprachwiedergabe sind 128 kBit/s eindeutig zu wenig. Gleiches trifft auch auf hochwertige Musik, wie etwa Klassik, zu. Mit geringer Datenrate und hoher Komprimierung klingt sie einfach nur mau. Um von wirklichem Musikgenuss sprechen zu können, sollte man daher auf hochaufgelöste Audio-Dateien zurückgreifen, welche entweder verlustfrei oder gar nicht komprimiert sind. Dank des günstiger werdenden Festplatten- und Flash-Speichers ist es mittlerweile problemlos möglich, größere Datenmengen im heimischen Netzwerk zu hinund her zu schicken. Eine Kette aus hochwertigen Komponenten verspricht so Musikwiedergabe auf höchstem Niveau.