Wir haben einen Algorithmus gebeten von Lautsprechern zu träumen. Maschinelles Lernen und künstliche neuronale Netzwerke machen es möglich. Aber macht es tatsächlich auch Sinn?

Seit mehreren Jahren schon beschäftigen wir uns neben der Hingabe an exklusive Technologie und Hardware der Audiowelt zunehmend auch immer mehr mit Software, die in den HiFi-Bereich einzieht. Seien es Algorithmen, die uns auf Basis unserer Hörgewohnheiten neue Musik vorschlagen. Oder Apps, die Musik erkennen und uns sagen können, was wir gerade hören. Ganz zu schweigen von Spracherkennung und immer smarter werdenden künstlichen Assistenten, wie Siri, Alexa und Co. Viele dieser konkreten Anwendungen sind nur sehr schwer abstrakt zu verstehen. Es fällt uns Menschen schwer sich vorzustellen, was ein Computer denkt, sieht, macht oder lässt und warum. Bisher war das mit auf ganz klassischer Logik basierenden Algorithmen nicht so sehr das Problem. Mit neuronalen Netzen und Deep Learning-Technologien änderte sich das schlagartig. Wenn wir in eine Kamera schauen und dort wird unser Gesicht erkannt und mit einem Kästchen umrahmt, erkennt der Computer wirklich uns, oder brauchen wir einfach nur genug Nummern, um uns selbst zu beschreiben?

Kreative Keimzellen

Könnten Computer eines Tages so wie wir Menschen Musik empfinden, oder wäre es augenscheinlich nur eine algorithmische oder neuronale Reaktion, eine mathematische Funktion? Computer werden vielleicht nicht fühlen, aber sie werden uns zumindest lesen und analysieren wie ein offenes Buch. So ist es dank Posture-, also der Haltungserkennung des Körpers, schon heute möglich – nur mithilfe einer Kamera und ohne Controller oder Lenkrad – Computerspiele wie Autorennen zu spielen. Uns wird der Spiegel vorgehalten. Viele dieser algorithmischen Spiegel basieren auf künstlichen neuronalen Zellen, die zu größeren Netzwerken zusammengebaut werden und dadurch Vorgänge der Mustererkennung des menschlichen Gehirns simulieren. Aber wie funktioniert eine solche Zelle? Informatiker und Mathematiker versuchen schon lange das Verhalten natürlicher neuronaler Zellen zu imitieren, mit immer größer werdenden Erfolgen. Schematisch betrachtet ist eine neuronale Zelle eine Bündelung an eingehenden Informationen. Jede einzelne Information unterliegt dabei einer für die Zelle spezifischen Gewichtung dieser Information. Sie ist also mehr oder weniger wichtig für die Zelle. Nun trudeln diese Informationen, elektrische Impulse, in der Zelle ein und in der Zelle wartet nun ein Schwellwert darauf, überschritten zu werden. Das löst man in der Mathematik und Informatik über eine sogenannte Aktivierungsfunktion. Diese können sehr unterschiedliche Kurven haben, aber im Endeffekt beschreiben sie, ab welchem Informationsgehalt ein Ausgangssignal an der Zelle anliegen soll und mit welcher Stärke. Es findet also eine Art komplexe Summierung statt.

Diagram of an artificial neuron. Chrislb, CC BY-SA 3.0, via Wikimedia Commons

Besser im Netzwerk

Aber das allein macht die Zelle noch nicht intelligent, es hilft ihr nur besser mit Wahrscheinlichkeiten umzugehen, da Eingangssignal und Ausgangssignal nicht wie bei Digitaltechnik und Transistoren fest und klar definiert sind, sondern vor allem von der Gewichtung und Anzahl der Eingänge beeinflusst wird. Genau diesen Effekt machen wir uns zu nutze. Verschaltet man nun solche künstlichen Neuronalen Zellen zu einem Netzwerk, entstehen mehrere Schichten. Eine Eingangsschicht, in die wir die Daten schicken, x-beliebig viele unsichtbare, versteckte Schichten, durch die unsere Daten laufen und eine Ausgabeschicht, in der unsere manipulierten Daten herauskommen. Was genau in den Zwischenschichten passiert, ist schwer darzustellen, aber im Grunde genommen geht es darum, dass jede Schicht die Abstrahierung genauer macht. Der Algorithmus „versteht“ immer komplexere Konzepte. Je mehr Schichten die Daten durchlaufen, desto feiner kann mit Variablen in den Daten umgegangen werden. In den Schichten wird das Ausgangsmaterial also zerlegt und jede einzelne Zelle bekommt eine ganz spezifische Aufgabe ein Detail der Information zu bewerten und zu verformen.

A simplified view of an artifical neural network. Dake, Mysid, CC BY 1.0, via Wikimedia Commons

Wichtige Gewichte

Der Witz dabei ist, dass die Gewichtung der einzelnen Datenströme keinesfalls festgelegt ist, sondern sich anhand der einströmenden Daten verändert. Dazu wird ein Verfahren namens Backpropagation verwendet. Es ist eine Art Fehlerkorrektur, der eigentliche Kern des Lernvorgangs, bei dem die Gewichte des Netzwerks neu eingestellt werden. Spätestens jetzt sind wir im Gebiet des Maschine Learning, Big Data und Deep Learning angekommen. Im Grunde genommen wird nichts anderes gemacht, als den neuronalen Netzwerken massenhaft Daten zu zeigen, so lange, bis die Gewichte fein genug eingestellt sind. Mit jedem Bild, was wir unserem Netzwerk gezeigt haben, veränderten sich die Gewichte des Netzwerks, sodass am Ausgang immer mehr so etwas herauskam, was man als Lautsprecher bezeichnen könnte. Das Ergebnis war zunächst sehr unzufriedenstellend. Wir hatten gedacht, dass unsere zehntausenden Bilder von Lautsprechern ausreichen sollten, um ein mathematisches Wahrscheinlichkeitsmodell eines Lautsprechers zu erzeugen, aber weit gefehlt. Trotz ca. 20000 Trainingsdaten und hunderten Durchläufen und Trainingseinheiten bekamen wir lediglich etwas ähnliches, aber fern von brauchbar. Also haben wir uns einen Grundsatz des Deep Learning zunutze gemacht. Der besagt, je komplexer und variabler der Datensatz, desto größer das benötigte Datenvolumen. Unsere Daten waren nicht ausreichend für die Komplexität der Aufgabe. Also haben wir den Datensatz in seiner Variabilität begrenzt, und zwar auf Frontalansichten, und siehe da: Die ersten Umrisse waren zu erkennen. Heureka! Wir haben einem Computer beigebracht aus einem unstrukturierten Datensatz mit scheinbar chaotischen Pixelanordnungen, Regeln herauszulesen, die es ermöglichen ein fotografisches Wahrscheinlichkeits-Modell eines Lautsprechers zu entwerfen.

Train-11930: Mit jedem Trainingsdurchlauf werden die Netzwerke besser.

Generierend/Diskriminierend

In unserem Fall haben wir uns für die Architektur eines GANs, eines Generative Adversarial Networks entschieden, also einem datengenerierendem Netzwerk. Dabei ist ein Netzwerk nicht ganz richtig, denn genau genommen handelt es sich um zwei neuronale Netzwerke, die gegeneinander arbeiten. Dem einen Netzwerk zeigen wir die Ausgangsdaten und sagen: Generiere Daten, die wahrscheinlich aus dem Trainingsdatensatz kommen. Dem anderen Netzwerk sagen wir: Untersuche das Bild des ersten Netzwerks und entscheide, ob es aus dem Trainingsdatensatz kommen könnte. Es handelt sich also um eine Kombination aus Generation und Diskriminierung. Beiden Netzwerken wird ein Ziel gegeben: Die Fehlerquote auf Null bringen. Da aber beide Netzwerke mit jedem Foto und jedem Trainingslauf immer besser werden, stacheln sie sich gegenseitig an. Die Qualität der Bilder des Modells wird immer besser. Man nennt das unüberwachtes Lernen. Die Sache hat aber natürlich wie immer einen Haken. Wir sind weder Google, noch Nvidia, noch Amazon. Wir haben weder die großen Serverfarmen zum Berechnen dieser Modelle, noch die Millionen an Daten, die eigentlich dafür vonnöten wäre. Deshalb beschränkt sich unser vorläufiges Ergebnis auch auf Lautsprecher der Größe 256 × 256 Pixel. Möchte man eine größere Auflösung, zum Beispiel 512 × 512, vervierfacht sich der Rechenaufwand! Kaum zu realisieren, wenn man bedenkt, dass unser derzeit bestehendes Modell bereits mehrere Wochen rechnen musste, um das aktuelle Heft mit Lautsprechern zu füllen.

Feedbackdilemma

Dennoch: Wir ertrinken in einer Informationsflut. Das produzierte Datenvolumen wächst exponentiell. Allein für dieses Artikel haben wir nahezu 20 Gigabyte Daten generiert, 18000 Bilder, die vorher nicht existiert haben. Und das natürlich nicht ohne Ressourcen zu verbrauchen. Der weltweite Stromverbrauch steigt und immer mehr davon dient dem Betreiben von Computern und Informationstechnologie. Neunzig Prozent aller Daten, die wir Menschen bis heute generiert haben, sind in den letzten 10 Jahren entstanden. Es ist absolut plausibel, dass wir Menschen irgendwann den Großteil unserer Ressourcen verbrauchen werden, um auch weiterhin Informationen erstellen, verarbeiten und teilen zu können. Wir erstellen Daten, um über uns zu lernen, bis die Informationen mehr wissen, als wir kontrollieren können. Die Information frisst ihren Schöpfer. Gut möglich, dass Informationsüberfluss und der unbewusste Umgang damit den Untergang der Menschheit bedeuten könnte. Aber wir alle haben bisher keine funktionierende Glaskugel.

Geteilte Meinung

Wir haben unsere Erkenntnisse vor Erst-Veröffentlichung in der AUDIO TEST und auf www.likehifi.de auch mit dem ein oder anderen namhaften Vertreter der HiFi-Community geteilt und sind auf ein gemischtes Echo gestoßen. Zum einen haben wir eine Menge Anrufe erhalten, von Unternehmen, die dieses Forschungsfeld sehr spannend finden, weil Software einen immer größer werdenden Stellenwert bekommt als Hardware und jeder Meter Vorsprung in Software bares Geld bedeuten kann. Andererseits haben uns aber auch Nachrichten erreicht von Lautsprecherentwicklern, die meinen wir würden ein Problem lösen, das keines ist. Das kann sein. Wir sind mit diesem Projekt auch nicht angetreten, um ein tatsächliches technologisches Problem von immensem Wert zu lösen, sondern aus absoluter Neugier. Verstehen wollen. Uns hat die Frage gequält: Verstehen die Musik-Algorithmen wirklich, was sie einem da empfehlen? Was und wie sehen Computer den Menschen und wie gehen wir mit diesen Technologien um. Denn eines Tages, und davon sind wir absolut überzeugt, werden Maschinen auf Augenhöhe mit dem Menschen um Ressourcen kämpfen. Um Ihnen das anhand unserer persönlichen Materie mal etwas zu veranschaulichen, haben wir einem Computer Bilder von Lautsprechern gezeigt und ihm dann gesagt, schau dir die genau an, abstrahiere und erzeuge ein mathematisches Modell und erzeuge uns basierend auf diesem Modell neue, bisher noch nie dagewesene Lautsprecher. Computer, lerne und träume! Und träumen wird man ja wohl noch dürfen. Ob nun von einer besseren Zukunft, 1000 Lautsprechern oder einfach nur dem Gefühl, ein komplexes, schwieriges Thema greifbar zu machen.

Wie denken Sie zu diesem Thema? Schreiben Sie uns eine Email an leserbriefe@auerbach-verlag.de

Hier finden Sie noch viel mehr computergenerierte Bilder von Lautsprechern und sogar ein Zeitraffervideo des gesamten Lernvorgangs, den wir dokumentiert haben. Schon ein bisschen gruselig, wenn sich aus einem unscheinbaren Rauschen, wie aus dem Nichts, ein Lautsprecher abzeichnet. Und irgendwie auch faszinierend. Ein Spiel mit dem Feuer?

Der gesamte Vorgang im Zeitraffer

https://youtu.be/v9mc7cy656Q

Ressourcen und Empfehlungen

Sie möchten mehr über den Algorithmus erfahren, evtl. selber über maschinelles Lernen lernen und Dinge ausprobieren? Hier haben wir hilfreiche Bücher und Quellen zusammengetragen, die diesen Artikel möglich gemacht haben:

Neuronale Netze selbst programmieren: Ein verständlicher Einstieg mit Python (Deutsch), von Tariq Rashid (Autor), Frank Langenau (Übersetzer), ISBN 9783960090434

Praxiseinstieg Deep Learning: Mit Python, Caffe, TensorFlow und Spark eigene Deep-Learning-Anwendungen erstellen (Deutsch), von Ramon Wartala (Autor), ISBN 3960090544

Generatives Deep Learning: Maschinen das Malen, Schreiben und Komponieren beibringen, von David Foster (Autor), Markus Fraaß (Übersetzer), Konstantin Mack (Übersetzer), ISBN 3960091281

Washington University (in St. Louis) Course T81558: Applications of Deep Neural Networks, Kurs und Algorithmen: https://github.com/jeffheaton/t81_558_deep_learning

AUDIO TEST Magazin Ausgabe 1/21 2021 Dezember Heft HiFi Kaufen Kompakt Vinyl Test

+++ Die neue AUDIO TEST Ausgabe ab 18. Dezember 2021 überall am Kiosk oder ganz einfach und bequem nach Hause liefern lassen: ► www.heftkaufen.de/audio-test

Oder gleich ein Probe-Abo über die kommenden 4 Ausgaben (Feb., März, Mai, Juni) abschließen: ► www.heftkaufen.de/schnupperabo-audio-test +++

Bildquellen:

  • AUDIO TEST Magazin Ausgabe 1/21 2021: Auerbach Verlag