P&P Studios Blog

Adobe VoCo: Photoshop für die Stimme

Hinterlasse einen Kommentar

Adobe VoCo: Photoshop für die StimmeAuf seiner Hausmesse MAX hat der Softwarehersteller Adobe seine neuste Entwicklung vorgestellt. Adobe VoCo heißt der Prototyp des Audio-Editors und er ist in der Lage, Stimmen nach nur kurzer Zeit täuschend echt zu imitieren. Das Ergebnis ist beeindruckend – doch Experten warnen vor den Risiken dieser Erfindung.

Auf der Messe „Adobe MAX – The Creativity Conference“ stellt der Softwarehersteller Adobe jährlich seine Produkte vor. Selbst bei Experten trifft die Messe in Europa auf nur geringes Interesse. Der Grund dafür ist eigentlich ganz einfach: Programme wie Photoshop, Illustrator oder InDesign sind längst ausgereift. Die Verbesserungen, die Adobe vorstellt, sind oft nur Feinschliff. Doch in diesem Jahr lohnt sich ein Blick nach San Diego, denn Entwickler Zeyu Jin, der an der Princeton University studierte, stellte VoCo (kurz für „Voice Conversion“) vor, das künftig entweder Teil des Programmpakets Adobe Creative Suite sein wird oder als eigenständiges Programm auf den Markt kommen soll.

Aus technischer Sicht ist VoCo durchaus faszinierend, denn das Tool knüpft quasi an die Tradition des Sampelns an. Eine Aufnahme von 20 Minuten genügt und die Software ist in der Lage, die aufgenommene Stimme samt individueller Aussprache zu imitieren. Adobe VoCo gehört zu den Voice Conversion Programmen. Die Software analysiert den ursprünglichen Text und zerlegt ihn in sogenannte Phoneme. Ein Phonem ist die abstrakte Klasse aller Laute (Phone), die in einer gesprochenen Sprache die gleiche bedeutungsunterscheidende Funktion haben. Auf dieser Basis lassen sich im nachfolgenden Schritt beliebige Texteingaben mit der Stimme synthetisieren.

Ein Beispiel führte Zeyu Jin höchstpersönlich auf der Messe vor: Er lud die vorherig aufgenomme Audiodatei aus der US-Comdey-Show Key & Peele in das Programm hoch, welche dann grafisch als Tonwellen dargestellt wurde, aber gleichzeitig auch den gesprochenen Inhalt in Texform darstellte. Dann veränderte er den Text mehrmals, sodass am Ende ein völlig anderer Tonmitschnitt zu hören war, der mit dem Original nur noch wenig zu tun hatte, aber für großes Gelächter im Publikum sorgte.

Noch kann das menschliche Gehör die künstlich modulierten Wörter heraushören und den Betrug aufdecken. Doch die Technik wird sich weiter entwickeln und schon bald werden wir vielleicht nicht mehr in der Lage sein die Fälschung vom Original zu unterscheiden, denn es können auch Wörter in den Text aufgenommen werden, die gar nicht Teil des Trainingsmaterials waren oder gar Tonlagen verändert werden. Aus diesem Grund besteht das Risiko von manipulierten Sprachdateien.

Gefälschte Sprachaufnahmen sind jedoch schon viel länger im Umlauf. Doch bisher konnten nur tatsächlich gesprochene und aufgenommene Wörter zu neuen Sätzen verbunden werden. Mit der neuen Software besteht allerdings die Möglichkeit, ganze Texte mit jeder beliebigen Sprache künstlich zu erzeugen.

Für die Hersteller von Hörbüchern, Radiowerbung oder anderen Audioformaten könnte Adobe VoCo durchaus nützlich sein. Misslungene oder noch fehlende Aufnahmen könnten mit der Software nachträglich bearbeitet werden und somit dafür sorgen, dass der Sprecher nicht wegen einer Kleinigkeit erneut aufgenommen werden muss. Auch Computerspiele dürften mit VoCo massiv flexiblere Sprachausgaben bekommen und Podcaster können ihre Audio-Beiträge nacharbeiten, falls die Stimme mal verschnupft klingt. Eine weitere positive Veränderung wäre, dass Filmstars ihre eigene Synchronstimme einsprechen könnten, sodass die Filme nicht erst akustisch nachbearbeitet werden müssten.

Adobe möchte den Missbrauch seiner Software verhindern und plant daher eine Art „Wasserzeichen“ für Audio. Doch auch diese Wasserzeichen können möglicherweise nicht verhindern, dass versucht wird, Schutzfunktionen zu umgehen. Da Audio-Dateien zu MP3-Dateien konvertiert werden können, fallen die akustischen „Watermarks“ der Kompression zum Opfer. Besonders übers Telefon seien neu zusammengebastelte Sprachdateien von VoCo nicht mehr zu erkennen. Die Gefahr, dass Mitschnitte politischer Reden manipuliert werden, sodass Aussagen verzerrt werden oder der Versuch, biometrische Sicherheitssysteme auszutricksen, besteht also weiterhin.

„Mit Worten lässt sich trefflich streiten“, lässt Goethe seinen Mephisto sagen. Wir werden sehen für wie viel Zündstoff die Software in Zukunft sorgen wird. Was halten Sie davon? Schreiben Sie uns gerne in den Kommentaren!

Professionelles Sounddesign von der P&P Studios Audio-Agentur in Regensburg

Werbung

Autor: Marketing-Assistenz

Die PraktikantInnen der P&P Studios Audio-Agentur unterstützen unser Unternehmen tatkräftig – nicht nur in den Bereichen der Blog-Redaktion und im Social-Media-Marketing, sondern auch beim Spotversand und der Kommunikation mit den Kunden und Sendern. Hier auf dem P&P-Blog berichten sie über neue Entdeckungen aus der Audio- und Radiowelt.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit deinem WordPress.com-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..