Wie KI die Audiowelt verändert: Podcast-Produktion im Wandel

Anlässlich einer allgemeinen Präsentation von KI-Software wurde uns vor Kurzem u.a. auch NotebookLM von Google vorgestellt. Beschrieben wurde das zunächst als ein KI-gestützter Recherche- und Notizassistent, der ausschließlich mit hochgeladenen Dokumenten und Quellen arbeitet.

Eher beiläufig zeigte uns der Referent eine weitere Funktion: das Podcastingtool. Diese Funktion, auch bekannt als „Audio Overview“, erstellt KI-generierte Audiozusammenfassungen. Anstatt nur Text vorzulesen, generiert das Tool dynamische Gespräche im Stil eines Podcast. Das hat uns tatsächlich den Hut weggehauen!

Was kann das Ding denn so?

Die Audios werden als Gespräch zwischen zwei KI-Stimmen präsentiert, die den Inhalt zusammenfassen, Verbindungen zwischen Themen herstellen und einen unterhaltsamen Austausch bieten. Verwendet werden, wie bereits erwähnt, nur vorgegebene Quellen.

Dabei stehen unterschiedliche Formate zur Verfügung:

Die Standardoption „Deep Dive“ für eine ausführliche Konversation
„Brief“ für schnelle Zusammenfassungen
„Critique“ für eine kritische Bewertung der Quellen
„Debate“ für Debatten, bei der die KI-Moderatoren unterschiedliche Perspektiven einnehmen.

Die erstellte Audiodatei kann heruntergeladen oder direkt in NotebookLM angehört werden. Darüber hinaus gibt es eine Sprachunterstützung, die mehrere Sprachen, incl. Deutsch, beinhaltet.

Regelrecht atemberaubend ist aber die Möglichkeit der Interaktion vor der Wiedergabe: Über einen Prompt kann der Schwerpunkt des Podcast bestimmt werden z.B. hinsichtlich einer bestimmten Fragestellung. Es stehen auch diverse Formate zur Auswahl.

Wer im bisherigen Beitrag lediglich eine Lobhudelei auf Google sieht, möge nun kritisch weiterlesen.

Wir haben uns die Mühe gemacht, traditionelle Podcast Produktion mit den neuen Möglichkeiten zu vergleichen, weil wir uns darüber im Klaren werden wollten, was dieser Wandel für Medienproduktionen dieses Formats an Aufwand und Perspektiven für neue Angebote bedeutet.

Früher war alles besser – von wegen!

Die klassische Podcast-Produktion war ein Handwerk, das erst mal viel und teuer Hardware neben ganz geheim/komplizierter Software benötigte. Zudem mussten erst Referenten geworben und geschult, die Skripte geschrieben und Aufnahmetermine festgelegt werden. Das waren schon mal schön aufwendige Schritte, vor allem wenn die Referenten ungeübt, oder viel unterwegs waren.

Neben dem Skriptschreiber brauchte es also einen „Produzenten“, der die Sache in die Hand nahm, einen Moderator, der den Termin leitete und schließlich das Tonstudio, das die Aufnahmen steuerte, schnitt und die Postproduktion vornahm.

Das untere Schaubild zeigt, wie der ganze Komplex zusammenhing.

Podcast-Produktion.

Rückblickend ist es erstaunlich, dass Podcasts sich bei all diesem Aufwand als Format dennoch so stark durchgesetzt haben.

Was uns automatisch zur Frage bringt, ob Podcasts denn mithilfe der neuen Technologien nicht noch beliebter werden?

Heute: schöne neue Welt der KI-Tools

Wie weiter bereits dargestellt, wollen wir in diesem Beitrag lediglich NotebookLM genauer betrachten.

Der Vollständigkeit halber wollen wir aber einige neuere Tools erwähnen, die allerdings lediglich Teilaspekte abdecken und einzeln nie das Komplettspektrum an Funktionen abdecken, die zur Podcast-Produktion benötigt werden:

Adobe Podcast Enhance (verbessert automatisch die Sprachqualität und entfernt Hintergrundgeräusche)
Auphonic (automatisiert Lautstärkeanpassung, Rauschunterdrückung und Audio-Normalisierung)
Descript (ermöglicht Schnitt direkt im Transkript, erkennt Füllwörter und bietet Overdubs)
ai (erstellt präzise Transkripte in Echtzeit – ideal für Interviews und Meetings)
ElevenLabs (klont Stimmen und erzeugt natürlich klingende Voiceovers in verschiedenen Sprachen)
ai (bietet KI-generierte Stimmen für Podcasts, Werbung und mehr)
DeepL Translate (hochwertige Übersetzungen für Transkripte und Skripte)
HeyGen (Wandelt Videos und Audio in andere Sprachen um – inklusive KI-Stimmensynchronisation).

Wie arbeitet NotbookLM denn nun genau?

Den Produktionsablauf mit NotebookLM kann man in vier Hauptschritte einteilen:

Datensammlung
Dateien mit Formaten wie PDF, Websites, Videos, Audios, Dokumente oder Präsentationen werden hochgeladen. NotebookLM fasst die Inhalte zusammen und stellt Zusammenhänge zwischen Themen her mit der multimodalen Analysefunktionen von Gemini 2.0.

Skripterstellung
Gegliederte Texte werden durch NotebookLM generiert (auch für unterschiedliche maschinelle Sprecher)

Medienproduktion
NotebookLM produziert die Medien – fertig!
Weitere Schritte wie Optimierung, Textvorschläge für die Beschreibung des Podcast, oder Social Media Posts für unterschiedliche Plattformen werden ebenso erstellt.

Feedback und Weiterentwicklung
Nach der Produktion folgt die Veröffentlichung und Analyse. Das erzeugte Medium (z. B. Podcast, Video-Skript, Dokument) wird der Zielgruppe bereitgestellt. NotebookLM könnte an dieser Stelle helfen, indem es Nutzerfeedback verarbeitet, Leistungsmetriken (wie Klickraten, Hördauer oder Engagement) analysiert und darauf basierend Vorschläge zur inhaltlichen oder strukturellen Optimierung für zukünftige Projekte oder die nächste Iteration des aktuellen Projekts liefert. Dieser Schritt schließt den Kreis zum ersten Schritt (Datensammlung) durch kontinuierliches Lernen und Verbessern des Outputs.

Bedeutet zusammenfassend: wirf weg das alte Technogerümpel an Aufnahmetechnik, vergiss (fast) die ganze Postprozession, spare Dir die mühselige Organisation – hau rein und produziere, was das Zeug hält!

Untere Synopse verdeutlicht die Änderungen:

Aufwandsposition	gestern	heute
Produzent	Verantwortlicher Manager des Projektes	Immer noch, allerdings mit einem Bruchteil des bisherigen Aufwandes
Moderator	1	Kann weg, oder per re-recording einpflegen
Referent(en)/ Interviewpartner	1 – 2	Kann weg
Skriptschreiber	1	Kann weg
Studiotechnik	Mikros, Telefon/TEAMS (bei verteilten Referenten), Tonstudioausstattung	Überflüssig
Tontechniker	1	Überflüssig

Umgelegt auf eine Nettolaufzeit des Podcast von 20 Minuten kommen wir auf atemberaubende Werte. Alles in allem, so unsere Schätzung, können ca. 90% der Kosten wegfallen. Das ist ein Wort, oder?

NotebookLM beinhaltet schließlich noch die Möglichkeit der Interaktion während der Wiedergabe: Man kann den Podcast unterbrechen und Fragen stellen, um interaktiv Antworten zu erhalten. Alleine dieses Merkmal ist an sich eine Sensation, die uns gerade im Bereich des e-Learning in neue Dimensionen führen kann: Ein freier Dialog mit einer Maschine, völlig an den Bedürfnissen des Lerners ausgerichtet – genial!

….und noch was, am Rande:

Gibt es ein Copyright für Podcasts, die von KI produziert worden sind?

Nach deutschem Urheberrecht kann der Urheber kann nur ein Mensch sein (siehe § 7 UrhG (Urheberrechtsgesetz). Da KI-Systeme keine Personen sind, können diese keine Urheberrechte beanspruchen. Warum? Inhalte, die vollständig autonom von einer KI erstellt wurden – also ohne kreative Mitwirkung eines Menschen – gelten nicht als „persönliche geistige Schöpfung“ (§ 2 Abs. 2 UrhG) und sind daher nicht urheberrechtlich geschützt. Sie gelten als gemeinfrei.

Aber:

Wenn ein Mensch die KI gezielt steuert (z. B. durch komplexe Prompts oder redaktionelle Bearbeitung, kreative Skripterstellung oder gezielte Steuerung der KI) und dadurch eine kreative Leistung erbringt, kann das Endprodukt als urheberrechtlich geschütztes Werk gelten – sofern die Schöpfungshöhe erreicht wird.

Im EU AI Act wird der Einsatz von KI geregelt, aber nicht direkt das Urheberrecht. Die EU-Urheberrechtsrichtlinie verlangt ebenfalls eine menschliche Schöpfung für den Schutz. Es gibt keine einheitliche Regelung für KI-generierte Inhalte auf EU-Ebene, aber die Tendenz geht dahin, dass menschliche Mitwirkung entscheidend ist für den Schutz.

Ebenso gilt zu beachten, dass vertragliche Regelungen (z. B. in den AGBs von KI-Plattformen) zusätzliche Nutzungsrechte gewähren können, auch wenn kein Urheberrecht besteht.

Kritik an KI-only-Produktionen

Neben den Vorteilen, die KI-generierte Podcasts augenscheinlich bieten, wie beispielsweise Effizienzsteigerung, gibt es in der öffentlichen Diskussion auch Kritik daran. In der Debatte geht es um Punkte der Authentizität, Ethik und Rechtssicherheit. Ohne zu tief in diese Diskussion einzusteigen, da es den Rahmen des Themas und des Beitrages sprengen würde, sei an dieser Stelle lediglich darauf hingewiesen, dass über das Thema in der Öffentlichkeit heiß diskutiert wird. Derzeit gibt es keinen einheitlichen gesellschaftlichen Konsens darüber. In der Podcast-Branche werden derzeit KI-only-Produktionen mehrheitlich abgelehnt. KI kann aus Sicht der Branche (zumindest derzeit) lediglich als Werkzeug hilfreich sein, aber nicht als kompletter Ersatz.

Fazit: Die neue Audioproduktion treibt auch die Lernwelt an

KI hat die Podcast-Produktion revolutioniert. Was früher Stunden und Tage dauerte, geht heute in Minuten. Das senkt die Einstiegshürden und eröffnet neue kreative Möglichkeiten – für Einzelpersonen, Bildungseinrichtungen und Unternehmen gleichermaßen.

Für uns als e-Learning Agentur erwachsen neue Möglichkeiten der Produktion von Lerncontent und weiterer Blended-Learning Elemente, die digitales Lernen noch attraktiver macht.

Zudem steigt die Wirtschaftlichkeit solcher Produkte steil an. Die Kunden wird’s freuen!

Zurück zur Übersicht