Edit Policy: GitHubs KI Copilot ist keine Urheberrechtsverletzung – Der Output einer Maschine ist urheberrechtlich nicht schutzfähig – er ist gemeinfrei. Das ist für den Zugang zu Wissen und Kultur wichtig.
GitHub sorgt mit seinem Programm Copilot aktuell für viel Aufregung in der Freie Software-Szene. Copilot ist eine auf Grundlage von öffentlich verfügbarem Quellcode und Texten trainierte künstliche Intelligenz, die beim Programmieren in Echtzeit Codevorschläge produziert. Da sich Copilot dabei auch der zahlreichen GitHub-Repositories unter Copyleft-Lizenzen wie der GPL als Trainingsmaterial bedient, sehen einige Kommentator:innen in Copilot eine Urheberrechtsverletzung, denn Copilot steht seinerseits nicht unter einer Copyleft-Lizenz, sondern soll nach einer Testphase als kostenpflichtige Dienstleistung angeboten werden.

Die Kontroverse berührt gleich mehrere urheberrechtliche Aufregerthemen. Erstaunlich an der aktuellen Debatte ist, dass die Rufe nach einer möglichst weiten Auslegung des Urheberrechts nun ausgerechnet aus der Mitte der Freie Software-Community kommen.
Copyleft profitiert nicht von Urheberrechtsverschärfungen
Copyleft-Lizenzen sind eine geniale Erfindung, mit der sich die Freie Software-Szene das Urheberrecht als scharfes Schwert der Inhalteindustrie zunutze gemacht hat, um den freien Austausch von Kultur und Innovation zu fördern. Unter Copyleft lizenzierte Werke dürfen von allen kopiert, geändert und verbreitet werden, solange alle Kopien oder abgeleiteten Werke ihrerseits unter denselben Bedingungen weiterverwendet werden dürfen. Auf diese Weise entsteht eine positive Dynamik, dank der immer mehr Innovationen der Allgemeinheit offenstehen. Das Urheberrecht, das eigentlich dazu konzipiert war, Exklusivität über Schöpfungen zu garantieren, wird hier genutzt, um zu verhindern, dass der Zugang zu abgeleiteten Werken beschränkt wird.

Klar ist aber auch, dass es gar keine Copyleft-Lizenzen geben müsste, wenn das Urheberrecht nicht grundsätzlich ein so hohes Maß an exklusiver Kontrolle über geistige Schöpfungen garantieren würde. Wenn es nicht möglich wäre, mittels des Urheberrechts die Nutzung und Modifizierung von Software-Code zu verbieten, dann bräuchte es auch keine Lizenzen, die verhindern, dass Entwickler:innen von diesen Verbotsrechten Gebrauch machen. Deshalb ist es so widersinnig, wenn sich Copyleft-Enthusiast:innen für eine Ausweitung des Urheberrechts stark machen. Denn sie müssen bedenken: Diese Ausweitung von Verbotsrechten stärkt nicht nur die Durchsetzung von Copyleft-Lizenzen, sondern auch die sehr viel verbreiteteren Copyright-Lizenzen, die genau das Gegenteil bezwecken.

Genau das passiert aber in der aktuellen Debatte um GitHubs Copilot. Weil hier ein großes Unternehmen – GitHubs Mutterkonzern Microsoft – von der Existenz freier Software profitiert und eine kommerzielle Dienstleistung darauf aufbaut, mag die Idee naheliegen, das Urheberrecht zu nutzen, um Microsoft diese Entwicklung zu verbieten. Die Copyleft-Szene läuft hier aber Gefahr, eine Ausweitung des Urheberrechts auf Handlungen zu fordern, die bisher aus gutem Grund nicht unter das Urheberrecht fallen. Diese Ausweitungen hätten jedoch fatale Folgen für den freien Zugang zu Wissen und Kultur, den Copyleft-Lizenzen eigentlich fördern wollen.

Es kursieren zwei Varianten der Kritik an GitHubs Copilot. Einerseits wird bereits die Verwendung von Freier Software als Ausgangsmaterial für die KI-Anwendung kritisiert, andererseits die Möglichkeit von Copilot, selbst Outputs zu erzeugen, die auf den Trainingsdaten basieren (und die Kommerzialisierung dieser Funktionalität). Beides mag man ethisch verwerflich finden, doch das Urheberrecht wird dabei nicht verletzt.
Text & Data Mining ist keine Urheberrechtsverletzung
Einige kritisieren bereits das Scrapen von Code ohne Erlaubnis der Urheber:innen. Dabei ist das reine Lesen und Verarbeiten von Informationen keine urheberrechtlich relevante Handlung, die einer Erlaubnis bedürfe – wenn ich in einen Buchladen gehe, ein Buch aus dem Regal nehme und anfange es zu lesen, verletze ich dadurch keinerlei Urheberrechte.

Dass sich Scrapen von Inhalten für das Trainieren einer künstlichen Intelligenz überhaupt im Bereich des Urheberrechts bewegt, liegt daran, dass digitale Technologie es erfordert, Kopien von Inhalten anzulegen, um diese weiterzuverarbeiten. Das Kopieren ist grundsätzlich eine urheberrechtlich relevante Handlung. Aus dieser Tatsache resultieren viele der Konflikte zwischen Urheberrecht und Digitalisierung. Glücklicherweise hat die Politik längst erkannt, dass digitale Technologie gänzlich unbenutzbar wäre, wenn jede technische Kopie erlaubnispflichtig wäre. Andernfalls müssten Menschen, die mit digitalen Hörgeräten Musik hören, zunächst eine Lizenz dafür erwerben. Internetprovider müssten alle erdenklichen urheberrechtlich geschützten Werke lizenzieren, die ihre Kund:innen miteinander austauschen. Bereits im Jahre 2001 hat die EU deshalb solche temporären Kopiervorgänge, die Teil eines technischen Prozesses sind, uneingeschränkt erlaubt – trotz der Proteste der Unterhaltungsindustrie.

Leider erlaubte diese Urheberrechtsausnahme von 2001 zunächst nur das temporäre, also flüchtige Kopieren von urheberrechtlich geschützten Inhalten. Viele technische Prozesse erfordern jedoch zunächst das Erstellen eines Referenzkorpus, in dem Inhalte dauerhaft gespeichert und erst im Anschluss weiterverarbeitet werden. Diese Notwendigkeit machten Wissenschaftsverlage sich lange zunutze, um Wissenschaftler:innen davon abzuhalten, große Mengen urheberrechtlich geschützter Fachartikel herunterzuladen und automatisiert auszuwerten. Obwohl diese Wissenschaftler:innen legalen Zugriff auf die Inhalte hatten, beispielsweise über ein Abonnement ihrer Universität, versuchten die Verlage das Erstellen von Referenzkorpora vertraglich oder technisch auszuschließen – die Forscher:innen sollten die Fachartikel nur mit ihren eigenen Augen lesen, nicht mit technischen Hilfsmitteln. Maschinengestützte Forschungsmethoden wie beispielsweise die Digital Humanities litten enorm unter dieser Praxis.
“The Right to Read is the Right to Mine”
Unter dem Slogan “The Right to Read is the Right to Mine” forderten Wissenschaftsverbände deshalb eine explizite Erlaubnis im europäischen Urheberrecht für das sogenannte Text & Data Mining, also das dauerhafte Speichern von urheberrechtlich geschützten Werken zum Zwecke der automatisierten Auswertung. Die Kampagne hatte Erfolg, zum Leidwesen der Wissenschaftsverlage.

Seit der EU-Urheberrechtsrichtlinie von 2019 ist das Text & Data Mining erlaubt – selbst im Fall von kommerziellen IT-Anwendungen können Rechteinhaber:innen ihre Zustimmung zum Text & Data Mining nur verweigern, wenn sie dieses Opt-Out in maschinenlesbarer Form hinterlegen (beispielsweise in der robots.txt). Nach europäischem Urheberrecht ist das Scrapen von GPL-lizenziertem Code, oder jeglicher anderer urheberrechtlich geschützter Werke unabhängig von der verwendeten Lizenz, also urheberrechtlich unproblematisch. In den USA fällt Scrapen unter Fair Use, das ist spätestens seit dem Google Books-Fall klar.
Maschinengenerierter Code ist kein abgeleitetes Werk
Einige Kommentator:innen sehen in GitHubs Copilot eine Urheberrechtsverletzung, weil das Programm nicht nur urheberrechtlich geschützten Softwarecode als Trainingsmaterial verwendet, sondern seinerseits Software-Code als Output erzeugt. Dieser Output-Code sei ein abgeleitetes Werk der Trainingsdatensätze, weil die KI ohne die Trainingsdaten nicht in der Lage wäre, den Code zu erzeugen. In einigen wenigen Fällen gibt Copilot außerdem laut GitHubs FAQ kurze Ausschnitte aus den Trainingsdatensätzen wieder.

Diese Argumentation ist in zweierlei Hinsicht gefährlich: Einerseits suggeriert sie, dass bereits die Wiedergabe von kleinsten Ausschnitten aus geschützten Werken eine Urheberrechtsverletzung darstelle. Das ist nicht der Fall. Urheberrechtlich relevant ist eine solche Nutzung erst dann, wenn der verwendete Ausschnitt seinerseits originell und einzigartig genug ist, um Schöpfungshöhe zu erreichen. Andernfalls würden ständig urheberrechtliche Konflikte entstehen, wenn zwei Urheber:innen unabhängig voneinander den gleichen trivialen Satz verwenden – beispielsweise “Bayern München schlägt Borussia Dortmund 2:1 nach Verlängerung”, oder eben zwei Programmierer:innen “i = i+1”.
Schöpfungshöhe erreicht?
Die Schöpfungshöhe dürfte bei den kurzen Codeschnipseln, die Copilot aus Trainingsdaten extrahiert, nicht gegeben sein. Gerade weil das Urheberrecht nur Ausschnitte schützt, die die Schöpfungshöhe erreichen, haben Presseverlage erfolgreich für ein eigenes Leistungsschutzrecht lobbyiert, das diese Anforderung nicht enthält. Ihr Ziel ist es, auch die Anzeige von einzelnen Sätzen aus Presseartikeln beispielsweise durch Suchmaschinen zu verbieten. Genau dieser problematischen Forderung schließt die Freie Software-Community sich an, wenn sie absolute Kontrolle über kleinste Ausschnitte aus Software-Code verlangt.

Andererseits basiert die Argumentation, bei den Outputs von GitHubs Copilot handle es sich um abgeleitete Werke der Trainingsdaten, auf der Annahme, eine Maschine könne Werke erzeugen. Auch das ist falsch und kontraproduktiv. Das Urheberrecht ist bislang nur auf geistige Schöpfungen anwendbar – wo keine Schöpferin, da kein Werk. Das bedeutet, dass maschinengenerierter Code wie der von GitHubs Copilot überhaupt kein Werk im urheberrechtlichen Sinne darstellt, also auch kein abgeleitetes Werk. Der Output einer Maschine ist urheberrechtlich schlicht nicht schutzfähig – er ist gemeinfrei. Das sind gute Nachrichten für den freien Zugang zu Wissen und Kultur.

Wer nun argumentiert, dass es sich bei dem Output um abgeleitete Werke der Trainingsdaten handelt, mag das hehre Ziel verfolgen, diese Outputs unter die Lizenzbedingungen der GPL zu stellen. Doch der unangenehme Nebeneffekt einer solchen Ausweitung des Urheberrechts wäre, dass alle anderen KI-generierten Inhalte fortan ebenfalls urheberrechtlich geschützt wären.
Urheberrecht für maschinell erstellte Werke
Was würde ein Musiklabel daran hindern, eine KI mit ihrem Musikkatalog zu trainieren, um automatisch alle erdenklichen Melodien zu generieren und deren Nutzung durch Dritte zu untersagen? Was würde Verlage stoppen, Millionen Sätze zu erzeugen und auf diesem Wege die Sprache zu privatisieren?

Bei der Weltorganisation für Geistiges Eigentum WIPO lobbyieren Unternehmen bereits heute für eine Ausweitung des Urheberrechts auf maschinengenerierte Werke. So heißt es seitens der WIPO: “Im Mittelpunkt steht die Frage, ob das bestehende IP-System geändert werden muss, um einen ausgewogenen Schutz für maschinell erstellte Werke zu gewährleisten”, von einer solchen Ausweitung des Urheberrechts würden in erster Linie die Technologiekonzerne profitieren, die in der Lage sind, KI-Anwendungen zu entwickeln und zu skalieren. Dazu gehört auch Microsoft. Kritiker:innen von GitHubs Geschäftsgebahren täten also gut daran, dieser Strategie nicht auch noch in die Hände zu spielen.

Über Julia Reda (Gastautorin):

Julia Reda war von 2014 bis 2019 Mitglied des Europäischen Parlaments innerhalb der Fraktion Die Grünen/EFA. Später hat sie im Rahmen eines Fellowships am Berkman Klein Center for Internet & Society der Harvard University geforscht und arbeitet seit 2020 bei der Gesellschaft für Freiheitsrechte in Berlin. Ihre Kolumne "Edit Policy" erscheint unter der Lizenz CC BY 4.0. | Foto: CC-BY Diana Levine