Antwort (Inhalte Dritter zum Training von KI)

Wie können zum Training von KI-Systemen urheberrechtlich geschützte Inhalte Dritter rechtssicher verwendet werden?

Für das Training eines KI-Systems werden in der Regel große Datenmengen benötigt. Dabei kann es sich um eigene Daten, beispielsweise einer Hochschule oder eines Unternehmens, handeln oder um Datensätze, die von externen Anbieter:innen zu deren Lizenzbedingungen erworben werden. 

Zudem werden im Internet frei zugängliche Daten zum Training von KI-Systemen genutzt. Regelmäßig werden dabei auch urheberrechtlich geschützte Inhalte (z.B. Texte, Bilder, Videos, Musik, Programmcodes) als Trainingsmaterial verwendet. Die im Rahmen des Trainings stattfindende automatisierte Analyse und Auswertung der Eingabe-Trainingsdaten sowie ihre Kategorisierung betrifft den urheberrechtsfreien sogenannten Werkgenuss, vergleichbar mit dem Lesen eines Buchs durch einen Menschen. Die Sammlung und Aufbereitung der Trainingsdaten sowie das Speichern von Trainingsdaten können jedoch das Vervielfältigungsrecht aus § 16 UrhG und das Bearbeitungsrecht aus § 23 UrhG betreffen. Soweit keine urheberrechtlichen Nutzungsrechte für diese Verwertungshandlungen durch die Rechteinhaber:innen gemäß §§ 31 ff. UrhG eingeräumt wurden oder eine gesetzliche Schrankbestimmung gemäß §§ 44a ff. UrhG einschlägig ist, würde eine Urheberrechtsverletzung vorliegen. 

Von einer individuellen Nutzungsrechtseinräumung durch die Rechteinhaber:innen ist aufgrund der Vielzahl an Trainingsdaten regelmäßig nicht auszugehen.

Als relevante Schrankenbestimmungen kommen die Schranke für vorübergehende Vervielfältigungshandlungen gemäß § 44a UrhG, sowie die Schrankenbestimmung des § 44b UrhG und § 60d UrhG für Text und Data Mining in Betracht. § 60d UrhG betrifft dabei nur das Text und Data Mining für Zwecke der wissenschaftlichen Forschung, während § 44b UrhG auch Vervielfältigungen zu kommerziellen Zweckenermöglicht.



I. Text und Data Mining

Die Anwendbarkeit der Schranke des Text und Data Mining aus § 44b UrhG oder § 60d UrhG auf die Nutzung von urheberrechtlich geschützten Werken zum Trainieren eines KI-Systems ist im juristischen Schrifttum umstritten. Überwiegend wird davon ausgegangen dass dass Training eines KI-Systems erfasst ist. Das Landgericht Hamburg hat sich als erstes deutsches Gericht mit der urheberrechtlichen Zulässigkeit befasstund die Anwendbarkeit des § 44b UrhG ebenfalls bejaht (LG Hamburg, Urteil vom 27. September 2024, Az. 310 O 227/23). Es bleibt aber zum jetzigen Zeitpunkt abzuwarten, ob sich diese Auffassung final durchsetzen wird, so dass die Anwendbarkeit der Schranke des Text und Data Mining auf die Nutzung von urheberrechtlich geschützten Inhalten zum Training eines KI-Systems Rechtsunsicherheiten birgt.

1. Abgrenzung des § 44b UrhG zu § 60d UrhG

Für Vervielfältigungen von urheberrechtlich geschützten Material für das Text und Data Mining hat der deutsche Gesetzgeber im Jahr 2018 in § 60d UrhG eine Schranke für Zwecke der wissenschaftlichen Forschung eingeführt und ihr 2021 in § 44b UrhG eine allgemeine Schranke auch für kommerzielle Nutzungen zur Seite gestellt. § 60d UrhG schränkt Forscher:innen nicht ein, sich auch auf andere Schranken des UrhG zu berufen, wie eben auch auf die allgemeine Text und Data Mining-Schranke gemäß § 44b UrhG.

§ 44b Absatz 1 UrhG enthält die Legaldefinition des Text und Data Mining, auf die auch § 60d Absatz 1 UrhG unter Bezugnahme auf § 44b Absatz 1 und 2 Satz 1 UrhG verweist. Text und Data Mining wird definiert als „die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen“ (§ 44b Absatz 1 UrhG). Erfasst wird damit jede Analyse von urheberrechtlich geschützten Materials aller Werkkategorien des 

§ 2 Absatz 1 UrhG, wie insbesondere Texte, Bilder, Laufbilder und jede andere Form von Daten. § 60d UrhG ist auf Computerprogramme allerdings nicht anzuwenden (§ 69d Absatz 6 UrhG). Forscher:innen können sich insoweit aber auf die allgemeine Text und Data-Mining-Schranke in § 44b Absatz 2 UrhG berufen, soweit eine Rechteinhaber:in keinen Vorbehalt erklärt hat (§ 44b Absatz 3 UrhG). Die Schranke des Text und Data Mining gemäß § 60d UrhG erfasst auch alle Leistungsschutzrechte. In § 87c Absatz 1 Nr. 5 UrhG werden Vervielfältigungen eines nach Art und Umfang wesentlichen Teils einer Datenbank zu Zwecken des Text und Data Mining gemäß § 60d UrhG ausdrücklich zugelassen. 

2. Rechtmäßig zugängliche Werke

Über den Verweis auf § 44b Absatz 2 Satz 1 UrhG sind Vervielfältigungen aber nur „von rechtmäßig zugänglichen Werken für das Text und Data Mining“ zulässig. Ein Werk ist rechtmäßig zugänglich, wenn die Nutzer:in es ohne Rechtsverstoß abrufen kann. Es kommt nach dem Wortlaut nicht darauf an, ob das Werk auch rechtmäßig (öffentlich) zugänglich gemacht wurde. Rechtmäßiger Zugang besteht zu urheberrechtlich geschützten Werke, die von einer vertraglichen Vereinbarung zwischen der Rechteinhaber:in und Nutzer:innen erfasst werden, im Wege des Open Access frei zugänglich gemacht werden oder die frei im Internet zugänglich sind.

3. Nutzungsvorbehalt

Während im Rahmen des § 60d UrhG ein möglicher Vorbehalt der Rechteinhaber:in umbeachtlich ist, bietet die Schranke des § 44b Absatz 3 UrhG außerhalb der wissenschaftlichen Forschung den Urheber:innen die Möglichkeit einen Nutzungsvorbehalt ihrer Werke für das Text und Data Mining zu erklären (sogenannter „Opt-out“). In diesem Fall greift die Schrankenbestimmung nicht. Ein Nutzungsvorbehalt bei online zugänglichen Werken ist nach § 44b Absatz 3 Satz 2 UrhG nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.Beispielsweise kann er in das Impressum einer Internetseite integriert werden. Ob ein Nutzungsvorbehalt auch in „natürlicher Sprache“ auf einer Internetseite als maschinenlesbar gelten kann, ist bislang ebenfalls umstritten. Das Landgericht  Hamburg verwies in einem Urteil vom 27. September 2024 (Az. 310 O 227/23) darauf, dass Vorbehalte in natürlicher Sprache möglicherweise maschinenlesbar seien, wenn moderne KI-Technologien sie inhaltlich erfassen könnten. Ob sich diese Auffassung durchsetzen wird, bleibt abzuwarten.

4. Löschung

Trainingsdaten sind nach dem Training der KI zu löschen. Die Datenbank von Trainingsdaten („Korpus“) müsste daher nach Abschluss des konkreten KI-Projekts vernichtet werden. Eine langfristige Speicherung der Trainingsdaten, etwa um damit weitere KI-Systeme zu trainieren, wäre damit gemäß § 44b Absatz 2 Satz 2 UrhG unzulässig. Sofern der Bestand an  Trainingsdaten  erhalten werden soll, wäre der Abschluss einer Lizenzvereinbarung mit den Rechteinhaber:innen notwendig.  

Erfolgt das Text und Data Mining aber zu wissenschaftlichen Zwecken, ist die großzügigere Schrank des § 60d Absatz 5 UrhG einschlägig, wonach Vervielfältigungen so lange aufbewahrt werden dürfen, wie es für Zwecke der wissenschaftlichen Forschung oder zur Überprüfung wissenschaftlicher Erkenntnis erforderlich ist. Als „zur Überprüfung erforderlich“ wird man nach den Anforderungen der guten wissenschaftlichen Praxis in den meisten Fällen einen Zeitraum von zehn Jahren annehmen können. Die Forscher:innen sind dabei aber verpflichtet, angemessene Sicherheitsvorkehrungen gegen unbefugte Benutzung zu veranlassen, wie beispielsweise in Forschungsdatenrepositorien, die gewährleisten können, dass notwendigen Sicherheitsmaßnahmen befolgt werden.

II. Vorübergehende Vervielfältigungshandlungen

Nach der Schrankenbestimmung des § 44a UrhG sind vorübergehende Vervielfältigungshandlungen, die flüchtig oder begleitend sind und einen integralen und wesentlichen Bestandteil eines technischen Verfahrens darstellen zur Ermöglichung einer Übertragung eines Werkes oder sonstigen Schutzgegenstandes zulässig. Dies gilt aber nur dann, soweit die Vervielfältigungshandlungen keine eigenständige wirtschaftliche Bedeutung haben. 

Auf diese Schrankenbestimmung kann das Training eines KI-Systems somit nur dann gestützt werden, wenn das KI-System nicht aufgrund einer dauerhaften Kopie lernt, sondern die KI an einem im Arbeitsspeicher gespeicherten Werk lernt, das anschließend wieder gelöscht wird. Die Schrankenbestimmung käme auch nur dann zur Anwendung, wenn die vorübergehenden, temporären Vervielfältigungshandlungen keine eigenständige wirtschaftliche Bedeutung hätten und damit keine neue eigenständig verwertbare Nutzungsmöglichkeit eröffnet würde. Überwiegend wird  aber gerade vertreten, dass Vervielfältigungshandlungen zum KI-Training eine eigenständige Nutzungshandlung sind, der eine eigene wirtschaftliche Bedeutung zugeschrieben wird. 

Die Schrankenbestimmung des § 44 a UrhG wäre damit nicht auf die Verwertung von urheberrechtlich geschützten Inhalten zum Training eines KI-Systems anzuwenden.