Mehrere Technologieunternehmen, darunter Apple, Nvidia, Anthropic und Salesforce, wurden dabei ertappt, YouTube-Daten zur Entwicklung ihrer KI-Modelle verwendet zu haben. Eine Untersuchung von Proof News, die gemeinsam mit Wired veröffentlicht wurde, ergab, dass Untertitel-Daten von YouTube ohne Erlaubnis extrahiert und zum Trainieren großer Sprachmodelle (LLMs) wie ChatGPT genutzt wurden. Videobilder waren nicht betroffen.

YouTube hat klargestellt, dass die Nutzung von Videos zur KI-Entwicklung gegen die Nutzungsbedingungen der Plattform verstößt. Dennoch gilt YouTube als wertvolle Datenquelle für generative KI-Modelle, insbesondere im Zuge der aktuellen Entwicklung von Text-zu-Video-Modellen.

Ungefähr 173.536 YouTube-Videos von mehr als 48.000 Kanälen wurden in dem von Apple und anderen genutzten Datensatz identifiziert. Dieser Datensatz, der von einer gemeinnützigen Organisation zusammengestellt und “The Pile” genannt wird, enthält nicht nur YouTube-Daten, sondern auch Wikipedia-Artikel, Bücher und sogar Enron-E-Mails. Der Datensatz YouTube Subtitles enthält Video-Transkripte von Bildungs- und Online-Lernkanälen wie Khan Academy, MIT und Harvard. Auch Videos von The Wall Street Journal, NPR und der BBC sowie Unterhaltungsprogramme wie “The Late Show with Stephen Colbert”, “Last Week Tonight with John Oliver” und “Jimmy Kimmel Live” wurden verwendet.

Proof News entwickelte ein Tool, um nach YouTubern im KI-Trainingsdatensatz zu suchen. Viele Schöpfer gaben an, dass ihre Videos ohne ihr Wissen verwendet wurden. David Pakman, Moderator von “The David Pakman Show”, einem politisch linken Kanal mit über zwei Millionen Abonnenten, berichtete, dass fast 160 seiner Videos im YouTube Subtitles-Datensatz enthalten waren. Pakman fordert eine Entschädigung für die Nutzung seiner Daten, da er beträchtliche Ressourcen in die Herstellung seiner Inhalte investiert.

Vertreter von EleutherAI, den Schöpfern des Datensatzes, äußerten sich nicht zu den Vorwürfen, dass Videos ohne Erlaubnis verwendet wurden. Ihre Website betont, dass das Ziel darin besteht, die Hürden für die KI-Entwicklung außerhalb der großen Tech-Konzerne zu senken. YouTube Subtitles enthält keine Video-Bilder, sondern nur den reinen Text der Untertitel, oft mit Übersetzungen in mehrere Sprachen. Laut einer Forschungsarbeit von EleutherAI ist der Datensatz Teil einer größeren Zusammenstellung namens The Pile, die auch Materialien aus dem Europäischen Parlament, Wikipedia und Enron-E-Mails umfasst.

Apple, Nvidia und Salesforce haben den Datensatz The Pile in ihren Forschungsarbeiten zur KI-Entwicklung verwendet. Dokumente zeigen, dass Apple den Datensatz zur Entwicklung von OpenELM nutzte, einem hochkarätigen Modell, das im April veröffentlicht wurde. Anthropic, das eine Investition von 4 Milliarden Dollar von Amazon erhielt, bestätigte ebenfalls die Nutzung des Datensatzes in ihrem generativen KI-Assistenten Claude. Salesforce nutzte den Datensatz für akademische und Forschungszwecke und veröffentlichte das daraus entwickelte KI-Modell 2022 zur öffentlichen Nutzung.

Technologieunternehmen konkurrieren um qualitativ hochwertige Daten, um ihre Modelle zu verbessern. Die New York Times berichtete, dass Google Videos von YouTube für die Textanalyse nutzte, was durch die Vereinbarungen mit den YouTubeern erlaubt war. OpenAI nutzte ebenfalls YouTube-Videos, allerdings ohne Autorisierung.

Viele Kreative sind besorgt über die Nutzung ihrer Inhalte durch KI und fordern eine Entschädigung oder Regulierung. Die Fragen rund um Erlaubnis und Bezahlung bleiben ungelöst, und rechtliche Auseinandersetzungen sind noch im Gange. Technologieunternehmen haben argumentiert, dass ihre Handlungen unter den Fair-Use-Grundsätzen fallen. Die Nutzung von YouTube-Subtitles wirft grundlegende ethische Fragen auf, und viele Creator fühlen sich übergangen und ausgenutzt. Die Situation verdeutlicht erneut die Notwendigkeit einer klareren Regulierung und fairer Entschädigung für die Nutzung kreativer Inhalte durch KI.