Podobnie jak praktycznie każda inna firma technologiczna, Adobe w ostatnich latach mocno postawiło na AI. Od 2023 roku firma programistyczna wprowadziła szereg różnych usług opartych na sztucznej inteligencji, w tym Firefly — pakiet narzędzi do generowania mediów wspierany przez AI. Teraz jednak pełne zaangażowanie firmy w tę technologię mogło doprowadzić do problemów, ponieważ nowy pozew twierdzi, że Adobe wykorzystywało pirackie książki do trenowania jednego ze swoich modeli AI.
Proponowany pozew zbiorowy złożony w imieniu Elizabeth Lyon, autorki z Oregonu, twierdzi, że Adobe użyło pirackich wersji licznych książek — w tym jej własnej — do trenowania programu SlimLM.
Adobe opisuje SlimLM jako serię małych modeli językowych, które mogą być „optymalizowane do zadań związanych z obsługą dokumentów na urządzeniach mobilnych”. Firma podaje, że SlimLM został wstępnie wytrenowany na SlimPajama-627B, „zde-duplikowanym, wielokorpusowym, otwartoźródłowym zbiorze danych” wydanym przez Cerebras w czerwcu 2023 roku. Lyon, która napisała szereg przewodników dotyczących pisania literatury faktu, twierdzi, że niektóre z jej prac znalazły się w zbiorze danych użytym przez Adobe do wstępnego trenowania.
Pozew Lyon, o którym pierwotnie poinformował Reuters, stwierdza, że jej twórczość została uwzględniona w przetworzonym podzbiorze zmanipulowanego zbioru danych, który stanowił podstawę programu Adobe: „Zbiór danych SlimPajama został stworzony poprzez kopiowanie i manipulowanie zbiorem danych RedPajama (w tym kopiowanie Books3),” czytamy w pozwie. „Tak więc, ponieważ jest to pochodna kopia zbioru danych RedPajama, SlimPajama zawiera zbiór Books3, w tym chronione prawem autorskim dzieła Powódki i członków klasy.”
„Books3” — ogromna kolekcja 191 000 książek wykorzystywanych do trenowania systemów genAI — od dawna jest źródłem problemów prawnych dla społeczności technologicznej. RedPajama również była wymieniana w wielu sprawach sądowych. We wrześniu pozew przeciwko Apple twierdził, że firma użyła materiałów chronionych prawem autorskim do trenowania swojego modelu Apple Intelligence. Pozew wspominał o tym zbiorze danych i oskarżał firmę technologiczną o kopiowanie chronionych dzieł „bez zgody, bez uznania autorstwa i bez wynagrodzenia”. W październiku podobny pozew przeciwko Salesforce również twierdził, że firma użyła RedPajama do celów szkoleniowych.
Niestety dla branży technologicznej, takie pozwy stały się już dość powszechne. Algorytmy AI są trenowane na ogromnych zbiorach danych i w niektórych przypadkach te zbiory rzekomo zawierają materiały pirackie. We wrześniu Anthropic zgodził się zapłacić 1,5 miliarda dolarów grupie autorów, którzy pozwali firmę i oskarżyli ją o wykorzystanie pirackich wersji ich prac do trenowania chatbota Claude. Sprawa ta była uznawana za potencjalny punkt zwrotny w trwających sporach prawnych dotyczących materiałów chronionych prawem autorskim w danych treningowych AI, których jest wiele.


