
Comprar llibres vells per entrenar una IA i destruir-los: alerta dels llibreters per comandes sospitoses

Fa pocs dies, en Marçal Font va haver d'embolicar i enviar als Estats Units un exemplar de "Les coques catalanes", un llibre en català que, possiblement, acabarà escanejat i destruit per alimentar una IA.
Llibreters de vell d'arreu del món porten un mes rebent estranyes comandes en línia i no saben del cert qui hi ha al darrere. Sí que en tenen sospites, i alguna hipòtesi preocupant. El misteri s'ha convertit en el gran tema de conversa del sector, encarregat de preservar i vendre llibres usats o descatalogats.
Un número creixent de llibreters està convençut que qui compra els llibres de vell són empreses d'intel·ligència artificial (IA), que els utilitzen per entrenar els grans models de llenguatge (LLM), com GPT, Gemini o Claude. En digitalitzen el contingut, l'ingesten a una IA i, en acabat, en destrueixen la còpia física.
Hi ha molts indicis que corroboren les sospites. La principal evidència és que es tracta del mateix mètode que el 2024 utilitzava l'empresa Anthropic, propietària dels models Claude, en el documentat "Projecte Panamà", que ha acabat judicialitzat.
Aquesta és una distòpica història sobre intel·ligència artificial i l'operació encoberta d'empreses nord-americanes, amb acords de confidencialitat inclosos, que pretén amagar per què estan comprant milers de llibres sense recorregut comercial, també en català, de temes tan específics com les tècniques de filatura antigues, manuals de retallar paper o els castellers de Granollers dels 70.
Una història que, per alguns, "és un espoli literari".
Un bot que compra i llegeix llibres de vell
Marçal Font, de Badalona, és professor de Literatura Comparada a la UB. És propietari d'una llibreria de vell (Fénix) i també ha estat rebent comandes estranyes.
Són comandes que rep en pocs minuts, "indiscriminades, mal agrupades i en finestres horàries molt concretes." Clarament, estan elaborades de forma automàtica. Totes van dirigides a una sola empresa, ZoomBooks, i a un lloc, PrepFort, un gran magatzem a pocs minuts de l'aeroport de Chicago. Font va sospitar de seguida, i no estava sol.
"Vaig rebre set comandes seguides, set mails seguits, on en una de les comandes hi ha vuit llibres, en una altra n'hi ha tres, en una altra n'hi ha cinc, i cada comanda està separada per set o cinc minuts de separació", explica. La conclusió que en treu és clara:
No hi ha un comportament humà darrere. És evident que és automatitzat.
Entre abril i maig, desenes de llibreters de vell d'arreu del món van començar a explicar preocupats, en fòrums especialitzats, que venien més que mai, però que les comandes eren insòlites pel contingut i per la forma. Temien que fos una estafa, un frau "relacionat amb les devolucions i les despeses d'enviament", explica Font.

Xavier Font s'hi va sumar i va escriure: "Jo també he rebut diverses comandes de Zoombooks. Tots llibres de no-ficció, en català, que no són fàcils de trobar, però barats i sobre temes històrics locals." Un dels exemplars que va vendre era sobre el món dels castellers a Granollers els anys 70.
Les publicacions antigues, usades, limitades o exhaurides són l'especialitat dels llibreters de vell, però cap d'ells havia rebut mai tantes peticions, tan seguides i amb tan poc sentit, ni tan sols econòmic: en la majoria de casos, les compres no s'agrupen. Les despeses d'enviament superen el preu dels exemplars i "eliminen qualsevol marge de benefici potencial", explica un dels llibreters.
Alguns van passar de rebre "unes quantes" comandes internacionals al mes a haver-ne d'atendre una "gran quantitat" a través d'AbeBooks, un important portal web de llibres de vell (propietat d'Amazon) on molts llibreters tenen el seu catàleg en línia. Hi havia comandes que eren d'un sol exemplar, i altres de 71 de cop.
N'hi ha que han rebut comandes de centenars de llibres i amb prou feines poden assumir l'enviament. Alguns han optat, directament, per aturar el negoci en línia durant hores i no acceptar més peticions, mentre es desfoguen als fòrums:
Som una botiga petita que normalment està dirigida per una sola persona i no tenim la capacitat de processar comandes tan grans.
Milers de llibreters canadencs, neozelandesos, alemanys, estatunidencs... comparteixen informació i elaboren les seves pròpies hipòtesis sobre qui hi ha al darrere.
La sospita que una empresa d'IA és el client final de les comandes va començar a agafar força quan alguns van començar a parlar de l'article del Washington Post que destapava el "Projecte Panamà".
"Escanejar destructivament tots els llibres del món"
La IA necessita dades, però ja les està esgotant. Ja no en queden d'accessibles i de qualitat... i menys amb garanties legals que evitin a les empreses més demandes judicials per violació de copyright.
"És el que anomenem el mur de dades", explica Xavi Vinaixa, director tècnic de Sorensen.AI: "S'estima que ja hem arribat al topall de les dades digitalitzades que tenim per entrenar [els models generatius d'IA]", per això, i per altres estratègies legals, afegeix, "té tot el sentit del món que estiguin comprant llibres de coneixement perifèric, llibres petits. Evidentment, les grans obres ja les tenen".
Això mateix és el que va passar a Anthropic, els propietaris dels models Claude, a principis de 2024. Es van quedar sense contingut nou per seguir entrenant i millorant els seus models. La seva decisió va ser començar a descarregar i ingestar biblioteques senceres de llibres piratejats.
Els autors d'aquests llibres van demandar-los i el judici va acabar amb un acord que va obligar l'empresa a pagar-los 1.500 milions de dòlars (uns 3.000 dòlars per obra piratejada) i a destruir totes les dades obtingudes.
El que no sabien és que el jutge va decidir desclassificar una sèrie de documents que van revelar que piratejar llibres no era l'única manera que les empreses d'IA havien trobat per alimentar els seus models de nou contingut.

Empantanegats amb demandes judicials, els executius van tirar endavant el "Projecte Panamà" el 2024: "el nostre esforç per escanejar destructivament tots els llibres del món", deia un dels documents. Una iniciativa confidencial de la qual no volien deixar rastre. El text seguia:
No volem que se sàpiga que estem treballant en això.
Segons les informacions revelades en la documentació judicial, i consultades pels periodistes Aaron Schaffer, Will Oremus i Nitasha Tiku del Washington Post, en un any Anthropic va gastar desenes de milions de dòlars per comprar milions de llibres, tallar-los el llom amb una guillotina hidràulica i escanejar totes les pàgines alliberades.
El contingut, digitalitzat, servia per ensenyar a sonar més humà el seu model LLM i es quedava a disposició de l'empresa.
La pila de pàgines, el llom i les restes físiques del llibre es destruïen, i es convertien els documents en paper reciclat. Digerits com a simple "font de dades lingüístiques".
"És un procés destructiu de digitalització, una qüestió d'eficiència mecànica", explica el professor de literatura comparada i llibreter de vell Marçal Font.
El problema, explica, és que "un text digital mai substitueix tota la informació del llibre físic", i el llom, la coberta i les metadades físiques del contingut textual donen "pistes sobre quin lloc, quin context social, quina història cultural, quina recepció ha tingut el llibre. No podem perdre aquesta informació".
Aquella operació, segons Anthropic, va finalitzar. Pel que fa a les descàrregues de material protegit de llibreries pirata, el jutge del cas, William Alsup, va retreure la pràctica que va portar a l'acord econòmic amb els autors.
El magistrat, en canvi, no va veure problemes legals en el producte obtingut: Anthropic estava transformant el producte inicial –els llibres digitals– en un de nou –la IA entrenada– i això ho va considerar protegit pel fair use, una de les excepcions de la llei nord-americana en els casos de material protegit intel·lectualment.
Si compraven els llibres un a un, i en tenien factures, potser desapareixia el problema?
Un altre "Projecte Panamà"?
Estirant el fil, Xavier Vinaixa va descobrir com l'empresa de reciclatge i compravenda de llibres ZoomBooks havia escrit uns quants articles on precisament s'oferia com a solució per al "mur de dades" i els problemes legals de les empreses d'IA.
"S'oferien com a intermediaris perfectes per a la compra de llibres per a l'entrenament d'IA" en els articles, diu Vinaixa, i a partir d'aquí "ja vam lligar caps".
Aquests articles han estat esborrats, fins i tot de repositoris públics com Arxiv.org, la qual cosa indica una intencionalitat en l'eliminació. Ni ZoomBooks ni l'empresa d'emmagatzematge als Estats Units han contestat les peticions de 3CatInfo.
Curiosament, encara es poden consultar restes dels continguts d'aquests articles en els propis models de llenguatge (Gemini, ChatGPT...) que havien digerit el contingut dels articles abans de ser eliminats.
Amb tots els indicis, i les proves que van aportant els llibreters de tot el món, sembla clar que alguna empresa d'IA ha encés la maquinària que Anthropic ja va provar amb el "Projecte Panamà", comprant desenes de milers de volums i enviant-los als Estats Units, on se'ls perd la pista.
Com evitar un espoli literari?
"Ara tenim només una empresa o dues comprant. D'aquí tres dies tindrem tota la resta", assegura Marçal Font, i afegeix: "aleshores ja no estarem parlant de dos o tres llibres, estarem parlant de centenars d'exemplars".
Ja hi ha llibreters que assumeixen comandes de desenes d'exemplars cada dia i alguns estan en converses "amb empreses de dades nord-americanes" que els plantegen la compra de milers de llibres de cop.

"No som només comerciants", puntualitza Miguel Ángel Ortega, llibreter i president de l'Associació Professional del Llibre i Col·leccionisme Antics (UNILIBER): "Realitzem una tasca patrimonial, que s'ha de posar en valor, i situacions com aquesta poden comportar que el nostre esforç tingui una finalitat perversa, com la destructiva".
Uniliber explica que la seva pròpia pàgina web està rebent més peticions que mai "probablement de bots" que estan saturant la capacitat d'absorbir noves comandes.
Cal trobar "una solució de compromís" perquè la intel·ligència artificial pugui seguir alimentant-se d'aquests textos, tot evitant-ne la destrucció. Fer servir "la mateixa tecnologia", proposa Font, i potser, "una LLM de país" que després es pugui llicenciar.
"El més lògic i coherent seria que nosaltres preservem aquest patrimoni", diu Ortega, i que dins de l'estat espanyol "hi hagi una via legal i legítima per fer aquest transvasament d'informació" a les empreses que ho sol·licitin: traient-ne un rèdit econòmic i preservant el document.
Els llibreters de vell, en definitiva, demanen que l'administració pública faci un autèntic exercici de sobirania tecnològica i cultural.











