Internet, la xarxa de xarxes, s’ha caracteritzat, entre d’altres coses, per l’economia de l’abundància, per tenir (teòricament) una disponibilitat no finita de recursos, a un cost d’extracció (generació) ínfim, gairebé zero, econòmicament parlant (els costos ecològics, ara ho sabem, van per una altra banda).
Es disposava d’informació, es generava informació, s’hi bolcava informació, es digitalitza allò analògic o ja neix digital a base de sensoritzar tot el nostre entorn, de deixar un rastre digital de tot allò que fem, de dibuixar-hi la nostra vida i la nostra personalitat, de manera conscient o implícita, rastrejats arreu.
Semblava infinit, i les dades, el manà que mou la xarxa, no semblaven acabar-se.
I passem d’algoritmes complexos i sistemes experts, del naixement del big data i la explosió de la potència de càlcul a la irrupció de la IA, amb xarxes neuronals i LLM, que menja i devora dades i càlculs, i torna respostes gairebé conversacionals, que sembla saber més que nosaltres el que volem i ens resol dubtes que de vegades ni sabem plantejar bé, quasi màgica com sembla.
No sabem explicar com funcionen els models actuals de manera explícita, perquè no atenen a regles programades prèviament, o autoescrites per ells, com els sistemes experts, cada vegada creen i reconfiguren la xarxa que dóna el resultat, mai el mateix, sempre similar. No sabem com funciona el motor, però si que sabem que extreu conclusions de les dades que li donem: com més i millors siguin les dades, millors seran els resultats. Com pitjors i més esbiaixades, pitjors els resultats (això si, respòs amb la mateixa seguretat que si fossin correctes i, nosaltres, que ens ho creiem tot i no en dubtem si la opinió és ferma, desinformats, errats, equivocats si no vigilem).
Arribem a un punt en què les dades s’acaben, però. Què farem? Ens plantegem usar dades sintètiques, dades creades pels propis sistemes si no n’hi ha prou, per produir nous resultats… però que passa si les dades inicials no son bones? Quin biaix, quins errors auto-induïts tindran, aquestes dades?
Si això socialment ja no és gens aconsellable per models generalistes de IA, els que usem tots, sense pensar gaire en les conseqüències, generant imatges, buscant respostes, fent documents, sense saber ben bé d’on han sortit els resultats, què pot passar a mesura que models no generalistes, si no especialistes, entrin en aquesta roda?
És veritat que models especialistes (justícia, policia, administració, sanitat) no tenen la pressió econòmica que tenen els fabricants de models de IAG, i que per tant la dada serà molt més acurada, neutra i lliure de biaixos…
Hi ha un gran corpus de dades històriques esperant a ser digitalitzades que poden suposar un entrenament excel·lent per sistemes especialistes… però alhora hem de pensar que, precisament per ser dades històriques, poden portar tota la càrrega dels biaixos històrics de temps passats, sigui a nivell mèdic, policial, social, de justícia o d’administració (col·lectius socials desfavorits, biaixos policials històrics, tractaments mèdics ja obsolets però emprats durant molt de temps).
Cal un govern de la dada, doncs, des del moment zero. A nivell professional i a nivell social, en models especialistes i en models generalistes, cal un control de la qualitat de la dada, i cal garantir que les noves dades que es generin des del mon analògic, estiguin lliures de biaixos, o netejar de biaixos antics els datasets històrics.
Com en una mena de moviment de pèndol, de bumerang, passem de l’economia de l’escassetat al món físic (objectes) a l’economia de l’abundància de la xarxa (dades) a, de nou, una economia de l’escassetat en el món digital, escassetat provinent, paradoxalment, per la quantitat de dades de poca qualitat.
Què ens queda? Dedicar esforços a generar dades sintètiques de qualitat, vigilant la varietat, neutralitat i qualitat d’una dada inventada (amb els costos ecològics que implica aquesta generació de dades) o bé dedicar-los a digitalitzar i recollir les dades ja existents arreu del món (històriques, a digitalitzar, o les sensoritzables) de manera neta, sense biaixos, i recollint la diversitat de tot el que s’ha creat i es fa cada dia?
Si aquest és un dels debats que s’han de tenir de cara a la IA, no es pot deixar només en mans de criteris econòmics i de previsió de guanys.