<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Data Poisoning</title><link>https://www.manelguerra.com/tags/data-poisoning/</link><description>Contingut recent a Data Poisoning de Manel Guerra</description><generator>Hugo -- gohugo.io</generator><language>ca</language><copyright>**Llicència CC BY 4.0** &lt;br/&gt;[Info sobre aquesta web](/nota/)[&lt;img src="https://www.manelguerra.com/img/green-team-petit.webp" style="margin:0 auto"/&gt;](/nota/)</copyright><lastBuildDate>Mon, 31 Mar 2025 18:13:36 +0200</lastBuildDate><atom:link href="https://www.manelguerra.com/tags/data-poisoning/rss.xml" rel="self" type="application/rss+xml"/><item><title>Bloquejar cerques d'IA embrutant (també) dades</title><link>https://www.manelguerra.com/blog/bloquejar-cerques-ia/</link><pubDate>Mon, 31 Mar 2025 18:13:36 +0200</pubDate><guid>https://www.manelguerra.com/blog/bloquejar-cerques-ia/</guid><description>&lt;p&gt;L&amp;rsquo;augment de les cerques a Internet via eines d&amp;rsquo;Intel·ligència Artificial (penseu en qualsevol xat que s&amp;rsquo;usi) en comptes de amb els cercadors tradicionals (Google, Bing, etc.) estan fent augmentar (molt) les peticions d&amp;rsquo;informació als servidors de pàgines web.&lt;/p&gt;
&lt;p&gt;Degut a l&amp;rsquo;estructura de la xarxa, les pàgines no només estan en un únic servidor sinó que, si son suficientment populars, es van repartint còpies (actualitzades gairebé instantàniament) a diferents punts de la xarxa (arreu del món), per facilitar la rapidesa de visualització. Aquestes còpies &lt;a href="https://ca.wikipedia.org/wiki/Xarxa_de_lliurament_de_continguts"&gt;es serveixen mitjançant uns serveis (empreses) mitjancers&lt;/a&gt; que faciliten el control, actualització i servei.&lt;/p&gt;</description><content:encoded><![CDATA[<p>L&rsquo;augment de les cerques a Internet via eines d&rsquo;Intel·ligència Artificial (penseu en qualsevol xat que s&rsquo;usi) en comptes de amb els cercadors tradicionals (Google, Bing, etc.) estan fent augmentar (molt) les peticions d&rsquo;informació als servidors de pàgines web.</p>
<p>Degut a l&rsquo;estructura de la xarxa, les pàgines no només estan en un únic servidor sinó que, si son suficientment populars, es van repartint còpies (actualitzades gairebé instantàniament) a diferents punts de la xarxa (arreu del món), per facilitar la rapidesa de visualització. Aquestes còpies <a href="https://ca.wikipedia.org/wiki/Xarxa_de_lliurament_de_continguts">es serveixen mitjançant uns serveis (empreses) mitjancers</a> que faciliten el control, actualització i servei.</p>
<p>Els cercadors (Google, Bing, etc.) van mirant aquestes pàgines, ordenant i indexant el seu contingut, i d&rsquo;allà ens donen les llistes de pàgines o informació quan les cerquem.</p>
<p>Fins ara, això funcionava més o menys així, i els cercadors anaven fent passades i renovant contingut cada (molt poc) temps. Hi havia un equilibri entre demanar dades i repartir-les.</p>
<p>Hores d&rsquo;ara, ens tirem de cap a preguntar-li coses als xats de IA com si no hi hagués res més. I les consultes a les IA son molt, moltíssim més cares energèticament i en consum de xarxa, i estan fent que els &ldquo;repartidors&rdquo; de continguts tinguin moltíssima més feina&hellip; inútil, que no els aporta res més que malbaratament de cicles de computació.</p>
<p>Perquè? Perquè les consultes a la IA fan que <em>cada</em> vegada que es cerca alguna cosa, la IA ho cerqui de nou, no busqui en la seva memòria (els cercadors tradicionals busquen en les seves bases de dades indexades)&hellip; i això fa que <em>cada</em> vegada es repeteixen les mateixes consultes. Imagineu-vos si anem fent una consulta i la refinem per prompts: cada vegada la IA anirà a buscar-ho.</p>
<p>Ara afegim aquí les noves IA raonadores (és a dir, que fan diversos cicles abans de respondre), i l&rsquo;ús de <a href="https://datos.gob.es/es/blog/rag-retrieval-augmented-generation-la-llave-que-abre-la-puerta-de-la-precision-los-modelos-del">tècniques RAG</a> per actualitzar les respostes de la IA amb dades en temps real: <em>l&rsquo;augment de recursos és encara més bèstia que el que ja té la IA per si sol</em>.</p>
<p>Les empreses &ldquo;mitjanceres&rdquo; de continguts son les que ho noten més, perquè és on més van a buscar les cercadores IA.</p>
<p><a href="https://www.schneier.com/blog/archives/2025/03/ai-data-poisoning.html">Bruce Schneier parla d&rsquo;una nova característica de Cloudflare</a>, una empresa &ldquo;mitjancera&rdquo; de continguts, on <strong>usen IA per contraatacar aquest ús abusiu de recursos</strong> (preguntes): generen contingut amb IA per servir-lo a les cerques de IA per tal de &ldquo;tornar-les boges&rdquo;, amb una tècnica que es coneix com <a href="https://www.ibm.com/think/topics/data-poisoning">enverinament de dades</a>. Això faria que, a la llarga, les IA que pregunten no vulguin buscar en aquell &ldquo;mitjancer&rdquo; perquè els resultats no son bons&hellip;</p>
<p>És una tècnica intel·ligent (ja veurem si resultarà), perquè no afecta a les pàgines que son els seus clients, només a les IA &ldquo;preguntadores&rdquo;, que s&rsquo;aprofiten de les dades sense aportar cap tràfic a la pàgina client.</p>
<p>És una volta més a les guerres entre els grans motors que ja semblaven establerts i els nous actors IA, que es volen menjar el mercat.</p>
<p>Pel camí, anem generant contingut merdós de cara a les IA per confondre-les amb altres IA, amb eines cada vegada més cares de mantenir i d&rsquo;alimentar i entrenar en recursos: gastem per confondre i que altres no usin allò que ja hem entrenat nosaltres gastant molt (i amb coneixements d&rsquo;altres, atenció).</p>
<p>Maco el negoci, en aquest sentit: IAs paràsites que s&rsquo;aprofiten d&rsquo;altres per confondre unes terceres, sistemes per contrarestar altres sistemes. I anem construint centres de dades i fent més ús d&rsquo;energia sense finalitat productiva, perquè el problema no és només un ús, és la concepció de tot com uns sistemes en lluita i l&rsquo;escala de tot plegat.</p>
]]></content:encoded></item></channel></rss>