Accions

Una intel·ligència artificial sobirana? Poden ser nostres els datasets, les màquines, i els models que s'utilitzen? 2024/03/02/apunts/01

De teixidora

https://pad.femprocomuns.cat/sobtec4-ia-sobirana-20240302

¿Una inteligencia artificial sobirana? Poden ser nostres els datasets, les màquines i els models que s'utilitzen?

VI Congrés** de Sobirania Tecnològica Sobtec


Apunts

En aquesta xerrada explicarem alguns conceptes bàsics perquè tothom pugui entendre què és i fer-se una idea de com funciona la intel·ligència artificial. Això ens permetrà discutir sobre la sobirania i les dependències que es generen al voltant d’aquesta tecnologia així com reflexionar críticament sobre les promeses i els riscos del seu ús per a la participació i transformació social.

Bruno Caldas Vianna (Digicòria) http://brunocaldasvianna.com, mastodon: https://mastodon.social/@brunovianna

Cal construir el que volem que sigui la intel·ligència artifical, així que el que proposo és més una conversa que un debat, ja que no sóc superexpert en IA, però hi he reflexionat.

M'interessa aquesta qüestió: en un mecanisme de generació d'art amb intel·ligència artificial: de qui son les obres que es generen i de qui són els algoritmes que les generen?

Com funciona la IA generativa: tot el que està disponible a internet, el que no està darrere d'una contrasenya s'utilitza per la IA.

Cal separar, en les "entrades" a la IA hi ha un "Comú" cultural i el que està sota drets d'autor. Jo tinc una visió més pirata de com hauria de funcionar. Els meus col·legues artistes, en són crítics. A través de l'entrenament es defineixen en "pesos" (codi) que s'utilitzen per generar els continguts. Les "sortides" de la IA són imatges, so, música, text,...

Dividim-ho en tres fases: entrades, processament i sortides.

Entrades: (fons coginitiu digitalitzat que és el mateial base)

Culture commons
Material propietari

Tot el que es pot accedir publicament (sota qualsevol llicència o no).

Processament:

Arquitectura d'entrenament > Pesos
Prompts, paràmetres > Pesos

Sortides:

  •     Imatges
  •     So
  •     Música
  •     Text

Entrades

S'utilitzen quantitats massives de dades. de l'ordre de milers de milions d'imatges.

Dos projectes:

  • Stable Diffusion va utilitzar 400M després de filtrar un punt de partida de 5 mil milions (treient baixa qualitat, e...)
  • GPT-3 utulitza 500 mil milons de tokens (paraules) - common crawl, wiipedia, open books servien per alimentar l'Open IA

Amb ChatGtp això va passar a un model tancat que no explica d'on ha obtingut les dades.

Fons cognitiu digitalitzat: tota la cultura com a repositori. Tot vol dir de tres tipus: Creative Commons, domini públic i material propietari.

Com que també utilitza material propietari, això porta més complicacions

  • GitHub
  • Reddit i  xarxes socials.

Es fan acords legals amb els propietaris dels drets, que normalemnt han forçat a que siguin cedits pels usuaris creadors d'aquest. Per exemple Reddit va fer un acordamb Google per 60 milions; Wordpress+Tumbrl alimenten OpenAI, Twitter alimenta Grok i Adobe va utilitzar el seu "propi" contingut, stock photos, ...

Problema de drets d'autor: si demanes a Adobe que faci un Mickey Mouse, no te'l fa, perquè està protegit pels drets d'autor.

Si ens limitem a utilitzar material propietari es protegeixen els autors, suposadament, tot i que guanyen molt poc de les plataformes.

Els grans beneficiats són les empreses d'intel·ligencia artficial, però en detriment dels petits artistes . És un model semblant al Spotify.

No està clar si es poden utilitzar aquestes entrades (material propietari) o no, depèn de les lleis de cada pais. Als EUA el concepte de Fair USe no és clar, (demanda NY times contra OpenAI regurgitation)

Al Japó i Singapur està permés per l'entrenament.

A UE segons la llei CDSM protegeix amb:

Art. 3 permet ús científic investigació

Art 4. Permet Opt-out, llista per ser exclós de l'ús

Opt-Out: Associacions treballen per a que persones puguin  protegir les seves dades de ser processades per entrenar AI.

Processament

Fins al 2022 hi havia un sistema molt obert de comaprtir codi a l'intel·ligpencia atificail, però el model s'ha tancat als últims anys.

L'entrenametn genera un arxiu de "pesos" que es pot utiltizar per inferències i generacions, en els projectes comercials això no es publica, com a molt s'explica com s'hi ha arribat.

Pesos oberts: Stability AI, Meta/Facebook (han arribat més tard i per això eren és propensos a treballar amb models oberts.

Semioberts: Mistral abans era molt oberta, però ha firmat un acod amb microsoft i ja no defensa els models oberts, Anthropic

Tancats: Open AI paradoxalment és tancat. Musk ha fet una demanda contra ells perquè no és oberta i ell n'era inversor

PROMPTS: de quì són? És un treball intectual, que no es pren en consideració.

Sortides

A qui pertanyen les imatges, sons o textos resultants, als EUA no hi ha drets d'autor per a res que surti de generacií IA.

Cas d'un còmic en que es va registrar copyright i després es va concloure que no tenia drets.

A Regne unit el propietari és qui perpara el sistema.

A Uniò Europea no hi ha una directiva. Espanya i Finlàndia sembla tenir un model semblant a l'americà, però no està clar.

Escenaris

A tots els pasos pot haver negoci impliicat per les corporacions. Pasos entre Entrades/Processament/Sortides/Publicació a la xarxa

IA comercial:

    Entrades/processament: Corporacions IA paguen a gran corporacion mediàtiques que són titulars de drets; aquestes paguen a petits autors? Paguen o fan algun retorn al que és commmons?

    Sortides: els que generen material resultant paguen a qui processa?

IA soberana:

    A CERN for AI " rel="noreferrer noopener https://laion.ai/blog/petition/

    Article reclament: Power to the people (Gala Pin): " rel="noreferrer noopener https://blogs.publico.es/otrasmiradas/78813/inteligencia-artificial-power-to-the-people/

Com seria una IA sobirana?

Entrades: Fons cognitius digitalitzat, Opt-outs que són processats per universitat, estat, centres de recera, comunitat de progrmari lliure, Arquitectures i pesos oberts i on les sortides contribueixin a la producció de domini úblic.

Si el que es treu dels comuns es processa amb tecnologia oberta i retorna al domini públic es produiria una situació "justa".

Intervencions del públic

Candela: em preocupa la sostenibilitat de la IA, quina aigua necessita, energia, materials que requereix i que depenen d'extraccionisme (a Àfrica, per exemple)

Bruno: pel que fa a lús d'energia, no tinc clar que els estudis, si es compara amb Blockchain que necessita l'energia d'un país per funcionar i per entrenar un AI s'utlitiza el que consumeix un poble de 30.000 habitants. És molt menys, però cal tenir en compte.

L'entrenament és inferior al que cal pels vídeojocs, no és tan greu com els Deep fakes, explotació gent etc

Wouter: IA act eurpea donarà eines per prohibir o limitar els usos il·legals dels drets d'autor que fan servir els models comercials? Tenim eines per limitar els models com OpenIA? Quins autors tenirm a Europa, a part del CERN, que estiguin mobilitzant un model més sobirà, el projecte del cloud de dades obertes Gaia X pot servir? Alguna esperança de què pugui sortir alguna cosa d'aquests projectes?

Intervenció 4: Què penses de la idea d'enverinar el model que s'està plantejant des de moviments socials?

Bruno: com a estratègia em sembla vàlida, però que pugui tenir incidència no. Es pot canviar el sistema d'entrenament i l'esforç que s'ha fet ja no té sentit.

El cas de Nighshade, que es va crear per això, ja han hagut de canviar el model. Optout és més efectiu

Em sembla que l'Opt-out serà més efectiu que l'enverinament.

Intervenció 5: D'aquest fons comú de cultura, no hi ha un precedent,de que no es pugui utilitzar, que sigui

"Share alike" i "No comercial" no serien barreres perquè es pugui fer servir. El processament seria una obra derivada?

Bruno: tinc dubtes si és ètic o no fer servir material protegit accessible.

El copyright s'està extenent molt, abans no cobria estils, ara hi ha casos de musics que han fet musica d'estil Marvin Gaye, i va haver de pagar una multa. Si prohibim els artistes fer coses amb l'estil d'altres artistes, es mata la cultura.

Jo estic d'acord en els drets autors directes sobre una obra, però per exemple fer coses "en l'estil de" no estic d'acord que s'arribi a protegir.

Com a cineasta que ha fet coses en llicències CC crec que s'hauria de permetre l'entrenament. Quan produïm cultura estem fent un regal a la cultura global. Les mateixes persones que diuen que no volen que les seves obres serveixin per entrenar IA tenen al seu portafoli com a artistes amb obres inspirades en obres d'altres autors.

Intervenció 6: Existeix algun recurs, algoritme, codi (tipus robots..txt de les webs per als cercadors) que puguin indicar que vinguin les IA's als meus continguts?

Muriel: Hi ha models que han començat a expeirmentar en els resultats en incloure atribució. Però està passant també que la IA s'inventa l'atribució fent una cerca posterior.

Bruno: no sé si seria just. En les imatges hi pot haver informació en les metadades. Axiò és important per exemple en els textos, que les metadades diguin que s'ha fet amb una IA. Igual en imatges. No tant l'atribuició sinó com s'ha generat.

Què fa els biaixos? tenim una societat amb biaixos, el que s'entrena sense filtre provoca els biaixos, i no volem que sigui així, però jo com a investigador i artista vull poder identificar aquests problemes que existeixen en la societat, cal fer-ho amb responsabilitat. Si utilitzem un model comercial que ja ho tenen en compte, generen resultats més igualitaris i diversos, si utilitzem un model lliure, que s'ha entrenat lliurement, genera resultats amb els biaixos de la societat, es pot utiltizar per fer coses bones o dolentes, però hem de tenir dret a models sense filtre que mostrin la societat tal com és

David: D'acord amb la resposta sobre si s'hauria de limitar material protegit, tinc els mateixos dubtes, tot això està en el marc d'una economia extractivista, amb un model generat amb els imperis per extreure materia prima, explotació del treball, i això s'ha extes al coneixement, i el copyright és una cosa del s.XVIII, del dret continental (Conveni de Berna), la llei diu que protegeix a l'autor, però la pràctica protegeix a la industria, no és l'instrument, les corporacions capitalistes se'n estan aprofitant, no ens protegiran els drets d'autor. Perquè ells se n'aprofiten i nosaltres no? Per tant hem d'entendre aquesta maquinària, com són capaces de dominar i com desarticular-ho, però no serà a través dels drets d'autor.

Intervenció 7: exemple Mikey Mouse, ara tenim un mort contra una màquina!!??

Bruno: Les IA comercials impedeixen fer un MikeyMouse però si t'ho instal·les tu ho pots fer.

Intervenció 7: veig dos futurs: l'ideal dels advocats (demandes) i l'altra que serà tant absurd que serà ingovernable.

Bruno: és una boan eina, em sembla interessant tant pels textos com per les imatges.

Intervenció 8: Vaig veure un comentari a reddit, algú que demanava dibuixa "mario" i no sortia, però demanava dibuixa fontanero italiano i sortia Mario.

Intervenció 9:  trobo interessant fer servir les IA per mostrar els biaixos existents. Però també em sembla interessants si hi ha algun entrenament de IA orientat espećifcament a fer IA sense biaixos

Núria: hi ha a la UPC un grup de recerca treballant sobre la IA amb biaixos.. S'està mirant d'estudiar quines són les fonts de les dades, per veure d'on surten els biaixos i treballar la font.

Bruno: projectes en pobles indigenes??

Muriel: problema en quant a privacitat de les dades, encara que no ensenyis les dades inicials a través del model pots acabar trobant-les. La tècnica "copia de model" una vegada l'has entrenat, fas una copia del model i li poses dades sintètiques i crees un segon model amb aquestes dades sintètiques i així ja no pot haver-hi el problema de privacitat. Potser en la generació de continguts d'IA en el futur es pot utilitzar una tècnica similar.

Intervenció 10:  al 2019 es va tractar sobre biaixos en aprenentatge de màquina

" rel="noreferrer noopener https://www.teixidora.net/wiki/Biaixos_i_discriminació_en_l'anàlisi_predictiu_basat_en_aprenentatge_automàtic_2019/03/02

Diagnòstic

Resultats

Metadades