Accions

teixidora

Lab/Bots/Corrector

De teixidora

< teixidora:Lab‎ | Bots

Bot corrector[ ]

Per automatitzar la correcció lingüística.

Context de partida[ ]

La presa d'apunts en directe genera molts errors:

  • Tipogràfics
  • Ortogràfics
  • Gramaticals

La idea és mirar de corregir automàticament com a mínim els 2 primers. Actualment es repassen els pads abans d'importar però no es fa una correcció exhaustiva perquè seria molt temps de dedicació.

Qüestions a considerar:

  • Majoritàriament els apunts són en català però n'hi ha també en català, anglès i francès. Les pàgines de les sessions solen indicar la llengua, però no sempre coincideix, a vegades estava prevista una llengua i s'ha canviat sense indicar-ho a la pàgina. Cal una tasca humana prèvia d'etiquetar bé o es pot detectar la llengua?
  • Majoritàriament els apunts es prenen en una llengua però a vegades en els mateixos apunts hi ha vàries llengües. Sobretot si hi ha intervencions del públic o taules rodones i els apuntaires han decidit prendre apunts sense traduir.
  • Hi ha errors ortogràfics i també tipogràfics freqüents. També n'hi ha propis de la persona concreta que pren apunts. Hi ha abreviacions de paraules o paraules que queden incompletes perquè s'entén pel context. També hi ha abreviacions habituals al prendre apunts com "pq" per dir "perquè" o "x" per dir "per". Per errors tipogràfics hi ha paraules que queden juntes sense espai de separació i també paraules que queden dividides amb un espai posat per error.
  • Als textos es mencionen persones, organitzacions i projectes que també apareixen en les metadades de la pàgina i que a vegades tenen pàgines creades a Teixidora, això es podria tenir en compte per corregir-ho dins el text (relacionat amb el bot jardiner d'homogenització).
  • Als textos es mencionen països, ciutats, regions, poblacions, continents, llocs i altra toponímia, potser es pot prendre com a referència una font de toponímia per corregir.
  • Segurament es poden buscar altres fonts per corregir, per exemple persones, traient de Viquipèdia o Wikidata,...
  • Les metadades també poden tenir errors ortogràfics, veure si aquest bot hi ha d'incidir o ha de ser el jardiner

Referents a tenir en compte:

  • Segurament Viquipèdia té bots correctors; potser es poden adaptar


Requisits del sistema[ ]

Fem servir el mètode MoSCoW per prioritzar les funcionalitats que hauria de tenir.

Must have / Tiene que tener / Ha de tenir[ ]

Màxima prioritat.

  • Editar les pàgines d'apunts
  • Fer-hi correccions lingüístiques (ortografia, picat, ...)
  • Desar les pàgines
  • Fer un log de correccions per possible supervisió humana
  • Marcar la pàgina com a editada pel corrector

Should have / Debería tener / Hauria de tenir[ ]

Alta prioritat

  • Separar un log on la correcció és dubtosa per a validació humana i aprendre d'aquesta
  • Utilitzar els valors de propietats semàntiques (paraules clau, mencions a persones, projectes, organitzacions) per corregir.
  • Fer correccions sobre paraules clau i mencions, no només sobre textos (relacionat amb el Bot jardiner)


Could have / Podría tener / Podria tenir[ ]

Prioritat intermitja.

  • Utilitzar directoris externs (de toponimia, d'autors, ...) per corregir.
  • Utilitzar wikidata per validar noms de persona, lloc, etc en català
  • Corregir en altres llengües diferents al català (principalment anglès, castellà, francès i italià)

Won't have (this time) / No tendrá (ahora)[ ]

Prioritat baixa.