Lab/Bots/Corrector
De teixidora
< teixidora:Lab | Bots
Bot corrector[ ]
Per automatitzar la correcció lingüística.
- Nom provisional: Bot corrector
- Llicència prevista: AGPL
- Repositori:
- Usuari a Teixidora amb permís per operar aquest bot: Usuari:Bot_corrector
- Observacions (revisió humana de qualitat de la correcció)
- teixidora:Lab/Bots/Corrector/Pentinada
Contingut
Context de partida[ ]
La presa d'apunts en directe genera molts errors:
- Tipogràfics
- Ortogràfics
- Gramaticals
La idea és mirar de corregir automàticament com a mínim els 2 primers. Actualment es repassen els pads abans d'importar però no es fa una correcció exhaustiva perquè seria molt temps de dedicació.
Qüestions a considerar:
- Majoritàriament els apunts són en català però n'hi ha també en català, anglès i francès. Les pàgines de les sessions solen indicar la llengua, però no sempre coincideix, a vegades estava prevista una llengua i s'ha canviat sense indicar-ho a la pàgina. Cal una tasca humana prèvia d'etiquetar bé o es pot detectar la llengua?
- Majoritàriament els apunts es prenen en una llengua però a vegades en els mateixos apunts hi ha vàries llengües. Sobretot si hi ha intervencions del públic o taules rodones i els apuntaires han decidit prendre apunts sense traduir.
- Hi ha errors ortogràfics i també tipogràfics freqüents. També n'hi ha propis de la persona concreta que pren apunts. Hi ha abreviacions de paraules o paraules que queden incompletes perquè s'entén pel context. També hi ha abreviacions habituals al prendre apunts com "pq" per dir "perquè" o "x" per dir "per". Per errors tipogràfics hi ha paraules que queden juntes sense espai de separació i també paraules que queden dividides amb un espai posat per error.
- Als textos es mencionen persones, organitzacions i projectes que també apareixen en les metadades de la pàgina i que a vegades tenen pàgines creades a Teixidora, això es podria tenir en compte per corregir-ho dins el text (relacionat amb el bot jardiner d'homogenització).
- Als textos es mencionen països, ciutats, regions, poblacions, continents, llocs i altra toponímia, potser es pot prendre com a referència una font de toponímia per corregir.
- Segurament es poden buscar altres fonts per corregir, per exemple persones, traient de Viquipèdia o Wikidata,...
- Les metadades també poden tenir errors ortogràfics, veure si aquest bot hi ha d'incidir o ha de ser el jardiner
Referents a tenir en compte:
- Segurament Viquipèdia té bots correctors; potser es poden adaptar
Requisits del sistema[ ]
Fem servir el mètode MoSCoW per prioritzar les funcionalitats que hauria de tenir.
Must have / Tiene que tener / Ha de tenir[ ]
Màxima prioritat.
- Editar les pàgines d'apunts
- Fer-hi correccions lingüístiques (ortografia, picat, ...)
- Desar les pàgines
- Fer un log de correccions per possible supervisió humana
- Marcar la pàgina com a editada pel corrector
Should have / Debería tener / Hauria de tenir[ ]
Alta prioritat
- Separar un log on la correcció és dubtosa per a validació humana i aprendre d'aquesta
- Utilitzar els valors de propietats semàntiques (paraules clau, mencions a persones, projectes, organitzacions) per corregir.
- Fer correccions sobre paraules clau i mencions, no només sobre textos (relacionat amb el Bot jardiner)
Could have / Podría tener / Podria tenir[ ]
Prioritat intermitja.
- Utilitzar directoris externs (de toponimia, d'autors, ...) per corregir.
- Utilitzar wikidata per validar noms de persona, lloc, etc en català
- Corregir en altres llengües diferents al català (principalment anglès, castellà, francès i italià)
Won't have (this time) / No tendrá (ahora)[ ]
Prioritat baixa.