Tradutturi Sicilianu

Sicilianu English

Pi mustrari lu nostru prugressu ntô sviluppu d'un tradutturi miccanicu, mittemu online un tradutturi sicilianu sperimentali.

Ora traduci frasi simplici abbastanza beni. Pi esempiu:

Chissi sunnu certuni dî sò successi, però lu tradutturi è ancora in fasi di sviluppu, allura truvati ancora tanti cosi ca nun traduci beni.

Vi prejamu di focalizzari la vostra attenzioni supra lu nostru successu.

Stu esperimentu ha mustratu ca rinescemu a criari un bon tradutturi pi la lingua siciliana quannu ricugghiemu abbastanza testu parallellu (i.e. para di frasi tradotti). Chistu è un compitu ca ci voli assai tempu. Vi prejamu di aviri pacenza.

Avemu già sviluppatu li mezzi nicissari pi criari un tradutturi neurali pi la lingua siciliana. Avemu sulu a ricogghiri chiù testi parallelli.

Duranti l'addestramentu, un tradutturi neurali "si nzigna" a traduciri attraversu un prucessu di tintativi ed erruri. Lu mudellu prima prividi na traduzzioni. Poi cunfronta la sò previsioni a la traduzzioni corretta e conza li parametri dû mudellu nta la direzioni ca chiù riduci l'erruri.

In àutri palori, bisogna fari tanti sbagghi prima ca cumincia a traduciri in manera giusta. E nun avemu ancora un inzemi di dati abbastanza granni pi fari la granni quantità di sbagghi ca pruduci un bon tradutturi.

Lu nostru nzemi di dati havi sulu 20,016 para di frasi siciliani-nglisi e 10,649 para siciliani-taliani dî quali lu mudellu pò nzignarisi a traduciri. Pi paraguni, di solitu si addestra un modellu neurali di traduzzioni cu miliuni di para.

Stamu costruennu lu nzemi di dati cu li nummira di Arba Sicula e puru dî pruverbi siciliani, dâ puisia e dî Favuli di Pitrè ca traducìu Arthur Dieli. Ni hannu aiutatu tantu e ci ringraziamu pû sò sustegnu e ncuraggiamentu.

Aspittamu di mettiri online prestu un tradutturi di bona qualità. Ntô frattempu spiramu ca vi divertiti quannu lu tradutturi scrivi na cosa sbagghiata.

qualità di traduzzioni

Spissu apparisciunu traduzioni inaspittatamenti strani. È normali a chistu puntu di sviluppu. Lu tradutturi producirà frasi inintelliggibbili finu a quannu ricugghiemu chiù testi parallelli. Pi esempiu, Koehn e Knowles (2017) usaru diversi quantità di testu parallellu pi addistrari na serii di mudelli ngrisi-spagnoli. Di sutta c'è na tavula dû sò saggiu:

chiù testu parallellu migghiura la qualità

Li frazioni nta la culonna sinistra sunnu la frazioni dî 386 miliuni palori ca furnìu l'ACL 2013 workshop. A bassa quantità di testu parallellu, lu mudellu pruduci frasi fluenti ca sunnu cumpletamenti disimparintati cu la frasi di fonti. Però comu si aumenta la quantità di testu parallellu, la traduzzioni veni perfetta.

E un saggiu recenti di Sennrich e Zhang (2019) suggirisci ca lu metudu di suddivisioni in suttapalori ni pirmetti di criari un bon tradutturi cu pochi cintinara di migghiara di palori (i.e. assai menu di li miliuni dî quali avevanu bisognu Koehn e Knowles du' anni prima). La suddivisioni in suttapalori di solitu ci aiuta ô tradutturi a truvari boni traduzzioni pi palori ca nun apparsiru nta li dati di addestramentu o apparsiru raramenti.

Pi esempiu, la palora jatta apparsiru sei voti nta li dati di addestramentu, mentri la sò varianti gatta sulu una vota. Però lu tradutturi traduci gatta correttamenti picchì li palori venunu divisi nta: j@@ atta e g@@ atta.

Lu svantaggiu è ca àutri palori rari comu cravatta, ca apparisci deci voti nta lu nzemi di data, veni divisa nta: crav@@ atta. Nta na versioni precedenti di stu tradutturi sta suddivisioni causava ca la palora veni tradotta comu cat (gattu).

E propriu comu l'immissioni di traduzzioni è na sequenza di suttapalori, lu prodottu di traduzzioni è puru na sequenza di suttapalori. Di solitu la juncitura dî suttapalori ricria palori riali, ma quacchi vota lu tradutturi "nventa na palora."

Pi esempiu, un utenti cunfusu dumannau chi è un fraggant. È la mè nova palora pi qualsiasi cumminazioni di suttapalori scuraggiantimenti sbagghiata.

Picchì avemu menu dati di addestramentu, amâ usari chiù suddivisioni. Picchissu lu nostru mudellu pruduci chiù fragganti. Riduciri lu vocabbulariu cu na suddivisioni in suttapalori ni renni pussibbili addistrari un tradutturi cu pochi migghiara di versi di testu parallellu, ma ritorna puru assai fragganti.

Doppu ca avemu ricugghiutu chiù testi parallelli, putemu usari menu suddivisioni in suttapalori e addistrari un bon mudellu cu megghiu qualità di traduzzioni e menu fragganti.

dominiu di traduzzioni

Fussi beddu si sta machina putissi traduciri la mè ricerca in sicilianu. Ma lu nostru mudellu nun fu addistratu supra la littiratura economica. Fu addistratu supra la littiratura siciliana. Allura nun pò traduciri lu mè mudellu Robinson Crusoe in sicilianu. A lu megghiu traduci lu romanzu Robinson Crusoe in sicilianu.

In generali, li frasi ca traduci megghiu sunnu frasi simili a chiddi cu li quali lu mudellu fu addistratu.

Pi copriri la lingua e la grammatica funnamentali, lu nostru nzemi di dati includi li compiti e esempi dî libbra di testu Mparamu lu sicilianu (Cipolla, 2013) e Introduction to Sicilian Grammar (Bonner, 2001). Pi includiri lu dialogu e lu discursu cutidianu, lu nostru nzemi di dati includi 34 Favuli di Giuseppe Pitrè ca traducìu Arthur Dieli. E pi copriri la cultura, la littiratura e la storia siciliana, lu nostru nzemi di dati includi 24 nummira di Arba Sicula.

Pi aumintari lu nostru nzemi di dati, David Massaro contribbuìu la sò ricota di traduzzioni biblichi e Marco Scalabrino contribbuìu li sò traduzzioni di canzuni miricani.

E pi daricci a lu mudellu la capacità di traduzzioni multilingui e pi furniricci chiù esempi dî quali pò nzignarisi a traduciri, includemu puru li testi talianu-nglisi di Libbra di Farkas, dû corpu biblicu di Edinburgh e dû WikiMatrix di Facebook ntô nostru nzemi di dati. Tutti li tri sunnu disponibbili ô prujettu OPUS.

Li frasi simili a chiddi truvati nta ddi fonti sunnu li frasi ca sta machina traduci megghiu. Pi na bona discussioni di li sfidi principali ntâ traduzzioni miccanica, si preja di leggiri lu saggiu di Koehn e Knowles (2017).

Pi spanniri lu dominiu dû nostru tradutturi, avemu bisognu di frasi di àutri domini. Una possibili fonti è Wikipedia. Si traducissimu articuli di Wikipedia ngrisi, putissimu spanniri la Wikipedia siciliana e spanniri lu dominiu dû nostru tradutturi. Fussimu cuntenti d'assistiri in tali travagghiu.

E cuntinuamu a ricogghiri testu sicilianu picchì vulemu sviluppari un bon tradutturi pi lu dominiu di cultura, littiratura e storia siciliana.

comu usari lu tradutturi

Basta digitari la frasi ca vuliti traduciri nta la casedda d'immissioni, scegghiri la direzioni disiddirata (i.e. o "sicilianu-ngrisi" o "ngrisi-sicilianu") e ncarcari lu pulsanti "traduci".

Pi li megghiu risultati ntâ traduzzioni dû sicilianu a l'inglisi, si havi a usari lu sicilianu stinnardu discrittu sutta. Pi esempiu, si havi a scriviri dici (nun rici) e bedda (nun bella), ecc. E nun si usa l'apostrofu nta lu postu di l' i elisu. Pi esempiu, si havi a scriviri mparamu (nun 'mparamu) e si havi a scriviri nzignamunni (nun 'nzignamunni), ecc.

Nun c'è bisognu di na tastiera spiciali. Na tastiera miricana o una taliana avissi a funzionari bonu picchì cu l'eccezioni di è e – nun c'è nuddu bisognu di scriviri l'accenti. Cui usa na tastiera miricana pò scriviri la palora è comu e' e pò scriviri la palora comu si'.

Cui usa na tastiera taliana, pò scriviri comu solitu. Lu tradutturi fa automaticamenti li cunvirsioni cunvinevuli a qualsiasi littra accentata.

sicilianu stinnardu

La lingua siciliana prisintata ccà nun rapprisinta nuddu dialettu particulari. Prisenta la lingua ca la riti neurali mparau di li para di frasi tradotti. Pi mancanza di na palora megghiu, lu chiamu: sicilianu stinnardu.

Attraversu lu scegghiri e lu canciari, li frasi siciliani riflettunu li normi ca lu pruf. Cipolla sviluppau nta lu testu Mparamu lu sicilianu. Lu sviluppu d'un corpu di testu sicilianu di àuta qualità richiedi na norma, allura haiu circatu d'implimintari li normi dû pruf. Cipolla picchì stabilisci un àutu liveddu di qualità nta li sò traduzioni.

E data la natura dû compitu di traduzzioni, aumintai li sò normi cu li differenzi seguenti:

  1. H di stili talianu chî verbi di avirihaiu, hai, havi, avemu, aviti, hannu
  2. l'usu strittu dû L cu articuli e prunomi d'oggettu:  lu, la, li
  3. l'usu strittu di l'apostrofu e lu circunflessu:  cu' = cui,  cû = cu lu
  4. l'usu strittu di l'apostrofu e lu circunflessu:  du' = dui,  dû = di lu
  5. CI denota sufficientimenti ÇI pi palori comu:  çiuri
  6. manteniri lu R quannu un prunomi d'oggettu segui l'infinitivu:  Pozzu farlu.
  7. doppiu II sulu unni nicissariu:  la farmacìali farmacìi,  ma:  la stòriali stòri

Li primi quattru differenzi distinguinu palori mpurtanti. In teoria, na riti neurali nun havi bisognu di tali distinzioni picchì si nzigna na serii di reguli ca distinguinu li diversi cuntesti. In pratica, la regula ca la riti neurali spissu si nzigna è chidda di traduciri na palora. Picchissu distinzioni aiutanu assai.

Li primi quattru differenzi ni dunanu la capacità di scriviri reguli ca cunvirtunu lu prodottu di na forma littiraria a na forma parrata:  Vaiu a la scolaVaiu â scola.  Hai a parrari sicilianuHâ parrari sicilianu.  Nautru sistema di reguli pirmetti ca l'immissioni accetta la forma littiraria e chidda parrata:  Vaiu â scola chî libbra = Vaiu a la scola cu li libbra.  Hê parrari cû prufissuri = Haiu a parrari cu lu prufissuri.

La quinta differenza, ÇI→CI, aiuta a criari na rapprisintazioni ASCII dâ lingua. Picchì avemu menu dati, è lucrusu riduciri chiddu ca avemu a la rapprisintazioni minima pratticabbili. Prima di traduciri, la machina pi primu allarga (ex.:  mappa dû munnumappa di lu munnu), e poi leva li signi diacritici arristati (ex.:  çiuriciurifarmacìafarmacia) e converti tuttu in minisculu.

L'urtimi dui differenzi sunnu differenzi stilistichi. Ripenzannucci, avissi a cunsultari cû pruf. Cipolla supra sti punti. Nun lu fici. Allura la lingua siciliana prisintata ccà rifletti sti differenzi stilistichi.

dumanni spissu dumannati

Picchì nun traduci beni?

Lu tradutturi attuali fu addestratu c'un inzemi di dati di sulu 20,016 para di frasi siciliani-nglisi. Di solitu, si addestra un modellu miccanicu di traduzzioni cu miliuni di para. Ni pari ca putemu criari un bon tradutturi cu menu, ma ci voli assai tempu pi custruiri lu nicissariu nzemi chiù granni. Vi prejamu di aviri pacenza.

Chistu è un prodottu spirimentali pi pruvari li metodologi ca usamu quannu avemu un inzemi di dati chiù granni. Nun è ancora pronta pi traduzzioni seria.

Traduci un jornu in manera giusta?

Sì! Quannu ricugghiemu un inzemi di dati abbastanza granni, la qualità di traduzzioni sarà assai bona.

Haiu bisognu di na tastiera spiciali pi scriviri li littri siciliani?

No. Poi scriviri li palori siciliani senza usari qualsiasi accentu. Allura si hai na tastiera miricana, poi usarla. L'unichi du' palori ca hannâ aviri l'accentu sunnu è e e poi scrivirli comu e' e si' rispettivamenti. (In àutri palori, quannu scrivi chisti du' palori, juncicci un apostrofu a la fini).

O si hai na tastiera taliana, poi usarla. Lu tradutturi fa automaticamenti li cunvirsioni cunvinevuli a qualsiasi littra ca scrivi.

Vegnu di Suttasupra, pruvincia di Foraditesta. Poi criari un tradutturi pû dialettu dû mè paisi?

Quannu hai 20,016 para di frasi suttasuprisi-nglisi, ni parramu.

Comu criasti stu tradutturi?

Cu traduzzioni neurali, na forma di intelligenza artificiali ca "si nzigna" a traduciri esaminannu migghiara di frasi ca traduceru essiri umani. La paggina Sicilian NLP havi na spiegazioni cumpleta. E poi jiri puru Darreri lu Sipariu e vidiri comu funziona lu tradutturi.

Comu pozzu aiutari?

Ci sunnu tanti modi ca poi aiutari. Poi criari chiù esempi dî quali lu nostru tradutturi pò nzignarisi a traduciri. Poi aiutari a sviluppari lu nostru dizziunariu. O, si tu sì â purtata, poi scriviri codici pi lu prujettu. La scelta è la tò.

Leggi la paggina Prossimi Passi e mannami na posta elettronica a: eryk@napizia.com. Truvamu un postu pi tia. Fussi filici di aviri lu tò aiutu.

Copyright © 2018-2024 Eryk Wdowiak