Junts podem anar molt més lluny
Doneu suport a VilaWeb
Els assistents de veu comencen a ocupar un espai central a la nostra vida digital. Als mòbils, als GPS dels vehicles, rellotges o altaveus intel·ligents, ens hi adrecem cada vegada més amb la veu. De fet, segons les enquestes, un 48% dels ciutadans els fan servir normalment, sobretot a través del mòbil, i el 89% volen poder parlar-los en català. Els catalanoparlants es troben amb una barrera: no poden utilitzar la seva llengua i han d’utilitzar-ne unes altres. Un dèficit estructural que arracona i margina la nostra llengua, i contribueix a la diglòssia i la substitució lingüística. La situació és especialment preocupant en aquells qui depenen d’aquests assistents, com ara cecs, minusvàlids o persones d’edat avançada. Fa poc s’ha sabut que Apple pensa incorporar el català al seu popular assistent Siri, present a la majoria dels seus productes, des dels mòbils i tauletes, fins als rellotges i altaveus intel·ligents. Repassem la situació en aquest sector i quins passos es poden seguir per solucionar aquesta greu mancança per a la cultura catalana.
La tecnologia involucrada en els assistents de veu
Les tecnologies de la informació i la comunicació (TIC) dominen el nostre dia a dia, sobretot des de l’arribada dels telèfons intel·ligents. Les interfícies informàtiques han experimentat una evolució que es remunta, per al gran públic, als anys vuitanta del segle passat. Inicialment els usuaris d’ordinadors s’havien d’enfrontar a la temuda pantalla negra que demanava que escrivissin ordres no aptes per a inexperts. Ràpidament es va passar a interfícies gràfiques en què, amb ajuda del ratolí, només calia clicar a les opcions, unes accions més indicades per a arribar al gran públic. Amb l’arribada dels mòbils i les tauletes, el ratolí va ser substituït pels nostres dits, cosa que juntament amb la difusió d’internet ha permès de popularitzar i fer arribar la tecnologia informàtica a gairebé tota la població del planeta. En aquest context, un dels últims passos ha estat la incorporació de la veu, una manera molt més còmoda i natural d’interaccionar amb les màquines, de manera que s’eliminin les últimes barreres. El català s’ha incorporat amb cert retard a totes les evolucions de les interfícies informàtiques. Gràcies en bona part a un gran esforç de la societat civil i, en menor mesura, a les negociacions d’institucions públiques amb les grans empreses informàtiques. De moment, però, el català no arribat als assistents de veu.
‘La primera cosa que cal entendre és que els assistents tenen tres potes tecnològiques’, explica a VilaWeb l’expert en tecnologies de veu Joan Montané, membre de Softcatalà, l’organització que, amb vint-i-dos anys d’història, és possiblement la que ha fet més pel català en el món digital. La primera pota és passar la veu a text, el reconeixement de la parla. L’aparell ha de transcriure la llengua que parlem i passar-la a text. Ara per ara, no poden reconèixer automàticament quina llengua, entre les diverses que existeixen, fem servir, sinó que hem d’indicar-la abans a la configuració de l’assistent. Un altre dels problemes estructurals a què s’enfronta el català és que, per defecte, quan compren un dispositiu és configurat en una llengua diferent del català –generalment castellà, francès o anglès. Molt pocs usuaris en revisen la configuració i canvien al català, una acció important perquè les companyies analitzen aquest paràmetre i el tenen en compte a l’hora de desenvolupar productes. Un segon problema afegit: no podem combinar llengües. Encara que fem servir una altra llengua per adreçar-nos a l’assistent, aquest té problemes quan diem noms en català, siguin persones de la nostra agenda per a trucar-los, o poblacions i carrers als mapes per a arribar a un lloc –dues de les seves principals aplicacions.
Una vegada transcrita la veu a text, entrem a la segona fase: la computadora ha d’analitzar-lo per entendre’l i donar una resposta. Possiblement aquesta és la fase més complexa des d’un punt de vista tecnològic perquè la màquina ha de comprendre què diem i pensar en una resposta adient. És el que es coneix com a processament del llenguatge natural (NLP) i forma part d’una disciplina més àmplia, la intel·ligència artificial. De fet, els experts insisteixen que la part important és la d’assistent més que no pas la veu. Al cap i a la fi, un assistent de veu és un robot, i allò que en determina la utilitat és si és prou intel·ligent. Per a poder fer aquesta tasca, els dispositius han d’estar connectats a internet, que és on resideix el robot. La intel·ligència artificial requereix una potència de càlcul molt gran per al processament del llenguatge i no es pot fer al mateix dispositiu. Cal connectar-se a grans computadores i que aquestes retornin el resultat al giny, que actua només com a terminal.
Per crear aquests robots, cal recopilar i analitzar prèviament un gran volum de dades lingüístiques, sigui en format sonor com en la seva transcripció. Cal dir que el processament del llenguatge ha progressat enormement aquests últims anys amb la incorporació d’una nova tecnologia, les xarxes neuronals. Aquestes xarxes són un conjunt de capes que contenen models matemàtics desenvolupats gràcies a les dades recopilades. Algunes d’aquestes capes (models) són universals i es poden aplicar a qualsevol llengua. Això és positiu per a llengües minoritzades perquè es pot aprofitar la feina feta per a idiomes com l’anglès, i abaratir i facilitar una futura incorporació del català als assistents. Però hi ha unes altres capes de les xarxes neuronals que necessiten un desenvolupament específic per a cada llengua, i la principal limitació és la disponibilitat de dades lingüístiques. Si abans s’havien d’introduir als models totes les combinacions possibles de paraules, ara les xarxes neuronals tenen capacitat d’aprendre per si soles a partir d’uns quants exemples, sense necessitat d’haver-ne de fer una recopilació exhaustiva. Tot plegat fa que de moment els assistents de veu els desenvolupin les principals multinacionals informàtiques i de telecomunicacions, perquè disposen de la tecnologia, els recursos materials i els experts necessaris.
Finalment, quan la nostra pregunta ha estat transcrita a text i processada per la intel·ligència artificial, arribem al tercer i últim pas. L’ordinador ha generat una resposta, que s’ha de traslladar a veu per tal que l’usuari la senti. Això s’anomena síntesi de veu (TTS). Al començament els usuaris notaven la diferència d’entonació entre paraules, sense coherència fonètica dins una mateixa frase, però aquests últims anys han millorat notablement, amb un resultat tan natural com un humà. En conjunt, a hores d’ara i a escala comercial, el català només és disponible en la primera fase, la transcripció de la parla a text. Per a les altres dues no s’ha desenvolupat tecnologia comercial, tot i que en l’àmbit de la síntesi de veu hi ha prototips.
El duopoli dels assistents de veu
Actualment al món hi ha una trentena d’assistents de veu, la majoria sota llicències comercials –tancades–, però també de codi obert. Corresponen a empreses de tecnologia, telecomunicacions i especialitzades en serveis lingüístics. Malgrat tot, des d’un punt de vista de la majoria de la població, a la pràctica hi ha dos grans assistents: Siri d’Apple i l’Assistent de Google. En menor mesura hi ha Alexa d’Amazon, Cortana de Microsoft, i els de Samsung i Huawei, i Facebook també en desenvolupa un. Al nostre país, empreses com ara Movistar també tenen assistents de veu. Tanmateix, en cap, ara per ara, no es pot utilitzar el català. Fa pocs dies sabíem que Apple mirava de contractar una persona per a analitzar dades lingüístiques, cosa que hem vist que és necessària per a desenvolupar els models. ‘No crec que amb una única persona Apple pugui incorporar el català a Siri, perquè requereix molta feina’, apunta Joan Montané. De fet, la companyia de la poma ja fa anys que ha incorporat el català als seus productes. És una de les dues grans companyies informàtiques que als seus sistemes operatius té dictat en català, de manera que els programes poden incorporar allò que diem, sigui com a notes, sigui en processadors de text.
La segona companyia que incorpora el dictat en català és Google. Tradicionalment ha estat una de les multinacionals més obertes amb la nostra llengua. Però ara per ara no disposa del segon pas per al català, el processament del llenguatge. Quant a la síntesi de veu, només la trobem en productes com el seu Traductor i és molt bàsica, amb un resultat gens natural. Google és una de les companyies globals que produeix infinitat de productes i en què la incorporació del català pot tenir un gran impacte. Tanmateix, té un model diferent del d’Apple, que comercialitza els serveis exclusivament en els seus productes. Google, en canvi, a banda d’incorporar-lo als seus –mòbils, ordinadors, rellotges–, ven el programari a diversos fabricants, com ara Samsung. I aquí topem amb un altre problema. En el passat hem vist com diverses companyies que usen Android als seus dispositius han tret el català tot i ésser disponible. És un problema que es podria repetir si Google, finalment, desenvolupa un assistent per a la nostra llengua.
Microsoft, per la seva banda, ha estat una de les multinacionals més refractàries a incorporar el català als seus productes i quan ho ha fet ha estat parcialment i subordinada al castellà o al francès. Avui dia el seu assistent, Cortana, només és disponible en tretze llengües i variants. Cal dir, però, que té un impacte molt més reduït que no el de Google i Apple perquè actualment no desenvolupa cap plataforma mòbil i ha optat per Android. L’altra gran companyia és Amazon. Tradicionalment és la més hostil al català i s’ha negat repetidament fins i tot a crear una versió en català de la seva web. A banda els altaveus intel·ligents –que competeixen amb Google i Apple–, cal tenir present que ofereix televisió (Amazon Prime), un dels serveis on es poden introduir assistents de veu per a trobar sèries i films. Caldrà veure si en un futur pròxim, companyies del sector audiovisual com Netflix i HBO, o Samsung i LG amb televisors intel·ligents, entren també en el món dels assistents de veu, sigui directament, sigui amb productes d’altri, tot seguint el model Google.
Què es pot fer per tenir assistents de veu en català?
Com hem vist, no hi ha cap impediment tècnic per tenir un assistent en català. La tecnologia que els fa possibles té components que són universals per a qualsevol llengua. Sí que cal, en canvi, desenvolupar els recursos lingüístics específics per a cada llengua. Novament, no hi ha cap raó tècnica que impedeixi de desenvolupar-los per al català. Aleshores, per què no tenim un assistent de veu en català? Per diversos motius. El primer és que les empreses se centren en les llengües amb més parlants per rendibilitzar la seva inversió. També en les seves llengües nacionals –és un sector dominat per països anglosaxons i la Xina. És per això que ara per ara les multinacionals no desenvolupen els recursos necessaris per a llengües com ara el català. Si aquests recursos existissin, construir un assistent en català seria molt ràpid i senzill. No hem de menystenir tampoc el component polític. En el passat, filials espanyoles de grans multinacionals van blocar el català i les matrius internacionals no hi tenien cap inconvenient.
Una línia a seguir seria la que ens indica Joan Montané: ‘Softcatalà fa dues dècades que reclama que les administracions públiques creïn recursos lingüístics lliures que puguin ser utilitzats per les empreses.’ Alguns altres experts confirmen que això no seria gaire difícil i que en gran manera ja s’ha fet. Es tracta dels milers d’hores d’àudio dels arxius de la ràdio i la televisió públiques de Catalunya. Moltes subtitulades, de manera que les màquines podrien fer l’equivalència entre l’àudio i el text –tècnicament són bases de dades ‘anotades’, un aspecte cabdal per a les xarxes neuronals. El problema és que aquests recursos no són en format obert, la qual cosa permetria a les empreses d’utilitzar-los lliurement. Al febrer, abans de la pandèmia, la Generalitat de Catalunya, en unes jornades especialitzades, va informar que pensava avançar en aquesta línia.
Més enllà de les institucions públiques, una altra estratègia és construir recursos lliures des de la societat civil. Els catalans tenim una àmplia experiència en això, com ara la Viquipèdia i els projectes que impulsa Softcatalà. Aquesta associació promou la col·laboració amb el Common Voice de Mozilla, però cal dir que no hi ha grans projectes lliures ara per ara. Així doncs, per tenir el català als assistents de veu cal una combinació d’esforços: que els usuaris pressionin les empreses, voluntat política de les administracions per a proporcionar recursos oberts i negociar amb les grans multinacionals, i la societat civil per a millorar aquests recursos. Podrem, finalment, el 2021 parlar en català amb la torradora?
Cap comentari:
Publica un comentari a l'entrada