Hablemos de lenguas, tecnología y traducción

Entradas clasificadas como ‘euskara’

Espirales científicas y traducción automática

Viernes, 15 Febrero 2008 · Dejar un comentario

Ayer asistí a un agotador seminario (MATMT2008 workshop) que me ha dejado un sabor agridulce. El dulzor vino causado por dos motivos principales:

  1. El reencuentro con muchos viejos colegas (David Farwell, Victoria Arranz, Arantza Casillas, Germán Rigau, Lluís Màrquez, Patricia Fernández, Juan Hierro, la comunidad IXA en pleno, etc.).
  2. La satisfación de que se abordara la traducción automática desde una perspectiva por la que vengo abogando desde 1993 (cf el proyecto Legebiduna, presentado a Gobierno Vasco en 1994, ya contemplaba la aplicación de técnicas estadísticas a un corpus bilingüe de boletines oficiales).

Spiral

La amargura estuvo causada por el efecto de espiral científica que se apoderó del seminario y que acabó haciendolo soporífero. Estas espirales científicas son fenómenos de ensimismamiento, prepotente por lo general, que algunos investigadores son incapaces de detectar ni resolver (vg. Marcello Federico) y que enojan profundamente cuando se producen en situaciones en las que la audiencia es amplia, rica y heterogénea, como la de ayer.

SumatorioDurante demasiado rato hubo un exceso de vuelta de rosca a la estadística, técnica que ha dado casi todo de sí, y cuyos pormenores sólo interesan a los muy especialistas. Hubo ayer realmente muy poco de reflexión sobre lo que el sugerente título del seminario prometía ofrecer: La aplicación de distintas tecnología a problemas concretos, en contextos de traducción reales (como el que plantea el Gobierno Vasco en su concurso, muy bien asesorado por traductores humanos por cierto, que lamentablemente brillaron ayer por su ausencia). Andy Way compensó un poco la situación, pero su intervención llegó demasiado tarde, cuando el sesgo estadístico ya había echado a perder la jornada.

Así que quedaron en el tintero cuestiones como:

  • Aportación de las memorias de traducción (que es de facto la tecnología preferida por los traductores)
  • Flujo de trabajo en entornos de publicación multilingüe
  • Traducción vs localización
  • Técnicas de recolección de corpus multilingües
  • Tipologías textuales, lenguajes especiales
  • Criterios de calidad, protocolos, perfile, roles
  • Mantenimiento y alimentación automática de recursos tradumáticos
  • Sistemas de revisión y validación de recursos (corpus, terminología)
  • Potenciación de estándares para compartir recursos
  • Aprendizaje automático aplicado a los sistemas basados en reglas
  • Reutilización de módulos (diccionarios bilingües, reglas de transferencia)

Y otras muchas que ni pasaron por la mente de los ensimismados organizadores. Por cierto, ¿cómo traduciría yo Mixing approaches to Machine Translation? ¿mezclando aproximaciones…? No, tal vez mejor “Enfoques (o métodos) combinados en traducción automática”.

Categorías: euskara · tradumática
Etiquetado:

Badihardugu

Viernes, 13 Julio 2007 · Dejar un comentario

Badihardugu Deba Ibarreko Euskara Elkartea da. 1990an elkartzen hasi ziren eta gaur egun, lanean dihardute oraindik ere dokumentazioa biltzen, ahozko testigantzak jasotzen, etab.

Elkarte honi esker, alde horretako azpieuskalkiaren berri izango dugu interneten. Haien helburua euskara indartzea, erabiltzea eta gazteengan eragitea da. Proiektu horretan herritar eta euskaltzale askok hartzen dute parte, horrela, herri horietako pertsona nagusiak grabatu dituzte, bai bideoz eta bai audioz, eta corpus handia bildu dute. Ondorioz, alde horretako euskararen ezaugarriak, soinua eta bizitasuna entzuteko aukera izango dugu laster www.badihardugu.comen

Guzti hori lortuta, euskaltzale guztiontzat interesgarria izango den gunea aurkituko dugu interneten, horrek azpieuskalki hori ezagutarazteko eta aztertzeko bidea emango duelarik.

Categorías: euskara

BasqueLem: Emergiatech enpresaren euskerarako lematizatzailea

Jueves, 12 Julio 2007 · Dejar un comentario

Emergiatech (Emerging Advanced Technologies, S.L.) enpresak, Eusko Jaurlaritzaren Kultura Sailak euskera bultzatzeko eskaintzen dauazan laguntzetariko bat lortu dau. Enpresa honek, euskararako lematizatzaile bat egiteko proiektua aurkeztu eban 2007ko IKT deialdira, eta hauxek lortu dau diru-laguntza. BasqueLem euskeraren azterketarako tresna eraberritzailea izango da, eta urteamaierarako amaitua egongo da.

www.emergiatech.com

Categorías: euskara · tradumática

Euskara ahots-teknologietan murgilduz

Miércoles, 20 Junio 2007 · Dejar un comentario

Eusko Jaurlaritzak Belgikako enpresa batekin Aditu Programa adostu zuen. Horren helburua euskara barneratzea da ahots-teknologiak erabiltzen dituzten enpresetan.

Euskara indartzea eta zabaltzearen ondorioz, teknologia berrietara moldatzeko beharra gero eta garrantzitsuagoa da. Beraz, euskaldunak mundu informatikoan murgiltzeko ahalegin handiak egiten ari dira. Horregatik, Eusko Jaurlaritzak lan horretan dihardu, ahotsaren teknologiak deitutakoetan euskara erabiltzeko aukera ematen duten planak garatuz.

Ahots teknologiak hiru motakoak izan daitezke: ahotsaren ezagutza (ordenagailuak pertsona baten ahotsa ulertzeko gaitasuna), ahotsaren sintesia (testu idatzi bat oinarri izanda, testu hori automatikoki ahots bihurtzea), hiztunaren egiaztapena (iruzurra saihesteko) eta elkarrizketaren teknologia (elkarrizketarik sofistikatuenak lortzeko bidea).

Horren aurrean, Eusko Jaurlaritzak euskaraz ahotsa sintetizatzeko eta ezagutzeko moroteak garatu zituen Belgikako Nuance enpresarekin batera. Motore horiek garatzeko baliabideak 25 milioi hitzez osatutako testu-corpusa, 60.000 sarrerako oinarrizko lexiko fonetikoa, telefoniarako datu-base fonetikoa (hizkuntza-ereduak garatzeko telefono bidez egindako grabazioak) eta ASR3200-rako datu-base fonetikoa (bulego giroan egindako grabazioak) izan ziren.

Ildo horretatik, Aditu Programa sortu zuten, horren helburuak izanik, euskarazko ahots-teknologiako produktua ezagutaraztea eta horien ezarpen praktikoak lortzea hainbat enpresa eta erakundeetan. Programa horren bitartez bi prozesu egin daitezke: ahotsa testu bihurtu, ASR (Automatic Speech Recognition); eta testua ahots bihurtu, TTS (Text-to-Speech).

Ondorioz, euskara ahots-teknologietan murgiltzeak euskaldunoi gure hizkuntzan komunikatzeko aukera emango digu, ez bakarrik gure eguneroko bizitzan, baita lan munduan ere.

Categorías: euskara

20 urtez toponimia berrikusten

Miércoles, 20 Junio 2007 · Dejar un comentario

Toponimia hizkuntza bakoitzaren gordeleku fidelena da eta herri bakoitzaren historia, kultura, tradizio eta abarren berri ematen du. Hortaz, hizkuntzaren zati garrantzitsuenetarikoa izanik, Hizkuntza Politikarako Sailburuordetza, Euskaltzaindiaren, Deustuko Unibertsitateko Deiker Institutoaren, Eusko Jaurlaritzaren Ingurumen eta Lurralde Antolamendu Sailen, EAEko hiru diputazioen, EUDELen eta udal eta kontzejuen laguntzarekin batera, 20 urteetan zehar, Euskal Autonomia Erkidegoko toponimia biltzen, arautzen eta normalizatzen aritu da. Horretaz gain, lan hori, EAEra ez ezik, Euskal Herri osora hedatu nahi dute Nafarroako eta Iparraldeko toponimia bilduz eta aztertuz.

Lan hau 1986an abian jarri zen Eusko Jaurlaritzaren Lurralde Antolamendu eta Garraio Sailaren eta Deustuko Unibertsitateko Deiker taldearen eskutik. Horiek Bizkaiko toponimiarekin proiektuari hasiera eman zioten. Ondoren, Arabako (Trebiñu barne) eta Gipuzkoako toponimiaren bilketa eta arautze-lana egin zen eta 2000. urtean HPSak webgunean www.euskadi.net/euskara_toponimia jarri zituen datuak kontsultagai. Hurrengo urtean, Izen geografikoen glosarioa argitaratu zen eta 2002an Nerea Mujikak idatzitako toponimia-lanerako metodologia-eskuliburua; Toponimia eta kartografia: oinarrizko eskuliburua.

Ondorengo urteetan, Bizkaiko eta Arabako toponimien berrikusketa egin zen eta egindako lana modu sakonean aztertu zen. Aurten, toponimia mapetan erroldatzeko irizpideak ematen duen txostena idatzi dute eta, hurrengo urteetarako helburuen artean dituzte, Gipuzkoako toponimia berrikustea eta Nafarroako eta Iparraldeko toponimiak osatzea.

Ondorioz, aipatutako talde guztiei esker, gure toponimiaren azterketa zehatza izateaz gain, gure herriari buruzko tradizio, kultura eta, azken batez, historiari buruzko argibide gehiago ezagutzeko aukera izango dugu.

 

 

Categorías: euskara

Euskara Lingu@net Europa proiektuan

Viernes, 8 Junio 2007 · Dejar un comentario

Teknologiak garrantzia hartu du XXI. mendeko gizartean eta garapen horretan hizkuntzak eta teknologiak uztartzeko ahaleginak gero eta sendoagoak dira.

Ildo horretatik, euskara ez da atzean gelditu eta HABEk horretan dihardu lanean, izan ere, Lingu@net, Europako hizkuntzak on-line ikasteko baliabide zentrua, Europarekin duen hitzarmena berritu du aurten. Proiektu hori Europako Batzordeak babesten du, 24 erakundek osatzen dute eta euskaraz ez ezik, beste 19 hizkuntzatan nabiga daiteke. Hortaz, Europako 20 hizkuntza (alemaniera, bulgariera, daniera, estoniera, euskara, frantsesa, galiziera, gaztelania, greziera, ingelesa, islandiera, italiera, katalana, lituaniera, maltera, nederlandera, poloniera, portugesa, suediera eta suomiera) ikasteko baliabideak eskaintzen dizkiete bai ikasle eta irakasleei.

Baliabideei dagokienez, aurkeztu aurretik, azterketa sakona egiten da edukiak fidagarriak eta hizkuntzaren aldetik zuzenak izan daitezen, eta nabigatzeko erraza, informazio gaurkotua, eduki erabilgarria eta interfazaren diseinua argia izan dadin. Beraz, euskara ikasteko eskaintzen den baliabidearen kalitate ona bermatzearen aldeko lana egiten da.

Horretaz gain, ikaslearen hizkuntz gaitasuna aztertzeko eta ebaluatzeko bidea, hizkuntzak ikasteko eta motibazioa lortzeko modua, beste ikasleekin harremanetan jartzeko aukera eta hainbat hizkuntza ikas-iraskasteko materiala eskaintzen du.

Ondorioz, Europako hizkuntzen ikas-irakaskuntzan garrantzitsua eta erreferentzia izango den atari honetan euskarak gainerako hainbat hizkuntzen parean jartzeko aukera du HABEk egindako eta etorkizunean egingo duen lanari esker.

Categorías: euskara