Hablemos de lenguas, tecnología y traducción

Espirales científicas y traducción automática

Viernes, 15 Febrero 2008 · Deja un comentario

Ayer asistí a un agotador seminario (MATMT2008 workshop) que me ha dejado un sabor agridulce. El dulzor vino causado por dos motivos principales:

  1. El reencuentro con muchos viejos colegas (David Farwell, Victoria Arranz, Arantza Casillas, Germán Rigau, Lluís Màrquez, Patricia Fernández, Juan Hierro, la comunidad IXA en pleno, etc.).
  2. La satisfación de que se abordara la traducción automática desde una perspectiva por la que vengo abogando desde 1993 (cf el proyecto Legebiduna, presentado a Gobierno Vasco en 1994, ya contemplaba la aplicación de técnicas estadísticas a un corpus bilingüe de boletines oficiales).

Spiral

La amargura estuvo causada por el efecto de espiral científica que se apoderó del seminario y que acabó haciendolo soporífero. Estas espirales científicas son fenómenos de ensimismamiento, prepotente por lo general, que algunos investigadores son incapaces de detectar ni resolver (vg. Marcello Federico) y que enojan profundamente cuando se producen en situaciones en las que la audiencia es amplia, rica y heterogénea, como la de ayer.

SumatorioDurante demasiado rato hubo un exceso de vuelta de rosca a la estadística, técnica que ha dado casi todo de sí, y cuyos pormenores sólo interesan a los muy especialistas. Hubo ayer realmente muy poco de reflexión sobre lo que el sugerente título del seminario prometía ofrecer: La aplicación de distintas tecnología a problemas concretos, en contextos de traducción reales (como el que plantea el Gobierno Vasco en su concurso, muy bien asesorado por traductores humanos por cierto, que lamentablemente brillaron ayer por su ausencia). Andy Way compensó un poco la situación, pero su intervención llegó demasiado tarde, cuando el sesgo estadístico ya había echado a perder la jornada.

Así que quedaron en el tintero cuestiones como:

  • Aportación de las memorias de traducción (que es de facto la tecnología preferida por los traductores)
  • Flujo de trabajo en entornos de publicación multilingüe
  • Traducción vs localización
  • Técnicas de recolección de corpus multilingües
  • Tipologías textuales, lenguajes especiales
  • Criterios de calidad, protocolos, perfile, roles
  • Mantenimiento y alimentación automática de recursos tradumáticos
  • Sistemas de revisión y validación de recursos (corpus, terminología)
  • Potenciación de estándares para compartir recursos
  • Aprendizaje automático aplicado a los sistemas basados en reglas
  • Reutilización de módulos (diccionarios bilingües, reglas de transferencia)

Y otras muchas que ni pasaron por la mente de los ensimismados organizadores. Por cierto, ¿cómo traduciría yo Mixing approaches to Machine Translation? ¿mezclando aproximaciones…? No, tal vez mejor “Enfoques (o métodos) combinados en traducción automática”.

→ Deja un ComentarioCategorías: euskara · tradumática
Etiquetado:

Badihardugu

Viernes, 13 Julio 2007 · Deja un comentario

Badihardugu Deba Ibarreko Euskara Elkartea da. 1990an elkartzen hasi ziren eta gaur egun, lanean dihardute oraindik ere dokumentazioa biltzen, ahozko testigantzak jasotzen, etab.

Elkarte honi esker, alde horretako azpieuskalkiaren berri izango dugu interneten. Haien helburua euskara indartzea, erabiltzea eta gazteengan eragitea da. Proiektu horretan herritar eta euskaltzale askok hartzen dute parte, horrela, herri horietako pertsona nagusiak grabatu dituzte, bai bideoz eta bai audioz, eta corpus handia bildu dute. Ondorioz, alde horretako euskararen ezaugarriak, soinua eta bizitasuna entzuteko aukera izango dugu laster www.badihardugu.comen

Guzti hori lortuta, euskaltzale guztiontzat interesgarria izango den gunea aurkituko dugu interneten, horrek azpieuskalki hori ezagutarazteko eta aztertzeko bidea emango duelarik.

→ Deja un ComentarioCategorías: euskara

BasqueLem: Emergiatech enpresaren euskerarako lematizatzailea

Jueves, 12 Julio 2007 · Deja un comentario

Emergiatech (Emerging Advanced Technologies, S.L.) enpresak, Eusko Jaurlaritzaren Kultura Sailak euskera bultzatzeko eskaintzen dauazan laguntzetariko bat lortu dau. Enpresa honek, euskararako lematizatzaile bat egiteko proiektua aurkeztu eban 2007ko IKT deialdira, eta hauxek lortu dau diru-laguntza. BasqueLem euskeraren azterketarako tresna eraberritzailea izango da, eta urteamaierarako amaitua egongo da.

www.emergiatech.com

→ Deja un ComentarioCategorías: euskara · tradumática

Adibideetan Oinarritutako Itzulpen Automatikoa

Jueves, 5 Julio 2007 · Deja un comentario

Gaur egun, gero eta gehiago lantzen den itzulpen automatikoaren barruan hiru atal bereiz daitezke: Erregeletan Oinarritutako Itzulpen automatikoa; Corpusetan Oinarritutako Itzulpen automatikoa, Adibideetan Oinarritutako Itzulpen Automatikoa (AOIA) eta Estatistiketan Oinarritutako Itzulpen Automatikoa; eta Itzulpen Memoriak.

AOIA itzulpen automatikoaren teknika da eta teknika horrekin lanean diharduten sistemek bi ezaugarri berezi dituzte: Alde batetik, lehenagotik erabilitako adibideen itzulpenen datu-basea edo Corpusa erabiltzen dute eta, bestetik, sarrera berriak adibideen datu-basearekin parekatu eta modu analogikoan aztertzen dira.

AOIAz lan eginez, ostera, arazoak sortzen dira. Batetik, Corpus elebiduna behar da, hau da, testu bat eta horren itzulpena, bi hizkuntzetako segmentu berdinak erlazionatzeko. Bestetik, zenbat eta adibide gehiago egon, itzulpena hobea izango da, baina hau ez da beti horrela izaten eta batzuetan adibide gehiegi sartzeak arazoak sortzen ditu. Horretaz gain, gerta daiteke adibide batek itzulpen desberdinak izatea eta hori ere oztopo bihurtzen da. Horretarako konponbidea adibide arrunten eta ezohikoen arteko bereizketa egitea izan daiteke. Eta azkenik, AOIAren betebehar nagusiena jatorrizko testua hartu eta egokien parekatzen den adibidea aurkitzea da, baina, ondoren, pausurik zailena dator; aurkitu den testu-zatia jatorrizko testuaren zein segmenturi dagokion identifikatzea eta zati horiek ondo konbinatzea emaitza gramatikalak jasotzeko.

Oztopoak oztopo, AOIAk abantailak ere baditu. Izan ere, adibideak benetako testuetatik hartuak dira eta horrek hizkuntza errealeko adibideekin ihardutea ahalbidetzen du, erabiltzen ez diren formak alde batera utziz. Bestalde, datuen araberako emaitzak lortzen dira eta ez teoriariaren araberakoak. Corpus elebidun bat hartuta ere hizkuntz bikote berriekin AOIA sistema azkar bat garatu daiteke eta ezagutza linguistikoa modu errezean aberasteko aukera ematen du, adibide berriak bilatzea besterik ez dagoelako.

→ Deja un ComentarioCategorías: translation

Master en Análisis y procesamiento del lenguaje

Martes, 3 Julio 2007 · Deja un comentario

La Universidad del País Vasco-Euskal Herriko Unibertsitatea ofrecerá un nuevo master para el año académico 2007-2008 titulado “Hizkuntzaren Azterketa eta Prozesamendua” (Análisis y Procesamiento del Lenguaje). Dirigido a filólogos, lingüistas e ingenieros en informática o telecomunicaciones, el master tiene una duración de un año académico, aunque existe la opción de realizarlo en 2 ó 3 años para aquéllos que se encuentren trabajando.

El master ofrece tres títulos especializados:

  • Lingüística aplicada
  • Tecnologías de procesamiento del lenguaje escrito
  • Tecnologías de procesamiento del lenguaje oral

Una excelente oportunidad para formar profesionales de las tecnologías lingüísticas.

→ Deja un ComentarioCategorías: formación

Euskara ahots-teknologietan murgilduz

Miércoles, 20 Junio 2007 · Deja un comentario

Eusko Jaurlaritzak Belgikako enpresa batekin Aditu Programa adostu zuen. Horren helburua euskara barneratzea da ahots-teknologiak erabiltzen dituzten enpresetan.

Euskara indartzea eta zabaltzearen ondorioz, teknologia berrietara moldatzeko beharra gero eta garrantzitsuagoa da. Beraz, euskaldunak mundu informatikoan murgiltzeko ahalegin handiak egiten ari dira. Horregatik, Eusko Jaurlaritzak lan horretan dihardu, ahotsaren teknologiak deitutakoetan euskara erabiltzeko aukera ematen duten planak garatuz.

Ahots teknologiak hiru motakoak izan daitezke: ahotsaren ezagutza (ordenagailuak pertsona baten ahotsa ulertzeko gaitasuna), ahotsaren sintesia (testu idatzi bat oinarri izanda, testu hori automatikoki ahots bihurtzea), hiztunaren egiaztapena (iruzurra saihesteko) eta elkarrizketaren teknologia (elkarrizketarik sofistikatuenak lortzeko bidea).

Horren aurrean, Eusko Jaurlaritzak euskaraz ahotsa sintetizatzeko eta ezagutzeko moroteak garatu zituen Belgikako Nuance enpresarekin batera. Motore horiek garatzeko baliabideak 25 milioi hitzez osatutako testu-corpusa, 60.000 sarrerako oinarrizko lexiko fonetikoa, telefoniarako datu-base fonetikoa (hizkuntza-ereduak garatzeko telefono bidez egindako grabazioak) eta ASR3200-rako datu-base fonetikoa (bulego giroan egindako grabazioak) izan ziren.

Ildo horretatik, Aditu Programa sortu zuten, horren helburuak izanik, euskarazko ahots-teknologiako produktua ezagutaraztea eta horien ezarpen praktikoak lortzea hainbat enpresa eta erakundeetan. Programa horren bitartez bi prozesu egin daitezke: ahotsa testu bihurtu, ASR (Automatic Speech Recognition); eta testua ahots bihurtu, TTS (Text-to-Speech).

Ondorioz, euskara ahots-teknologietan murgiltzeak euskaldunoi gure hizkuntzan komunikatzeko aukera emango digu, ez bakarrik gure eguneroko bizitzan, baita lan munduan ere.

→ Deja un ComentarioCategorías: euskara

20 urtez toponimia berrikusten

Miércoles, 20 Junio 2007 · Deja un comentario

Toponimia hizkuntza bakoitzaren gordeleku fidelena da eta herri bakoitzaren historia, kultura, tradizio eta abarren berri ematen du. Hortaz, hizkuntzaren zati garrantzitsuenetarikoa izanik, Hizkuntza Politikarako Sailburuordetza, Euskaltzaindiaren, Deustuko Unibertsitateko Deiker Institutoaren, Eusko Jaurlaritzaren Ingurumen eta Lurralde Antolamendu Sailen, EAEko hiru diputazioen, EUDELen eta udal eta kontzejuen laguntzarekin batera, 20 urteetan zehar, Euskal Autonomia Erkidegoko toponimia biltzen, arautzen eta normalizatzen aritu da. Horretaz gain, lan hori, EAEra ez ezik, Euskal Herri osora hedatu nahi dute Nafarroako eta Iparraldeko toponimia bilduz eta aztertuz.

Lan hau 1986an abian jarri zen Eusko Jaurlaritzaren Lurralde Antolamendu eta Garraio Sailaren eta Deustuko Unibertsitateko Deiker taldearen eskutik. Horiek Bizkaiko toponimiarekin proiektuari hasiera eman zioten. Ondoren, Arabako (Trebiñu barne) eta Gipuzkoako toponimiaren bilketa eta arautze-lana egin zen eta 2000. urtean HPSak webgunean www.euskadi.net/euskara_toponimia jarri zituen datuak kontsultagai. Hurrengo urtean, Izen geografikoen glosarioa argitaratu zen eta 2002an Nerea Mujikak idatzitako toponimia-lanerako metodologia-eskuliburua; Toponimia eta kartografia: oinarrizko eskuliburua.

Ondorengo urteetan, Bizkaiko eta Arabako toponimien berrikusketa egin zen eta egindako lana modu sakonean aztertu zen. Aurten, toponimia mapetan erroldatzeko irizpideak ematen duen txostena idatzi dute eta, hurrengo urteetarako helburuen artean dituzte, Gipuzkoako toponimia berrikustea eta Nafarroako eta Iparraldeko toponimiak osatzea.

Ondorioz, aipatutako talde guztiei esker, gure toponimiaren azterketa zehatza izateaz gain, gure herriari buruzko tradizio, kultura eta, azken batez, historiari buruzko argibide gehiago ezagutzeko aukera izango dugu.

 

 

→ Deja un ComentarioCategorías: euskara

Euskara Lingu@net Europa proiektuan

Viernes, 8 Junio 2007 · Deja un comentario

Teknologiak garrantzia hartu du XXI. mendeko gizartean eta garapen horretan hizkuntzak eta teknologiak uztartzeko ahaleginak gero eta sendoagoak dira.

Ildo horretatik, euskara ez da atzean gelditu eta HABEk horretan dihardu lanean, izan ere, Lingu@net, Europako hizkuntzak on-line ikasteko baliabide zentrua, Europarekin duen hitzarmena berritu du aurten. Proiektu hori Europako Batzordeak babesten du, 24 erakundek osatzen dute eta euskaraz ez ezik, beste 19 hizkuntzatan nabiga daiteke. Hortaz, Europako 20 hizkuntza (alemaniera, bulgariera, daniera, estoniera, euskara, frantsesa, galiziera, gaztelania, greziera, ingelesa, islandiera, italiera, katalana, lituaniera, maltera, nederlandera, poloniera, portugesa, suediera eta suomiera) ikasteko baliabideak eskaintzen dizkiete bai ikasle eta irakasleei.

Baliabideei dagokienez, aurkeztu aurretik, azterketa sakona egiten da edukiak fidagarriak eta hizkuntzaren aldetik zuzenak izan daitezen, eta nabigatzeko erraza, informazio gaurkotua, eduki erabilgarria eta interfazaren diseinua argia izan dadin. Beraz, euskara ikasteko eskaintzen den baliabidearen kalitate ona bermatzearen aldeko lana egiten da.

Horretaz gain, ikaslearen hizkuntz gaitasuna aztertzeko eta ebaluatzeko bidea, hizkuntzak ikasteko eta motibazioa lortzeko modua, beste ikasleekin harremanetan jartzeko aukera eta hainbat hizkuntza ikas-iraskasteko materiala eskaintzen du.

Ondorioz, Europako hizkuntzen ikas-irakaskuntzan garrantzitsua eta erreferentzia izango den atari honetan euskarak gainerako hainbat hizkuntzen parean jartzeko aukera du HABEk egindako eta etorkizunean egingo duen lanari esker.

→ Deja un ComentarioCategorías: euskara

Zisplanet, web agregatzaile berria

Miércoles, 6 Junio 2007 · Deja un comentario

María Legorburu dugu Ziplaneten (web agregatzailea) arduraduna. Hori da Maríaren karrera amaierako proiektua eta Janire Rodriguezek egindako elkarrizketari esker, horri buruzko informazioa eskuratu ahal izan dugu.

María ez da bakarrik ibili proiektu honetan, Ana Isabel Torre Bastidarekin lanean dihardu, eta Pablo Orduña eta Joseba Abaituaren babesa jaso du.

Zisplanet edozein sistema eragiletan erabili daitekeen web agregatzailea da. Gaur egun, agregatzaileak existitzen badira ere, María eta Anaren proiektuak badu berezitasun bat; Zisplaneten moldagarritasunari esker, edozein enpresatan, taldetan… baliagarria suertatu daiteke.

Elkarrizketa horretan Maríak web agregatzaileen garrantzia azpimarratu zuen, izan ere, web-ak aurkezten duen gehiegizko informazioaren aurrean, agregatzaileak hautaketa egingo du informazioaren azterketa erreztuko duelarik.

Proiektuarekin zorte ona izan dezala!

→ Deja un ComentarioCategorías: documática

¿Cómo acertar con las categorías de un blog especializado en lenguas?

Jueves, 19 Octubre 2006 · 2 comentarios

La pregunta vale para cualquier tipo de blog, pero tiene más enjundia para los especializados. ¿Por qué? Porque la elección de las categorías configurará una conceptualización propensamente rígida de la materia tratada.
Se me ocurren al menos tres posibles enfoques:

  1. El utilizado por Blogos, en el que se opta por seis categorías que recuerdan las secciones temáticas de la revista MultiLingual:
  2. Otro completamente conceptual, como el de Lingformat (y similar a Filoblogia):
  3. tagcloudO uno más abierto y folcsonómico, de esos con los que luego se hacen tag clouds como las que se ven en algunas comunidades de blogs.

Creo que la opción buena es la segunda, la conceptual (¿ontológica?), y que deberíamos empezar a diseñar ya, porque a medida que se vayan añadiendo artículos más laborioso será recategorizar el blog completo.

¿Sugerencias?

→ 2 comentariosCategorías: documática