Portada de ComunicaUnidad en la diversidad Opinión
Portal informativo sobre la lengua castellana

Recibe nuestros titulares gratisImprimir este artículo

26 de junio de 2002


Tribuna de opinión

Volver al índice
Tribunas anteriores
Índice de autores

Subir

GLADYS DÁVALOS ARZE
Un desafío de nuestra era (primera parte)
 

Una base de datos lexicológica
Los arduos problemas de la traducción automática
La amenaza electrónica

Subir


Con motivo de su ingreso, el 25 de junio, como Académica de Número en la Academia Boliviana de la Lengua, la pedagoga, escritora, traductora y lingüista computacional Gladys Dávalos Arze pronunció una disertación en la que abordó el desafío que la sociedad de la información plantea al lenguaje. Las relaciones entre la informática y la lingüística constituyen uno de los núcleos de su reflexión, enriquecido por la actividad relevante de la flamante académica en el desarrollo de un traductor automático multilingüe que emplea el aymara como metalenguaje. Unidad en la Diversidad ofrece aquí la primera parte de su discurso.

 

La elaboración de un diccionario bilingüe en forma de libro, ha sido y es un trabajo arduo y de larga duración. El esfuerzo, la energía y el tiempo dedicado a la elaboración de un diccionario electrónico multilingüe, lo es más aún. En ambos casos, sin embargo, se trata de presentar y preservar la riqueza de uno o varios idiomas. Los diccionarios de “papel” suelen tener una vida más larga. De edición en edición pueden pasar años y en ese tiempo, muchas de las palabras pierden su actualidad o ya nadie las usa, lo que equivale a su desaparición. Es probable que los lexicólogos ya no las incluyan en la última edición, para poder así adaptarse a los cambios del mundo moderno. Estos cambios son tan dinámicos y ocurren con tal velocidad, que a menudo tenemos entre las manos diccionarios obsoletos. Esto no ocurre con un diccionario electrónico: éste permite la actualización a cada momento, dependiendo de las necesidades del usuario y del contexto lexicológico en el que se desenvuelve. En este sentido, está hecho a su medida y está siempre al día. A pesar de ello y precisamente por esta razón, el idioma se ve amenazado por una serie de “peligros” en la así llamada era de la sociedad de información. Hablaré entonces de éstos y de mi experiencia en el trabajo de elaboración del diccionario electrónico multilingüe ARUNQERA, corazón del traductor automático boliviano ATAMIRI.

Subir


Permítanme empezar con una anécdota casi premonitoria: cuando yo tenía 10 años, nuestra profesora de lenguaje dejaba el curso y por el gran interés que teníamos en su asignatura, ella nos invitó a una compañera de curso y a mí a una despedida “especial” con un té en su domicilio. Al estar acercándonos a la casa, mi compañera me mencionó la tristeza que le causaba que la profesora no dictara más el curso, pues la consideraba una profesional dedicada. Por mi parte, le dije que yo también lo lamentaba, ya que lo que más me gustaba era la gramática, aunque, por cierto, alguien la reemplazaría. “Sí, claro”, dijo ella, “pero, ¿por qué te gusta la gramática? A mí, personalmente, me parece la parte más aburrida del lenguaje”. “Ah, no”, le aclaré yo, “es la mejor parte porque se parece a las matemáticas”. Demás está describir la cara de asombro que puso mi amiga. Por suerte, ya llegamos y no tuve que explicar lo que yo quería decir con eso, puesto que, como se imaginarán, no habría sabido qué decir. Es así como en ese momento yo “sentía” y percibía la gramática, aunque intelectual y racionalmente me hubieran faltado todas las palabras del diccionario para explicarlo.

Veinticinco años después conocí a una persona embalada, casi obsesionada, en la creación de un software para traducción automática. Mientras tanto, yo había escrito dos tesis que, obviamente, tenían mucho que ver con gramática, en mi caso, con la filología de dos lenguas indogermánicas: el alemán y el inglés. Aparte de la lingüística tradicional, las teorías de Chomsky y su conocida gramática transformacional eran mis herramientas de trabajo diarias y esta persona, un ingeniero, me habla de repente de un traductor automático basado prácticamente en la idea de que, según él, “las matemáticas se parecen a la gramática” y, por insólito que parezca, cuando él me aclara y me dice que “transforma un lenguaje natural en fórmulas que usa a un nivel matricial para que la computadora las entienda mejor”, me parece que está hablando de un tema conocido y no necesariamente de algo estrambótico. Mientras más habla, más me fascina la idea, me enamoro del concepto lingüístico ... y del ingeniero.    

Subir


Lo demás es historia conocida: nos casamos y yo le ayudé a “amamantar” y “alimentar” a su bebé, al que el Ing. Iván Guzmán de Rojas  puso el nombre de ATAMIRI, que en el aymara arcaico quiere decir “intérprete”. La elaboración de un diccionario electrónico es indispensable para que el software de traducción funcione. Es así que, a partir de entonces, me dediqué a introducir términos en varios idiomas, pero principalmente en alemán, inglés y castellano. Fue y continúa siendo un arduo trabajo el que ya realizo por varios años en la conformación del diccionario electrónico y toda persona que ha trabajado o trabaja en la elaboración de un diccionario, sabe lo titánica que es la labor, aparte de que, al parecer, no termina nunca, porque el lenguaje humano es algo dinámico, algo que anda cambiando constantemente y el trabajo de actualización se hace indispensable, más aún en un diccionario electrónico, que, por sus características, es dinámico, flexible y adaptable al texto que se va a traducir y a los requerimientos del usuario. La tarea es árida, pero recuerdo algunos momentos de toma de decisiones simpáticos y hasta risueños: Se trataba de introducir las palabras por género y había que escoger qué género iba en primera fila, si el masculino o el femenino. En cuanto a que el neutro debía ir al último, no había duda alguna, pero como la persona que está trabajando en el diccionario es de sexo femenino, se impuso y, algo que tal vez hace muchos años hubiera sido sobreentendido (que las palabras masculinas vayan antes), en este diccionario electrónico al que le hemos dado el nombre de ARUNQERA, no lo es. Las palabras femeninas van antes, y mi esposo, después de largas discusiones, cedió, gentil y caballerosamente, el primer lugar a lo femenino.

 

Una base de datos lexicológica

 

Voy a hablar entonces de la experiencia y la vivencia con ARUNQERA, la base de datos lexicológica del traductor automático boliviano y combinaré mi trabajo con el mundo de la comunicación en la red de redes o más conocida por internet, para mostrarles lo que está ocurriendo en el ámbito de la sociedad de información, mientras uno está encerrado desarrollando un diccionario, tratando a toda costa de preservar la pureza y exactitud del idioma:

 

En cuanto al módulo lexicográfico ARUNQERA (que en aymara quiere decir algo así como “petaca llena de palabras”) y a su elaboración, las condiciones de trabajo no dejan de ser precarias y solitarias. Mientras que en otros proyectos de traducción automática se emplea y paga bien a un ejército de terminólogos, lexicógrafos, en ARUNQERA el trabajo fue mayormente de una persona, con la colaboración de otras cuyo idioma materno era ya sea el ruso, el sueco, el rumano o el húngaro, idiomas que la que habla ignora.  Pero también en esos casos, esas personas estaban realizando el trabajo solas y la falta de ayuda en número se hace significativa a la hora de ver que faltan palabras para traducir o que había que tenerlas grabadas en la base de datos lexicológica con más rapidez, cosa que, por cierto, se puede hacer obviamente con más eficiencia con la ayuda de otros cinco o más lexicógrafos que con uno solo.

Subir


Ya en 1947 se intentó crear diccionarios electrónicos con el fin de usarlos en el área de la traducción automática. Más de veinte años se trabajó en esto y en 1966 ALPAC (Automatic Language Processing Advisor Committee) emitió un informe técnico nada alentador para los proyectos de traducción por computadora indicando lo difícil y complicado del emprendimiento y que lo mejor era ya no continuar con el financiamiento para este tipo de investigación. Menciono esto nada más para ilustrar las dificultades que de por sí existen en todas partes, y no sólo para el diccionario electrónico elaborado en Bolivia.

Este programa permite el acceso al diccionario multilingüe y administra su inventario. Además del diccionario, el programa abre otras tablas, como por ejemplo una para almacenar la codificación de parámetros sintácticos, que el usuario está libre de definirlos a su propio criterio; y otro, para contabilizar las tareas de introducción de términos, llevando una cuenta por cada uno de los terminólogos. El programa actúa como un sistema de control de inventarios, en el que los items son los conceptos; mientras que los términos (palabras o agrupaciones de palabras) que los describen en un determinado idioma, así como sus atributos, son datos asociados al concepto.    

El diccionario tiene la estructura de una base de datos con varias claves alternas. En efecto, se lo puede extender a nuevos idiomas y a nuevos parámetros de clasificación gramatical (sintácticos y semánticos), sin necesidad de modificar el programa para ampliar formatos; la integridad de datos también está asegurada.

 

Los atributos lexicológicos que acepta el programa son definibles por medio de parámetros que a su vez son determinados por tablas que están bajo el control del usuario. Hay campos adecuadamente reservados para dos tipos de atributos: los que son de carácter universal (pertenecen al concepto en cualquier idioma), como ser categoría sintáctica, clase y grupo semántico y nivel de frecuencia; por otro lado, los que son de carácter específico y peculiar en cada idioma, como ser género, caso, terminación (verbal) y otros. 

Subir


ARUNQERA opera estructurando el léxico del sistema en un ambiente multilingüe constituyendo el espacio de representación del lenguaje natural, en un sentido universal. Los atributos propios del concepto definen las características intrínsecas del constituyente tensorial, mientras que los atributos específicos dentro de cada idioma definen las componentes tensoriales que se proyectan en el sistema de referencia del idioma. Así el material del léxico ya queda organizado como para que el programa traductor lleve a cabo las transformaciones tensoriales de un sistema de referencia a otro (traducción de un idioma a otro).

El módulo lexicográfico cuenta además con las subrutinas necesarias para un adecuado despliegue de pantallas para cada concepto, tanto para los casos de consulta como de introducción, modificación y cancelación de entradas. Las búsquedas pueden efectuarse ya sea por orden alfabético dentro de cada idioma, o también por clase, grupo y subgrupo semántico. La codificación semántica, al igual que la sintáctica, fuera de las restricciones de formato, se sujeta enteramente a las normas que implante el usuario; el investigador lingüista puede definir su propia gramática, por ejemplo, crear un lenguaje artificial; el terminólogo puede organizar las clases y grupos semánticos para conformar su propio tesauro de términos especializados. La flexibilidad del módulo lexicográfico es grande, inclusive permite el desarrollo de terminología por áreas de manera independiente (en diferentes ordenadores electrónicos), luego integrables.

Subir


El diccionario, que puede ser consultado al mismo tiempo que atiende al programa traductor, recibe nuevas entradas y modificaciones, en uno o varios idiomas, concurrentemente y contiene morfemas tanto inconexos (palabras y conjuntos de palabras), como también conexos (sufijos, prefijos e infijos simples y compuestos). Para un determinado concepto, se puede dar que los términos en un idioma tengan una propiedad diferente de la que tienen en otros: por ejemplo “preposiciones” son en unos idiomas palabras, digamos “corrientes”, mientras que en otros, son considerados sufijos.

El programa ARUNQERA ofrece subrutinas eficaces para el desarrollo lexicológico evitando el uso de listados de control; justamente las claves alternas del diccionario permiten efectuar una serie de verificaciones previas a cualquier introducción de nuevos vocablos para evitar duplicación de conceptos, posibilitando, sin embargo, la entrada de diferentes acepciones de un cierto término en un idioma dado. Asimismo la “enseñanza” de vocabulario se facilita enormemente, ya que el programa cuenta con subrutinas para detectar palabras faltantes (en el idioma que ARUNQERA está “aprendiendo”) correspondientes a conceptos ya almacenados en otros idiomas.

 

El módulo lexicográfico dispone de programas auxiliares que facilitan los procesos de conversión de caracteres cuando sean necesarios (cambios de microcódigo). También se cuenta con programas auxiliares para crear los subdiccionarios que requiere el programa traductor para cargar en memoria al iniciar una corrida: estos subdiccionarios deben ser creados toda vez que se expanda el sistema a un nuevo idioma y cuando se aumentan términos en el nivel de frecuencia “A” (es decir, los altamente frecuentes, que toda versión aprendiz debe conocer), la creación de subdiccionarios es rápida. Toma aproximadamente diez minutos y ya no es necesaria cuando la versión (para el par de idiomas que se ejecuta) se encuentra en el nivel operacional.

 

La base de datos lexicológica ha crecido gradualmente, de modo diferente para los diversos idiomas que contiene, conforme se van implantando; al 1 de enero de 2002 los niveles lexicológicos eran aproximadamente los siguientes:

Subir


Idioma                   Número de Entradas
Aymara                          6,088
Español                        26,468
Alemán                         15,124
Inglés                            25,798
Francés                         21,023
Italiano                           11,841
Húngaro                           1,030
Holandés                        11,341
Portugués                       10,327
Sueco                              2,413
Ruso                                9,820
Rumano                            3,100

Sobre las condiciones de producción de un diccionario electrónico tuve la oportunidad de hablar el año 1997, cuando fui invitada por el Círculo de Periodismo Científico a dar una conferencia sobre la “Historia de Atamiri”, dentro del marco “La historia de las ciencias en La Paz”. En ese momento pensé, algo incrédula: “¡No puede ser que ATAMIRI ya forme parte de la historia!”, pero supongo que así es. De lo que no estoy muy segura es a cuál de las historias pertenece: a la lingüística computacional, a la ingeniería del lenguaje, a las matemáticas, a la traducción automática, a la lingüística informática, a la informática a secas, al aymara, a la gramática... . Ya de ahí puede concluirse de que se trata de un asunto multidisciplinario.

Subir


Los arduos problemas de la traducción automática

En el ámbito del Procesamiento del Lenguaje Natural (PLN) por medio del ordenador electrónico y, más concretamente, en el de la traducción automática, se observa una variedad de problemas de tipo sintáctico-semántico, difícil de resolver. El ser humano como traductor, profesional o no, siempre encontrará el modo de dar solución a estos problemas, ya sea interpretando, parafraseando o, finalmente, reflejando el sentido de aquello que se está queriendo decir en éste o en aquél idioma. El ordenador electrónico es incapaz de realizar esta tarea; es incapaz de pensar o decidir si una posibilidad es mejor que otra. El traductor automático “aprende” como lo dice su nombre: como un autómata. La Inteligencia Artificial (IA) aún no ha conseguido que el ordenador piense, reflexione, realice inferencias en el proceso de “aprendizaje” y, desde luego, esta característica se refleja en el momento en el que tiene que “rendir examen”: lo sabe todo de memoria. Eso sí, posee una memoria asombrosa y poderosa, infalible y dispuesta a dar la respuesta correcta en cualquier momento. En este sentido le lleva al ser humano una tremenda ventaja. Empero en otras áreas, en la creativa, por ejemplo, el ordenador es esclavo del ser humano, lo cual es hasta cierto punto, tranquilizante. De modo que en la construcción creativa o complicada de oraciones muy elaboradas, el ordenador no lleva siempre las de ganar. Así es que el ser humano hace uso de una manipulación lingüística que ha dado en llamar “lenguaje controlado”. En cierta forma, el lenguaje es controlado de alguna manera casi siempre. Cuando no sucede es porque alguien “perdió los estribos”. Se lee con frecuencia publicaciones que indican que “fulano se retracta de ciertas ofensas o palabras proferidas en un momento de ofuscación” y que nunca las hubiera dicho de haber “controlado la lengua”. Sin embargo, al control al que nos referimos en el PLN tiene poco que ver con este fenómeno muy humano. Aquí se está hablando en torno a las enormes dificultades que confronta actualmente la traducción por computadora. Y no nos referimos a la traducción de textos literarios ni a prosa altamente elaborada.

Es la traducción técnico-científica la que por sí sola ya da muchos dolores de cabeza. Y en lugar de rompérsela tratando de aliviarlos mediante una ingeniería del lenguaje adecuada y apropiada, los fabricantes de software se facilitan las cosas “mutilando” al lenguaje. Independientemente del manejo alegre del idioma que efectúan algunos técnicos, no sólo creando neologismos imposibles de traducir, sino también creando problemas adicionales e innecesarios debido a su escaso conocimiento, dominio de su idioma materno y a una insensibilidad lingüística muy propia de tecnócratas, existen otras dificultades intrínsecas del lenguaje en sí. De manera que, para facilitarle las cosas al ordenador electrónico, se vio por conveniente efectuar la insensible y dura mutilación de partes de la oración no consideradas “vitales”. Desde luego, este penoso proceso no afecta al sentido de lo que se quiere traducir; se supone que facilitará el proceso de traducción y la traducción, a su vez, saldrá “perfecta”. Esto en desmedro total de la elegancia y la riqueza del idioma. En otras palabras, el técnico o la persona encargada de elaborar los manuales o instructivos debe redactar en lo posible ajustándose a lo que después va a traducir el computador. Este hecho no deja de causar cierta aprensión, puesto que los esfuerzos que se realizan, tanto en el hogar como en las escuelas para que un niño enriquezca su vocabulario, son enormes y no siempre fáciles. Se hace todo para que el espectro lexicológico, idiomático y lingüístico-gramatical de un ser humano sea lo más amplio, escogido y elegante posible. Considerando este hecho y tomando en cuenta que el ordenador electrónico vino para quedarse, no hay más opción que alertar a padres de familia y profesores al respecto. Ya basta con el pánico que tienen los profesores de estar enseñando en vano a sus alumnos a leer y escribir, pues los futuros ejecutivos dictarán a sus ordenadores por medio de la digitalización de la voz, lo cual convertirá a la ortografía en algo superfluo, es más, ya no existirá el problema. En lo que hace a la lectura, ésta tampoco habrá, es decir, ya hoy mucha gente no lee: en los largos viajes a la oficina oye un casete de una novela o de cualquier obra literaria importante.

Subir


La amenaza electrónica

Se pueden observar entonces cambios profundos, aunque sutiles e imperceptibles para muchos, en el lenguaje oral y escrito de los últimos años, no siempre favorables para la riqueza y pureza de éste. Por fortuna, en nuestro trabajo no realizamos manipulaciones de ninguna clase en relación al idioma, lo cual no es fácil a la hora de traducir mensajes de chat (o diálogo entre dos o conversación entre más personas en la red), por ejemplo, que usan un lenguaje por demás coloquial y “oral”. El trabajo lingüístico boliviano ha tomado como un desafío el manejo del lenguaje tal como es y el esfuerzo y la investigación que conlleva esto es parte trascendente del trabajo de diccionario.  

 

En ARUNQERA no solamente están almacenadas palabras sueltas, sino también los así llamados clusters o grupos de palabras. Los clusters son frases idiomáticas o segmentos de frases frecuentes intraducibles por reglas gramaticales, por ejemplo, “Sincerely yours”. No es fácil introducir clusters en un diccionario electrónico porque hay que decidir qué palabras y cuántas palabras lo conformarían y por qué, lo cual también varía de acuerdo al tema que se está tratando en ese momento. 

 

Las palabras. Es algo difícil de creer que en estos tiempos de globalización, de graves crisis económicas, de guerra y de luchas por los derechos humanos, aún nos ocupemos de las palabras. ¿Qué importancia pueden tener ellas frente a todo lo demás que parece más importante, más relevante, más “de vida o muerte”? Y sin embargo, a pesar de todo, las palabras cuentan y no sólo en número, sino también en calidad. Se dice que las palabras bellas usadas sabiamente, pueden mejorar el ambiente, hacer la vida más positiva. Pero, ¿cuáles son las palabras bellas? ¿Acaso no estamos haciendo una odiosa discriminación? Las palabras son palabras y están allí para ser utilizadas como herramienta por el ser humano, en algo más complicado y complejo y, hasta ahora misterioso, llamado lengua. Empero, como decía líneas arriba, las palabras no van o no funcionan casi nunca solas. Su eficiencia está dentro del contexto, dentro de la lengua misma y ésta se está complicando cada vez más, porque desafortunadamente no hay muchas personas con gran sensibilidad lingüística. La mayor parte de la población usa las palabras con enorme descuido. Rara es la persona que las pronuncia bien, que evita los solecismos y, peor aún, que les da el significado que corresponde.

 

Este descuido, esta negligencia para con las palabras, con la lengua materna, está cada vez tomando más fuerza negativa y, a mi modo de ver, destructiva. Esto es fácil de comprobar actualmente con el advenimiento de modernas vías de comunicación como el chat y el e-mail por internet. De ahí que, a mi modesto juicio, lo que se almacena en las bases de datos lexicológicas de la red requiere de una observación diligente y cuidadosa de parte de las Academias de la Lengua, de lo contrario, se convertirá en “lo correcto”.  

Subir


Antes no era bien visto utilizar el lenguaje hablado en el escrito. “No se escribe como se habla”, era una norma rígida a la que había que atenerse si uno quería producir un texto escrito con cierta elegancia. Esta es una de las normas que han sido transgredidas hoy en día, no sólo en la literatura, sino que tiene efectos devastadores en la comunicación de mensajes electrónicos. Algunas personas que están a favor de este fenómeno, argumentan que lo que está ocurriendo es algo absolutamente positivo y alentador. Alentador sobre todo para la persona que escribe, porque no es el momento ahora de preocuparse de tildes, de sintaxis, ni mucho menos de ortografía. Lo positivo, a mi juicio, es que muchas más personas se atreven a comunicar y expresar por escrito sus asuntos, sin mayores inhibiciones o represiones, como las que habían antes en las cartas formales o personales. Nuestros tiempos son de apuro, de hacer las cosas rápidamente, de ganar tiempo, que es lo mismo que ganar dinero. En estos tiempos materialistas, las palabras muy largas o complicadas quitan tiempo, hacen la comunicación “más lenta”, alargando por lo tanto el tiempo de conexión a la red, y, todos sabemos, mientras más tiempo se está conectado, más hay que pagar al servidor. De manera que se está desarrollando un nuevo lenguaje, un nuevo código de lenguaje, casi secreto, casi entre cómplices de algo que, aparentemente, hasta puede ser un juego, pero que conlleva ciertos riesgos, de los que vamos a hablar más adelante.

Empezaremos entonces por uno de los “peligros” considerados más graves: los ataques de “anglitis” *1: Indudablemente el ritmo de comunicación se ha vuelto más fluido y desenfadado entre las personas que participan de esta sociedad de la información, empero, para ser parte activa de ella, hay que poseer un ordenador electrónico. En Bolivia sólo el 1% de la población tiene uno propio, aunque la proliferación de los “cibercafés” es muchísimo mayor cada vez, dando oportunidad a todas las personas de participar de este fenómeno. De cualquier manera, el peligro de escribir como se habla, tiene sus riesgos. A menudo, al hablar se utilizan términos en inglés. De ahí que se está hablando, y esto ya hace rato, de un grave ataque de “anglitis” en la sociedad de información. Ya el Dr. Raúl Rivadeneira Prada *2, Miembro de la Academia Boliviana de la Lengua, presentó hace un tiempo un libro con muchos de los anglicismos que están penetrando nuestra lengua y la están contaminando. También la que habla escribió un libro de sátiras presentado el año 1989, en el que en algún capítulo se trata el tema de los anglicismos sin razón de ser *3. De modo que es un tema que se va arrastrando ya un buen tiempo. Sin embargo, aparte de estas “llamadas de atención”, ¿se está haciendo algo al respecto? ¿Estamos defendiendo nuestro idioma como se debe?  ¿De qué “peligros” debemos o nos vemos obligados a defenderlo? ¿Por qué? y ¿Para qué?


 

REFERENCIAS

        “Communication et Information vers la société du savoir” – “Tirez la langue et dites trente trois est ce que l´internet souffre “d anglicité” aigüe” – Daniel Pimienta – Paris, Francia – enero 2002 (de la red)   

2          “Anglicismos en Bolivia” (2000) – Raúl Rivadeneira Prada (Miembro de la Academia Boliviana de la Lengua

3          “Corazones de arroz” (1989) Sátiras - Gladys Dávalos Arze 


Subir

Gladis Dávalos Arze, es escritora y lingüista boliviana .

Leer artículo


- Volver al índice - Tribunas anteriores - Índice de autores


Recibe nuestros titulares gratisImprimir este artículo


- Portada de Unidad en la Diversidad -
Breves - Agenda - Enlaces de la semana - Opinión El Mural - Guía  - ForoActualidad -


¿Quiere enviarnos un mensaje? ¡Pulse aquí! Un sitio realizado con 
la colaboración de...


© Comunica Press (www.comunica.es) 1999 - 2007 Reservados todos los derechos - www.comunicaonline.net