|
|
26 de junio de 2002 | |
|
|
||
| Tribuna de opinión | ||
|
GLADYS
DÁVALOS ARZE
| ||
La elaboración de un diccionario bilingüe en forma de libro, ha sido y es un trabajo arduo y de larga duración. El esfuerzo, la energía y el tiempo dedicado a la elaboración de un diccionario electrónico multilingüe, lo es más aún. En ambos casos, sin embargo, se trata de presentar y preservar la riqueza de uno o varios idiomas. Los diccionarios de “papel” suelen tener una vida más larga. De edición en edición pueden pasar años y en ese tiempo, muchas de las palabras pierden su actualidad o ya nadie las usa, lo que equivale a su desaparición. Es probable que los lexicólogos ya no las incluyan en la última edición, para poder así adaptarse a los cambios del mundo moderno. Estos cambios son tan dinámicos y ocurren con tal velocidad, que a menudo tenemos entre las manos diccionarios obsoletos. Esto no ocurre con un diccionario electrónico: éste permite la actualización a cada momento, dependiendo de las necesidades del usuario y del contexto lexicológico en el que se desenvuelve. En este sentido, está hecho a su medida y está siempre al día. A pesar de ello y precisamente por esta razón, el idioma se ve amenazado por una serie de “peligros” en la así llamada era de la sociedad de información. Hablaré entonces de éstos y de mi experiencia en el trabajo de elaboración del diccionario electrónico multilingüe ARUNQERA, corazón del traductor automático boliviano ATAMIRI. | ||
Veinticinco años después conocí a una persona embalada, casi obsesionada, en la creación de un software para traducción automática. Mientras tanto, yo había escrito dos tesis que, obviamente, tenían mucho que ver con gramática, en mi caso, con la filología de dos lenguas indogermánicas: el alemán y el inglés. Aparte de la lingüística tradicional, las teorías de Chomsky y su conocida gramática transformacional eran mis herramientas de trabajo diarias y esta persona, un ingeniero, me habla de repente de un traductor automático basado prácticamente en la idea de que, según él, “las matemáticas se parecen a la gramática” y, por insólito que parezca, cuando él me aclara y me dice que “transforma un lenguaje natural en fórmulas que usa a un nivel matricial para que la computadora las entienda mejor”, me parece que está hablando de un tema conocido y no necesariamente de algo estrambótico. Mientras más habla, más me fascina la idea, me enamoro del concepto lingüístico ... y del ingeniero. | ||
Una base de datos lexicológica
Voy a hablar entonces de la experiencia y la vivencia con ARUNQERA, la base de datos lexicológica del traductor automático boliviano y combinaré mi trabajo con el mundo de la comunicación en la red de redes o más conocida por internet, para mostrarles lo que está ocurriendo en el ámbito de la sociedad de información, mientras uno está encerrado desarrollando un diccionario, tratando a toda costa de preservar la pureza y exactitud del idioma:
En cuanto al módulo lexicográfico ARUNQERA (que en aymara quiere decir algo así como “petaca llena de palabras”) y a su elaboración, las condiciones de trabajo no dejan de ser precarias y solitarias. Mientras que en otros proyectos de traducción automática se emplea y paga bien a un ejército de terminólogos, lexicógrafos, en ARUNQERA el trabajo fue mayormente de una persona, con la colaboración de otras cuyo idioma materno era ya sea el ruso, el sueco, el rumano o el húngaro, idiomas que la que habla ignora. Pero también en esos casos, esas personas estaban realizando el trabajo solas y la falta de ayuda en número se hace significativa a la hora de ver que faltan palabras para traducir o que había que tenerlas grabadas en la base de datos lexicológica con más rapidez, cosa que, por cierto, se puede hacer obviamente con más eficiencia con la ayuda de otros cinco o más lexicógrafos que con uno solo. | ||
Este programa permite el acceso al diccionario multilingüe y administra su inventario. Además del diccionario, el programa abre otras tablas, como por ejemplo una para almacenar la codificación de parámetros sintácticos, que el usuario está libre de definirlos a su propio criterio; y otro, para contabilizar las tareas de introducción de términos, llevando una cuenta por cada uno de los terminólogos. El programa actúa como un sistema de control de inventarios, en el que los items son los conceptos; mientras que los términos (palabras o agrupaciones de palabras) que los describen en un determinado idioma, así como sus atributos, son datos asociados al concepto. El diccionario tiene la estructura de una base de datos con varias claves alternas. En efecto, se lo puede extender a nuevos idiomas y a nuevos parámetros de clasificación gramatical (sintácticos y semánticos), sin necesidad de modificar el programa para ampliar formatos; la integridad de datos también está asegurada.
Los atributos lexicológicos que acepta el programa son definibles por medio de parámetros que a su vez son determinados por tablas que están bajo el control del usuario. Hay campos adecuadamente reservados para dos tipos de atributos: los que son de carácter universal (pertenecen al concepto en cualquier idioma), como ser categoría sintáctica, clase y grupo semántico y nivel de frecuencia; por otro lado, los que son de carácter específico y peculiar en cada idioma, como ser género, caso, terminación (verbal) y otros. |
||
El módulo lexicográfico cuenta además con las subrutinas necesarias para un adecuado despliegue de pantallas para cada concepto, tanto para los casos de consulta como de introducción, modificación y cancelación de entradas. Las búsquedas pueden efectuarse ya sea por orden alfabético dentro de cada idioma, o también por clase, grupo y subgrupo semántico. La codificación semántica, al igual que la sintáctica, fuera de las restricciones de formato, se sujeta enteramente a las normas que implante el usuario; el investigador lingüista puede definir su propia gramática, por ejemplo, crear un lenguaje artificial; el terminólogo puede organizar las clases y grupos semánticos para conformar su propio tesauro de términos especializados. La flexibilidad del módulo lexicográfico es grande, inclusive permite el desarrollo de terminología por áreas de manera independiente (en diferentes ordenadores electrónicos), luego integrables. |
||
El programa ARUNQERA ofrece subrutinas eficaces para el desarrollo lexicológico evitando el uso de listados de control; justamente las claves alternas del diccionario permiten efectuar una serie de verificaciones previas a cualquier introducción de nuevos vocablos para evitar duplicación de conceptos, posibilitando, sin embargo, la entrada de diferentes acepciones de un cierto término en un idioma dado. Asimismo la “enseñanza” de vocabulario se facilita enormemente, ya que el programa cuenta con subrutinas para detectar palabras faltantes (en el idioma que ARUNQERA está “aprendiendo”) correspondientes a conceptos ya almacenados en otros idiomas.
El módulo lexicográfico dispone de programas auxiliares que facilitan los procesos de conversión de caracteres cuando sean necesarios (cambios de microcódigo). También se cuenta con programas auxiliares para crear los subdiccionarios que requiere el programa traductor para cargar en memoria al iniciar una corrida: estos subdiccionarios deben ser creados toda vez que se expanda el sistema a un nuevo idioma y cuando se aumentan términos en el nivel de frecuencia “A” (es decir, los altamente frecuentes, que toda versión aprendiz debe conocer), la creación de subdiccionarios es rápida. Toma aproximadamente diez minutos y ya no es necesaria cuando la versión (para el par de idiomas que se ejecuta) se encuentra en el nivel operacional.
La base de datos lexicológica ha crecido gradualmente, de modo diferente para los diversos idiomas que contiene, conforme se van implantando; al 1 de enero de 2002 los niveles lexicológicos eran aproximadamente los siguientes: |
||
Sobre las condiciones de producción de un diccionario electrónico tuve la oportunidad de hablar el año 1997, cuando fui invitada por el Círculo de Periodismo Científico a dar una conferencia sobre la “Historia de Atamiri”, dentro del marco “La historia de las ciencias en La Paz”. En ese momento pensé, algo incrédula: “¡No puede ser que ATAMIRI ya forme parte de la historia!”, pero supongo que así es. De lo que no estoy muy segura es a cuál de las historias pertenece: a la lingüística computacional, a la ingeniería del lenguaje, a las matemáticas, a la traducción automática, a la lingüística informática, a la informática a secas, al aymara, a la gramática... . Ya de ahí puede concluirse de que se trata de un asunto multidisciplinario. |
||
Es la traducción técnico-científica la que por sí sola ya da muchos dolores de cabeza. Y en lugar de rompérsela tratando de aliviarlos mediante una ingeniería del lenguaje adecuada y apropiada, los fabricantes de software se facilitan las cosas “mutilando” al lenguaje. Independientemente del manejo alegre del idioma que efectúan algunos técnicos, no sólo creando neologismos imposibles de traducir, sino también creando problemas adicionales e innecesarios debido a su escaso conocimiento, dominio de su idioma materno y a una insensibilidad lingüística muy propia de tecnócratas, existen otras dificultades intrínsecas del lenguaje en sí. De manera que, para facilitarle las cosas al ordenador electrónico, se vio por conveniente efectuar la insensible y dura mutilación de partes de la oración no consideradas “vitales”. Desde luego, este penoso proceso no afecta al sentido de lo que se quiere traducir; se supone que facilitará el proceso de traducción y la traducción, a su vez, saldrá “perfecta”. Esto en desmedro total de la elegancia y la riqueza del idioma. En otras palabras, el técnico o la persona encargada de elaborar los manuales o instructivos debe redactar en lo posible ajustándose a lo que después va a traducir el computador. Este hecho no deja de causar cierta aprensión, puesto que los esfuerzos que se realizan, tanto en el hogar como en las escuelas para que un niño enriquezca su vocabulario, son enormes y no siempre fáciles. Se hace todo para que el espectro lexicológico, idiomático y lingüístico-gramatical de un ser humano sea lo más amplio, escogido y elegante posible. Considerando este hecho y tomando en cuenta que el ordenador electrónico vino para quedarse, no hay más opción que alertar a padres de familia y profesores al respecto. Ya basta con el pánico que tienen los profesores de estar enseñando en vano a sus alumnos a leer y escribir, pues los futuros ejecutivos dictarán a sus ordenadores por medio de la digitalización de la voz, lo cual convertirá a la ortografía en algo superfluo, es más, ya no existirá el problema. En lo que hace a la lectura, ésta tampoco habrá, es decir, ya hoy mucha gente no lee: en los largos viajes a la oficina oye un casete de una novela o de cualquier obra literaria importante. |
||
|
Se pueden observar entonces cambios profundos, aunque sutiles e imperceptibles para muchos, en el lenguaje oral y escrito de los últimos años, no siempre favorables para la riqueza y pureza de éste. Por fortuna, en nuestro trabajo no realizamos manipulaciones de ninguna clase en relación al idioma, lo cual no es fácil a la hora de traducir mensajes de chat (o diálogo entre dos o conversación entre más personas en la red), por ejemplo, que usan un lenguaje por demás coloquial y “oral”. El trabajo lingüístico boliviano ha tomado como un desafío el manejo del lenguaje tal como es y el esfuerzo y la investigación que conlleva esto es parte trascendente del trabajo de diccionario.
En ARUNQERA no solamente están almacenadas palabras sueltas, sino también los así llamados clusters o grupos de palabras. Los clusters son frases idiomáticas o segmentos de frases frecuentes intraducibles por reglas gramaticales, por ejemplo, “Sincerely yours”. No es fácil introducir clusters en un diccionario electrónico porque hay que decidir qué palabras y cuántas palabras lo conformarían y por qué, lo cual también varía de acuerdo al tema que se está tratando en ese momento.
Las palabras. Es algo difícil de creer que en estos tiempos de globalización, de graves crisis económicas, de guerra y de luchas por los derechos humanos, aún nos ocupemos de las palabras. ¿Qué importancia pueden tener ellas frente a todo lo demás que parece más importante, más relevante, más “de vida o muerte”? Y sin embargo, a pesar de todo, las palabras cuentan y no sólo en número, sino también en calidad. Se dice que las palabras bellas usadas sabiamente, pueden mejorar el ambiente, hacer la vida más positiva. Pero, ¿cuáles son las palabras bellas? ¿Acaso no estamos haciendo una odiosa discriminación? Las palabras son palabras y están allí para ser utilizadas como herramienta por el ser humano, en algo más complicado y complejo y, hasta ahora misterioso, llamado lengua. Empero, como decía líneas arriba, las palabras no van o no funcionan casi nunca solas. Su eficiencia está dentro del contexto, dentro de la lengua misma y ésta se está complicando cada vez más, porque desafortunadamente no hay muchas personas con gran sensibilidad lingüística. La mayor parte de la población usa las palabras con enorme descuido. Rara es la persona que las pronuncia bien, que evita los solecismos y, peor aún, que les da el significado que corresponde.
Este descuido, esta negligencia para con las palabras, con la lengua materna, está cada vez tomando más fuerza negativa y, a mi modo de ver, destructiva. Esto es fácil de comprobar actualmente con el advenimiento de modernas vías de comunicación como el chat y el e-mail por internet. De ahí que, a mi modesto juicio, lo que se almacena en las bases de datos lexicológicas de la red requiere de una observación diligente y cuidadosa de parte de las Academias de la Lengua, de lo contrario, se convertirá en “lo correcto”. |
||
|
||
REFERENCIAS
| ||
| Gladis
Dávalos Arze, es escritora y lingüista
boliviana | ||
- Volver al índice - Tribunas anteriores - Índice de autores - | ||
|
|
|
|
-
Portada de Unidad en la
Diversidad - |
© Comunica Press (www.comunica.es) 1999 - 2007 Reservados todos los derechos - www.comunicaonline.net |