COLUMNA

PanLingua: una herramienta para la democratización del conocimiento disponible en preprints

Para superar las barreras de acceso a las comunicaciones académicas globales, los investigadores Humberto Debat y Richard Abdill presentan una herramienta de búsqueda multilingüe de preprints. Una iniciativa orientada al acceso global en idiomas definidos por el usuario para científicos y público en general.

PanLingua: una herramienta para la democratización del conocimiento disponible en preprints

Por Humberto Debat1 -foto- y Richard Abdill2

 

Las preprints son artículos de investigación completos, depositados por los científicos en servidores en acceso abierto antes de la evaluación de pares en revistas científicas tradicionales. Mientras que el acceso abierto procura disponibilidad pública de la literatura científica, un aspecto clave e ignorado del proceso de adquisición de conocimiento disponible en artículos académicos es el obstáculo asociado al idioma original empleado en la narrativa científica.

A pesar de que los angloparlantes nativos representan menos del 5 % de la población mundial, la literatura científica está escrita en su mayoría en este idioma, lo que resulta en un desafío adicional para los investigadores de todo el mundo para conocer e interpretar al contenido generado por científicos de todas las regiones del mundo. 

Durante los últimos años, las plataformas de traducción automática han mejorado significativamente su eficacia, por lo que representan una valiosa herramienta para que los lectores traten de absorber la esencia de un texto escrito en lengua no nativa. Sin embargo, hasta donde sabemos, un eje clave aún vacante para vincular traducciones de artículos científicos con científicos y público en general, es la posibilidad de buscar de forma amigable en la vasta colección de trabajos académicos en idiomas que desconocemos.

En este escenario, desarrollamos e implementamos PanLingua* [La herramienta PanLingua], disponible en https://panlingua.rxivist.org/ que es un pequeño paso hacia un cambio del paradigma actual, donde el lenguaje es una barrera para el dialogo científico.

PanLingua debe su nombre a Xul Solar, un artista, escritor e inventor argentino, que en una entrevista se retrató a sí mismo como: "Soy campeón del mundo de un “panjuego” que todavía nadie conoce: el panajedrez. Soy maestro de una escritura que nadie lee todavía… Soy creador de una lengua universal –la panlingua– sobre base numérica y astrológica, que tanto contribuiría a que los pueblos se conociesen mejor unos a otros…” Aunque compartimos la visión de Xul de un lenguaje universal que permita el diálogo de los pueblos, especulamos sobre la posibilidad de sustituir esta deseada lengua común con la implementación de herramientas tecnológicas de traducción en aras de vincular la diversidad de las lenguas asociadas a la empresa científica global.  

Comenzamos nuestra idea basados en una premisa audaz (y tal vez falsa):

Al contrario de la literatura no científica, donde la traducción es juzgada/guiada por la estética, un aspecto central/crucial de la literatura científica traducida es la legibilidad.

Por ejemplo, la riqueza de la poesía va más allá de las palabras individuales e implica recursos estéticos tales como rimas, aliteraciones, rítmica entre otros, que son evidentemente complejos de versionar en traducciones, lo que requiere decisiones (arbitrarias) humanas que pueden llegar a enriquecer u opacar el original. Para ilustrar esta idea, Jorge Luis Borges , quizá uno de los mejores amigos de Xul, escribió en un ensayo sobre las traducciones de La Odisea: “Esa riqueza heterogénea y hasta contradictoria no es principalmente imputable a la evolución del inglés o a la mera longitud del original o a los desvíos o diversa capacidad de los traductores, sino a esta circunstancia, que debe ser privativa de Homero: la dificultad categórica de saber lo que pertenece al poeta y lo que pertenece al lenguaje. A esa dificultad feliz debemos la posibilidad de tantas versiones, todas sinceras, genuinas y divergentes”. Por lo tanto, la diversidad de versiones de traducción puede incluso amplificar u elevar la complejidad y la exquisitez de la literatura no científica.  

Por otro lado, y esta es solo nuestro anhelo, creemos que la traducción automática es suficiente para permitir la legibilidad de la literatura científica. Entendemos que esto no es ideal y que vastos aspectos del texto original podrían perderse, distorsionarse o tergiversarse. Sin embargo, consideramos que, como mínimo, una traducción automática permitiría a los usuarios llegar a la existencia del trabajo traducido y tener una idea general de su contenido. Las herramientas de traducción como Google Translate están evolucionando a tal velocidad que no es ingenuo creer que han alcanzado el umbral de la legibilidad básica.

Nuestra herramienta no es una idea nueva , y representa un avance menor, haciendo caso omiso de la contra-plataforma evidente: la que ayudaría a hablantes nativos de Inglés a buscar en la vasta literatura científica disponible en otros idiomas; por ejemplo los más de 79 millones de artículos publicados en chino. Como nuestro colega de Uruguay, Daniel Prieto escribió en una correspondencia el año pasado: "La comunidad científica necesita desarrollar una herramienta integral de traducción en varios idiomas con la ayuda de servicios como Google Translate ... [para] permitir a los investigadores internacionales acceder a bases de datos regionales no compiladas en inglés"

Sí, se necesita mucho trabajo para equilibrar las asimetrías de un discurso científico unidireccional, que fluye principalmente del Norte al Sur Global. En este sentido, existen iniciativas orientadas a la generación de trabajos académicos en diversos idiomas, tales como la Iniciativa de Helsinki incentivando el multilingüismo en comunicación académica con un enfoque en el impacto potencial de la difusión de la investigación científica en la lengua nativa de los investigadores, además del Inglés .

Alentamos a los lectores a desarrollar herramientas similares a PanLingua, a fin de generar versiones legibles en inglés de la gran cantidad de resultados científicos de acceso abierto de alta calidad que no están en inglés, como los más de ca. 1,5 millones de artículos, informes y tesis escritos en Portugués, Español, Francés y otros idiomas disponibles en LA Referencia .

Como empresa global cooperativa, la ciencia une a nuestra especie en un camino común de descubrimiento. Deberíamos desarrollar un ecosistema más inclusivo para permitir un verdadero diálogo científico universal. Visualizamos un futuro plausible donde el discurso académico multilingüe es una realidad compartida. Muchas barreras están deteniendo esta utopía, comencemos con el lenguaje.  

 

La herramienta PanLingua

PanLingua permite buscar preprints en bioRxiv.org utilizando términos de búsqueda que no están en inglés, con la intención de agilizar el acceso a las preprints y sus textos completos para los lectores que hablan cualquiera de los 104 idiomas actualmente soportados por Google Translate. La mayor parte del trabajo es realizado por Google y bioRxiv:

  1. Un usuario llega a panlingua.rxivist.org. Se presentan con un cuadro de búsqueda y una lista de idiomas compatibles con la API de Google Cloud Translate.
  2. El usuario ingresa un término de búsqueda en el idioma elegido y envía el formulario.
  3. La entrada del usuario se envía a la API de Google Cloud Translate, que proporciona una traducción al inglés del término de búsqueda.
  4. El término de búsqueda traducido se utiliza para generar una URL de la búsqueda bioRxiv estándar.
  5. La URL de bioRxiv generada se direcciona a translate.google.com, que proporciona una versión traducida de esa página en el idioma seleccionado originalmente por el usuario.
  6. El usuario es redirigido a la página translate.google.com con los resultados de búsqueda.
  7. El usuario está en un entorno en el cual los artículos seleccionados están disponibles a texto completo en su propio idioma.

 

Instituto Nacional de Tecnología Agropecuaria (IPAVE-CIAP-INTA), Córdoba, Argentina; 0000-0003-3056-3739; @humbertodebat; debat.humberto@inta.gob.ar

Universidad de Minnesota, Minneapolis, Estados Unidos; 0000-0001-9565-5832; @richabdill; rabdill@umn.edu

*La revista Nature Index dedicó una columna al tema en PanLingua: a free online tool that makes bioRxiv multilingual