Haciendo un UNICODE justo con el ASCII - Indymedia Barcelona

Imprès des de Indymedia Barcelona : http://barcelona.indymedia.org/

Independent Media Center


Notícies :: xarxa i llibertat
Haciendo un UNICODE justo con el ASCII
per x	28 mai 2004
Por una internet libre para todos los pueblos y culturas.
¿Qué es el ASCII? En este último año del siglo veinte, la internet está en un estado primitivo de su desarrollo, parecido al de la imprenta en el mil quinientos, cuando la gente elogiaba los libros diciendo "¡qué bonito! parece escrito a mano". El alfabeto ASCII, contiene las veintiséis letras del alfabeto inglés, dígitos y algunos signos de puntuación. Los textos de ordenador escritos en él pueden viajar sin problemas de cualquier ordenador del mundo a cualquier otro, ya que en todos ellos hay algún programa que otro ("editores de texto normal", plaintext editors) capaz de visualizarlos. Es por eso que casi todos los programas de ordenador de todo el mundo son textos ASCII, y los técnicos casi siempre los escriben con uno de estos editores de texto normal (y nunca con esos procesadores de textos tan bonitos que fabrican ellos y nos venden diciendo que pueden usar mil tipografías). El problema está cuando no hablas inglés... en castellano, por ejemplo, la letra Ñ ha sido una reivindicación y lucha constante por su "existencia virtual". Lo mismo les ha pasado a los/las catalanes con su " Ç ", lo mismo a los/as esperantistas con " Ĉ ". Desgraciadamente, aparte del inglés, muy pocas lenguas se puedan escribir en ASCII. Por eso las letras que no están en él, como los acentos y las eñes del castellano, o los sombrerillos del esperanto, no pueden circular por la internet con la misma libertad que las letras inglesas. Los demás alfabetos del mundo están discriminados. Sólo pueden pasar de un ordenador a otro si los dos ordenadores tienen programas preparados para trabajar con esas letras extra, y eso no sucede siempre. El texto ASCII está en la base de casi todo el software y casi todos los sistemas operativos, y, en la internet, es el fundamento del correo electrónico y de la web. Es por eso que todos los ordenadores lo admiten. Para ser más precisos: todos los ordenadores tienen algún programa capaz de visualizar textos escritos en este código, y casi todos los procesadores de texto saben hacerlo. De hecho, lo que se mandan por internet unos ordenadores a otros siempre son bytes (números), no letras. Cuando se transmite una A mayúscula por correo electrónico, todos los programas de correo electrónico del mundo están preparados para convertir la letra A que el usuario escribe en un número 65 que envían, y cuando reciben un número 65 lo convierten en una A mayúscula. Se puede usar la misma estrategia para enviar eñes minúsculas. Cuando desde un macintosh español cortamos una palabra como "cigüeña" del procesador de textos (simpletext, por ejemplo) y la pegamos en el correo electrónico y la mandamos, alguno de esos programas convierte la eñe en un número 241. Viceversa, si un programa de correo electrónico que vive en un Windows español recibe un 241, lo convierte en una eñe minúscula. De esta manera se transmiten las eñes. Esto lo hacen todos los programas de correo electrónico españoles. Pero los programas de correo electrónico japoneses no lo hacen, porque los ordenadores japoneses ni tienen tecla de eñe, ni tienen eñes en sus fuentes, y para ellos el byte 241 representa cierto carácter del alfabeto japonés. Total, que si quieres mandar un correo electrónico a tu amigo Paco que está estudiando en Óosaka, o escribes sin eñes o le llega mal. El "mojibake" El resultado de todo esto es que si envío los cuentos para niños que escribo en mi Amiga a la editorial, que usa Windows en las oficinas y MacIntosh en el departamento de artes gráficas, y uso para escribirlos el editor de textos que me gusta a mí, lo más normal es que los acentos y las eñes lleguen podridos, convertidos en signos raros como ä y ø. Esto se debe a que estamos usando editores de texto y sistemas operativos distintos. Este fenómeno se llama en español "letras fritas", y en japonés mojibake (moĵibakeo en esperanto), "el fantasma de las letras". Allí es especialmente grave, porque un mojibake español nos destroza las eñes y las vocales acentuadas, pero un mojibake japonés vuelve el texto completamente ilegible. Los casos particulares de mojibake, en el mundo real, suelen ser fáciles de solucionar: en la editorial me dirán "o usas Word o no te compraremos ningún cuento". Pero si en lugar de yo ser yo, yo fuese Stephen King, la editorial de Stephen King no le diría esto, por razones obvias. En este caso llamarían al brujo del departamento de informática, y éste en cinco minutos les diría qué tecla hay que apretar en el Word para convertir el "texto del editor de textos favorito de Stephen King" en "texto Word", o, si no la hubiere, en quince minutos fabricaría un convertidor a medida. Pero el mojibake es mucho más grave en la web, cuando queremos escribir una web que nos pueden leer desde cualquier parte, porque no todos los navegadores están preparados para entendérselas con todos los idiomas, aunque todos ellos se aclaran con las letras del inglés. Así que tu web en español es posible que se vea sin eñes desde el Japón. En el caso de lenguas minoritarias como el esperanto, o lenguas endémicas como el japonés, el problema es más grave. Planes para el futuro: el UNICODE La solución de este problema está en curso. Tiene cuatro partes: Inventar una serie de "alfabetos oficiales del mundo informático" que tengan más caracteres que el ASCII, incluyendo caracteres de todas las lenguas del mundo. Darle a cada uno de esos alfabetos un nombre oficial, por ejemplo ASCII, UNICODE. Hay unos cuantos centenares más; la mayoría de ellos incluyen las letras "MS" ó "Windows" en algún lugar de su nombre. Convencer a todos los programas que generan textos de que etiqueten el fichero de salida con el nombre del alfabeto que están usando. Y hacer que todos los programas que leen texto, lo reciben, lo envían y lo pintan en la pantalla sepan leer esas etiquetas y así puedan conocer qué alfabeto está usando el texto. Hay quien supone que, en el 2010, todos los programas de correo electrónico del mundo, y todos los navegadores web, sabrán entender cierto alfabeto universal que se llama UNICODE, el cual contiene todas las letras de los alfabetos más usados en el mundo, entre ellos el árabe, el ruso, el chino, el coreano, los alfabetos indios, el etíope... y desde luego el esperanto. Cuando enviemos un mensaje con eñes al japón, el programa de allá, en lugar de convertir eñes y acentos en signos raros, le dirá al usuario: "Este mensaje está en europeo. No tengo tipografías europeas. ¿Instalar compatibilidad con el europeo?" Pero, mientras tanto, no todos los navegadores se aclaran con todos los alfabetos. Y desde luego los fabricantes de navegadores no se preocupan mucho por hacer que las letras sombreradas del esperanto se vean bien. Delante de los esperantistas, están a la cola los árabes, hebreos, chinos e hindúes. extraído de: http://members.fortunecity.com/riusytaulet/vortaretonuevo/internetchape.html
This work is in the public domain

Sindicat Terrassa