Semántica, la clave de documentación electrónica

septiembre 28, 2010

Hace unos años atras, en mi antiguo blog, escribí un artículo sobre la documentación electrónica y la importancia del correcto uso de la semántica como mecanismo de promoción en los motores de busqueda (SEO).  Este artículo originalmente era en Inglés y se convirtió muy popular.  Dado hechos recientes en el dia de hoy en los que necesité recordar a alguien la importancia de una documentación electrónica semanticamente correcta, he decidido retomar y actualizar este artículo en español, ya que podría beneficiar a muchas personas que quizas aun no tienen muy claro el concepto de documentación electrónica.

Introducción a la documentación electrónica

Vamos a empezar con lo mas básico, entendamos bien lo que implica la documentación electrónica, desglocemos los 3 elementos que la componen:

  1. Quien la escribe: El Autor
  2. El idioma: Lenguaje de escritura
  3. Quien la lee: El Interprete

Quizas esto te recordara las clases de lengua española sobre los elementos de la comunicación, y en esencia no es tan distinto.  El objetivo de una comunicación es llevar un mensaje de un lado a otro, en contraste, el objetivo de un documento electrónico es archivar un mensaje en un lenguaje universal que pueda ser interpretado y reproducido a traves de cualquier medio electrónico.

Si logras captar el concepto descrito arriba, Felicidades! Ya entiendes lo que es la documentación electrónica y el resto de este artículo te ayudara a entender aun mas a fondo.  Si aun no logras entender el concepto, quizas entenderias mejor con una aplicación de la vida real:

A medida que pasan los años y los avances tecnológicos facilitan la accesibilidad de información a traves de medios universales como el Internet, se hace cada vez mas necesario que las comunicaciones a traves de este medio se describan en un lenguaje universal que cualquier interprete (equipo electrónico) pueda desglozar y presentar al usuario de una forma intuitiva y sencilla.

Imagina como actualmente existen en el mundo de la informática muchas aplicaciones que hacen exactamente lo mismo (como los procesadores de palabras).  Sin embargo, cada una (en la mayoria de los casos) utiliza un formato individual que por lo general es solo reconocible por si mismo.  Esto te obliga a dicha aplicación para poder abrir, editar y compartir tus archivos.  Ahora imagina que lógico seria si todas las aplicaciones utilizaran un mismo formato para guardar sus archivos, de modo que podrias utilizar cualquier aplicación para editar cualquier archivo, porque en esencia utilizan el mismo formato.

Aun cuando un poco exagerado (quizas) el ejemplo mas arriba, en esto es precisamente en lo que se basa la documentación electrónica.

Un ejemplo popular de hoy en día son los archivos XML.  XML se describe como Extensible Markup Language o en español Lenguaje de Marcas Extensible.  El XML es una derivación de lo que muchos consideramos el «Abuelo de la documentación electrónica»: SGML.  El XML al igual que sus antecesores, busca unificar en un lenguaje o interfaz accequible programaticamente contenido electrónico de cualquier tipo.  En palabras mas sencillas, XML es un medio de transporte de data que puede ser universalmente reconocible por cualquier interprete.

Aplicaciones populares del XML incluyen y no se limitan al Intercambio de data o sindicacion de contenido como son los populares RSS Feeds.  Otra popular implementación del XML es el lenguaje derivado XHTML el cual es utilizado vastamente para codificar páginas en Internet.  Y aplicaciones populares como Microsoft Office, Apple iWork y OpenOffice por mencionar algunas tambien utilizan dicho formato.  En esencia, el objetivo del XML y sus derivaciones es precisamente ofrecer una estructura que pueda semanticamente describir el contenido de un documento.

Quizas pensarás que todo esto es demasiado complicado y no entiendes que tiene que ver lo que haces dia a dia en tu computador con la documentación electrónica, pues con gusto te explico: todo el preambulo anterior es simplemente para entender que en una gran parte, el desarrollo de lo que hoy entendemos como informática y el Internet se basa en la implementación de protocolos y estandares comunes que pueden ser universalmente reconocidos e interpretados de una forma eficaz.  Ahora es momento de que todos nosotros nos ocupemos de hacer nuestros documentos electrónicos semanticamente correctos, para garantizar por igual su trascendencia en el tiempo y su alcance a nuevos medios.

Para esto tocare dos puntos esenciales en los que inmediatamente podemos implementar cambios a favor:

Documentación Electrónica en Procesadores de Palabras

Empecemos con el mas sencillo, documentos en un procesador de palabras: Cuantas veces has escrito el titulo de tu documento, lo has subrayado, le pones una tipografia «chevere», subes el tamaño del texto, lo pones en negrita y lo centralizas, todo para que se vea como un titulo?  Te apuesto que en la gran mayoria de los casos eso es lo que haces.  Lamento informarte que lo estas haciendo de forma incorrecta.

Al hacer estos ajustes visuales no estas creando un titulo, estas haciendo que un párrafo se visualice como un titulo.  Sin embargo, aunque visualmente complazca el que parezca un titulo, electrónicamente seguirá siendo un párrafo.  La forma correcta de hacer un titulo sería seleccionando el texto e indicandole a la aplicación que dicho texto debe ser un titulo (heading) para lo cual existe una opción que casi nadie utiliza.

Al seleccionar dicha opción entonces si estas diciendole a tu documento electrónico que dicha porción de texto debe ser interpretado como un titulo y no como un párrafo, y como tal, estas comenzando a codificar tu documento con propiedades electrónicas que lo ayudan a ser mas legible, universal y con propiedades semánticas que te ayudaran en el futuro a interpretar, formatear y hasta indexar tus documentos mas apropiadamente.

Este sencillo ejemplo del titulo es lo mas básico, ahora quiero que pienses en todos aquellos aditamentos que le haces a tus documentos para darle estructura.  Quiero que pienses bien en cada click si estas efectivamente dandole una estructura semántica (a nivel electrónico) o si estas simplemente haciendo que sea vea como tal.  Siempre y cuando puedas responderte esta diferencia, entonces estaras en completo control de tu documento electrónico y la semántica del mismo.

Ahora te preguntaras, por qué poner tanto esfuerzo y empeño en hacer un documento semanticamente correcto? cual es la utilidad?  Pues es muy facil responderte: imagina que en ediciones, ampliaciones y con el paso del tiempo, tu documento tiene 100 páginas, necesitas hacerle un indice, necesitas compartirlo con otras personas, necesitas imprimirlo, etc., como controlas el formato? como te aseguras que las demas personas que esten editando el documento contigo sigan tus mismos reglamentos de estilo?  Es practicamente imposible tener tanto control.  Sin embargo, si todos tenemos claro el concepto de documentación electrónica, darle estructura semántica a un documento se convierte en algo trivial.  Y en cuanto al formato, no podria ser mas sencillo, todo documento tiene una planilla de estilos.  En vez de editar cada titulo uno por uno, cada viñeta, cada sub-seccion, simplemente defines el estilo de cada uno de dichos elementos en una planilla general, y todos los elementos dentro de tu documento tomaran dicho formato.

Piensa ahora que necesitas el documento en dos formatos distintos, uno para impresión y otro para ser visualizado en la pantalla.  Seguro que necesitaras hacer ajustes del texto, los colores, posiblemente el tamaño de los textos, etc., que haras? duplicar el documento y mantener dos copias del mismo?  Que tan util suena eso? mantener dos documentos exactamente iguales simultaneamente.  No se tu, pero a mi me suena como una idea muy tonta.  Si tus documentos estan semanticamente bien escritos, esto no es un problema.  Simplemente defines dos planillas de estilo, una para impresion, una para el monitor.  Que sencillo eh?  Ambas planillas enlazadas al mismo documento, ya no tienes que preocuparte por mantener dos copias del mismo archivo.

Al final del día, este concepto se resume en un principio muy viejo, pero de extrema importancia, y lo utilizaré precisamente para introducir mi segunda aplicacion de documentación electrónica: separar la estructura (semántica) del estilo que representa un documento electronico.

Documentación Electrónica en Paginas de Internet (HTML)

Si aun estas interesado en el tema, es probable que sepas lo que es el HTML.  HTML son las iniciales de Hyper Text Markup Language y es el lenguaje utilizado universalmente para escribir otro tipo de documentación electrónica y probablemente el mas común: Paginas en internet.

De la misma forma en la que en el procesador de palabras hay directivas para indicar la estructura de un documento, en HTML hay tambien metodos para lograr exactamente lo mismo, y exactamente de la misma manera.

En vez de escribir un titulo y ponerlo grande y en negritas para que visualmente parezca un título… lo correcto es codificarlo como tal semanticamente.  Pero a diferencia del documento en el procesador de palabras, las implicaciones de escribir un documento electrónico correctamente van mucho mas lejos de lo que muchos pudieran imaginar.

Contrario al procesador de palabras donde tu indexas tus propios documentos y utilizas tu propio sistema de archivo, etc., en Internet existen los famosos motores de busqueda.  Estos motores de busqueda hacen todo este trabajo de una forma programática.  Ellos buscan dentro de billones de páginas diariamente para indexar su contenido.  De forma que cuando realizes una busqueda puedas rapidamente encontrar resultados a lo que buscas.

Los algoritmos que utilizan estos motores son por lo general distintos para cada buscador, sin embargo, esto no es importante.  Lo que si es importante es que tus páginas HTML esten codificadas para que semanticamente tengan validez, propiedad y mas importante que nada, un sentido completo.  Te dare un ejemplo basico: Cuando un motor de busqueda indexa un documento HTML, el mismo busca elementos que le permitan interpretar el documento de una forma efectiva.  Piensa cuando tomas el periodico en la mañana, tu primer paso es visualmente identificar los elementos que componen la página, buscas el titulo para saber de que trata, lees la introduccion para saber si te interesa y miras quizas la fotografia en caso de que sea relevante.  El motor de busqueda hace algo muy similar, busca ciertos elementos que considera esenciales para entender que contenido dentro de tu documento electrónico es mas relevante que el resto de tu página, y de tal forma busca valorar cada bloque de tu documento con la finalidad de darle sentido a la historia contenida en el mismo.

Seguro ya estas pensando en que si poner un simple título resulta tan efectivo para los motores de busqueda, pues codificar la pagina completa con titulos para ser mas relevante y sea considerada mas importante es una practica comun.  Pero esa es una idea desfachada y un poco ingenua para ser sincero.  Obviamente que los motores de busqueda se mantienen en constante actualización contra todo tipo de bandalismo cibernético.

El consejo mas importante que puedo darte si buscas promover tu contenido en los motores de busqueda (SEO) es simple y sencillamente que condifiques tus documentos de forma que sean semanticamente correctos.  Si lo haces de esta manera, creeme, que el motor de busqueda tendrá facilidad para indexar tu página con mas facilidad que otras.  Y esto viene como un beneficio para ti, porque mientras mas facil y rapido pueda el motor de busqueda indexar tu website completo, mas valoración obtendras con relacion a otros websites y aunque no hay documentación oficial que respalde que esto te beneficia a salir de primero en los resultados, estoy mas que seguro que el simple hecho de la indexación mas frecuente aumentara el trafico en tu website por la sencilla razón de que tu contenido estará disponible en los motores de busqueda mucho mas rápido.

Adicionalmente, cuando escribes todos los elementos de tu página web teniendo en cuenta los valores semanticos de cada uno, se hace mucho mas facil el mantenimiento de tu pagina a traves del tiempo.  Piensa que si asignas todos tus titulos un estilo hoy, y haces 100 paginas con dicho estilo, pues al momento de actualizar tu diseño tendrias que contemplar dichos cambios uno por uno.  Si lo haces teniendo en cuenta los valores semánticos y todos tus titulos estan codificados como tal, simplemente cambias en tu planilla (CSS) el diseño del titulo y dicho cambio aplica para todos los titulos que codificase como tal.

Este es quizas el ejemplo mas sencillo que puedo pensar en como la documentación electrónica y la asignacion de valores semanticos correctos puede beneficiarte.  Existen muchos otros ejemplos mas avanzados que me encataria explicar, pero será preferible dejar dichos ejemplos para futuros escritos en este blog.

Si tienes cualquier pregunta, sugerencia y/o comentario, no dudes en dejarme saber.

Saludos,

Jose R. Lopez