Verificación de la codificación de caracteres mediante el verificador

Respuesta

Para asegurar que todos los destinatarios de un documento puedan mostrarlo e interpretarlo adecuadamente, es muy importante indicar de manera correcta la codificación de caracteres ('charset'). Una forma de verificar esto es utilizar el Servicio de validación de etiquetas W3C. El verificador generalmente detecta la codificación de caracteres a partir de la información y los encabezados HTTP en el documento. Si el verificador no logra detectar la codificación, ésta se puede seleccionar en la página de resultados del verificador mediante el menú desplegable 'Codificación' (ejemplo).

Sin embargo, con frecuencia el verificador no hace ningún reclamo, incluso si se detecta o se selecciona una codificación errónea. La razón de esto es que numerosas codificaciones son muy similares y el verificador sólo controla la sintaxis de la etiqueta y no puede decidir si el texto decodificado tiene sentido o no. Para asegurarse de que tiene la codificación correspondiente, lo que significa que los lectores podrán visualizar el documento en forma correcta, los siguientes puntos le serán útiles:

Si la codificación seleccionada o detectada es US-ASCII, UTF-8, UTF-16 o iso-2022-jp (JIS japonés) y el verificador no hace reclamos sobre problemas de codificación, existe una probabilidad extremadamente alta de que la codificación seleccionada sea la correcta. Tenga en cuenta que US-ASCII es un estricto set secundario de UTF-8 y, por lo tanto, si US-ASCII funciona, UTF-8 también funcionará.
En el caso de cualquier otra codificación, es necesario realizar una verificación visual. Seleccione la opción Mostrar fuente en la Interfaz extendida del verificador y verifique que los caracteres diferentes de ASCII del texto se visualicen correctamente. En el caso de páginas escritas en idiomas extranjeros, por lo general esto puede establecerse rápidamente. En el caso de páginas escritas en inglés con algunos caracteres diferentes de ASCII, esto puede resultar más difícil.

Por ejemplo, si intentó interpretar la página de inicio de W3C como iso-8859-1, es posible que deba ir casi hasta el final de la fuente para encontrar texto como '©' y '®' y ver que ésta es la opción incorrecta. (Por supuesto, la página le dice al verificador desde el principio que está codificada en UTF-8 y, por lo tanto, de hecho usted no debe verificar nada más).
En algunos casos, más de una codificación representará adecuadamente los caracteres de un documento. Por ejemplo, existe cierta superposición entre iso-8859-1 (Latin-1, Europa Occidental) e iso-8859-2 (Latin-2, Europa Oriental), y otras codificaciones de esta serie. Si después de efectuar una cuidadosa verificación, no puede encontrar ninguna diferencia, esto significa entonces que cualquiera de las opciones elegidas es correcta. La estrecha similitud de estas codificaciones en términos de patrones de byte y en términos de caracteres realmente codificados explica por qué sólo la inspección visual puede asegurar que la codificación es correcta.
En caso de que ninguna de las codificaciones ofrecidas por el verificador funcione, usted deberá tener una página en una codificación que el verificador (aún) no admita o, de algún modo, deberá tener texto en varias codificaciones distintas mezcladas en la página. En el primer caso, escriba a la lista para correos del verificador (archivo público) a fin de agregar su codificación de caracteres. En el segundo caso, deberá solucionar los errores de su página, ya que cada página web únicamente puede utilizar una sola codificación de caracteres.

A propósito

El verificador no funciona sin información sobre codificación de caracteres, ya que la validación SGML o XML se basa en la verificación de secuencias de caracteres del documento, pero lo que verificador recibe como dato ingresado es sólo una secuencia de bytes. Conocer la codificación de caracteres permite al verificador realizar la conversión de bytes a caracteres. En general, sucede lo mismo para todas las demás clases de receptores, incluso exploradores. Si no se identifican los caracteres correctos, es posible que el explorador web muestre garabatos.

El verificador hace esto mediante la conversión de la codificación indicada a UTF-8 y el uso de UTF-8 internamente. Si no es posible realizar la conversión a UTF-8 debido a que una secuencia de bytes en particular no puede aparecer en la codificación ingresada, el verificador muestra un mensaje de error. En el caso de los datos ingresados de UTF-8, el verificador controla para asegurarse de que sólo se utilicen las secuencias de bytes válidas de UTF-8.

Tenga en cuenta que la inspección visual de una página web con un explorador, pero sin utilizar el verificador, puede fallar debido a las siguientes causas:

Algunos exploradores utilizan formas no estándar para detectar la codificación de caracteres.
Cada explorador tiene una configuración utilizada para páginas sin etiquetar; si por casualidad dicha codificación es adecuada para la página, usted no verá que la página no tiene la correcta información de codificación.
Además del texto en la página, hay texto en atributos (por ejemplo, texto alt en <img>) que debe verificarse.

Lecturas complementarias

Checking HTTP Headers
Internationalization (i18n) Checker
Tutorial, Handling character encodings in HTML and CSS
Codificaciones registradas de caracteres (charsets) ante la IANA (Autoridad de Asignación de Nombres de Internet) (el verificador admite sólo un set secundario ampliamente utilizado y sólo el nombre preferido, no admite alias)
Enlaces relacionados, Setting up a server
- Checking the HTTP header
- Setting the HTTP charset parameter
Enlaces relacionados, Authoring HTML & CSS
- Characters
Enlaces relacionados, Authoring SVG
- Characters

Verificación de la codificación de caracteres mediante el verificador

Enlaces relacionados

Pregunta

Respuesta

A propósito

Lecturas complementarias

Links in this document: