Introdução de conjuntos de caracteres e codificações

Esta página fornece alguma orientação para recém-chegados à internacionalização da Web que não sabem onde começar. O objectivo é introduzir-lhe suavemente algum material do site.

You can find a selection of more detailed articles using the links to the right. Once you get some ideas from this page, you will probably just use Learn to internationalize, or the site search.

É sobre o quê?

Um conjunto de caracteres é uma colecção de letras e símbolos usados num sistema de escrita. Por exemplo, o conjunto de caracteres ASCII abrange as letras e símbolos para o texto Inglês, a ISO-8859-6 abrange as letras e símbolos necessários para muitos idiomas baseados na escrita Arábica, e o conjunto de caracteres Unicode contém caracteres para a maior parte das linguagens e escritas vivas no mundo.

Os caracteres num conjunto de caracteres são armazenados como um ou mais bytes num computador. Cada byte ou sequência de bytes representa um determinado caractere. Uma codificação de caracteres é a chave que mapeia um byte ou sequência de bytes em particular para caracteres específicos que a fonte processa como texto.

Existem várias codificações de caracteres diferentes. Se a codificação errada for aplicada aos bytes em memória, o resultado será texto imperceptível. É assim importante, caso as pessoas tencionem ler o seu conteúdo, que se identifique correctamente a codificação de caracteres usada.

Saiba mais...

Codificações de caracteres para principiantes explica alguns dos conceitos básicos sobre codificações de caracteres, e porque se deverá preocupar.

Definições essenciais fornece mais informação sobre Unicode, conjuntos de caracteres, conjuntos de caracteres codificados, codificações de caracteres, o conjunto de caracteres do documento, e as saídas de caracteres.

Escolha de uma codificação

Toda a gente que desenvolve conteúdos, sejam os programadores ou autores do conteúdo, devem decidir que codificação de caracteres usar. UTF-8 é actualmente uma recomendação popular, mas ainda existem algumas coisas que deverá considerar antes de o utilizar.

 

 

Saiba mais...

Autores HTML & CSS

Criador de especificações

Configuração do servidor

Declaração e aplicação de uma codificação

Uma vez decidida que codificação usar, os criadores e programadores de conteúdo devem certificar-se que é declarada da forma correcta.

Com uma tecnologia como XHTML, as declarações de codificação nem sempre são directas; requerem um entendimento dos 'padrões' vs modos de 'comportamentos',e o impacto da declaração XML.

Deve-se também assegurar que os seus dados são gravados na codificação que escolheu, não basta etiquetá-los.

Os criadores de conteúdo e webmasters poderão também necessitar de se certificar que o servidor fornece o conteúdo com as declarações de codificação de caracteres correctas, pois as definições do servidor podem sobrepor-se às declarações do documento.

Saídas

Saídas são uma forma de representação de um caractere usando apenas texto ASCII. Fornecem uma forma de representação de caracteres que não estão disponíveis na codificação de caracteres que está a usar, ou uma forma de evitar o uso de caracteres por outros motivos (como quando poderão entrar em conflito com a sintaxe). Deverá ser claro no momento e forma de utilização destas saídas.

 

 

Endereços Web

Nos dias de hoje os endereços web podem também incluir caracteres não-ASCII. O utilizador não faz mais do que carregar na ligação apropriada ou introduzir o texto como o vê, o trabalho árduo é feito pelo agente do utilizador, mas poderá estar interessado em saber como funciona.

Os criadores de espeficicações deverão desenhar as suas especificações para que endereços web não-ASCII possam ser usados.

Saiba mais...

Autores HTML & CSS