Trabalhar com UTF-8 no PHP pode dar algumas dores de cabeça pra quem é novo, e até mesmo para alguns mais velhinhos… O PHP trabalha por padrão com ISO-8859-1, que são os caracteres latinos que estamos acostumados. Entretanto, o UTF-8 tem uma abrangência maior de caracteres e o ideal seria que nos acostumássemos a usar este charset nas páginas.
Este pequeno tutorial tem como objetivo deixar bem claro quais os passos a se tomar para construir uma aplicação totalmente baseada no charset UTF-8, desde as páginas HTML, passando pelo PHP e por fim no MySQL.
Antes de tudo, aconselho que aprenda a criar os seus arquivos utilizando o UTF-8 sem BOM, que evitará dores de cabeça futuras quando estiver trabalhando com cookies, sessões e headers.
O segundo passo é definir, no PHP que o charset dos arquivos que serão gerados terão a codificação UTF-8, com o seguinte código:
<?php
ini_set('default_charset','UTF-8');
?>
Só setar o charset no PHP não adianta muito, pois alguns navegadores usam a codificação padrão da região do usuário, a não ser que o seguinte código esteja entre as tags <head> e </head>:
<meta http-equiv="Content-type" content="text/html; charset=UTF-8" />
Com isso, você já pode trabalhar tranquilamente com UTF-8 e PHP sem ter problemas com os caracteres.
Alguns cuidados são necessários quando for trabalhar com o MySQL, entretanto. Vou ensinar como se faz pelo PHPMyAdmin, que acredito que todos que começaram a trabalhar com MySQL estão acostumados.
Em primeiro lugar, ao criar o seu banco de dados, já crie usando o collation utf8_general_ci. Se o banco de dados já tiver um collation definido, não é necessário definir o collation das tabelas, pois elas herdarão o do banco. Mas mesmo assim é bom especificar o charset e collation de cada tabela. Como? Assim:
CREATE TABLE Clientes (
id INTEGER UNSIGNED NOT NULL AUTO_INCREMENT,
nome VARCHAR(60) NOT NULL,
PRIMARY KEY(id)
)
TYPE=InnoDB CHARACTER SET utf8 COLLATE utf8_general_ci;
Ok. Nossa tabela está trabalhando com UTF-8 agora. Podemos começar a programar e relaxar porque nossos problemas com charset estão resolvidos, certo?
A resposta é não.
Se você continuar a programar com o sistema assim, os dados do banco serão inseridos e consultados de maneira correta, mas você vai perceber problemas quando tentar fazer buscas com palavras acentuadas insensível a maiúsculas, por exemplo: Água, água e agua serão palavras totalmente diferentes, sem contar que a ordenação de resultados com palavras que começam com letras acentuadas sairá bem bagunçada, coma letra Ó vindo antes de B, por exemplo.
Esse é o problema que eu tive e que demorei eras pra descobrir. O banco estava OK, o PHP também, o mesmo com as páginas HTML… e quando eu inseria algum dado pelo PHPMyAdmin, este era inserido corretamente, o que significava que o problema não era no banco e sim na aplicação.
Depois de meses na verdade foram apenas algumas horas de pesquisa, desconfiei que havia algo na conexão com o MySQL que estava dando esse problema. Fui fuçar no Manual do PHP e encontrei a seguinte solução:
<?php
ini_set('default_charset','UTF-8'); // Para o charset das páginas e
mysql_set_charset('utf8'); // para a conexão com o MySQL
?>
Com isso todos os meus problemas foram resolvidos. Na verdade não, pois tive que alterar todos os campos acentuados da tabela…
Dá para usar a função mysql_client_encoding para identificar o charset da conexão com o MySQL, mas não acho necessário pra quem quer trabalhar diretamente com UTF-8 e não com vários charsets.
Acho que por enquanto é só. Até o próximo semestre! Brincadeira…
Aeee o/ Até que enfim atualizou aqui hein, e foi um puta post maluco…
Muito legal, realmente, conciliar Utf-8, Mysql e Php as vezes é o pontapé pra uma dor de cabeça!
o/
Quando eu atualizar o meu blog, de uma passadinha por lá, hehehe.
Ouw beleza ??
Veio muito bom seu blog gostei cara
você explicando tals com certeza ajudará muitas pessoas
grande abraço
Esse guia do Lee Rain me salvou
Muito bom.
Abraços,
Newton Calegari
Muito bom o artigo.
Dessa eu ainda não sabia, vou começar a usar esse esquema aí.
Valeu
Abraços
[...] Fonte: http://alessandrosantos.com.br/?p=214 [...]
Rapaz vc solucionou um grande problema que eu estava quebrando a cabeça e não achava a saída!
Muito obrigado!
Parabéns pela postagem e assim como me ajudou vai ajudar muitos outros!
Sucesso meu camarada!!
Você esclareceu muito bem esta questão, parabéns!
Daqui pra frente, UTF-8 always D:
Alessandro, você salvou meu final de semana.
A um ano que eu penso em fazer um bando de dados para o meu site, sexta-feira agora 6/11/09 finalmente aprendi a criar um banco e tudo mais, no sábado criei as páginas em php e hoje domingo estava testando e o problema dos acentos apareceu… finalmente resolvi.
Você salvou meu final de semana.
Muitíssimo obrigado.
Muito sucesso… fique com Deus.
Opa!… tche, parabéns. muito bom o post.
Resolvi meu problema!
Gracias!
São Google me trouxe aqui e meu problema foi solucionando. Obrigado pelo post.
Parabéns pela matéria! Tirou todas as dúvidas!
Ola Alessandro, tudo certo?
Eu estou enfrentando um problema com o ini_set, eu preciso fazer um upload de um arquivo de 6m, mas ele não vai. O diretorio .ini do servidor está como 2m. Gostaria de saber, você sabe como posso ter certeza que o ini_set está surtindo efeito no código?
Obrigado pela atenção.
Sensacional este artigo! Me auxiliou bastante!
Luis, eu acho que o .ini do servidor tem preferência sobre o ini_set. Isso depende de servidor para servidor. Se não me engano no phpinfo() tem alguma variável dentro de $_SERVER que te ajuda a saber o tamanho máximo de upload.
Estou com problema na hora de ordenar.
No banco todos os dados estão,por exemplo, assim:”Diretor clÃnico”.
A conexão está em utf8.
Vou ter que mudar e colocar a acentuação normal?
Não entendi quando você disse: “Na verdade não, pois tive que alterar todos os campos acentuados da tabela…”
João, tive que alterar um por um “/ deve ter um jeito mais rápido, um script sei lá… eu escreveria um script que fizesse a conversão automática.
Esse foi o melhor post que eu já li sobre como resolver esses problemas com UTF-8.
Oi, eu tinha esse mesmo problema, em um sistema adm, mas agora onde o meu charset header é iso e meu banco é utf8 – utf8_general_ci, e tudo aparentemente normal em localhost, ai um problema acontece, nas páginas e não na área adm, o charset header é utf8 e os caracteres do banco parecem desconfigurados, hehe.
E agora que achei o seu post, vou testar esse método para ver se ajuda, obrigado.
Abraço.
Muito bom o post, como sou novato no PHP passei dias pesquisando sobre isso e não tinha visto nenhuma solução boa e simples como essa.
Obrigado !!
Parabéns Alessandro!!!
Este post é nota dez. muito bem explicado.
Vlw.
Ola Alessandro, muito bom post, parabéns pelo trabalho… Aqui deu tudo certinho, só estou com um probleminha, veja se consegue me ajudar.
Estou fazendo cadastro no banco de dados enviando as informações pro servidor assíncronamente, via ajax. E no banco os caracteres são subistituidos pelo ‘?”.
Acredito que esse problema está nos códigos javascript… Você saberia como sulucionar isso?
Um abraço!
ahh esqueci de falar uma coisa..
este problema que citei acima só ocorreu no IE… ooo maravilha!
@julio, nas requisições assíncronas você pode usar
encodeURIComponentnas variáveis… pode ser isso. Também uma vez tive problemas com o IE pois defini a tag como “utf-8″ em minúsculas, mas não sei se foi por isso que deu problema.Bingo… fiquei horas olhando a codificação do Jquery pra ver se achava algo a respeito, mas o problema era bem mais simples de resolver, e o Alessandro acertou na mosca, é só usar o encodeURIComponent.
Concluindo,… quem tiver usando transferência de dados assíncona com o servidor php, faça um pequeno tratamento nas strings usando o encodeURIComponent.
Minha aplicação está supimpa em qualquer browser…
Muito obrigado cara!
Sucesso!
Parabéns! Sempre tive essas confusões. Muito esclarecedor! Vou tentar sempre usar UTF.
Abração