As Meta-Tags são um dos pontos importantes a ter em atenção quando se desenha uma página web para ser vista pelos crawlers dos motores de busca.

Existem variadissimas Meta-Tags que se podem usar numa página web. Algumas são criadas para funções específcas, que nada têm a ver com os motores de busca; outras, muito poucas, são absolutamente genéricas e são usadas por aqueles quase universalmente. Elas não são soluções mágicas, mas são fundamentais para uma indexação eficaz de um site, uma vez que fornecem muitos dos dados usados por estes crawlers, sendo os principais: o titulo da página, a sua descrição, uma lista de palavras chave e a desambiguação do link que deve ser usado como o principal acesso a uma página que pudesse ser considerada como duplicada. Importante é também a Meta-Tag que impedem a indexação de uma página.

Nenhuma Meta-Tag é uma solução mágica para coisa nenhuma, mas o facto é que permitem controlar alguns dos aspectos que darão visibilidade nos motores de busca, e a forma como aí aparecerá a nossa página. Vamos neste artigo tentar descrever as Meta-Tags disponiveis e a forma como devem ser usadas.

O que são Meta-Tags?

Meta-Tags são Tags inseridas no cabeçalho de uma página HTML e que, com excepção da Tag de titulo da página, nunca são vistas pelo utilizador do site, quando a página é apresentada num browser, que nunca as apresentam. Estas Meta-Tags servem apenas para comunicar informação irrelevante para a visualização por um utilizador humano, podendo portanto ser usadas para controlar processos automáticos sobre a página, incluindo a actuação do próprio browser, como por exemplo qual a codificação de caracteres usada para construir a página.

A unica excepção a isto é a Meta-Tag “Title” cujo conteúdo é visualizado na barra de titulo da janela maioria dos browsers, e é o descritivo usado para a criação de uma entrada nos Favoritos, bookmarks, e atalhos criados por drag and drop, no Windows, por exemplo.

Um exemplo tipico de um cabeçalho HTML, com as Meta-Tags usadas pelos crawlers, é o seguinte:

<HEAD>
<TITLE>O Meu Site sobre Tunning</TITLE>
<META name="description" content="Tudo o que sempre
        quis saber sobre Tunning, motores, decoração
        do interior e exterior dos automóveis">
<META name="keywords" content="tunning, motores,
        automóveis, carros, potência">
</HEAD> 

As Meta-Tags colocam-se entre a Tag de abertura e de fecho <HEAD> <HEAD> No exemplo há uma Tag de titulo, uma meta Tag de descrição da página e uma Meta-Tag com palavras chave (keywords). Vejamos cada uma por si.

A Tag “Title”

A Tag TITLE não é realmente uma Meta-Tag pois faz parte da definição de cabeçalho do HTML, mas neste contexto cumpre funções semelhantes às Meta-Tags. Qualquer texto colocado entre as Tags <TITLE> e </TITLE> do HEADER da página, é considerado como o titulo da página.

Os browsers aproveitam este texto para o colocar na barra de titulo. Também o usam para a descrição dos Favoritos e Bookmarks, e o sistema operativo Windows usa-a para nomear atalhos.

Quanto aos Crawlers, a informação de título é fundamental! Sendo um dos elementos mais importantes para a criação do rank da página! (Ver Search Engine Placement Tips – este link é reservado a users registados). Adicionalmente é com esta informação que é criada a entrada de ligação para o a página, na respostas à busca, em todos os motores.

Na prática o importante a fazer é escolher as duas ou três keywords mais importantes e com elas compor uma frase de texto que sirva como titulo. Além de ser descritiva, a frase deve ser o mais curta possivel de modo a poder ser visualizada por inteiro em todas as utilizações.

A Meta-Tag “Description”

Permite influenciar a maneira como os crawlers que a suportam (ver Search Engine Features) vão construir a descrição da página.

No exemplo dado, a segunda Meta-Tag tem o name=”description”. Na sua parte “content=” contem a descrição da página. Convém que esta descrição não exceda em muito os 180 caracteres uma vez que de 200 a 250 caracteres ainda podem ser indexados, mas normalmente nunca serão mostrados na descrição nos resultados da busca mais que 180 a 200 caracteres.

Certos crawlers aproveitarão tanto quanto possivel esta descrição. Outros, como o google gerarão a sua própria descrição através do titulo, fracções do texto original da página, onde apareçam as palavras de pesquisa,  e frações desta Meta-Tag, em qualquer caso, sempre fracções onde aparecem palavras chave da busca.

De qualquer modo o conteudo desta descrição pode sempre ser parcialmente aproveitado, e o mais provável é que seja TOTALMENTE indexada (dentro do limite indicado de numero de caracteres), pelo que realmente é uma das mais importantes partes dapágina HTML. Em geral compõe-se o texto da descrição com um parágrafo da própria página, ou com a reescrita de um par de frases da página, que contenham toda a informação relevante para as pesquisas.

A Meta-Tag “Keywords”

Esta Meta-Tag permitia listar as keywords que se pretendia que os crawlers indexassem. Permitia, porque hoje em dia é ignorada pela maior parte deles, com poucas excepções (ver Search Engine Features). No entanto, para estes, é absolutamente fundamental, já que reforça e dirige a escolha de keywords que o próprio crawler efectua. por si só uma keyword colocada nesta Meta-Tag não provoca a indexação por ela, mas se ela existir repetida no proprio corpo da página, a sua presença na Meta-Tag irá reforçar a sua escolha, utlização e indexação pelo crawler.

Para os crawlers que aproveitam as keywords, outro efeito é que podem ajudar a valorizar a pagina para pesquisas em que a busca se faz por composição de várias palavras, em que nem todas existem no texto, mas as que não existem estão na Meta-Tag (por exemplo, se “colecção” está na Meta-Tag de uma página sobre selos, em que sa palavra “selos” aparece várias vezes, então esta página tem mais probabilidade de responder a uma busca por “colecção de selos”).

O mesmo pode servir para dar mais hipoteses de selecção da página, por substituição de neologismos, grafias alternativas e tradução de termos, que não se encontrem na página. Por exemplo alguém pode tentar pesquisas usando o termo “mais-valias”  ou “mais valias” ou, finalmente “maisvalias”. Como não é viável escrever tudo no próprio texto, as alternativas podem ser colocadas nas keywords. Neste caso uma busca por “modos de criação de mais-valias” pode resultar tão bem como “modos de criação de maisvalias”.

De qualquer modo é de notar: na actualidade já muito poucos crawlers suportam esta Meta-Tag, e nos que suportam a influència é meramente marginal. Se mesmo assim quiser usar, limite o numero de keywords a um máximo de 25 palavras, com um maximo de 1000 caracteres. Estes são limites de todos os crawlers que usam a Meta-tag.

Meta-Tag Robots

É uma Tag que permite evitar que uma página seja indexada (por defeito todas as páginas encontradas serão indexadas), indicando ao crawler que a exclua explicitamente. A sintaxe é:

<html>
<head>
 <meta name="robots" content="noindex" />
 <title>Don't index this page</title>
</head>

Pode evitar a penalização por duplicados, ou servir para evitar a indexação de conteúdos marginais ou fora do contexto do site. No entanto preconiza-se o uso do ficheiro robots.txt (ver Search Engines Features ) em detrimento do uso desta Meta-Tag.

Meta Tag “Canonical”  para o Google, Yahoo e MSN

Um dos problemas com paginas e links dinâmicos, bem como com  gestores de conteúdos é que o link que aponta para uma dada página pode ser criado de vários modos, além de conter muitos parâmetros que podem variar de uma para outra chamada, sem mudar no essencial o conteúdo da página para que apontam. É o caso de parâmetros de utilizador ou sessão que são passados no link. Isto gera directamente o risco de um crawler interpretar os vários links visiveis como sendo distintos e portanto vai indexar páginas aparentemente duplicadas. E a duplicação de conteúdos e páginas é fortemente penalizador no pagerank de qualquer página e site.

Como evitar isto? Até há bem pouco tempo não hava muito como! Entretanto o Google, Yahoo e MSN acordaram no estabelecimento de uma Meta-Tag que contorna o problema (ver Google now support a Canonical URL meta tag).

Esta nova Meta-Tag chamada “Canonical”, permite estabelecer qual o URL canonico (ou normal, ou preferido) para aceder a essa página, independentemente do URL usado ou descoberto pelo Crawler. Deste modo, todos os duplicados e todas as duvidas ficam desfeitas e o crawler pode reconhecer aquela como uma página já indexada ou indexada sob esse mesmo URL, ainda que com um acesso através de um URL diferente.

A sua sintaxe será

<link rel="canonical" href=http://www.yourdomain.com?p=x />

em que http://www.yourdomain.com?p=x representa o permalink da propria pagina dinâmica, independentemente do link ou URL usado para lá chegar. Esta TAG deve ser colocada no cabeçalho do ficheiro da página dinâmica, nomeadamente nos cabeçalhos das páginas PHP. O mesmo ocorre com páginas dinâmicas noutras linguagens ou geradas noutras plataformas.

Aquele problema ocorre essencialmente com páginas programadas em PHP, com links gerados a partir de dados de sessão ou a partir de bases de dados. O que o meta-tag canonical faz, é dizer qual o permalink que deve de facto ser considerado para a página. O caso piora quando o próprio conteúdo da página é gerado dinâmicamente, pelo menos em parte, porque haverá uma mistura de contéudo repetitivo (duplicado) e conteúdo que pode até já ter aparecido noutra página indexada. Isto apontaria até, a qualquer motor, um caso de plágio, ou pelo menos de duplicação multipla de coneúdos. Neste caso uma forma de o fazer, é introduzir no cabeçalho página PHP, gerada dinâmicamente e/ou acedida por links dinâmicos, o seguinte codigo:

<?php if (is_single()) {
 echo '<link rel="canonical" href="' . get_permalink() . '" />';
} ?>

E isto será suficiente para introduzir a Tag dinâmicamente no proprio cabeçalho do ficheiro PHP, desde que o servidor conheça o permalink da página. Isto é o que se pode fazer no ficheiro PHP de um tema wordpress ou joomla, para evitar o problema da falsa duplicação (e duplicação múltipla) múltipla de conteúdos.

Um aspecto interessante é que esta Meta-Tag funciona como indicação para crawler, mas não é garantia de que o crawler usará este URL. Todos os craweler aderentes reservam o direito de decidirem por si o URL a usar. Uma vez que o efeito desta Meta-Tag é por um lado fixar o URL para a página, mas por outro tranferir para esse URL o pagerank calculado em cada acesso, independentemente do URL usado pelo crawler, vislumbra-se que alguém se lembraria de usar essa Tag, mesmo quando não fosse de todo necessário, apenas para tirar algum tipo de vantagem fraudulenta da transferência de pagerank. Na prática a reserva dos crawlers usarem o URL que bem entenderem, prefigura a introdução de um qualquer mecanismo de fiscalização, com algum tipo de inteligência artificial, e que de todo evitará esta utilização fraudulenta. Há indicações de que este mecanismo já está em acção no google, e este já começou a decidir por si qual o URL a usar, mas mesmo assim a TAG canonical continua a cumprir a sua função: identificação unica e  inequivoca de que a mesma página acedida por URL’s diferentes, é de facto a mesma.

Ver a as press releases de cada crawler aqui: Google, Yahoo!, and Microsoft

Outras Meta Tags

Há muitas outras Meta-Tags e, algumas delas, são aproveitadas por certos crawlers. Encontram-se páginas com Meta-Tags como “author,” “channel” e “date” e muitas vezes são usadas apenas para indexadores internos do site, do servidor, de uma rede de sites ou qualquer outra utilização particular, e não por crawlers genéricos.

Há também a definição de Meta-Tags da Dublin Core Initiative (ver Dublin Core Metadata Initiative e Dublin Core – Tagging the Web for better search and retrieval), que se detinava a dar uniformidade às Meta-Tags para uso interno e para uso pelos crawlers internet, mas nenhum dos grandes crawlers usam ou dão qualquer importância a este conjunto de Meta-Tags.

Conclusão

Em resumo deve-se dizer que:

Robots: útil, mas apenas para evitar que uma página seja indexada.
Title: importantissima, deve ser cuidadosamente escolhida, e não deve falhar em nenhuma página!!!
Description: é amplamente suportada e deve ser extensivamente usada
Keywords: de utilidade reduzida, e provávelmente nem vale a pena perder muito tempo com ela; pode-se sempre tentar…
Canonical: importantissima no caso de uso de links diâmicos ou na geração dinâmica de páginas, identificando inequivocamente cada página independentemente do URL usado.
… todas as outras: inuteis para os search engines

Geradores e avaliadores de Meta-Tags

Há várias páginas web (e aplicações para download) capazes de gerar, avaliar e validar a secção HEADER ou Meta-Tags específicas, bem como a escolha de keywords. Pode usá-las para validar a sintaxe, ou para encontrar no seu texto keywords válidas para virem a ser usadas para o título. De resto a sua utilidade é duvidosa. No entanto de grande utilizade são as ferramentas google que permitem avaliar a relevância de uma keyword, relativamente a TODO o universo de buscas efectuadas num período de tempo. Infelizmente esta ferramenta está dimensionada para o uso da lingua inglesa, versão americana, e qualquer tentativa de uso sobre palavras chave portuguesas resulta invariávelmente numa resposta “não há um numero suficiente de entradas para dar relevância à keyword”. Coisas de quem só olha para o próprio umbigo…