Como Pesquisar por Páginas de um Site Específico no Google

Por padrão, quando você pesquisa por algo no Google, o Google retornará resultados de todos os websites na Internet. Em muitos casos, seu algoritmo tende a incluir apenas um resultado de cada site, para que somente o resultado mais relevante daquele site apareça, assim tendo mais variação nos resultados. É possível fazer o Google retornar apenas páginas de um website específico. Para isso, basta digitar o código site: seguido de parte do nome de domínio do website.

Por exemplo, se você pesquisar no Google por:

bonecas de pano no youtube

O Google será esperto o bastante para incluir vários resultados do website Youtube, mas poderá incluir também páginas que meramente mencionem o termo "Youtube" em seu texto. Por exemplo, se houver um artigo intitulado "3 canais do Youtube para aprender fazer bonecas de pano," esse artigo irá aparecer nos resultados mesmo que não estiver hospedado no site do Youtube.

Para fazer o Google exibir somente resultados vindos do site do Youtube, precisamos digitar o código site: seguido imediadamente do nome de domínio (tudo junto, sem espaços). Por exemplo:

bonecas de pano site:youtube.com

Se você pesquisar por isso no Google, você verá que só há resultados vindos do site do Youtube, e não de outros sites.

Problemas comuns: lembre que é necessário digitar o nome de domínio junto ao código site: (site seguido por dois pontos (:)). Se você digitar site: youtube.com com um espaço entre site: e youtube.com, o Google não irá entender isso como um comando para pesquisar somente no site do Youtube.

Pesquisando em Dois Sites ao Mesmo Tempo

É possível pesquisar por páginas em mais de um site ao mesmo tempo usando o operador OR (or em Inglês significa "ou"). Por exemplo:

bonecas de pano site:youtube.com OR site:pinterest.com

A pesquisa acima retornará resultados sobre bonecas de pano vindas do website do Youtube "ou" do Pinterest.

Problemas comuns: o operador OR precisa ser digitado com letras maiúsculas. Se você digitar or haverão zero resultados. O motivo disso é o mesmo motivo pelo qual você precisa digitar esse operador: como cada página pertence a apenas um website, existem zero páginas que são do Youtube "e" são do Pinterest ao mesmo tempo (em termos de lógica booleana). Isto é, não há como o primeiro critério "e" o segundo critério serem verdadeiros ao mesmo tempo. Nesse caso, precisamos de um filtro que aceite páginas se o primeiro critério "ou" o segundo critério for verdadeiro.

Excluir um Website dos Resultados de Pesquisa

É possível excluir um website da pesquisa do Google combinando o operador site: com o sinal de menos (-) usado para exclusão. Nesse caso, o resultado é o código -site:, isto é: o sinal de menos (-), site, e dois pontos (:), tudo junto. Se houver espaço, o Google não entenderá o código corretamente. Por exemplo:

bonecas de pano -site:pinterest.com

A pesquisa acima retornará páginas sobre bonecas de pano, exceto aquelas que forem do site Pinterest.

Esse código é especialmente importante para excluir sites nas páginas de pesquisa de imagens. Plataformas como Pinterest e Reddit aparecer várias vezes nos resultados de imagens, mas essas plataformas raramente são as fontes das imagens.

Da mesma forma, é possível excluir plataformas como TikTok na pesquisa de vídeos.

Excluir Múltiplos Websites

Para excluir múltiplos websites, digite -site: múltiplas vezes.

videos legais -site:youtube.com -site:tiktok.com

A pesquisa acima tentará encontrar páginas sobre "vídeos legais" exceto vindos de duas das maiores plataformas de vídeo na Internet.

Observação: nesse caso não usamos OR. De fato, se usarmos OR teremos resultados de TODAS as páginas na Internet e nada será excluído! Por que isso acontece? O que ocorre é que, tecnicamente, o conjunto de páginas que "não estão no Youtube OU não estão no TikTok" seria o conjunto de todas as páginas (i.e. o "conjunto universo" em termos matemáticos), já que as páginas no Youtube não estão no TikTok, e as páginas do TikTok não estão no Youtube, o que um critério exclui o outro critério incluiria, e ambos são somados com o operador OR, então acabamos sem excluir nada.

Pesquisando em Subdomínios

É possível restringir a pesquisa para retornar apenas por páginas em um subdomínio. Por exemplo:

magia site:en.wikipedia.com

A pesquisa acima irá retornar resultados com o termo "magia" apenas do website da Wikipedia em Inglês. A Wikipedia usa o subdomínio en para sua versão Inglês, e pt para sua versão em Português.

Em alguns websites como Tumblr, cada usuário possui um subdomínio diferente, e essa seria uma forma de pesquisar por posts daquele usuário especificamente. Por exemplo, taylorswift.tumblr.com é um blog da cantora Taylor Swift. Um post nesse blog teria uma URL como https://taylorswift.tumblr.com/post/744976168465432577/all-three-and-a-half-hours-of-taylor-swift-the. Com isso, seria possível achar as páginas dos posts digitando site:taylorswift.tumblr.com.

Pesquisando Apenas URLs que Começam por Algo Específico

O operador site: não funciona apenas com nomes de domínio. Também poder escrever parte do caminho da URL. Quando fazemos isso, apenas páginas que começarem com esse caminho serão retornadas. Por exemplo, se digitarmos:

ano novo site:reddit.com/r/brasil

O Google irá retornar páginas postadas no site do Reddit cujas URLs têm caminhos que começam com /r/brasil. Isso é algo bem útil, mas precisa de um pouco de explicação técnica. Então vamos lá entender como isso funciona.

No Reddit, há fóruns para diversos assuntos, cada forum tendo sua URL começando com /r/alguma coisa. No caso, /r/brasil é uma comunidade Brasileira no Reddit. Logo, essa pesquisa retornará resultados dessa comunidade. Entretanto, o motivo pelo qual isso acontece não é simplesmente por que os resultados estão relacionados à comunidade, mas simplesmente por que suas URLs começam com /r/brasil.

Isto é, isso só funciona em prática por que o Reddit prefixa as URLs de posts em uma comunidade com a URL da comunidade. Por exemplo, um post em /r/brasil possui a URL https://www.reddit.com/r/brasil/comments/192vwwk/at%C3%A9_quando_devemos_desejar_ano_novo/. Veja que nessa URL, o código que identifica o post é na verdade 192vwwk. Um código identificador único é gerado automaticamente pelo sistema do Reddit para cada post e comentário. Outras plataformas possuem sistemas similares.

Como o código identificado é único—só existe um post com esse código—a única coisa que o sistema precisa para exibir uma página é esse código. Então a URL poderia ser /post-192vwwk e o Reddit iria funcionar na mesma forma que funciona hoje. Porém, quando o Reddit foi criado, eles escolheram fazer as URLs desse outro jeito que inclui o nome da comunidade onde o post foi postado.

Você pode ver que existem várias plataformas que adicionam informação extra às URLs fazendo possível usar o operador site: dessa forma:

Em https://www.instagram.com/cristiano/p/C488vz5Neej/, o código que identifica o post é apenas C488vz5Neej, mas a URL começa com /cristiano/. Com isso, é possível pesquisar por posts de Cristiano Ronaldo no Instagram digitando site:instagram.com/cristiano/ no Google.

Problemas comuns: parece que o Google ignora a barra (/) digitada nesse operador e irá exibir resultados de outros usuários do Instagram cujos nomes de usuário começam com cristiano, e.g. /cristiano.imhof/. Adicione /p/ para evitar esse problema, e.g.: site:instagram.com/cristiano/p/.

Vários websites de notícias e blogs incluem a categoria do post na URL, e.g. https://capricho.abril.com.br/entretenimento/9-tumblrs-de-celebridades-que-voce-precisa-seguir/. Embora eu não conheça todos os sistemas de publicação na web do mundo, a página dessa URL parece ser feita com WordPress, que é usado em praticamente metade da web. No WordPress, o código único que identifica uma página é o que vem depois da categoria /entretenimento/, a parte 9-tumblrs-de-celebridades-que-voce-precisa-seguir. Sim, isso inteiro. Essa parte é chamada de slug. Por consequência, esse website não poderia criar um artigo com essa mesma slug em outra categoria, já que a slug precisa ser única entre todos os artigos no WordPress, o que significa que a URL não precisava conter a categoria /entretenimento/, já que é possível identificar qual artigo você quer ver usando apenas a slug. Mesmo assim, a maioria dos websites que publicam artigos irá incluir a categoria, o que permite você pesquisar por site:capricho.abril.com.br/entretenimento/ para pesquisar todos os artigos dessa categoria nesse site através do Google.

Contra-exemplos: há websites que não incluem essa informação extra, então não é possível usar o operador site: para filtrar URLs dessas maneiras avançadas. Por exemplo, https://www.newgrounds.com/portal/view/161181 é a URL de uma animação criada por um usuário cuja URL nessa plataforma é https://sambakza.newgrounds.com/. Para encontrar todos os posts desse usuário nessa plataforma, o melhor que podemos fazer é escrever sambakza site:newgrounds.com/portal/view (ou simplesmente usar o sistema de pesquisa da plataforma).

Pesquisando por TLDs

Algo interessante e geralmente inútil que é possível é a filtragem de websites por suas TLDs. A TLD é a parte do nome de domínio que fica depois do último ponto, e.g. .com em google.com. Em geral isso não serve para nada já que não existe muita diferença entre as várias e várias TLDs disponíveis no mundo. Porém há casos em que essa função é interessante.

Pesquisando Apenas Sites .br

Podemos usar o código site:.br para incluir apenas sites cujos nomes de domínio terminam na TLD .br no Google.Por exemplo:

megaman site:.br

A pesquisa acima retornará apenas resultados sobre Megaman (o jogo de videogame) de sites cujos domínios terminem em .br.

Note que qualquer pessoa Brasileira pode ter um website sem o .br, e qualquer pessoa estrangeira pode obter um domínio .br, então um website terminar em .br ou não não significa muita coisa. Porém, geralmente não haveria motivo para não escolher um domínio .br se sua audiência é inteiramente Brasileira, e com isso, na maioria dos casos, esse filtro funciona.

O Google também possui um outro método para pesquisar por websites Brasileiros. Para usá-lo, você precisa ir para página https://www.google.com.br/advanced_search, e selecionar para o campo "região" a opção "Brasil." Não sei dizer como o Google determina se um site é Brasileiro ou não, mas isso faz ele incluir sites Brasileiros que não terminam em .br nos resultados.

Pesquisando Apenas Sites Governamentais

Qualquer pessoa pode obter um domínio .com, .net, .org, .info, etc., mas apenas o governo pode ter um domínio .gov, ou .gov.br para o governo Brasileiro. Logo, é possível pesquisa informação postada apenas nas fontes oficiais digitando no Google site:.gov.br. Por exemplo:

como obter segunda via do rg site:.gov.br

Algumas outras TLDs interessantes:

.b.br - disponível somente para bancos.
.def.br - defensoria pública.
.jus.br - instituições de poder judiciário.
.leg.br - instituições de poder legislativo.
.mp.br - instituições do ministério público.
.tc.br - tribunais de contas.

Pesquisando Apenas Sites de Universidades

Podemos pesquisar apenas em websites de ensino superior Brasileiros com o código site:.edu.br. Por exemplo:

tarsila do amaral site:.edu.br

A pesquisa acima tentará encontrar páginas sobre a artista em websites que terminam em .edu.br. Essa TLD, .edu.br, só está disponível para instituições de ensino superior.

Perigo: enquanto testava esses operadores, percebi que vários websites de instituições públicas Brasileiras, tanto de universidades quanto de municípios, têm sido vítimas de ataques cibernéticos e se tornaram infectados com código malicioso. Em específico, percebi que visitar certas páginas diretamente do Google redireciona o usuário para websites de apostas. Imagino que o malware foi assim programado para evitar detecção: se você nunca visitar seu site do Google, nunca verá que está infectado. Se isso acontecer com você, de tentar ver um resultado .edu.br e acabar em um site completamente diferente, é possível que haja como acessar a página que você queria acessar da seguinte maneira: volte para o Google, clique com o botão direito no resultado para abrir o menu de contexto, e selecione a opção "copiar endereço do link." Após isso, abra uma nova aba no seu navegador de Internet, e cole a URL copiada na barra de endereço. Com isso, o malware não saberá que você está acessando do Google e exibirá a página desejada normalmente (para detalhes técnicos: mozilla.org: HTTP/Headers/Referer). De qualquer forma, procure informar ao dono do website ou administração da universidade que o website está infectado caso algo assim ocorrer com você.

Outras TLDs Restritas

Para referência, algumas outras TLDs restritas (que não é qualquer pessoa que pode obter) Brasileiras são¹:

.am.br, .fm.br - empresas de radiodifusão sonora.
.coop.br - cooperativas.
.g12.br - instituições de ensino de primeiro e segundo grau.
.mil.br - forças armadas brasileiras.
.org.br - instituições não governamentais sem fins lucrativos.
.psi.br - provedores de serviço Internet.

Outras TLDs Irrestritas

Há também TLDs irrestritas para todo tipo de coisa. Por exemplo, .art.br é uma TLD para websites sobre arte, porém, não é necessário provar que seu website será sobre arte para obter um domínio com essa TLD, nem tanto você é obrigado a usar essa TLD se seu website for sobre arte. Por exemplo, um website sobre a artista Tarsila do Amaral é https://www.tarsiladoamaral.com.br/, terminado em .com.br, não em .art.br. De qualquer modo, é possível encontrar vários websites Brasileiros sobre arte simplesmente pesquisando por site:.art.br no Google. O mesmo se aplica a outras TLDs irrestritas, como .ong.br, .app.br, e assim por diante.

Perigo: tenha muito cuidado acessando websites que não terminem em .com ou TLDs restritas, e.g. sites terminados em .app.br ou .xyz. Embora exista um problema legitimo de escarces de domínios terminados em .com, e há quem compre esses domínios na esperança de revender o domínio a preços absurdos, na prática um negócio legítimo seria capaz de comprar um domínio .com mesmo por dezenas até centenas de milhares de reais. Essas TLDs menos comuns costumam ser obtidas por quem não possui um negócio legítimo ou lucrativo, e podem conter conteúdo malicioso (e.g. virus de computador). Ouvi dizer que a TLD .xyz é usada tanto para spam que alguns sistemas de segurança banem a TLD inteira. Veja que não há diferença técnica entre .xyz e .com. Para o computador, são ambas a mesma coisa. A diferença é no tipo de pessoa que iria adquirir uma TLD incomum, e para quais fins.

Outras Pesquisas de URL

O Google possui outros dois operadores de pesquisa para pesquisar URLs: inurl: e allinurl:. Por exemplo, se você digitar:

inurl:forum

O Google retornará resultados que incluam a palavra forum em suas URLs, o que é comum em fóruns online.

Quando o operador allinurl: é usado, todas as palavras após o operador, mesmo depois de espaços, serão pesquisadas na URL (all in url significa "tudo na url").

Referências

https://registro.br/dominio/categorias/ (acessado 2023-03-26). ↩︎