Vasculhar dados na internet me faz sentir como um arqueólogo. Com uma picareta metafórica em uma mão e um pincel de limpeza na outra, desenterro cuidadosamente cada item e coloco-o no Planilhas Google para revisão. Embora isso me permita viver meus sonhos de recriar a Múmia 1999 há apenas uma desvantagem: demora uma eternidade.
Em vez de vasculhar manualmente sites em busca de dados básicos como nomes, endereços ou tags de título, você pode tocar a função IMPORTXML do Google Sheets para automatizar toda essa análise cuidadosa em uma transferência de dados perfeita (quase mágica).
Veja como usar IMPORTXML no Planilhas Google e deixar a coleta manual de dados para trás.
Índice:
O que é a função IMPORTXML no Planilhas Google?
A função IMPORTXML é uma ferramenta do Planilhas Google que permite importar dados estruturados da web diretamente para sua planilha. A função é =IMPORTXML(url, "xpath")
. Tudo o que você realmente precisa saber é onde os dados que você está procurando estão contidos e, então, você pode inserir a URL de destino e uma consulta XPath especificando os dados que você deseja extrair da página da web para essa função principal.
Se tudo isso parece Klingon, você ainda está nessa, eu prometo. É necessário ter noções básicas de XML e HTML para usar IMPORTXML, mas vou abordar isso aqui — se eu consegui, você também consegue.
Aqui estão alguns termos que você precisa entender para usar IMPORTXML:
HTML: A linguagem de marcação básica que informa aos navegadores como exibir informações. Um elemento HTML consiste em uma tag inicial, conteúdo e uma tag final.
Exemplo:
<p>Algo</p>
XML: Uma linguagem de marcação e formato de arquivo para gerenciamento de dados. É semelhante ao HTML, mas você define suas próprias tags.
Exemplo:
<name>João</name>
Tag: Tanto em HTML quanto em XML, uma tag é a marcação usada para denotar o início e o fim de um elemento. As tags são colocadas entre colchetes angulares.
Exemplos:
<tag> </tag>
XPath: Uma expressão usada para navegar em XML e especificar caminhos. É assim que você informa ao Planilhas de qual lugar extrair dados em uma página da web.
Exemplo (em negrito):
=importxml("https://en.wikipedia.org/wiki/Lista_de_códigos_postais_do_Canadá",
"//td"
)
Como usar a função IMPORTXML no Planilhas Google
Primeiro, farei um resumo bem detalhado de como fazer isso. Em seguida, veremos um exemplo que tornará isso mais lógico e mostrará algumas das possibilidades realmente interessantes (se você realmente gosta de dados da web) do IMPORTXML.
Encontre a página da web. Navegue até o site que contém os dados que você deseja importar.
Inspecionar elemento. Clique com o botão direito do mouse em uma parte em branco da página da web e clique em Inspecionar para examinar a estrutura HTML da página da web.
Identifique as tags: encontre as tags que contêm os dados desejados, como
<td>
para células de dados da tabela.Insira a fórmula IMPORTXML. Em uma célula da Planilha Google, insira a função
=IMPORTXML(url, "xpath")
. Atualize a função IMPORTXML com a URL no lugar de url. Entre as aspas, substitua xpath por duas barras seguidas das tags que você acabou de identificar.Personalize seus dados. Extraia apenas certos elementos da tabela, filtre os seus dados e limpe o conjunto de dados restante.
Isso deve preencher sua planilha com os dados entre as tags que você identificou a partir do URL inserido.
Observe que você pode ser solicitado a permitir o acesso a um website externo. Se isso acontecer, basta clique em Aceitar.
Exemplo de importação de dados para o Planilhas Google com IMPORTXML
As tabelas da Wikipédia são uma ótima maneira de praticar IMPORTXML, então vamos ver um exemplo de extração de uma lista de códigos postais e distritos da Wikipédia. Também mostrarei como obter dados ainda mais específicos para que você possa ver como manipular os resultados e obter exatamente o que precisa.
1. Encontre os dados que deseja importar
Neste exercício, pegarei todos os códigos postais em Edmonton, Alberta. Abra a página em uma nova janela do navegador se quiser acompanhar.
2. Inspecione o HTML na página da web
Clique com o botão direito do mouse em uma célula de código postal na página e selecione Inspecionar para visualizar o código-fonte HTML no seu navegador.

3. Identificar as tags
Verifique a tag que contém os dados em questão, que neste caso é <td>
— esta é a tag que contém todos os dados em uma célula.
Se você se deparar com um código que diz <b>
, você está no lugar errado — este é um código de formatação para o próprio texto. Você quer a tag <td>
, ou dados da tabela, pois ela puxará todos os dados dentro de uma tabela. Você pode usar o recurso de pesquisa no menu Inspecionar para localizar a área que deseja puxar.

4. Insira a função IMPORTXML
Em uma nova Planilha Google, importe todos os códigos postais. Para fazer isso, selecione uma célula e insira a fórmula:
=IMPORTXML("https://en.wikipedia.org/wiki/Lista_de_códigos_postais_do_Canadá", "//td")
Como lembrete, a função =IMPORTXML(url, "xpath")
é essa, mas substituímos url pelo URL da página da web e xpath por duas barras e a tag.
Se solicitado, clique em Permitir acesso (assumindo que você confia no site do qual está importando!). Isso preencherá todos os códigos postais em nossa página original da Wikipédia — todos os dados contidos na tag <td>
.

5. Personalize seus dados
Se você nunca viu HTML na vida, esta seção pode ser um pouco assustadora, mas siga estas etapas e você ficará bem.
Extraia apenas a cidade primária
E se você quiser obter apenas a cidade principal associada ao código postal? Nossa primeira consulta extraiu muitos dados extras.
To narrow the scope, we can change the XPath query to "//td/span/a[1]"
. This will just pull the city linked to each postal code into our sheet—because we're specifying that we want to look within those table data cells for a "span" tag that contains an <a>
(anchor) tag, which is where the city names are found in the HTML.

Extrair apenas o código postal
Também podemos extrair apenas os códigos postais. Para fazer isso, atualizaremos esta consulta XPath para "//td/b[1]"
.
Aqui, sabemos que /b[1]
tem como alvo apenas os códigos postais porque a inspeção da fonte HTML revela que os códigos postais estão incluídos na primeira tag <b>
dentro de cada célula da tabela <td>
.

Filter para Edmonton
Para encontrar os códigos postais em Edmonton, Alberta, usaremos uma consulta ainda mais específica.
Modificaremos a consulta XPath para "//td[span/a='Edmonton']/b[1]"
. Isso retornará apenas os códigos postais que incluem "Edmonton" no campo td/span/a[1]
— já que é onde podemos ver que os nomes das cidades estão armazenados no código da página.

Extrair nomes de bairros
Em seguida, vamos desenvolver isso extraindo os nomes dos bairros e colocando-os na coluna ao lado dos códigos postais. Para obter nomes de bairros após "Edmonton", usaremos esta consulta XPath: "//td[span/a='Edmonton']/span[1]"
.

Como você pode ver, isso de repente é uma grande quantidade de dados. Esta função pega todo o conteúdo de span[1] e usa parênteses e barras para dividi-lo, juntando "Edmonton" na primeira coluna e cada nome de bairro nas colunas seguintes.
Limpar o conjunto de dados
A partir daqui, podemos limpar as coisas reorganizando nossos dados em colunas para código postal, cidade e bairro. Isso nos dará um conjunto de dados nítido e agradável que podemos usar para praticamente qualquer coisa, desde que essa coisa exija nomes de bairros em Edmonton.
Considerando que os dados em questão abrangem da coluna B à coluna J, você pode usar as funções SPLIT e CONCATENATE para isso: =SPLIT(concatenate(B2:J2),"(/)")
.
Basta rolar e usar esta função algumas colunas acima ou algumas linhas abaixo. Você pode fazer isso para todos os dados que deseja limpar e remover espaços ou pontuação em excesso.

E aí está: nossa lista de códigos postais e distritos da cidade de Edmonton.
Funções relacionadas ao Planilhas Google
As funções do Planilhas Google são tão legais quanto as da Múmia , e de onde essas surgiram há muito mais. Aqui estão mais algumas funções que funcionam de forma semelhante ao IMPORTXML, pois podem ser usadas para importar dados de uma fonte para uma planilha.
Amplie suas novas asas XPath com uma destas funções relacionadas:
IMPORTHTML: importa dados de uma tabela ou lista HTML em uma página da web. (Muito semelhante ao que acabamos de fazer, mas para tabelas HTML inteiras.)
IMPORTRANGE: Importa um intervalo de células de uma planilha do Planilhas Google para outra. (Facilita a combinação de dados do Planilhas.)
IMPORTDATA: importa dados de um arquivo CSV ou TSV hospedado em um URL da web.
IMPORTFEED: Importa conteúdo de um feed RSS— ótimo para sites de notícias se você quiser criar um feed ao vivo em sua planilha.
GOOGLEFINANCE: importa dados atuais ou históricos do mercado financeiro diretamente do Google Finance.
Dicas de IMPORTXML
Se você chegou até aqui, provavelmente já é um especialista em Planilhas e não precisa mais dos meus conselhos. Mas, por precaução, aqui estão algumas práticas recomendadas para trabalhar com funções como IMPORTXML.
Use o recurso Inspecionar: use o Inspecionar elemento no seu navegador da web para visualizar a estrutura HTML da página antes de extrair dados. Clique com o botão direito do mouse no elemento da página da web que deseja importar e selecione Inspecionar no menu do navegador. Isso permite que você veja todas as tags incluídas, o que pode ajudar a tornar sua consulta mais específica.
Verifique novamente sua URL: sempre certifique-se de que a URL na sua fórmula IMPORTXML seja a URL completa, não apenas o slug ou a maior parte dela. E sim, isso inclui o prefixo
http://
ouhttps://
. (Não vamos falar sobre quantas vezes eu errei isso.)Seja específico: A segmentação de dados realmente específicos com sua consulta geralmente é melhor do que extrair grandes intervalos de dados. Use consultas precisas para extrair apenas os dados necessários, nem mais, nem menos.
Use uma planilha de teste: gosto de criar uma Planilha Google separada para testar minhas funções IMPORTXML antes de implementá-las, porque não tem como não errar na primeira vez. Isso me ajuda a garantir que minha consulta esteja funcionando corretamente antes de adicioná-la à minha planilha real com todos os Dados Muito Importantes.
Automatize o Planilhas Google com o Zapier
A função IMPORTXML é um presente para entusiastas de dados em todos os lugares. Ele torna a coleta manual de dados, pelo menos na web, uma coisa do passado mumificado, para que você possa passar mais tempo admirando suas lindas Planilhas.
E se isso ainda não for suficiente, você pode explorar as integrações do Zapier com o Planilhas Google. O Zapier permite que você conecte o Planilhas a milhares de outros aplicativos, automatizando importações de formulários, eventos e qualquer outro lugar onde você tenha dados. Saiba mais sobre como automatizar o Planilhas Google ou confira alguns desses modelos pré-fabricados.
Salvar novos e-mails do Gmail que correspondam a certas características em uma planilha do Google
Crie linhas no Planilhas Google para novos leads do Google Ads
Adicionar novos leads de anúncios de leads do Facebook às linhas em Google Sheets
Enviar e-mails pelo Gmail quando as linhas do Planilhas Google forem atualizadas
Zapier é a plataforma de orquestração de IA mais conectada, integrando-se a milhares de aplicativos de parceiros como Google, Salesforce e Microsoft. Use interfaces, tabelas de dados e lógica para criar sistemas seguros, automatizados e orientados por IA para seus fluxos de trabalho críticos de negócios em toda a pilha de tecnologia da sua organização. Saber mais.
Perguntas frequentes sobre IMPORTXML
Qual é a alternativa ao IMPORTXML no Planilhas Google?
Se estiver procurando uma alternativa ao IMPORTXML, você pode usar a função similar, IMPORTHTML. É menos preciso que IMPORTXML e é usado principalmente para tabelas ou listas. Você também pode usar uma ferramenta de terceiros se seu objetivo for fazer scraping na web em larga escala— ou escrever seu próprio script.
Como posso atualizar o IMPORTXML no Planilhas Google?
Para atualizar IMPORTXML no Planilhas, clique em qualquer célula que contenha a função e pressione Enter ou Return. Isso recalculará manualmente a fórmula e atualizará os dados. Os dados também são atualizados sempre que você faz uma alteração na fórmula, ou você pode usar um complemento ou um script personalizado que atualizará a planilha automaticamente.
Com que frequência o IMPORTXML é atualizado?
Quantas vezes você quiser. A função IMPORTXML não é atualizada automaticamente, mas é fácil atualizá-la sempre que você quiser usar o acionador. Os acionadores de atualização incluem pressionar a tecla Enter ou Return em uma célula que contém a função, editar outras células próximas ou alterar a fórmula. A função também pode ser atualizada se contiver um elemento dinâmico como NOW()
, já que esses elementos são atualizados automaticamente.
Leitura relacionada:
Ideias de automação do Planilhas Google para organizar seu negócio
Formulários Google para Planilhas Google: como atualizar o inventário automaticamente
O que significa erro de análise de fórmula no Planilhas Google? (E como consertar isso)
Este artigo foi publicado originalmente por Allana Mayer em 2017. A atualização mais recente foi em novembro 2024.