Discrepâncias no Google Analytics 4, Entendendo o HyperLogLog++

O que você irá aprender?

    Por esses dias identificamos uma discrepância bem especifica em relatórios de exploração no Google Analytics 4, ao consumir as informações dentro da interface do Google Analytics 4 chegamos em uma determina discrepância sobre a quantidade de de sessões por exemplo, porém, quando vamos exportar os dados desse relatório encontramos uma discrepância dentre os dados da interface do Google Analytics 4 vs Dados exportados para CSV.

    Essa diferença ocorre devido à forma como o GA4 calcula métricas de usuários, sessões e outras contagens distintas. Vamos dar uma olhada nesse artigo sobre quais são um dos motivos do por que isso pode acontecer.

    Bem identificada a diferença nos deparamos com o seguinte ponto abordado na documentação do Google:

    Você pode inclusive ir la na documentação só clicar no link e tirar suas próprias conclusões, agora já pararam para pensar no motivo disso acontecer?

    Que diabos é o HyperLogLog++

    O HLL++ (HyperLogLog++), é um algoritimo que estima a cardinalidade dos dados aumentando a performance das consultas que realizamos dentro do Google Analytics, sejamos sincero, nunca ficamos 2 horas para exportar ou montar um relatório dentro do Google Analytics, muito pelo contrario, mesmo com seus bugs o Google Analytics, sobre tudo em sua nova versão o Google Analytics 4 é extremamente rápido.

    O que é cardinalidade no GA4?

    O algoritmo em questão tem adições feitas em relação ao algoritmo HyperLogLog e é baseado no documento HyperLogLog na prática: engenharia algorítmica de um algoritmo de estimativa de cardinalidade de última geração o grande ponto que o algoritimo trás é o equilíbrio entre a precisão e o uso de memória para os momentos que iremos extrair os nossos dados.

    Contagem Exata vs. Contagem Aproximada

    Contagem Exata

    A contagem exata envolve a contabilização precisa de cada item individual, como o número exato de visitantes em um site. Embora seja precisa, essa abordagem exige uma grande quantidade de memória e tempo de processamento, especialmente quando lidamos com volumes massivo de dados.

    Contagem Aproximada

    Para otimizar o desempenho, o Google Analytics 4 utiliza uma técnica de contagem aproximada chamada HyperLogLog++ (HLL++). Este é um algoritmo probabilístico que estima o número de itens distintos em um conjunto de dados. Ele é altamente eficiente em termos de memória e processamento, mas introduz uma pequena margem de erro nas contagens. É o caso do que falamos aqui no inicio do artigo, a diferença entre a exportação em csv e o que vc ve na plataforma.

    Como o HyperLogLog++ funciona no Google Analytics 4?

    O HLL++ é fundamental para que o Google Analytics 4 possa fornecer relatórios rápidos e escaláveis. Ao invés de armazenar cada usuário ou sessão individualmente, o GA4 mantém um esboço (sketch) dos dados que permite estimar o número de itens distintos.

    • Eficiência de Memória: O HLL++ usa estruturas de dados compactas, permitindo que o GA4 processe grandes volumes de dados sem sobrecarregar os recursos do sistema.
    • Margem de Erro Controlada: O algoritmo oferece uma precisão ajustável. No GA4, diferentes métricas utilizam diferentes níveis de precisão:
      • Usuários Ativos: Precisão de 1821 bits.
      • Sessões: Precisão de 1669 bits.

    Essa diferença na precisão afeta a margem de erro das estimativas. Quanto maior a precisão, menor a margem de erro, mas isso também pode aumentar o uso de memória.

    Por que os Dados da Planilha Diferem dos do GA4?

    Ao exportar dados do GA4 para uma planilha ou para o BigQuery, você pode notar que os números apresentados são ligeiramente maiores do que aqueles vistos nos relatórios do GA4. Isso ocorre porque:

    • Reagregação de Dados: A planilha pode realizar uma nova agregação dos dados, resultando em uma contagem exata ou em uma estimativa diferente.
    • Limitações do HLL++: O algoritmo não é perfeito e, ao trabalhar com conjuntos de dados diferentes ou ao reagrupar dados, as estimativas podem variar.

    Além disso, ao manipular os dados na planilha, você pode estar contando registros individuais, o que resulta em uma contagem exata, em contraste com a estimativa fornecida pelo HLL++ no GA4.

    Qual Dado Confiar Mais?

    A escolha entre confiar nos dados do GA4 ou nos dados exportados depende do contexto da sua análise:

    • GA4: Ideal para análises rápidas, monitoramento de tendências e insights gerenciais. As estimativas fornecidas são suficientemente precisas para a maioria das decisões estratégicas.
    • Planilha/BigQuery: Se você precisa de precisão absoluta, especialmente para fins financeiros, auditorias ou relatórios detalhados, os dados exportados podem ser mais adequados.

    Aprenda aqui o que é o Google BigQuery e como começar a usá-lo.

    Impacto do HLL++ nas Contagens do GA4

    Vamos considerar um exemplo prático:

    • No GA4: O relatório mostra que 10.000 usuários ativos visitaram o site. Este número é uma estimativa baseada no HLL++.
    • Na Planilha: Ao exportar os dados e realizar uma contagem, você encontra 10.250 usuários ativos. Esta é uma contagem exata ou uma estimativa diferente devido à reagregação dos dados.

    Essa diferença de 250 usuários representa a margem de erro introduzida pelo uso do HLL++ no GA4.

    Como Minimizar a Discrepância

    • Entenda as Limitações: Reconheça que o Google Analytics 4 utiliza estimativas e que pequenas discrepâncias são normais.
    • Use BigQuery para Análises Avançadas: Se a precisão é crucial, considere utilizar o BigQuery, onde você pode executar consultas SQL para obter contagens exatas.
    • Consistência nas Fontes de Dados: Sempre que possível, compare dados provenientes da mesma fonte e método de cálculo.

    As discrepâncias entre os relatórios do Google Analytics 4 e os dados exportados para planilhas são decorrentes do uso do algoritmo HLL++ para estimativas rápidas e eficientes. Para a maioria das aplicações, as estimativas do GA4 são suficientes. No entanto, para análises que exigem precisão absoluta, é recomendável confiar nos dados exportados, que oferecem contagens mais exatas.

    Artigos Relacionados

    WhatsApp