Boxplot – por que os gráficos de caixa são tão úteis e fáceis de compreender?

Os gráficos de caixa, mais conhecidos como boxplot, são bastante simples de se criar e muito importantes em nossas análises, pois acrescentam várias informações à média aritmética que normalmente utilizamos isoladamente.

ANÁLISE DE DADOS

Elias Roma Neto

7/20/20233 min read

Apresentação

A origem do gráfico de caixas é atribuída ao estatístico americano John Wilder Tukey (década de 1970). Denominado de box-and-whisker, é conhecido com boxplot ou gráfico de caixas graças à sua aparência, que, como o próprio nome diz, se assemelha a uma caixa.

Muito além de um recurso visual, facilita a análise de um conjunto de dados de forma simples e precisa, reduzindo distorções que análises apenas baseadas em médias podem acarretar.

Como funciona

Indo diretamente ao ponto, a ideia é muito simples e precisa. Você divide os dados que deseja analisar em quartis, ou seja, em quatro partes iguais e calcula cinco grandezas, além da média que sempre utilizamos:

  • Mínimo: menor valor no conjunto de dados

  • Primeiro quartil - Q1: determina onde se encontram 25% dos valores mais baixos

  • Mediana: o valor central do seu conjunto de dados (lembrando que mediana é diferente de média)

  • Terceiro quartil - Q3: determina onde se encontram 75% dos valores mais altos

  • Máximo: maior valor no conjunto de dados

Há ainda os valores discrepantes, conhecidos como outliers e que se encontram abaixo do valor mínimo ou acima do valor máximo identificados.

Na imagem a seguir, apresento um exemplo elaborado com 30 valores de salários extraídos do roteiro Indicadores e Dashboards, disponível neste mesmo site.

No exemplo apresentado, se fôssemos adotar apenas a média, nossa análise diria que os trabalhadores ganham em média R$ 2.080, mas com a utilização do boxplot é possível obtermos uma compreensão mais precisa dos salários dos trabalhadores do nosso exemplo. Apenas para ilustrar, há uma diferença considerável entre os valores mínimo e máximo encontrados, situação que a média não possibilita verificar.

Ok, mas o que esta análise nos diz sobre a amostra de 30 valores de salários que utilizamos?

  • Mínimo: o menor salário é de R$ 1.139

  • Primeiro quartil - Q1 = R$ 1.625: esta faixa de valores entre o mínimo e o Q1, no nosso exemplo é R$ 1.139 a R$ 1.625, e representa os salários que estão entre os 25% mais baixos da amostra

  • Mediana: o valor central deste conjunto de salários é de R$ 1.866 e a média dos salários da amostra é de R$ 2.080

  • Terceiro quartil - Q3 = R$ 2.327: esta faixa de valores entre o Q3 e o máximo, no nosso exemplo é R$ 2.327 a R$ 3.207, e representa os salários que estão entre os 75% mais altos da amostra

  • Máximo: o maior salário é de R$ 3.207

E quanto aos demais valores que estão no boxplot, digo, R$ 100, R$ 3.603, R$ 3.771 e R$ 3.991?

Bem, de imediato salta aos olhos o outlier de R$ 100. Esse valor pode nos indicar uma realidade cruel, se considerarmos que está correto, mas nos remete a verificar se não algum problema na base de dados ou na ETL (Extract Transform and Load ou Extração, Transformação e Carga dos dados). A propósito, caso queira mais alguns detalhes sobre a ETL, há uma publicação neste mesmo blog DataRoma. Este raciocínio aplica-se também aos outliers acima do valor máximo identificado.

Uma vez que os outliers tenham sido analisados e eventualmente tratado/corrigidos, quando for o caso, podemos concentrar nossa análise apenas nos quartis. E de que forma? Bem, aqui entra a natureza do que está sendo analisado ou a estratégia que tenha sido adotada.

Exemplificando, suponha que você esteja analisando qual é o salário que poderia oferecer a determinado profissional que deseja contratar. Nessa situação exemplo, se oferecêssemos um salário entre Q1 e Q3, estaríamos entre a maior parte dos valores praticados pelo mercado. Por outro lado, caso esse profissional seja muito demandado, oferecer um salário próximo ao quartil superior ou acima de Q3, tornaria sua vaga mais atrativa.

Concluindo

Via de regra, quando falamos de cálculos estatísticos as pessoas sentem sempre algum tipo de receio de que se trata de algo complexo e difícil. Neste post, tentei mostrar que o boxplot pode ser facilmente obtido com dois ou três cliques sobre os seus dados utilizando-se o MS-Excel.

Outras formas de obtê-lo e suas fórmulas podem até parecer mais complexas, mas não necessariamente você precisa se aprofundar em todos esses detalhes. Se compreender o significado dos quartis e como interpretá-los, pode confiar a sua obtenção à ferramenta estiver disponível. O MS Excel, por exemplo.

Saiba +

Consulte nos links a seguir mais detalhes sobre como criar e interpretar o boxplot, além de outros temas correlatos: