3  Dados Qualitativos

O tratamento de dados qualitativos (categóricos) é comparativamente simples, resumindo-se à elaboração contagens sob a forma de tabelas de contingência e sua representação gráfica.

3.1 Tabelas de contingência

Uma tabela de contingência faz a enumeração da todas as categorias (níveis) presentes numa variável categórica e respetivas frequências. Uma frequência é o número de vezes que cada categoria ocorre nos dados, ou seja, trata-se de uma contagem.

O conjunto de dados do R HairEyeColor contém a cor do cabelo e a cor dos olhos de um conjunto de alunos. A Tabela 3.1 mostra a tabela de contingência para a variável que contém a cor dos olhos.

Tabela 3.1: Tabela de contingência para a cor dos olhos
Cor Frequência Absoluta Frequência Relativa (%)
Blue 215 36.3
Brown 220 37.2
Green 64 10.8
Hazel 93 15.7
Total 592 100.0
a Intencionalmente, os nomes das cores não foram traduzidos.

Neste caso, as categorias aparecem ordenadas alfabeticamente. Como se trata de uma variável nominal, seria perfeitamente aceitável outra ordenação. A tabela também inclui uma coluna com frequências relativas (ou percentagens) e uma linha final com os totais.

Cálculo das frequências relativas

Se \(f_i\) representar a frequência absoluta da categoria \(i\) e \(n\) for o total de observações, ou seja, \(n=\sum_i f_i\), então, a frequência relativa será \(f'_i=\frac{f_i}{n}\). Se este valor for multiplicado por 100, pode ser entendido como a percentagem de observações em cada categoria.

3.2 Representação gráfica

Para visualizar os dados de uma tabela de contingência para uma variável categórica o gráfico de barras é visualização mais adequada. Na Figura 3.1 estão várias visualizações possíveis, nem todas as mais adequadas.

(a) Uma cor, simples
(b) Uma cor, com linhas de referência
(c) Ordem decrescente
(d) Barras horizontais
(e) Várias cores
(f) Várias cores com legenda
Figura 3.1: Gráfico de barras

As figuras 3.1 (a) a 3.1 (c) são visualizações aceitáveis, a escolha entre elas é sobretudo uma questão de estilo. A Figura 3.1 (d) utiliza barras horizontais, o que melhora a visualização quando há muitas categorias, não sendo este o caso, o gráfico é aceitável.

Já na Figura 3.1 (e) a utilização de cores é redundante, uma vez que não acrescenta qualquer valor informativo e sobrecarrega a figura. Na Figura 3.1 (f) é colocada uma legenda em vez de rótulos em cada barra, o que dificulta a perceção da correspondência entre cada categoria e cada barra. A utilização de cores diferentes só se justifica quando se pretende destacar determinadas categorias.

Importante

A questões estéticas e de design (proporções, cores, tipo de letra, etc.) têm grande importância na qualidade da visualização gráfica. Como esta questão sai fora do âmbito deste texto, havendo inúmeros recursos disponíveis sobre o assunto, apenas se referem os aspetos mais gerais.

Na Figura 3.2 apresentam-se mais duas variantes do gráfico de barras. Na Figura 3.2 (a) foram acrescentados rótulos com a quantidade em cada categoria. Na figura Figura 3.2 (b) o gráfico é apresentado em frequências relativas (percentagens), ao contrário dos anteriores, onde se utilizaram frequências absolutas.

(a) Com rótulos
(b) Com frequências relativas
Figura 3.2: Variantes ao gráfico de barras
Dica

Os gráficos de barras funcionam bem quando o número de categorias não é exagerado e quando as alturas das barras não são muito díspares. Quando há muitas categorias pode sempre avaliar-se a possibilidade de agrupar categorias menos relevantes.

O gráfico circular

Neste secção não poderia deixar de referir o “gráfico circular” também referido vulgarmente como queijo ou, pelo nome em inglês pie chart.

A Figura 3.3 mostra duas variantes do gráfico em causa. Na Figura 3.3 (a) foi utilizada uma legenda e na Figura 3.3 (b) foram utilizados rótulos para as categorias com informação sobre as frequências relativas.

(a) Com legenda
(b) Com rótulos
Figura 3.3: Gráfico circular

O gráfico de barras não é adequado para ajudar a comparar grandezas e perceber as diferenças relativas. Há muito poucas situações em que o gráfico circular seja preferível ao gráfico de barras. As principais vantagens do gráfico de barras são:

  • Clareza: torna as comparações entre categorias mais claras e precisas, especialmente se houver muitas categorias.
  • Flexibilidade: permite, por exemplo, a utilização de valores negativos, o que é impossível no gráfico circular.
Importante

O gráfico circular raramente se recomenda. A exceção será quando se pretende criar um maior impacto visual em situações que se pretenda mostrar comparações simples entre poucas categorias (duas a cinco). E mesmo nestas situações, o gráfico de barras é perfeitamente aceitável.

O livro OpenIntro Statistics (Diez et al., 2019) ilustra este ponto com um exemplo da área da Biologia (Wilson & Reeder, 2005). O gráfico circular da Figura 3.4 pretende mostrar quantas espécies existem em cada ordem da classe dos mamíferos. Como existe um número elevado de ordens e algumas delas têm frequências muito baixas, o gráfico circular é totalmente ineficaz como forma de veicular a informação.

Figura 3.4: Exemplo de mau gráfico circular

A mesma informação pode ser visualizada mais claramente através de um gráfico de barras como o apresentado na Figura 3.5. Embora o número de categorias seja elevado e torne o gráfico “pesado”, é muito mais eficaz que o gráfico circular equivalente.

No entanto, como as observações estão concentradas num pequeno conjunto de categorias, a maior parte da área da Figura 3.5 está vazia. Uma alternativa para melhorar este de gráfico seria a representação das frequências numa escala logarítmica, tal como se apresenta na Figura 3.6.

Figura 3.5: Gráfico de barras com categorias díspares
Figura 3.6: Gráfico de barras com escala logarítmica
Escala logaritmica

Numa escala logarítmica os intervalos entre valores são potências da base utilizada no logaritmo. Por exemplo, na Figura 3.6 utilizou-se o logaritmo decimal (a base é 10). Logo, o intervalo entre 1 e 10 é o mesmo que entre 10 e 100 e que entre 100 e 1000, ou seja, potências da base 10 (100 = 1, 101 = 10, 102 = 100, 103 = 1000, etc.).

Uma escala logarítmica é uma ferramenta de grande utilidade sempre que os diferentes valores a representar diferem em várias ordens de grandeza, tal como neste caso, em que a frequência mínima é 1 e a máxima é 2277.

O exemplo anterior ilustra a existência de múltiplas alternativas para a visualização dos dados. A escolha da mais adequada resulta de um processo iterativo de tentativa e erro, explorando as possibilidades do software no sentido de melhorar a apresentação da informação.

Tutoriais

Depois de ler este capítulo pode verificar como são implementados estes conceitos no ambiente computacional R. Os tutoriais listados abaixo estão diretamente relacionados com este capítulo.

Tutorial Descrição
Gráficos Noções fundamentais sobre a elaboração de gráficos no R.
Gráfico de Barras Construção de tabelas de contingência e gráficos de barras no R, para uma ou duas variáveis categóricas.
Nenhum item correspondente