book | niustat.com

Tabelas de contingência. Sejam X e Y duas variáveis qualitativas com r e s modalidades, respectivamente. Se utilizarmos uma tabela para estruturar a apresentação dos dados teremos uma tabela de contingência com r linhas e s colunas (veja-se a tabela 1).

Tabela 1.

Onde

n_{i .} = \sum_{j = 1}^{s} n_{i j} e n_{. j} = \sum_{i = 1}^{r} n_{i j}

$n_{i.} = \sum \limits_{j=1}^s n_{ij} \hspace{10 mm} e \hspace{10 mm} n_{.j}=\sum \limits_{i=1}^r n_{ij}$ Representando

n_{i .}

$n_{i.}$ o total em linha e

n_{. j}

$n_{.j}$ o total em coluna. Neste sentido, o total de indivíduos que constituem esta população (N) é neste caso representado por

n_{. .}

$n_{..}$ , sendo

n_{. .} = \sum_{i = 1}^{r} n_{i .} = \sum_{j = 1}^{s} n_{. j} = \sum_{i = 1}^{r} \sum_{j = 1}^{s} n_{i j}

$n_{..}= \sum \limits_{i=1}^r n_{i.} = \sum \limits_{j=1}^s n_{.j} = \sum \limits_{i=1}^r \sum \limits_{j=1}^s n_{ij}$

Consideremos uma vez mais a turma de 30 alunos do nosso curso de informática divididos agora também por género: 0 - feminino e 1 - masculino. A distribuição cruzada dos alunos pelas modalidades das duas variáveis é apresentada na tabela 2.

Tabela 2.

Neste contexto, quando entramos na análise bivariada e cruzamos informação relativa a duas variáveis, podemos responder a outro tipo de questões. Por exemplo, investigar se as duas variáveis estarão ou não relacionadas (associadas). Poderemos, ou não, associar certas modalidades da variável X com determinadas modalidades da variável Y? Ou seja, neste universo de 30 alunos, existirá uma associação entre o resultado da avaliação e o género? O género feminino, ou masculino, estará associado com algum dos resultados (excluído, admitido ou dispensado)? Para responder a esta questão importa, em primeiro lugar, notar que a partir de uma tabela de contingência podem ser realizadas duas leituras consoante a variável que se priviligie: a leitura em linha ou a leitura em coluna. Se a opção for a linha então as frequências condicionais que importam são calculadas por

\frac{n_{i j}}{n_{i .}}

$\frac{n_{ij}}{n_{i.}}$ , enquanto no caso da coluna será

\frac{n_{i j}}{n_{. j}}

$\frac{n_{ij}}{n_{.j}}$ . Assim, se pretendermos saber como se distribuem as classificações por rapazes e raparigas, então teremos

\frac{5}{6}

$\frac{5}{6}$ dos alunos excluídos são raparigas, enquanto apenas

\frac{1}{6}

$\frac{1}{6}$ são rapazes. Nos alunos admitidos

\frac{4}{9}

$\frac{4}{9}$ são raparigas (44,4%) e

\frac{5}{9}

$\frac{5}{9}$ são rapazes (55,6%). Nos dispensados as proporções para raparigas e rapazes alteram-se significativamente para 20% e 80%, respectivamente. Por outro lado, se pretendermos saber as classificações obtidas por cada género, então teremos

\frac{5}{12}

$\frac{5}{12}$ das raparigas foram excluídas (42%),

\frac{4}{12}

$\frac{4}{12}$ foram admitidas (33%) e

\frac{3}{12}

$\frac{3}{12}$ foram dispensadas (25%). Nos rapazes teremos então 5,6% de excluídos, 27,8% admitidos e 66,6% dispensados.

O desvio à independência Se as proporções (as frequências condicionadas) encontradas em todas as linhas forem idênticas,i.e.,

\frac{n_{1 j}}{n_{1.}} = \frac{n_{2 j}}{n_{2.}} = . . . = \frac{n_{r j}}{n_{r .}}, \forall j

$\frac{n_{1j}}{n_{1.}} = \frac{n_{2j}}{n_{2.}} = ... = \frac{n_{rj}}{n_{r.}},\forall j$ então podemos dizer que as variáveis X e Y são independentes, uma vez que o conhecimento de X não muda a distribuição condicional de Y. Resultando daqui por soma dos numeradores e denominadores que

\frac{n_{i j}}{n_{i .}} = \frac{n_{. j}}{n_{. .}}

$\frac{n_{ij}}{n_{i.}} = \frac{n_{.j}}{n_{..}}$ Portanto, a situação de independência é dada por

n_{i j}^{*} = \frac{n_{i .} n_{. j}}{n_{. .}}

$n_{ij}^{*}=\frac{n_{i.}n_{.j}}{n_{..}}$ que representa a frequência esperada (teórica) caso as variáveis sejam independentes. No nosso exemplo a situação de independência, que corresponde à distribuição proporcional dos indivíduos segundo a estrutura em linha ou segundo a estrutura em coluna, é apresentada na tabela 3.

Tabela 3.

Neste sentido, quanto maior forem as diferenças entre

n_{i j}

$n_{ij}$ e

n_{i j}^{*}

$n_{ij}^{*}$ maior tenderá a ser a associação entre X e Y. É geralmente aceite como medida de associação o qui-quadrado -

χ^{2}

$\chi ^{2}$ - dado por:

χ^{2} = \sum_{i = 1}^{r} \sum_{j = 1}^{s} \frac{(n_{i j} - n_{i j}^{*})^{2}}{n_{i j}^{*}}

$\chi ^{2} = \sum_{i=1}^{r}\sum_{j=1}^{s}\frac{(n_{ij}-n_{ij}^{*})^2}{n_{ij}^{*}}$ Portanto, se

n_{i j} = n_{i j}^{*}, \forall i, j

$n_{ij} = n_{ij}^{*}, \forall i,j$ então estaremos no caso em que as variáveis são independentes e

χ^{2} = 0

$\chi^2 = 0$ . No entanto, o problema surge no limite superior a partir do qual possamos estabelecer uma dependência funcional uma vez que

χ^{2} \leq N (s - 1)

$\chi^2 \leq N(s-1)$ ou

χ^{2} \leq N (r - 1)

$\chi^2 \leq N(r-1)$ . Para ultrapassar esta dificuldade diversos coeficientes foram propostos para obter uma medida que varie entre 0 (independência) e 1 (ligação funcional).
1. o coeficiente de contingência de K. Pearson -

C = \sqrt{\frac{χ^{2}}{χ^{2} + N}}

$C = \sqrt{\frac{\chi^2}{\chi^2+N}}$

2. o coeficiente de Tschuprow -

T = \sqrt{\frac{χ^{2}}{N \sqrt{(r - 1) (s - 1)}}}

$T = \sqrt{\frac{\chi^2}{N\sqrt{(r-1)(s-1)}}}$

3. o coeficiente de Cramer -

V = \sqrt{\frac{χ^{2}}{N i n f (s - 1); (r - 1)}}

$V = \sqrt{\frac{\chi^2}{N \; inf (s-1);(r-1)}}$

No exemplo dos alunos teremos então

χ^{2} = 7.268

$\chi^2 = 7.268$ e

C = 0.441

$C = 0.441$ o que permite afirmar a existência de alguma associação entre género e resultado do exame. Com efeito, comparando as frequências observadas, presentes na tabela 2, e as frequências esperadas, presentes na tabela 3, verifica-se que os alunos do género feminino estarão associados a resultados mais negativos (exclusão) enquanto os alunos masculinos estarão mais associados a resultados positivos (dispensa).

Elementos de Estatística

2.4. Relação entre duas variáveis qualitativas