2.4. Relação entre duas variáveis qualitativas

Tabelas de contingência. Sejam X e Y duas variáveis qualitativas com r e s modalidades, respectivamente. Se utilizarmos uma tabela para estruturar a apresentação dos dados teremos uma tabela de contingência com r linhas e s colunas (veja-se a tabela 1).
Tabela 1.

 

Onde ni.=j=1snijen.j=i=1rnij Representando ni. o total em linha e n.j o total em coluna. Neste sentido, o total de indivíduos que constituem esta população (N) é neste caso representado por n.., sendo n..=i=1rni.=j=1sn.j=i=1rj=1snij
Consideremos uma vez mais a turma de 30 alunos do nosso curso de informática divididos agora também por género: 0 - feminino e 1 - masculino. A distribuição cruzada dos alunos pelas modalidades das duas variáveis é apresentada na tabela 2.

 

Tabela 2.

 

Neste contexto, quando entramos na análise bivariada e cruzamos informação relativa a duas variáveis, podemos responder a outro tipo de questões. Por exemplo, investigar se as duas variáveis estarão ou não relacionadas (associadas). Poderemos, ou não, associar certas modalidades da variável X com determinadas modalidades da variável Y? Ou seja, neste universo de 30 alunos, existirá uma associação entre o resultado da avaliação e o género? O género feminino, ou masculino, estará associado com algum dos resultados (excluído, admitido ou dispensado)? Para responder a esta questão importa, em primeiro lugar, notar que a partir de uma tabela de contingência podem ser realizadas duas leituras consoante a variável que se priviligie: a leitura em linha ou a leitura em coluna. Se a opção for a linha então as frequências condicionais que importam são calculadas por nijni., enquanto no caso da coluna será nijn.j. Assim, se pretendermos saber como se distribuem as classificações por rapazes e raparigas, então teremos 56 dos alunos excluídos são raparigas, enquanto apenas 16 são rapazes. Nos alunos admitidos 49 são raparigas (44,4%) e 59 são rapazes (55,6%). Nos dispensados as proporções para raparigas e rapazes alteram-se significativamente para 20% e 80%, respectivamente. Por outro lado, se pretendermos saber as classificações obtidas por cada género, então teremos 512 das raparigas foram excluídas (42%), 412 foram admitidas (33%) e 312 foram dispensadas (25%). Nos rapazes teremos então 5,6% de excluídos, 27,8% admitidos e 66,6% dispensados.

 

O desvio à independência Se as proporções (as frequências condicionadas) encontradas em todas as linhas forem idênticas,i.e., n1jn1.=n2jn2.=...=nrjnr.,j então podemos dizer que as variáveis X e Y são independentes, uma vez que o conhecimento de X não muda a distribuição condicional de Y. Resultando daqui por soma dos numeradores e denominadores que nijni.=n.jn.. Portanto, a situação de independência é dada por nij=ni.n.jn.. que representa a frequência esperada (teórica) caso as variáveis sejam independentes. No nosso exemplo a situação de independência, que corresponde à distribuição proporcional dos indivíduos segundo a estrutura em linha ou segundo a estrutura em coluna, é apresentada na tabela 3.

 

Tabela 3.

 

Neste sentido, quanto maior forem as diferenças entre nij e nij maior tenderá a ser a associação entre X e Y. É geralmente aceite como medida de associação o qui-quadrado - χ2 - dado por: χ2=i=1rj=1s(nijnij)2nij Portanto, se nij=nij,i,j então estaremos no caso em que as variáveis são independentes e χ2=0. No entanto, o problema surge no limite superior a partir do qual possamos estabelecer uma dependência funcional uma vez que χ2N(s1) ou χ2N(r1). Para ultrapassar esta dificuldade diversos coeficientes foram propostos para obter uma medida que varie entre 0 (independência) e 1 (ligação funcional).
1. o coeficiente de contingência de K. Pearson - C=χ2χ2+N

 

2. o coeficiente de Tschuprow - T=χ2N(r1)(s1)

 

3. o coeficiente de Cramer - V=χ2Ninf(s1);(r1)

 

No exemplo dos alunos teremos então χ2=7.268 e C=0.441 o que permite afirmar a existência de alguma associação entre género e resultado do exame. Com efeito, comparando as frequências observadas, presentes na tabela 2, e as frequências esperadas, presentes na tabela 3, verifica-se que os alunos do género feminino estarão associados a resultados mais negativos (exclusão) enquanto os alunos masculinos estarão mais associados a resultados positivos (dispensa).