A inferência estatística clássica procura encontrar a melhor estimativa para um determinado parâmetro desconhecido da população, \( \theta\), a partir da informação contida numa amostra. Como vimos, variando as estimativas de amostra para amostra, não devemos aceitar uma única estimativa quer esteja muito próxima quer esteja afastada do verdadeiro valor do parâmetro. Importa sim investigar no conjunto de amostras a proporção de estimativas que estão na vizinhança do parâmetro. Como a estatística amostral é uma variável aleatória então as estimativas produzidas são governadas pela sua distribuição de amostragem. Assim, em vez de um único valor isolado (de uma única estimativa), atribui-se a este valor um intervalo para significar que o verdadeiro valor do parâmetro desconhecido estará, com uma determinada probablidade, dentro desse intervalo.
Se \(T_1\) e \(T_2\) são duas estatísticas cuja distribuição de probabilidade depende de um parâmetro desconhecido \( \theta \) e \(P(T_1 \lt \theta \lt T_2) = \lambda\), onde \( 0 \lt \lambda \lt 1 \) então o intervalo aleatório \( (T_1, T_2) \) é um intervalo de confiança 100λ%.
Intervalo de confiança numa distribuição normal
Mova o ponto vermelho para calcular \(P(z_1 \leq Z \leq z_2) = \lambda \) .
1. Intervalo de confiança para uma média Quando a variância do universo é conhecida, o corolário ao teorema do limite central garante que $$ \bar{X} \sim N(\mu,\sigma/\sqrt{n}) $$, então podemos afirmar que a média amostral estará entre dois valores com uma confiança de 100λ%. Ou seja, \(P(t_1 \leq \bar{x} \leq t_2) = \lambda \), e por conseguinte $$ P\left ( -z_{\frac{\alpha}{2}} \leq \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \leq +z_{\frac{\alpha}{2}} \right ) = \lambda $$ ou, resolvendo ambas as inequações em ordem a \(\mu\), $$ P\left (\bar{x}-z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x}+z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right ) = \lambda $$ Consideremos, por exemplo, uma população constituída por todos os alunos que frequentam uma determinada disciplina leccionada em diferentes universidades portuguesas. Trata-se portanto de um universo bastante grande e admita-se que a variável aleatória que representa a classificação dos alunos tem distribuição \(N(\mu,\sigma)\), da qual conhecemos \(\sigma = 3 \) valores. O interesse agora é o de encontrar um valor que possamos propor para classificação média dos alunos que frequentam essa disciplina, \(\mu\). Para tal recolhemos as classificações de 25 alunos seleccionados de forma aleatória e cujos resultados apresentamos no quadro seguinte: $$ \newcommand\T{\Rule{0pt}{0.5em}} \begin{array}{|c|c|c|c|c|} \hline 9.58 & 12.05 & 8.96 & 10.24 & 5.96 \\\hline 15.54 & 11.45 & 9.85 & 9.18 & 13.32 \\\hline 8.91 & 9.65 & 10.45 & 7.01 & 14.23 \\\hline 18.08 & 10.99 & 11.69 & 8.44 & 9.68 \\\hline 9.25 & 4.94 & 6.51 & 9.19 & 11.8 \\\hline \end{array} $$ A média da amostra é $$ \hat{\mu}=\bar{x}=\frac{\sum_{i=1}^{25} x_i}{25}=10.28 $$ e como $$ Z=\frac{\bar{X} - \mu}{\frac{\sigma}{ \sqrt{n}}} \sim N(0,1) $$, então o intervalo de confiança a 95% para \(\mu\) é dado por $$ P(10.28-1.96 \frac{3}{\sqrt{25}} \leq \mu \leq 10.28+1.96 \frac{3}{\sqrt{25}})=0.95 \\ P(9.10 \leq \mu \leq 11.45)=0.95 $$ Este resultado significa então que a classificação média dos alunos que frequentam a disciplina estará muito provavelmente entre 9.1 e 11.45. Ou seja, estará neste intervalo com uma probabilidade de 0.95.
2. Intervalo de confiança para uma proporção (população de Bernoulli) Consideremos agora uma amostra aleatória, de dimensão n, retirada de uma população de Bernoulli, ou seja, onde a variável aleatória asume apenas dois valores: 0 e 1. Correspondendo à ausência ou à presença do atributo relevante no indivíduo seleccionado. Assim, \(\sum_{i=1}^{n} x_i \) é a contagem do número de indivíduos que manifestam ter o atributo e por conseguinte, a média é dada por $$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}, \text{com } \; 0 \leq \bar{x} \leq 1 $$ e representa a proporção amostral. A estimação da verdadeira proporção presente na população, p ou \(\pi\)), é realizada através da variável fulcral $$ Z=\frac{\bar{x} - p}{\sqrt{\frac{p(1-p)}{n}}} \sim N(0,1) $$. No entanto, este resultado tem o inconveniente de incluir o parâmetro desconhecido, p, no cálculo do desvio padrão de \(\bar{x}\). Para ultrapassar este problema podemos substituir p pelo seu estimador, \(\bar{x}\). $$ Z=\frac{\bar{x} - p}{\sqrt{\frac{\bar{x}(1-\bar{x})}{n}}} \sim N(0,1) $$ e a partir deste resultado identificar o inervalo de confiança para uma proporção. $$ P\left (\bar{x}-z_{\frac{\alpha}{2}} \sqrt{\frac{\bar{x}(1-\bar{x}}{n}} \leq p \leq \bar{x}+z_{\frac{\alpha}{2}} \sqrt{\frac{\bar{x}(1-\bar{x})}{n}} \right ) = \lambda $$ No exemplo anterior estávamos interessados em estimar a verdadeira classificação média para a população alunos, mas agora a questão poderá ser apenas os alunos que reprovaram ou ficaram aprovados. Trata-se portanto de uma situação binária onde o atributo relevante é o facto do aluno estar aprovado, ou seja ser detentor de uma classificação superior ou igual a 9.5: classificação \(\lt 9.5 \Rightarrow x=0 \) classificação \(\geq 9.5 \Rightarrow x=1\)
Nas classificações dos 25 alunos contam-se 15 alunos nestas circunstâncias, logo $$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}=\frac{15}{25}=0.6 $$ e se considerarmos uma confiança de 95% a estimativa intervalar para a proporção de alunos que terão obtido aproveitamento na disciplina será dada por $$ P\left (0.6-1.96 \sqrt{\frac{0.6 \times 0.4}{25}} \leq p \leq 0.6+1.96 \sqrt{\frac{0.6 \times 0.4}{25}} \right ) = 0.95 \Leftrightarrow P(0.41\leq p \leq 0.79) =0.95 $$. Neste caso, a verdadeira proporção de alunos que terão tido aproveitamento estará entre 0.41 e 0.79 com uma probabilidade de 0.95.
3. Intervalo de confiança para uma variância Se \(X_1, X_2 , ..., X_n \) é uma amostra aleatória, seleccionada a partir de uma distribuição normal com parâmetros desconhecidos, então podemos construir um intervalo de confiança para \(\sigma^2\) utilizando a variável fulcral: $$ (n-1)\frac{S^2}{\sigma^2} \sim \chi^{2}_{n-1} $$ Assim, $$ P \left (a \leq (n-1)\frac{S^2}{\sigma^2} \leq b \right )= \lambda \text{ , onde } a = \chi^{2}_{1-\frac{\alpha}{2},n-1} \text{ e } b = \chi^{2}_{\frac{\alpha}{2},n-1} $$ ou, em alternativa $$ P \left (\frac{(n-1)S^2}{b} \leq \sigma^2 \leq \frac{(n-1)S^2}{a}\right )=\lambda $$ Considerando os dados do exemplo anterior e admitindo que se desconhece \(\sigma^2\), o intervalo de confiança a 95% para este parâmetro seria dado por: $$ P \left (\frac{24\times 8.61}{39.3641} \leq \sigma^2 \leq \frac{24 \times 8.61}{12.4012} \right )=0.95 $$ Ou seja, $$ (5.25,16.7) $$.
4. Intervalo de confiança para a diferença de duas médias Se \(X_{11}, X_{12} , ..., X_{1m} \) é uma amostra aleatória de dimensão m, seleccionada a partir de uma distribuição normal com média \(\mu_1\) e variância \(\sigma_1^2\) e \(X_{21}, X_{22} , ..., X_{2n} \) é outra amostra aleatória com dimensão n, seleccionada a partir de uma distribuição normal com média \(\mu_2\) e variância \(\sigma_2^2\) então o nosso interesse pode centrar-se na comparação entre \(\mu_1\) e \(\mu_2\). Ou seja, o interesse pode ser agora em estimar \(\mu_1 - \mu_2\) a partir de $$ \bar{X}_1 \sim N(\mu_1,\sigma_1/\sqrt{m}) \\ \bar{X}_2 \sim N(\mu_2,\sigma_2/\sqrt{n}) $$. Pelo facto da soma de duas variáveis aleatórias independentes normais ter também uma distribuição normal, $$ \bar{X}_1 - \bar{X}_2 \sim N \left ( \mu_1 - \mu_2, \sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}} \right ) $$, ou $$\frac{ \bar{X}_1 - \bar{X}_2 - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} \sim N(0,1)$$ então o intervalo de confiança obtido a partir desta nova variável é dado por $$P \left ( -z_{\frac{\alpha}{2}} \leq \frac{ \bar{X}_1 - \bar{X}_2 - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} \leq +z_{\frac{\alpha}{2}} \right ) = \lambda$$ equivalente a $$P \left ( \bar{X}_1 - \bar{X}_2 -z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}} \leq \mu_1 - \mu_2 \leq \bar{X}_1 - \bar{X}_2 +z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}} \right ) = \lambda$$ Continuando a aceitar o exemplo dos alunos podemos agora acrescentar que na mesma disciplina, em Espanha, uma amostra de 30 alunos produziu uma média um pouco superior: 11.5. Será que esta diferença amostral (10.28 - 11.5 = -1.22) permite afirmar que em Espanha a classificação média à disciplina é superior à de Portugal? Uma forma de responder a esta questão é através do intervalo de confiança, por exemplo a 95%. Se admitirmos que \(\sigma_1^2 = \sigma_2^2 = 3^2\) então $$P \left ( 10.28 - 11.5 -1.96 \times \sqrt{\frac{3^2}{25}+\frac{3^2}{30}} \leq \mu_1 - \mu_2 \leq 10.28 - 11.5 +1.96 \times \sqrt{\frac{3^2}{25}+\frac{3^2}{30}} \right ) = 0.95$$ e por conseguinte $$ P \left (-3.5 \leq \mu_1 - \mu_2 \leq 1.03 \right ) = 0.95 $$. Uma vez que o limite inferior é negativo e o limite superior é positivo o intervalo é inconclusivo relativamente à questão que colocamos. Este resultado significa que se retirássemos amostras sucessivas de ambos os universos e comparássemos duas a duas 95% dos resultados obtidos seriam umas vezes negativos, a média amostral espanhola superior à portuguesa \(\bar{X}_2 > \bar{X}_1\), enquanto noutras vezes seriam positivos informando que a média amostral portuguesa seria superior à espanhola \(\bar{X}_1 > \bar{X}_2\).