Regressão Linear
A Regressão Linear Simples é o modelo matemático que pode explicar a dependência entre a variável de entrada (x) e a variável de saída (Y), considerando que apenas duas variáveis estarão envolvidas.
Equação do modelo linear simples:
Variável x: variável independente ou preditora;
Variável y: variável dependente ou variável resposta;
Parâmetro b0: coeficiente linear ou intercepto;
Parâmetro b1: coeficiente angular ou inclinação da reta.
As questões que ocorrem após obtermos a equação de regressão linear são:
A equação é realmente adequada para o tipo de correlação existente entre as duas variáveis?
O modelo obtido será útil para realizar previsões?
Para responder essas perguntas e concluir se o modelo de regressão linear é adequado, devemos avaliar três pontos:
- P-valor da regressão: define se existe correlação entre as variáveis;
- Análise de resíduos: define se a equação é realmente adequada;
- Coeficiente de determinação (R2): define a representatividade da variável x para explicar o comportamento da variável y.
PASSO 1: Avaliar o p-valor da regressão.
Regra de decisão:
- p-valor ≤ 0,05 – a correlação entre as duas variáveis é significativa.
- p-valor > 0,05 – a correlação entre as duas variáveis não é significativa
PASSO 2: Coeficiente de Determinação.
Regra de decisão:
- O coeficiente será calculado como 0 ≤ R2 ≤ 100%.
- Quanto mais próximo de 100%, maior a representatividade da variável x ao explicar o comportamento da variabilidade que ocorre com a variável y, sendo ideal um R2 acima de 50%.
- O restante da variabilidade é explicada por outras variáveis não utilizadas no modelo.
PASSO 3: Análise de Resíduos.
Devemos avaliar as seguintes suposições associadas à Regressão Linear Simples
- Os erros têm média zero e variância constante;
- Os erros não são correlacionados, ou seja, o valor de um erro não depende de qualquer outro erro;
- Os erros têm Distribuição Normal.
Resíduo é a diferença entre o valor real (mensurado) da variável y e o valor correspondente estimado pelo modelo de regressão linear.
Resíduos versus ajustes
Use o gráfico de resíduos versus ajustes para verificar a pressuposição de que os resíduos possuem variância constante.
Resíduos x ordem de dados
Use o gráfico de resíduos versus ordem para verificar a pressuposição de que os resíduos não são correlacionados.
Resíduos versus preditores
Este é um gráfico de resíduos versus um preditor. Este gráfico deve mostrar um padrão aleatório de resíduos nos dois lados de 0. Padrões não aleatórios como o exemplo a seguir podem violar a pressuposição de que as variáveis preditoras não se relacionam com os resíduos. Você pode ter usado uma forma funcional incorreta para modelar a curvatura.
|
Padrão |
O pode indicar |
|
Dispersão grande ou irregular de resíduos entre valores ajustados |
Variância não constante |
|
Curvilíneo |
Um termo de ordem mais alta ausente |
|
Um ponto que está distante de zero |
Um outlier |
|
Um ponto que é distante dos outros pontos na direção x |
Um ponto influente |









