images

25 Out 2023

Regressão Linear Simples

Regressão Linear



A Regressão Linear Simples é o modelo matemático que pode explicar a dependência entre a variável de entrada (x) e a variável de saída (Y), considerando que apenas duas variáveis estarão envolvidas.


Equação do modelo linear simples: 





Variável x: variável independente ou preditora;

Variável y: variável dependente ou variável resposta;

Parâmetro b0: coeficiente linear ou intercepto;

Parâmetro b1: coeficiente angular ou inclinação da reta. 


As questões que ocorrem após obtermos a equação de regressão linear são:

A equação é realmente adequada para o tipo de correlação existente entre as duas variáveis?

O modelo obtido será útil para realizar previsões?



Para responder essas perguntas e concluir se o modelo de regressão linear é adequado, devemos avaliar três pontos:

  1. P-valor da regressão: define se existe correlação entre as variáveis;
  2. Análise de resíduos: define se a equação é realmente adequada;
  3. Coeficiente de determinação (R2): define a representatividade da variável x para explicar o comportamento da variável y.

 



PASSO 1: Avaliar o p-valor da regressão.

Regra de decisão:

  • p-valor ≤ 0,05 – a correlação entre as duas variáveis é significativa.
  • p-valor > 0,05 – a correlação entre as duas variáveis não é significativa



 

PASSO 2: Coeficiente de Determinação.

Regra de decisão:


- O coeficiente será calculado como 0 ≤ R2 ≤ 100%.

- Quanto mais próximo de 100%, maior a representatividade da variável x ao explicar o comportamento da variabilidade que ocorre com a variável y, sendo ideal um R2 acima de 50%.

  • O restante da variabilidade é explicada por outras variáveis não utilizadas no modelo.

 




PASSO 3: Análise de Resíduos.

Devemos avaliar as seguintes suposições associadas à Regressão Linear Simples


  1. Os erros têm média zero e variância constante;
  2. Os erros não são correlacionados, ou seja, o valor de um erro não depende de qualquer outro erro;
  3. Os erros têm Distribuição Normal. 


Resíduo é a diferença entre o valor real (mensurado) da variável y e o valor correspondente estimado pelo modelo de regressão linear.




 


Resíduos versus ajustes

Use o gráfico de resíduos versus ajustes para verificar a pressuposição de que os resíduos possuem variância constante.


Resíduos x ordem de dados

Use o gráfico de resíduos versus ordem para verificar a pressuposição de que os resíduos não são correlacionados.


Resíduos versus preditores




Este é um gráfico de resíduos versus um preditor. Este gráfico deve mostrar um padrão aleatório de resíduos nos dois lados de 0. Padrões não aleatórios como o exemplo a seguir podem violar a pressuposição de que as variáveis preditoras não se relacionam com os resíduos. Você pode ter usado uma forma funcional incorreta para modelar a curvatura.



Padrão

O pode indicar

Dispersão grande ou irregular de resíduos entre valores ajustados

Variância não constante

Curvilíneo

Um termo de ordem mais alta ausente

Um ponto que está distante de zero

Um outlier

Um ponto que é distante dos outros pontos na direção x

Um ponto influente