Skip to main content

Regresi Linier Sederhana

Regresi linier sederhana adalah sebuah model statistik yang digunakan untuk menjelaskan hubungan dua variabel dalam bentuk fungsional. Dua variabel tersebut adalah variabel dependen (\(y\)) atau disebut juga dengan variabel respon dan variabel independen (\(x\)) atau disebut juga dengan variabel prediktor atau variabel penjelas. Skala data yang digunakan dalam regresi linier sederhana adalah interval atau rasio.

Model Regresi Linier Sederhana

Jika terdapat pasangan data \((x_1,y_1),\) \((x_2,y_2),\) \(...,\) \((x_n,y_n),\) maka hubungan fungsional pasangan data tersebut dijelaskan dalam model regresi linier sederhana sebagai berikut. \[y = \beta_0 + \beta_1x + \varepsilon\] dimana parameter \(\beta_0\) (intercept) dan \(\beta_1\) (slope) adalah parameter-parameter yang tidak diketahui, sedangkan \(\varepsilon\) adalah error random yang mengikuti distribusi normal dengan \(\text{E}(\varepsilon)=0\) dan \(\text{Var}(\varepsilon)=\sigma^2.\)

Parameter \(\beta_0\) dan \(\beta_1\) dapat diestimasi dengan \(b_0\) dan \(b_1,\) sehingga estimasi garis regresi menjadi \[\hat{y}_i=b_0+b_1x_i\] dimana \(b_0\) dan \(b_1,\) dapat dihitung dari data sampel dengan rumus berikut: \[\begin{aligned} b_1 &= \frac {\displaystyle n\sum_{i=1}^n x_iy_i - \left(\sum_{i=1}^n x_i\right)\left(\sum_{i=1}^n y_i\right)} {\displaystyle n\sum_{i=1}^n x_i^2 - \left(\sum_{i=1}^n x_i\right)^2}\\ b_0 &= \bar{y} - b_1\bar{x} \end{aligned}\]


Penurunan Rumus Estimasi Regresi Linier Sederhana Menggunakan Ordinary Least Squares (OLS)

Salah satu metode estimasi yang digunakan untuk mengestimasi parameter regresi linier sederhana adalah metode kuadrat terkecil atau ordinary least squares (OLS). Proses dari metode ini adalah meminimumkan jumlah kuadrat error atau sum of squared errors (SSE). Nilai error yang dimaksud adalah \(e=y_i-\hat{y},\) sehingga jumlah kuadrat error adalah

\[\begin{aligned} SSE&=\sum_{i=1}^n e_i^2\\ &=\sum_{i=1}^n {(y_i-\hat{y}_i)}^2 \end{aligned}\]

Substitusi persamaan estimasi garis regresi \(\hat{y}_i = b_0 + b_1x_i\) ke dalam persamaan jumlah kuadrat error di atas. Persamaannya akan menjadi

\[SSE = \sum_{i=1}^n {(y_i-b_0 - b_1x_i)}^2\]

Cara meminimumkan persamaan SSE di atas adalah dengan melakukan turunan secara parsial terhadap \(b_0\) dan \(b_1,\) kemudian samakan turunan tersebut dengan 0.

Langkah pertama, turunkan \(SSE\) secara parsial terhadap \(b_0.\)

\[\begin{aligned} \frac{\partial SSE}{\partial b_0} &= 0\\ \frac{\partial}{\partial b_0}\sum_{i=1}^n {(y_i-b_0-b_1x_i)}^2 &= 0\\ \sum_{i=1}^n -2(y_i-b_0-b_1x_i) &= 0\\ \sum_{i=1}^n y_i-nb_0-b_1\sum_{i=1}^n x_i &= 0 \end{aligned}\]

Selanjutnya persamaan tersebut dibagi dengan \(n,\) sehingga bentuknya menjadi

\[\begin{aligned} \frac{1}{n}\sum_{i=1}^n y_i - \frac{1}{n} nb_0 - \frac{1}{n}b_1\sum_{i=1}^n x_i &= 0\\ \bar{y}-b_0-b_1\bar{x} = 0 \end{aligned}\] dengan demikian diperoleh rumus \(b_0,\) yaitu \[b_0 = \bar{y}-b_1\bar{x}\]

Selanjutnya turunkan \(SSE\) secara parsial terhadap \(b_1.\)

\[\begin{aligned} \frac{\partial SSE}{\partial b_1} &= 0\\ \frac{\partial}{\partial b_1}\sum_{i=1}^n {(y_i-b_0-b_1x_i)}^2 &= 0\\ \sum_{i=1}^n {-2x_i(y_i-b_0-b_1x_i)} &= 0\\ \sum_{i=1}^n {(x_iy_i-b_0x_i-b_1x_i^2)} &=0 \end{aligned}\]

Substitusikan persamaan \(b_0 = \bar{y}-b_1\bar{x}\) ke dalam persamaan di atas.

\[\begin{aligned} \sum_{i=1}^n {(x_iy_i-(\bar{y}-b_1\bar{x})x_i-b_1x_i^2)} &= 0\\ \sum_{i=1}^n {(x_iy_i-\bar{y}x_i+b_1\bar{x}x_i-b_1x_i^2)} &= 0\\ \sum_{i=1}^n x_iy_i-\bar{y}\sum_{i=1}^n x_i+b_1\bar{x}\sum_{i=1}^n x_i-b_1\sum_{i=1}^n x_i^2 &= 0\\ b_1\sum_{i=1}^n x_i^2-b_1\bar{x}\sum_{i=1}^n x_i &= \sum_{i=1}^n x_iy_i-\bar{y}\sum_{i=1}^n x_i \end{aligned}\]

Kalikan ruas kiri dan kanan persamaan di atas dengan \(n.\)

\[nb_1\sum_{i=1}^n x_i^2 - nb_1\bar{x}\sum_{i=1}^n x_i = n\sum_{i=1}^n x_iy_i - n\bar{y}\sum_{i=1}^n x_i\]

Ingat bahwa \(\displaystyle \bar x = \frac {1}{n} \sum_{i=1}^n x_i\) dan \(\displaystyle \bar y = \frac {1}{n} \sum_{i=1}^n y_i,\) sehingga

\[\begin{aligned} nb_1\sum_{i=1}^n x_i^2 - nb_1\left(\frac {1}{n} \sum_{i=1}^n x_i\right)\sum_{i=1}^n x_i &= n\sum_{i=1}^n x_iy_i - n\left(\frac {1}{n} \sum_{i=1}^n y_i\right)\sum_{i=1}^n x_i \\ nb_1\sum_{i=1}^n x_i^2 - b_1\left(\sum_{i=1}^n x_i\right)^2 &= n\sum_{i=1}^n x_iy_i - \left(\sum_{i=1}^n y_i\right) \left(\sum_{i=1}^n x_i\right)\\ b_1 \left\{n\sum_{i=1}^n x_i^2 - \left(\sum_{i=1}^n x_i\right)^2\right\} &= n\sum_{i=1}^n x_iy_i - \left(\sum_{i=1}^n x_i\right)\left(\sum_{i=1}^n y_i\right) \end{aligned}\]

dengan demikian diperoleh rumus \(b_1,\) yaitu

\[b_1 = \frac{\displaystyle n\sum_{i=1}^n x_iy_i - \left(\sum_{i=1}^n x_i\right) \left(\sum_{i=1}^n y_i\right)}{\displaystyle n\sum_{i=1}^n x_i^2-\left(\sum_{i=1}^n x_i\right)^2}\]

Koefisien Determinasi

Koefisien determinasi adalah nilai yang menunjukkan seberapa besar variabel independen \((x)\) mampu menjelaskan variabel dependen \((y)\) dalam model regresi yang terbentuk. Koefisien determinasi \((R^2)\) dirumuskan oleh \[R^2=\frac{SSR}{SST},\] dimana

\[\begin{aligned} SSR &= \sum_{i=0}^n(\hat{y}_i - \bar{y})^2\\ SST &= \sum_{i=0}^n(y_i - \bar{y})^2 \end{aligned}\]

Nilai koefisien determinan selalu bernilai positif dan berkisar antara 0 sampai dengan 1. Semakin besar nilai koefisien determinasi maka semakin besar kemampuan variabel independen \((x)\) dalam menjelaskan variabel dependen \((y)\) pada model regresi yang terbentuk.

Contoh Soal Regresi Linier Sederhana

Seorang manager ingin mengetahui hubungan antara lamanya tenaga penjualan melakukan penjualan dalam satuan jam \((x)\) dengan banyaknya produk yang berhasil terjual \((y)\). Dari sampel sebanyak 5 orang tenaga penjualan, diperoleh data lamanya dan banyaknya penjualan sebagai berikut.

\(x\)
\(y\)
1
2
5
4
4
6
2
4
3
2

Buatlah model regresi hubungan lamanya melakukan penjualan dan banyaknya penjualan produk tersebut dan hitung koefisien determinasinya!

Jawab:

Untuk menyelesaikan soal tersebut buatlah tabel yang kolomnya adalah \(x_i,\) \(y_i,\) \(x_i^2\) dan \(x_iy_i\) terlebih dahulu.

\(x_i\) \(y_i\) \(x_i^2\) \(x_iy_i\)
1
2
1
2
5
4
25
20
4
6
16
24
2
4
4
8
3
2
9
6
15
18
55
60

Dari tabel tersebut dapat diperoleh

\[\begin{aligned} \sum_{i=1}^n x_i &= 15\\ \sum_{i=1}^n y_i &= 18\\ \sum_{i=1}^n x_i^2 &= 55\\ \sum_{i=1}^n x_iy_i &= 60 \end{aligned}\] Selanjutnya hitung \(\bar{x},\) \(\bar{y}\) dan \(b_1.\) \[\begin{aligned} \bar{x} &= \frac{1}{n}\sum_{i=1}^n x_i\\ &= \frac{1}{5}(15)\\ &= 3\\ \\ \bar{y} & =\frac{1}{n}\sum_{i=1}^n y_i\\ &= \frac{1}{5}(18)\\ &= 3\text{,}6\\ \\ b_1 &= \frac{\displaystyle n\sum_{i=1}^n x_iy_i-\left(\sum_{i=1}^n x_i\right)\left(\sum_{i=1}^n y_i\right)}{\displaystyle n\sum_{i=1}^n x_i^2-\left(\sum_{i=1}^n x_i\right)^2}\\ &= \frac{(5)(60)-(15)(18)}{(5)(55)-(15^2)}\\ &= \frac{30}{50}\\ &= 0\text{,}6 \end{aligned}\]

Selanjutnya dari nilai-nilai di atas, hitunglah \(b_0.\)

\[\begin{aligned} b_0 &= \bar{y}-b_1\bar{x}\\ &= (3\text{,}6)-(0\text{,}6)(3)\\ &= 1\text{,}8 \end{aligned}\]

Dengan demikian model yang terbentuk adalah

\[\hat{y}_i=1\text{,}8+0\text{,}6x_i\]

Untuk menghitung koefisien determinasi \((R^2),\) buatlah tabel yang kolom adalah \(y_i,\) \(\hat{y}_i,\) \(\hat{y}_i - \bar{y}\) dan \(y_i - \bar{y}.\)

\(y_i\)
\(\hat{y}_i\)
\((\hat{y_i}-\bar{y})^2\)
\((y_i-\bar{y})^2\)
2
3
1,44
2,56
4
4,2
1,44
0,16
6
5,4
0,36
5,76
4
3
0,36
0,16
2
4,2
0,00
2,56
18
18
3,6
11,2
\[\begin{aligned} SSR &= \sum_{i=0}^n(\hat{y}_i - \bar{y})^2\\ &= 3\text{,}6\\ SST &= \sum_{i=0}^n(y_i - \bar{y})^2\\ &= 11\text{,}2 \end{aligned}\] Dengan demikian, \[R^2=\frac{SSR}{SST} = \frac{3\text{,}6}{11\text{,}2} = 0\text{,}32\]

Regresi Linier Sederhana dengan R

Langkah pertama, input data \(x\) dan \(y\) terlebih dahulu.


x <- c(1, 5, 4, 2, 3)
y <- c(2, 4, 6, 4, 2)

Hitung regresi linier sederhana menggunakan lm.


rls <- lm(y ~ x)

Tampilkan hasil regresi dengan perintah summary.


summary(rls)