Regresi linier sederhana adalah alat analisis statistik yang menjelaskan hubungan satu variabel terikat (dependen) dengan satu variabel bebas (independen) dalam bentuk sebuah fungsi linier.
Model regresi linier sederhana:
Untuk keperluan simulasi, kita seringkali membutuhkan data acak (data random) yang cocok untuk digunakan pada model tersebut.
Berikut ini adalah langkah-langkah membangkitkan (generate) data random yang bisa digunakan dalam analisis regresi linier sederhana.
- Tentukan terlebih dahulu model regresi yang diinginkan serta banyaknya data yang akan dihasilkan.
- Pada program R, definisikan banyaknya data terlebih dahulu.
- Bangkitkan data acak \(x\) yang mengikuti distribusi seragam.
- Bangkitkan data residual.
- Hitung data \(y\) menggunakan model regresi.
- Visualisasikan data \(x\) dan \(y\) dalam diagram pencar (scatter plot).
- Tampilkan garis regresi pada diagram pencar.
- Tampilkan data regresi, yaitu data \(y\) dan data \(x.\)
- Ekspor data dalam format
.csv
.
Misalnya model regresi yang diinginkan adalah: \[y = 0{,}8 + 1{,}2x + e\] Sedangkan banyaknya data yang ingin dihasilkan adalah 30.
n <- 30
n
## [1] 30
Misalnya nilai \(x\) berkisar antara 15 sampai dengan 25. Data \(x\) dibangkitkan sebanyak banyaknya data, yaitu 30.
x <- runif(n, 15, 25)
x
## [1] 18.43270 24.27926 15.46895 19.76647 18.64290 16.76804 23.51127 21.77269 15.67277 15.33661
## [11] 15.53727 23.54850 20.36633 18.76494 16.25757 16.37846 22.52027 18.03065 19.81280 20.76931
## [21] 15.33289 23.41614 22.56847 18.13212 16.21113 20.27772 23.14963 23.88505 24.50376 24.51304
Dalam analisis regresi linier, residual diasumsikan mengikuti distribusi normal dengan rata-rata (mean) sama dengan 0 dan standar deviasi sama dengan \(\sigma\). Pada contoh kali ini kita tetapkan standar deviasi sebesar 6.
e <- rnorm(n, mean = 0, sd = 6)
e
## [1] 2.2559785 6.2964338 -7.4879663 2.3702313 -6.7422721 -0.9794275 -3.5460546 7.4428948 -5.7766209 -2.7936482
## [11] 2.4892448 -2.4913272 0.3326187 4.2867914 1.0764056 7.5753470 1.9924806 4.8303581 0.8446072 -6.6714898
## [21] -3.8809510 2.4100546 -1.7330485 2.8741721 -3.9284756 -2.5352418 -0.1120841 -0.3678159 1.2679049 -1.3703260
Data \(y\) dihitung berdasarkan model regresi yang telah ditetapkan sebelumnya, yaitu \(y = 0{,}8 + 1{,}2x + e\)
y <- 0.8 + (1.2*x) + e
y
## [1] 25.17521 36.23154 11.87478 26.88999 16.42921 19.94222 25.46746 34.37013 13.83071 16.41029
## [11] 21.93396 26.56687 25.57221 27.60472 21.38549 28.02950 29.81680 27.26714 25.41996 19.05168
## [21] 15.31852 31.30942 26.14912 25.43272 16.32488 22.59802 28.46747 29.09424 31.47241 28.84533
plot(x, y, col = "blue")

abline(lm(y ~ x), col = "red")

datareg <- cbind(y, x)
datareg
## y x
## [1,] 25.17521 18.43270
## [2,] 36.23154 24.27926
## [3,] 11.87478 15.46895
## ...
## [30,] 28.84533 24.51304
write.csv(datareg, "data_regresi.csv")
Perintah di atas biasanya menghasilkan file dalam format .csv
pada folder Documents
.