Skip to main content

Cara Membangkitkan Data Regresi Linier Sederhana dengan R

Regresi linier sederhana adalah alat analisis statistik yang menjelaskan hubungan satu variabel terikat (dependen) dengan satu variabel bebas (independen) dalam bentuk sebuah fungsi linier.

Model regresi linier sederhana:

\[y = a + bx + e\]

Untuk keperluan simulasi, kita seringkali membutuhkan data acak (data random) yang cocok untuk digunakan pada model tersebut.

Berikut ini adalah langkah-langkah membangkitkan (generate) data random yang bisa digunakan dalam analisis regresi linier sederhana.

  1. Tentukan terlebih dahulu model regresi yang diinginkan serta banyaknya data yang akan dihasilkan.
  2. Misalnya model regresi yang diinginkan adalah: \[y = 0{,}8 + 1{,}2x + e\] Sedangkan banyaknya data yang ingin dihasilkan adalah 30.

  3. Pada program R, definisikan banyaknya data terlebih dahulu.
  4. n <- 30
    n
    ## [1] 30

  5. Bangkitkan data acak \(x\) yang mengikuti distribusi seragam.
  6. Misalnya nilai \(x\) berkisar antara 15 sampai dengan 25. Data \(x\) dibangkitkan sebanyak banyaknya data, yaitu 30.

    x <- runif(n, 15, 25)
    x
    ##  [1] 18.43270 24.27926 15.46895 19.76647 18.64290 16.76804 23.51127 21.77269 15.67277 15.33661
    ## [11] 15.53727 23.54850 20.36633 18.76494 16.25757 16.37846 22.52027 18.03065 19.81280 20.76931
    ## [21] 15.33289 23.41614 22.56847 18.13212 16.21113 20.27772 23.14963 23.88505 24.50376 24.51304

  7. Bangkitkan data residual.
  8. Dalam analisis regresi linier, residual diasumsikan mengikuti distribusi normal dengan rata-rata (mean) sama dengan 0 dan standar deviasi sama dengan \(\sigma\). Pada contoh kali ini kita tetapkan standar deviasi sebesar 6.

    e <- rnorm(n, mean = 0, sd = 6)
    e
    ##  [1]  2.2559785  6.2964338 -7.4879663  2.3702313 -6.7422721 -0.9794275 -3.5460546  7.4428948 -5.7766209 -2.7936482
    ## [11]  2.4892448 -2.4913272  0.3326187  4.2867914  1.0764056  7.5753470  1.9924806  4.8303581  0.8446072 -6.6714898
    ## [21] -3.8809510  2.4100546 -1.7330485  2.8741721 -3.9284756 -2.5352418 -0.1120841 -0.3678159  1.2679049 -1.3703260

  9. Hitung data \(y\) menggunakan model regresi.
  10. Data \(y\) dihitung berdasarkan model regresi yang telah ditetapkan sebelumnya, yaitu \(y = 0{,}8 + 1{,}2x + e\)

    y <- 0.8 + (1.2*x) + e
    y
    ##  [1] 25.17521 36.23154 11.87478 26.88999 16.42921 19.94222 25.46746 34.37013 13.83071 16.41029
    ## [11] 21.93396 26.56687 25.57221 27.60472 21.38549 28.02950 29.81680 27.26714 25.41996 19.05168
    ## [21] 15.31852 31.30942 26.14912 25.43272 16.32488 22.59802 28.46747 29.09424 31.47241 28.84533

  11. Visualisasikan data \(x\) dan \(y\) dalam diagram pencar (scatter plot).
  12. plot(x, y, col = "blue")
    Diagram Pencar Regresi
  13. Tampilkan garis regresi pada diagram pencar.
  14. abline(lm(y ~ x), col = "red")
    Garis Regresi
  15. Tampilkan data regresi, yaitu data \(y\) dan data \(x.\)
  16. datareg <- cbind(y, x)
    datareg
    ##             y        x
    ## [1,] 25.17521 18.43270
    ## [2,] 36.23154 24.27926
    ## [3,] 11.87478 15.46895
    ##  ...
    ## [30,] 28.84533 24.51304

  17. Ekspor data dalam format .csv.
  18. write.csv(datareg, "data_regresi.csv")

    Perintah di atas biasanya menghasilkan file dalam format .csv pada folder Documents.