Metode Least Square pada Regresi Linier Sederhana

Berikut ini disajikan cara melakukan pendugaan parameter model regresi linier sederhana dengan menggunakan metode least square. Misalkan satu set data regresi yi,xi dimana i = 1, 2, ... , n, maka bentuk hubungan yi dan xi dalam persamaan regresi adalah sebagai berikut.

Sedangkan persamaan garis regresinya adalah sebagai berikut.

Persamaan error menjadi


Metode least square adalah metode yang meminimumkan jumlah kuadrat error, sehingga


Turunan persamaan tersebut terhadap bo dan b1 adalah sebagai berikut.
Turunan terhadap bo


Turunan terhadap b1
 
 

Dengan mensubstitusikan (i) dan (ii), maka diperoleh bo dan b1 sebagai berikut.

Metode Maximum Likelihood Estimation (MLE) pada Distribusi Normal

Berikut ini disajikan cara pendugaan parameter µ dan σ2 pada distribusi normal. Misalkan X1, X2, ... , Xn, adalah sampel acak dari suatu populasi yang berdistribusi normal dengan parameter µ dan σ2. Fungsi kepadatan peluang untuk distribusi normal tersebut adalah sebagai berikut.

Cara menetukan estimator parameter µ dan σ2 dengan metode Maximum Likelihood Estimation (MLE) adalah sebagai berikut.
  1. Membuat fungsi likelihood distribusi normal, yaitu sebagai berikut.

  2. Membuat transformasi fungsi tersebut dalam bentuk ln.
  3. Membuat turunan secara parsial terhadap parameter µ dan σ2 dan menyamakannya dengan nol.
    Turunan terhadap µ:

    Turunan terhadap σ2:
  4. Dari turunan parsial terhadap µ dan σ2 bisa diperoleh estimator parameter µ dan σ2 sebagai berikut.

Metode Maximum Likelihood Estimation (MLE) pada Distribusi Eksponensial

Misalkan X1, X2, ... , Xn, adalah sampel acak dari suatu populasi yang berdistribusi eksponensial dengan parameter λ, fungsi kepadatan peluang untuk distribusi eksponensial adalah sebagai berikut.

Menentukan estimator parameter dengan metode Maximum Likelihood Estimation (MLE) adalah sebagai berikut.
  1. Membuat fungsi likelihood distribusi eksponensial.
  2. Membuat fungsi tersebut dalam bentuk ln.
  3. Membuat turunan secara parsial terhadap parameter λ dan menyamakannya dengan nol.
  4. Dari turunan parsial terhadap λ bisa diperoleh estimator λ sebagai berikut.

Metode Maximum Likelihood Estimation (MLE) pada Distribusi Gamma

Misalkan X1, X2, ... , Xn, adalah sampel acak dari suatu populasi yang berdistribusi Gamma dengan parameter α dan β, fungsi kepadatan peluang untuk distribusi gamma adalah sebagai berikut.

Langkah -langkah menetukan estimator parameter dengan metode Maximum Likelihood Estimation (MLE) adalah sebagai berikut.
  1. Membuat fungsi likelihood distribusi gamma, yaitu sebagai berikut.

  2. Membuat fungsi tersebut dalam bentuk ln.
  3. Membuat turunan secara parsial terhadap parameter α dan β dan menyamakannya dengan nol.
    Turunan terhadap α:

    Turunan terhadap β:
  4. Dari turunan parsial terhadap β bisa diperoleh nilai β sebagai berikut.
  5. Hasil dari β disubsitusikan ke dalam persamaan turunan parsial terhadap α. Hasilnya adalah sebagai berikut.

    Persamaan di atas tidak berbentuk closed-form. Penyelesaiannya bisa dilakukan secara numerik misalnya dengan metode Newton-Raphson.

Cara Membangkitkan Data Berdistribusi Normal dengan Software Minitab

Berikut ini akan disajikan cara membangkitkan data berdistribusi normal dengan menggunakan software Minitab versi 16. Misalkan data yang akan dibangkitkan mengikuti distribusi normal dengan nilai mean = 30 dan standar deviasi = 3. Sedangkan jumlah data yang akan dibangkitkan (n) sebanyak 20. Langkah-langkah membangkitkan data adalah sebagai berikut.
  1. Buka program Minitab, kemudian pilih menu Calc >> Random Data >> Normal.

  2. Selanjutnya akan muncul jendela Normal Distribution.  Pada bagian Number of rows of data to generate isi 20 yang merupakan jumlah data yang akan dibangkitkan. Bagian Store in column diisi C1 yang merupakan lokasi penempatan data yang akan dibangkitkan. Pada bagian Mean isi 30 dan Standar deviation 3. Selanjutnya klik OK.

  3. Pada bagian Worksheet kolom C1 akan muncul data yang telah dibangkitkan sebagai berikut.

Uji Multivariate Normal Shapiro Wilk dengan R Software

Hipotesis untuk pengujian adalah sebagai berikut.
Ho = X1, X2, ... , Xn berdistribusi multivariat normal
H1 = X1, X2, ... , Xn tidak berdistribusi multivariat normal

Statistik uji yang digunakan adalah Shapiro Wilk Test dengan rumus penghitungan sebagai berikut.


Nilai ai adalah


Daerak kritisnya, tolak Ho jika W kecil dari α.

R-package yang perlu diinstall adalah 'mvnormtest'. Syntax yang digunakan adalah mshapiro.test(X). Dimana X adalah matriks set data yang akan diuji multivariat normalnya. Contoh penggunaannya adalah sebagai berikut.


> library(mvnormtest)
> Dataset <- read.table("D:/DataContoh.txt",
+ header=TRUE, sep="", na.strings="NA", dec=".", strip.white=TRUE)
> show(Dataset)
   C1 C2 C3 C4
1  23 14  2  3
2  14 12  4 14
3  14 17  9  7
4  17  6  7  7
5  13 12  6 18
6  13 14 12  9
7  10 14  5 12
8  14  5 10  5
9  16 13 16 22
10  8 16 13  8
11 11  9 12 20
12 13  8  9  6
13 22 14  7 10
14 12 15  5 13
15  6 15 10  7
16  9 17  7  9
17 17  6 15 10
18 18 12  7 22
19 15 11  8 18
20 11  7  8  5
> X <- t(Dataset[1:20,1:4])
> mshapiro.test(X)

 Shapiro-Wilk normality test

data:  Z
W = 0.8619, p-value = 0.008501

Uji Kesamaan Matriks Kovarian

Hipotesis yang digunakan adalah sebagai berikut.
H0 : Σ1 = Σ2 = ... = Σk = Σ
H1 : minimal ada satu Σi ≠ Σ, dimana i = 1,2, ... , k

Pengujian kehomogenan matriks kovarian dapat dilakukan dengan uji Box’s M. Uji Box’s M dirumuskan sebagai berikut.




Daerah penolakan untuk hipotesis nol dapat dihampiri dengan menggunakan sebaran chi-square yaitu:


Pengujian Kenormalan Multivariat (Uji Multivariate Normal)

Menurut Johnson dan Wichern (2007), untuk memeriksa data apakah merupakan multivariat normal dapat dilihat dari plot antara dj2 dengan chi-square ((j-0,5)/n).

 

dimana j = 1, 2, ..., n

Hipotesis yang digunakan adalah sebagai berikut.
H0: data berdistribusi multivariat normal.
H1: data tidak berdistribusi multivariat normal.

Pemeriksaan normal multivariat dilakukan dengan algoritma sebagai berikut:
  1. Menghitung dj2.
  2. Mendaftar dj2 sedemikian hingga d12d22 ≤ ... ≤ dn2.
  3. Membuat plot



Kriteria pemenuhan asumsi dilakukan secara visual yaitu jika plot membentuk garis lurus berarti data dapat didekati dengan sebaran normal (Johnson & Wichern 2007).

Analisis Diskriminan (Discriminant Analysis)

Analisis diskriminan adalah teknik statistika yang dipergunakan untuk mengklasifikasikan suatu individu atau observasi ke dalam suatu kelas atau kelompok berdasarkan sekumpulan variabel-variabel (Johnson & Wichern 2007). Model umum analisis diskriminan merupakan suatu kombinasi linear yang bentuknya sebagai berikut:


Membentuk fungsi diskriminan yang optimal diperlukan beberapa asumsi terhadap data yang digunakan. Asumsi ini antara lain adalah data pada variabel bebas seharusnya berdistribusi normal multivariat dan adanya kesamaan matriks varians-kovarians antar kelompok.

Dalam penyusunan fungsi diskriminan ada dua metode yang dapat digunakan, yaitu estimasi simultan dan estimasi stepwise. Cara mengetahui variabel bebas yang dapat mendiskriminasi suatu kelompok adalah menggunakan statistik uji Wilks Lamda, yaitu:

 

Fungsi diskriminan adalah kombinasi linear dari variabel-variabel yang dimiliki oleh kelompok-kelompok yang akan diklasifikasikan. Untuk dua grup dapat dilakukan menggunakan fungsi diskriminan linier Fisher, yaitu:


Nilai fungsi diskriminan Z merupakan dasar untuk menentukan suatu objek masuk kelompok yang mana dengan membandingkannya dengan rata-rata (centroid) dari nilai Z masing-masing kelompok. Jika ada dua kelompok masing-masing A dan B, maka


Kriteria perbandingan teknik klasifikasi didasarkan pada kesalahan klasifikasinya yang dikenal dengan Apparent Error Rate (APER) merupakan nilai dari besar kecilnya jumlah observasi yang salah dalam pengklasifikasian berdasarkan suatu fungsi klasifikasi (Johnson & Wichern 2007). Adapun APER dihitung dengan terlebih dahulu membuat tabel klasifikasi sebagai berikut:

Klasifikasi actual dan predicted group
Sumber: Johnson and Wichern (2007)



Sedangkan ketepatan prediksi pengelompokan secara tepat dapat menggunakan rumus Hit Ratio.

Analisis Klaster (Cluster) atau Analisis Gerombol

Analisis cluster sering juga disebut analisis gerombol. Analisis cluster adalah analisis statistika yang bertujuan untuk mengelompokkan data sedemikian sehingga data yang berada dalam kelompok yang sama mempunyai sifat yang relatif homogen daripada data yang berada dalam kelompok yang berbeda.

Ditinjau dari hal-hal yang dikelompokkan, analisis cluster dibagi menjadi dua macam, yaitu pengelompokan observasi dan pengelompokan variabel. Dalam pembahasan ini, pengelompokan yang dilakukan adalah pengelompokan observasi.

Jika ditinjau dari metode pengelompokannya, analisis cluster memiliki dua metode, yaitu :

  1. Metode Hierarki.

    Metode ini digunakan untuk mencari struktur pengelompokan dari objek-objek. Jadi, hasil pengelompokannya disajikan secara hierarki atau berjenjang. Metode hierarki ini terdiri dari dua cara, yaitu:

    a) Penggabungan (Agglomerative).
    Cara ini digunakan jika masing-masing objek dianggap satu kelompok kemudian antar kelompok yang jaraknya berdekatan bergabung menjadi satu kelompok.

    b) Pemecahan (Devise).
    Cara ini digunakan jika pada awalnya semua objek berada dalam satu kelompok. Setelah itu, sifat paling beda dipisahkan dan membentuk satu kelompok yang lain. Proses tersebut berlanjut sampai semua objek tersebut masing-masing membentuk satu kelompok.

  2. Metode Tidak Hierarki.

    Metode ini digunakan apabila jumlah kelompok yang diinginkan sudah diketahui dan biasanya dipakai untuk mengelompokkan data yang ukurannya besar.

Dalam proses penggabungan kelompok dengan metode hierarki selalu diikuti dengan perbaikan matriks jarak. Suatu fungsi disebut jarak jika mempunyai sifat tak negatif (dij ≥ 0) dan (dij = 0) jika i = j simetris (dij = dji), panjang salah satu sisi segitiga selalu lebih kecil atau sama dengan jumlah dua sisi yang lain (dijdik + djk).

Beberapa macam jarak yang biasa dipakai di dalam analisis kelompok:

Jarak Euclidean:
 

Jarak Manhattan:


Jarak Pearson:

Jarak Korelasi:
dij = 1 - rij

Jarak Korelasi Mutlak:
 dij = 1 - | rij |

Dalam banyak penelitian, jarak euclidean adalah jarang yang paling sering digunakan, begitu juga dengan kuadrat jarak euclidean.

Metode-metode pengelompokan hierarki dibedakan berdasarkan konsep jarak antar kelompok, penentuan jarak antar kelompok untuk metode-metode tersebut adalah sebagai berikut.

  1. Metode Single Linkage
    Metode ini mengelompokkan dua objek yang mempunyai jarak terdekat terlebih dahulu. Jarak antar kelompok (i,j) dengan k adalah :
    d(i,j)k = min(dik, djk)

  2.  Metode Complete Linkage
    Metode ini akan mengelompokkan dua objek yang mempunyai jarak terjauh terlebih dahulu. Jarak antar kelompok (i,j) dengan k adalah :
    d(i,j)k = max(dik, djk)

  3. Metode Average Linkage
    Metode ini mengelompokkan objek berdasarkan jarak rata-rata yang didapat dengan melakukan rata-rata semua jarak objek terlebih dahulu. Jarak antar kelompok (i,j) dengan k adalah :
    d(i,j)k = average(dik, djk)

  4. Metode Median Linkage
    Pada metode ini, jarak antara dua cluster adalah jarak di antara centroid cluster tersebut. Centroid adalah rata-rata jarak yang ada pada sebuah cluster yang didapat dengan melakukan rata-rata pada semua anggota suatu cluster tertentu. Dengan metode ini, setiap terjadi cluster baru, akan terjadi perhitungan ulang centroid hingga terbentuk cluster tetap. Jarak antar kelompok (i,j) dengan k adalah :
    d(i,j)k = median(dik, djk)

Hasil dari analisis akan disajikan dalam bentuk struktur pohon yang disebut dendogram. Pemotongan dendogram dapat dilakukan pada selisih jarak penggabungan yang terbesar. Akar pohon terdiri dari cluster tunggal yang berisi semua pengamatan, dan daun sesuai dengan pengamatan individu.

Algoritma untuk mengelompokkan hierarki pada umumnya menggunakan cara agglomerative, yaitu dimulai dari daun dan secara berurutan menggabungkan cluster bersama, atau pemecahan yang dimulai dari akar dan dibagi secara rekursif.

Pemotongan pada ketinggian tertentu akan memberikan clustering pada presisi yang dipilih. Sebagai contoh pada observasi {a}{b}{c}{d}{e} dan {f}. Misalnya pemotongan setelah baris kedua akan menghasilkan cluster {a}{bc}{de}{f}. Pemotongan setelah baris ketiga akan menghasilkan cluster {a}{bc}{def}, yang merupakan clustering kasar dengan sejumlah cluster yang lebih besar.

Secara bebas kita juga dapat membuat matriks jarak pada tahap ini dengan angka dalam baris ke-j kolom ke-i adalah jarak antara j dan elemen i. Kemudian, setelah clustering berlangsung, baris dan kolom menjadi kelompok dengan jarak yang sudah diperbarui. Ini adalah cara yang umum untuk mengimplementasikan jenis clustering dan berguna untuk menyembunyikan jarak antara cluster.

Setiap algomerasi terjadi pada jarak antar cluster yang lebih besar daripada algomerasi sebelumnya, dan clustering berhenti jika cluster terlalu jauh untuk digabung atau ketika ada jumlah angka cluster yang cukup kecil.

Tanya

Nama

Email *

Pesan *