Kode sumberVideo

Command Palette

Search for a command to run...

Statistika

Konsep Regresi Linear

Apa Itu Regresi Linear?

Dengan Diagram Pencar, kita bisa melihat hubungan antara dua variabel (data X dan data Y).

Nah, kalau titik-titik di diagram pencar itu kelihatannya membentuk pola lurus (ada korelasi linear, entah positif atau negatif), kita bisa coba gambar satu garis lurus yang paling pas melewati tengah-tengah kumpulan titik itu. Garis inilah yang disebut Garis Regresi Linear. Proses menemukan garis ini namanya Regresi Linear.

Garis "Best-Fit"

Garis Regresi Linear sering juga disebut garis best-fit (paling pas). Kenapa? Karena dari sekian banyak kemungkinan garis lurus yang bisa digambar, garis inilah yang posisinya paling "dekat" dengan semua titik data secara keseluruhan. Garis ini mencoba merangkum tren atau pola lurus yang ada pada data.

Contoh Garis Regresi

Misalnya kita punya data lama belajar (jam) dan nilai ujian. Titik-titiknya kan cenderung naik (korelasi positif).

Garis Regresi untuk Hubungan Lama Belajar dan Nilai Ujian
Garis menunjukkan tren linear (garis regresi) dari data.

Lihat garis di atas? Itu adalah garis regresi linearnya. Garis itu menunjukkan tren umum: semakin lama belajar (X naik), nilai ujian (Y) juga cenderung naik mengikuti arah garis tersebut.

Apa gunanya garis regresi?

Salah satu kegunaan utamanya adalah untuk prediksi. Misalnya, kalau ada siswa baru yang belajar selama 7 jam, kita bisa gunakan garis regresi ini untuk memperkirakan berapa kira-kira nilai ujian yang akan dia dapat, meskipun kita tidak punya data pasti untuk 7 jam.

Konsep Matematis

Garis regresi linear (garis best-fit) dicari menggunakan metode yang disebut Metode Kuadrat Terkecil (Least Squares Method). Idenya adalah mencari garis lurus yang meminimalkan jumlah kuadrat jarak vertikal dari setiap titik data ke garis tersebut.

Secara matematis, garis regresi linear memiliki bentuk:

y^=a+bx\hat{y} = a + bx

Keterangan:

  • y^\hat{y} (dibaca: y-topi) adalah nilai y yang diprediksi oleh garis regresi.
  • xx adalah nilai variabel independen.
  • bb adalah kemiringan (slope) garis, menunjukkan seberapa besar perubahan y^\hat{y} untuk setiap satu satuan perubahan xx .
  • aa adalah perpotongan sumbu y (intercept), yaitu nilai prediksi y^\hat{y} ketika x=0x = 0.

Nilai bb dan aa dihitung dari data (x,y)(x, y) yang kita punya menggunakan rumus berikut:

b=n(xy)(x)(y)n(x2)(x)2b = \frac{n(\sum xy) - (\sum x)(\sum y)}{n(\sum x^2) - (\sum x)^2}
a=yˉbxˉa = \bar{y} - b\bar{x}

Keterangan rumus:

  • nn adalah banyaknya pasangan data.
  • x\sum x adalah jumlah semua nilai x.
  • y\sum y adalah jumlah semua nilai y.
  • xy\sum xy adalah jumlah dari hasil perkalian setiap pasangan x dan y.
  • x2\sum x^2 adalah jumlah dari kuadrat setiap nilai x.
  • xˉ\bar{x} adalah rata-rata nilai x (xn\frac{\sum x}{n} ).
  • yˉ\bar{y} adalah rata-rata nilai y (yn\frac{\sum y}{n} ).

Dengan rumus ini, kita bisa mendapatkan satu garis lurus yang dianggap paling mewakili pola hubungan linear pada data kita.