- Kepentingan homoscedasticity
- Homoscedasticity berbanding heteroscedasticity
- Ujian homoscedasticity
- Pemboleh ubah piawai
- Ujian bukan grafik mengenai homoscedasticity
- Rujukan
The homoscedasticity dalam model statistik ramalan berlaku jika semua kumpulan data daripada satu atau lebih pemerhatian, varians (atau bebas) corak dengan berkenaan dengan pembolehubah penerangan kekal tidak berubah.
Model regresi boleh menjadi homoscedastic atau tidak, dalam hal ini kita berbicara mengenai heteroscedasticity.

Rajah 1. Lima set data dan regresi yang sesuai untuk set tersebut. Varians berkenaan dengan nilai yang diramalkan adalah sama pada setiap kumpulan. (upav-biblioteca.org)
Model regresi statistik dari beberapa pemboleh ubah bebas disebut homoscedastic, hanya jika variasi ralat dari pemboleh ubah yang diramalkan (atau sisihan piawai dari pemboleh ubah bersandar) tetap seragam untuk kumpulan nilai yang berbeza dari pemboleh ubah penjelasan atau bebas.
Dalam lima kumpulan data pada Gambar 1, varians dalam setiap kelompok telah dihitung, sehubungan dengan nilai yang dianggarkan oleh regresi, sehingga menjadi sama pada setiap kelompok. Lebih jauh diandaikan bahawa data mengikuti taburan normal.
Pada tahap grafik itu bermaksud bahawa titik-titik sama tersebar atau tersebar di sekitar nilai yang diramalkan oleh penyesuaian regresi, dan bahawa model regresi mempunyai kesalahan dan kesahan yang sama untuk julat pemboleh ubah penjelasan.
Kepentingan homoscedasticity
Untuk menggambarkan pentingnya homoscedasticity dalam statistik ramalan, perlu dibandingkan dengan fenomena yang berlawanan, heteroscedasticity.
Homoscedasticity berbanding heteroscedasticity
Bagi rajah 1, di mana terdapat homoscedasticity, memang benar bahawa:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Di mana Var ((yi-Yi); Xi) mewakili varians, pasangan (xi, yi) mewakili data dari kumpulan i, sementara Yi adalah nilai yang diramalkan oleh regresi untuk nilai rata-rata Xi kumpulan. Variasi data n dari kumpulan i dikira seperti berikut:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Sebaliknya, ketika terjadi heteroskedastisitas, model regresi mungkin tidak berlaku untuk seluruh wilayah di mana ia dihitung. Rajah 2 menunjukkan contoh keadaan ini.

Rajah 2. Kumpulan data yang menunjukkan heteroskedastisiti. (Penjelasan sendiri)
Rajah 2 mewakili tiga kumpulan data dan kesesuaian set menggunakan regresi linear. Harus diingat bahawa data dalam kumpulan kedua dan ketiga lebih tersebar daripada kumpulan pertama. Grafik dalam gambar 2 juga menunjukkan nilai min setiap kumpulan dan bar kesalahannya ± σ, dengan sisihan piawai σ bagi setiap kumpulan data. Perlu diingat bahawa sisihan piawai σ adalah punca kuasa dua varians.
Jelas bahawa dalam kes heteroskedastisitas, ralat estimasi regresi berubah dalam julat nilai pemboleh ubah penjelasan atau bebas, dan pada selang waktu di mana kesalahan ini sangat besar, ramalan regresi tidak boleh dipercayai atau tidak berkaitan.
Dalam model regresi kesalahan atau sisa (dan -Y) mesti diedarkan dengan varians yang sama (σ ^ 2) sepanjang selang nilai pemboleh ubah bebas. Atas sebab inilah model regresi yang baik (linear atau tidak linier) mesti lulus ujian homoscedasticity.
Ujian homoscedasticity
Titik-titik yang ditunjukkan dalam gambar 3 sesuai dengan data sebuah kajian yang mencari hubungan antara harga (dalam dolar) rumah sebagai fungsi dari ukuran atau luas dalam meter persegi.
Model pertama yang akan diuji adalah regresi linear. Pertama sekali, diperhatikan bahawa pekali penentuan R ^ 2 fit cukup tinggi (91%), jadi dapat dipikirkan bahawa fit itu memuaskan.
Walau bagaimanapun, dua wilayah dapat dibezakan dengan jelas dari grafik penyesuaian. Salah satunya, yang di sebelah kanan tertutup oval, memenuhi homoscedasticity, sementara wilayah di sebelah kiri tidak memiliki homoscedasticity.
Ini bermaksud bahawa ramalan model regresi cukup dan boleh dipercayai dalam lingkungan antara 1800 m ^ 2 hingga 4800 m ^ 2 tetapi sangat tidak memadai di luar wilayah ini. Di zon heteroskedastik, kesalahan tidak hanya sangat besar, tetapi juga data sepertinya mengikuti tren yang berbeza daripada yang dicadangkan oleh model regresi linier.

Gambar 3. Harga perumahan vs kawasan dan model ramalan dengan regresi linear, menunjukkan zon homoscedasticity dan heteroscedasticity. (Penjelasan sendiri)
Grafik penyebaran data adalah ujian visual termos dan termudah yang paling mudah, namun, pada saat di mana ia tidak begitu jelas seperti pada contoh yang ditunjukkan dalam gambar 3, perlu menggunakan grafik dengan pemboleh ubah tambahan.
Pemboleh ubah piawai
Untuk memisahkan kawasan di mana homoscedasticity dipenuhi dan yang tidak, pemboleh ubah standard ZRes dan ZPred diperkenalkan:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Harus diingat bahawa pemboleh ubah ini bergantung pada model regresi yang diterapkan, kerana Y adalah nilai ramalan regresi. Berikut adalah plot penyebaran ZRes vs ZPred untuk contoh yang sama:

Gambar 4. Perlu diperhatikan bahawa di zon homoscedasticity ZRes tetap seragam dan kecil di kawasan ramalan (Penjelasan sendiri).
Dalam grafik dalam Rajah 4 dengan pemboleh ubah yang diseragamkan, kawasan di mana ralat sisa kecil dan seragam dipisahkan dengan jelas dari kawasan yang tidak. Di zon pertama, homoscedasticity dipenuhi, sementara di wilayah di mana kesalahan residu sangat berubah-ubah dan besar, heteroscedasticity dipenuhi.
Penyesuaian regresi diterapkan pada kelompok data yang sama pada gambar 3, dalam hal ini penyesuaiannya tidak linear, kerana model yang digunakan melibatkan fungsi potensial. Hasilnya ditunjukkan dalam gambar berikut:

Rajah 5. Zon baru homoscedasticity dan heteroscedasticity dalam data yang sesuai dengan model regresi bukan linear. (Penjelasan sendiri).
Dalam graf Rajah 5, kawasan homoscedastic dan heteroscedastic harus diperhatikan dengan jelas. Perlu juga diperhatikan bahawa zon-zon ini ditukar sehubungan dengan zona-zona yang terbentuk dalam model fit linear.
Dalam grafik Gambar 5 terbukti bahawa walaupun terdapat pekali penentuan fit yang cukup tinggi (93,5%), model tersebut tidak mencukupi untuk keseluruhan selang pemboleh ubah penjelasan, kerana data untuk nilai lebih besar daripada 2000 m ^ 2 terdapat heteroskedastisiti.
Ujian bukan grafik mengenai homoscedasticity
Salah satu ujian bukan grafik yang paling banyak digunakan untuk mengesahkan sama ada homoscedasticity dipenuhi atau tidak adalah ujian Breusch-Pagan.
Tidak semua butir-butir ujian ini akan diberikan dalam artikel ini, tetapi ciri-ciri asasnya dan langkah-langkah yang sama digariskan secara kasar:
- Model regresi diterapkan pada data n dan varians yang sama dikira berkenaan dengan nilai yang dianggarkan oleh model σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Pemboleh ubah baru ditakrifkan ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Model regresi yang sama diterapkan pada pemboleh ubah baru dan parameter regresi barunya dihitung.
- Nilai kritikal Chi square (χ ^ 2) ditentukan, ini menjadi separuh daripada jumlah petak sisa baru dalam pemboleh ubah ε.
- Jadual taburan Chi Square digunakan dengan mempertimbangkan tahap kepentingan (biasanya 5%) dan bilangan darjah kebebasan (# pemboleh ubah regresi tolak unit) pada paksi-x meja, untuk mendapatkan nilai dewan.
- Nilai kritikal yang diperoleh dalam langkah 3 dibandingkan dengan nilai yang terdapat dalam jadual (χ ^ 2).
- Sekiranya nilai kritikal berada di bawah jadual, kita mempunyai hipotesis nol: terdapat homoscedasticity
- Sekiranya nilai kritikal berada di atas jadual, kita mempunyai hipotesis alternatif: tidak ada homoscedasticity.
Sebilangan besar pakej perisian statistik seperti: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic dan beberapa yang lain menggabungkan ujian homoscedasticity Breusch-Pagan. Ujian lain untuk mengesahkan keseragaman varians adalah ujian Levene.
Rujukan
- Kotak, Pemburu & Pemburu. (1988) Statistik untuk penyelidik. Saya membalikkan editor.
- Johnston, J (1989). Kaedah ekonometrik, editor Vicens -Vives.
- Murillo dan González (2000). Manual Ekonometrik. Universiti Las Palmas de Gran Canaria. Dipulihkan dari: ulpgc.es.
- Wikipedia. Homoscedasticity. Dipulihkan dari: es.wikipedia.com
- Wikipedia. Homoscedasticity. Dipulihkan dari: en.wikipedia.com
