Microsoft programinės įrangos paketas kaip efektyvi ekonometrinės analizės priemonė. Duomenų analizės pagrindai

Regresinė analizė– Tai statistinio tyrimo metodas, leidžiantis parodyti parametro priklausomybę nuo vieno ar kelių nepriklausomų kintamųjų. Ikikompiuterinėje eroje jį naudoti buvo gana sunku, ypač kai buvo kalbama apie didelius duomenų kiekius. Šiandien, išmokę sukurti regresiją programoje Excel, galite išspręsti sudėtingas statistines problemas vos per kelias minutes. Žemiau yra konkrečių pavyzdžių iš ekonomikos srities.

Regresijos tipai

Pati sąvoka buvo įvesta į matematiką 1886 m. Regresija vyksta:

  • linijinis;
  • parabolinis;
  • galia;
  • eksponentinis;
  • hiperbolinis;
  • parodomasis;
  • logaritminis.

1 pavyzdys

Apsvarstykite problemą, kaip nustatyti išėjusių komandos narių skaičiaus priklausomybę nuo vidutinio atlyginimo 6 pramonės įmonėse.

Užduotis. Šešios įmonės analizavo mėnesio vidurkį darbo užmokesčio ir išeinančių darbuotojų skaičius savo valia. Lentelės pavidalu turime:

Išvykusių žmonių skaičius

Atlyginimas

30 000 rublių

35 000 rublių

40 000 rublių

45 000 rublių

50 000 rublių

55 000 rublių

60 000 rublių

Išėjusių į pensiją darbuotojų skaičiaus priklausomybės nuo vidutinio darbo užmokesčio 6 įmonėse nustatymo uždaviniui regresijos modelis turi lygtį Y = a 0 + a 1 x 1 +…+a k x k , kur x i yra įtakojantys kintamieji. , a i – regresijos koeficientai, a k – faktorių skaičius.

Šiai užduočiai Y yra išėjusių darbuotojų rodiklis, o įtakojantis veiksnys – atlyginimas, kurį žymime X.

Naudojant skaičiuoklės „Excel“ galimybes

Prieš regresinę analizę programoje „Excel“, turimiems lentelės duomenims turi būti pritaikytos integruotos funkcijos. Tačiau šiems tikslams geriau naudoti labai naudingą priedą „Analysis Toolkit“. Norėdami jį suaktyvinti, jums reikia:

  • skirtuke „Failas“ eikite į skyrių „Parinktys“;
  • atsidariusiame lange pasirinkite eilutę „Priedai“;
  • spustelėkite mygtuką „Eiti“, esantį apačioje, dešinėje eilutės „Valdymas“ pusėje;
  • pažymėkite langelį šalia pavadinimo „Analizinis paketas“ ir patvirtinkite savo veiksmus spustelėdami „Gerai“.

Jei viskas bus padaryta teisingai, dešinėje skirtuko Duomenys pusėje, esančioje virš Excel darbalapio, atsiras norimas mygtukas.

programoje Excel

Dabar, kai turime visus reikalingus virtualius įrankius ekonometriniams skaičiavimams atlikti, galime pradėti spręsti savo problemą. Už tai:

  • spustelėkite mygtuką „Duomenų analizė“;
  • atsidariusiame lange spustelėkite mygtuką „Regresija“;
  • pasirodžiusiame skirtuke įveskite Y (darbuotojų, kurie išėjo iš darbo) ir X (jų atlyginimų) verčių diapazoną;
  • Savo veiksmus patvirtiname paspausdami mygtuką „Gerai“.

Dėl to programa bus automatiškai užpildyta naujas lapas skaičiuoklės duomenų regresinė analizė. Pastaba! „Excel“ turi galimybę rankiniu būdu nustatyti norimą vietą šiam tikslui. Pavyzdžiui, tai gali būti tas pats lapas, kuriame yra Y ir X reikšmės, arba net nauja knyga, specialiai sukurta tokiems duomenims saugoti.

R kvadrato regresijos rezultatų analizė

Programoje „Excel“ duomenys, gauti apdorojant nagrinėjamo pavyzdžio duomenis, atrodo taip:

Visų pirma, turėtumėte atkreipti dėmesį į R kvadrato vertę. Tai yra determinacijos koeficientas. IN šis pavyzdys R kvadratas = 0,755 (75,5%), t.y., apskaičiuoti modelio parametrai paaiškina ryšį tarp nagrinėjamų parametrų 75,5%. Kuo didesnė determinacijos koeficiento reikšmė, tuo labiau tinka pasirinktas modelis konkreti užduotis. Manoma, kad ji teisingai apibūdina tikrąją situaciją, kai R kvadrato reikšmė viršija 0,8. Jei R kvadratas<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Santykio analizė

Skaičius 64,1428 rodo, kokia bus Y reikšmė, jei visi mūsų svarstomo modelio kintamieji xi bus nustatyti į nulį. Kitaip tariant, galima teigti, kad analizuojamo parametro reikšmei įtakos turi ir kiti veiksniai, kurie nėra aprašyti konkrečiame modelyje.

Kitas koeficientas -0,16285, esantis langelyje B18, parodo kintamojo X įtakos svorį Y. Tai reiškia, kad vidutinis darbuotojų mėnesinis atlyginimas nagrinėjamo modelio ribose įtakoja išeinančių iš darbo skaičių, kurio svoris yra -0,16285, t.y. jo įtakos laipsnis visai mažas. „-“ ženklas rodo, kad koeficientas turi neigiamą reikšmę. Tai akivaizdu, nes visi žino, kad kuo didesnis atlyginimas įmonėje, tuo mažiau žmonių išreiškia norą nutraukti darbo sutartį ar išeiti iš darbo.

Daugkartinė regresija

Šis terminas reiškia ryšio lygtį su keliais nepriklausomais formos kintamaisiais:

y \u003d f (x 1 + x 2 + ... x m) + ε, kur y yra efektyvusis požymis (priklausomas kintamasis), o x 1 , x 2 , ... x m yra faktorių veiksniai (nepriklausomi kintamieji).

Parametrų įvertinimas

Daugkartinei regresijai (MR) ji atliekama naudojant metodą mažiausių kvadratų(MNK). Y = a + b 1 x 1 +…+b m x m + ε formos tiesinėms lygtims sudarome normaliųjų lygčių sistemą (žr. toliau)

Norėdami suprasti metodo principą, apsvarstykite dviejų veiksnių atvejį. Tada turime situaciją, aprašytą formule

Iš čia gauname:

kur σ yra atitinkamo požymio, atsispindinčio indekse, dispersija.

LSM taikomas MP lygčiai standartizuotoje skalėje. Šiuo atveju gauname lygtį:

kur t y , t x 1, … t xm yra standartizuoti kintamieji, kurių vidutinės reikšmės yra 0; β i yra standartizuoti regresijos koeficientai, o standartinis nuokrypis yra 1.

Atkreipkite dėmesį, kad visi β i šiuo atveju nustatomi kaip normalizuoti ir centralizuoti, todėl jų palyginimas vienas su kitu laikomas teisingu ir leistinu. Be to, įprasta filtruoti veiksnius, atmetant tuos, kurių βi reikšmės yra mažiausios.

Problema naudojant tiesinės regresijos lygtį

Tarkime, kad yra konkretaus produkto N kainų dinamikos lentelė per paskutinius 8 mėnesius. Būtina apsispręsti, ar tikslinga pirkti jo partiją už 1850 rub./t.

mėnesio numeris

mėnesio pavadinimas

Prekės kaina N

1750 rublių už toną

1755 rubliai už toną

1767 rubliai už toną

1760 rublių už toną

1770 rublių už toną

1790 rublių už toną

1810 rublių už toną

1840 rublių už toną

Norėdami išspręsti šią problemą Excel skaičiuoklėje, turite naudoti duomenų analizės įrankį, jau žinomą iš aukščiau pateikto pavyzdžio. Tada pasirinkite skyrių „Regresija“ ir nustatykite parametrus. Reikia atsiminti, kad lauke „Įvesties intervalas Y“ reikia įvesti priklausomo kintamojo reikšmių diapazoną (šiuo atveju prekės kainą konkrečiais metų mėnesiais), o lauke „Įvestis“. intervalas X“ – nepriklausomam kintamajam (mėnesio skaičiui). Patvirtinkite veiksmą spustelėdami „Gerai“. Naujame lape (jei taip buvo nurodyta) gauname regresijos duomenis.

Remdamiesi jais, sudarome y=ax+b formos tiesinę lygtį, kur parametrai a ir b yra eilutės su mėnesio numerio pavadinimu ir koeficientai bei eilutės „Y sankirta“ koeficientai. lapą su regresinės analizės rezultatais. Taigi 3 uždavinio tiesinės regresijos lygtis (LE) parašyta taip:

Prekės kaina N = 11.714* mėn numeris + 1727.54.

arba algebriniu žymėjimu

y = 11,714 x + 1727,54

Rezultatų analizė

Norėdami nuspręsti, ar gauta lygtis yra adekvati tiesinė regresija, naudojami daugkartiniai koreliacijos koeficientai (MCC) ir determinacijos koeficientai, taip pat Fišerio testas ir Stjudento testas. „Excel“ lentelėje su regresijos rezultatais jie rodomi atitinkamai kelių R, ​​R kvadrato, F statistikos ir t statistikos pavadinimais.

KMC R leidžia įvertinti tikimybinio ryšio tarp nepriklausomų ir priklausomų kintamųjų sandarumą. Didelė jo reikšmė rodo gana stiprų ryšį tarp kintamųjų „Mėnesio skaičius“ ir „Prekių kaina N rubliais už 1 toną“. Tačiau šių santykių pobūdis lieka nežinomas.

Determinacijos koeficiento kvadratas R 2 (RI) yra skaitinė bendros sklaidos dalies charakteristika ir parodo, kurios eksperimentinių duomenų dalies sklaida, t.y. priklausomo kintamojo reikšmės atitinka tiesinės regresijos lygtį. Nagrinėjamoje užduotyje ši reikšmė lygi 84,8%, t.y. gautu SD statistinius duomenis apibūdina labai tiksliai.

F-statistika, dar vadinama Fišerio testu, naudojama tiesinio ryšio reikšmingumui įvertinti, paneigiant arba patvirtinant jo egzistavimo hipotezę.

(Studento kriterijus) padeda įvertinti koeficiento su nežinomu arba laisvuoju tiesinio ryšio nariu reikšmingumą. Jei t kriterijaus reikšmė > t cr, tai laisvojo nario nereikšmingumo hipotezė tiesinė lygtis Atstumtas.

Nagrinėjamoje laisvojo nario uždavinyje, naudojant Excel įrankius, buvo gauta, kad t = 169,20903, o p = 2,89E-12, t.y. turime nulinę tikimybę, kad bus teisinga hipotezė apie laisvojo nario nereikšmingumą. Atstumtas. Koeficientui esant nežinomam t=5,79405, o p=0,001158. Kitaip tariant, tikimybė, kad teisinga hipotezė apie koeficiento nereikšmiškumą nežinomam bus atmesta yra 0,12%.

Taigi galima teigti, kad gauta tiesinės regresijos lygtis yra adekvati.

Akcijų paketo pirkimo tikslingumo problema

Daugkartinė regresija programoje „Excel“ atliekama naudojant tą patį duomenų analizės įrankį. Apsvarstykite konkrečią taikomą problemą.

NNN vadovybė turi priimti sprendimą, ar tikslinga įsigyti 20% MMM SA akcijų. Paketo (JV) kaina yra 70 milijonų JAV dolerių. NNN specialistai surinko duomenis apie panašius sandorius. Nutarta akcijų paketo vertę vertinti pagal tokius parametrus, išreikštus milijonais JAV dolerių, kaip:

  • mokėtinos sumos (VK);
  • metinė apyvarta (VO);
  • gautinos sumos (VD);
  • ilgalaikio turto savikaina (SOF).

Be to, naudojamas parametras įmonės darbo užmokesčio įsiskolinimas (V3 P) tūkstančiais JAV dolerių.

Sprendimas naudojant „Excel“ skaičiuoklę

Pirmiausia turite sukurti pradinių duomenų lentelę. Tai atrodo taip:

  • iškviesti langą „Duomenų analizė“;
  • pasirinkite skyrių „Regresija“;
  • laukelyje „Įvesties intervalas Y“ įveskite priklausomų kintamųjų verčių diapazoną iš G stulpelio;
  • spustelėkite piktogramą su raudona rodykle langelio „Įvesties intervalas X“ dešinėje ir lape pasirinkite visų verčių diapazoną iš stulpeliai B, C, D, F.

Pasirinkite „Naujas darbalapis“ ir spustelėkite „Gerai“.

Gaukite pateiktos problemos regresinę analizę.

Rezultatų nagrinėjimas ir išvados

Iš aukščiau pateiktų suapvalintų duomenų „Excel“ skaičiuoklės lape „renkame“ regresijos lygtį:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Labiau pažįstama matematine forma jis gali būti parašytas taip:

y = 0,103*x1 + 0,541*x2 – 0,031*x3 +0,405*x4 +0,691*x5 – 265,844

Duomenys apie UAB "MMM" pateikti lentelėje:

Pakeitę juos į regresijos lygtį, jie gauna 64,72 mln. JAV dolerių. Tai reiškia, kad UAB „MMM“ akcijų pirkti nereikėtų, nes jų 70 mln. JAV dolerių vertė yra gana pervertinta.

Kaip matote, Excel skaičiuoklės ir regresijos lygties naudojimas leido priimti pagrįstą sprendimą dėl labai konkrečios operacijos pagrįstumo.

Dabar jūs žinote, kas yra regresija. Aukščiau aptarti „Excel“ pavyzdžiai padės išspręsti praktines ekonometrijos srities problemas.

Koeficientas turi šias savybes:

1) neturi dimensijos, todėl galima palyginti su skirtingų užsakymų kiekiais;

2) svyruoja nuo –1 iki +1. Teigiama reikšmė rodo tiesioginį tiesinį ryšį, neigiama – atvirkštinį ryšį. Arčiau absoliučioji vertė koeficientas į vienybę, tuo artimesnis ryšys. Manoma, kad ryšys pakankamai stiprus, jei absoliuti koeficiento reikšmė viršija 0,7, ir silpna, jei ji mažesnė nei 0,3.

Koeficiento vertė lengvai apskaičiuojama naudojant MS Excel(funkcija CORREL).

Reikšmė r 2 vadinama determinacijos koeficientas. Jis nustato vieno iš kintamųjų kitimo proporciją, paaiškinamą kito kintamojo kitimu.

6. Daugialypės koreliacijos koeficientas

Ekonominiai reiškiniai dažniausiai adekvačiai apibūdinami būtent daugiafaktoriniais modeliais. Todėl atsiranda būtinybė apibendrinti aukščiau nagrinėtą koreliacijos ryšį (6.4) kelių kintamųjų atveju.

Linijinio ryšio tarp kintamojo sandarumas y ir daug kintamųjų x j, vertinant kaip visumą, galima nustatyti naudojant daugkartinis koreliacijos koeficientas.

Tarkime, kad kintamasis yįtakoja du kintamieji - x Ir z. Šiuo atveju daugialypės koreliacijos koeficientas gali būti nustatytas pagal formulę:

. (6.9)

čia r yx , r yz , r xz yra paprasti tiesinės poros koreliacijos koeficientai, nustatyti pagal ryšį (6.4).

Daugialypės koreliacijos koeficientas yra 0 ≤ R ≤ 1 ribose. Jis yra ne mažesnis už absoliučią bet kurios poros ar dalinės koreliacijos koeficiento vertę su tuo pačiu pirminiu indeksu.

Naudojant daugkartinis koeficientas(R artėjant prie 1), daroma išvada apie santykių glaudumą, bet ne apie jo kryptį. R 2 reikšmė, vadinama daugkartinis determinacijos koeficientas, rodo, kokia dalis tiriamo kintamojo kitimo ( y) paaiškina likusių kintamųjų, į kuriuos buvo atsižvelgta, kitimą ( x, z).

7. Dalinės koreliacijos koeficientas

Kartais įdomu išmatuoti dalines priklausomybes (tarp y Ir x j) su sąlyga, kad pašalinama kitų veiksnių, į kuriuos buvo atsižvelgta, įtaka. Paimami atitinkami matavimo prietaisai dalinės koreliacijos koeficientai.

Apsvarstykite dalinės koreliacijos koeficiento apskaičiavimo tvarką tuo atveju, kai ryšyje yra trys atsitiktiniai dydžiai - x, y, z. Jiems galima gauti paprastus tiesinės poros koreliacijos koeficientus – r yx , r yz , r xz . Tačiau didelę šio koeficiento reikšmę gali lemti ne tik tai, kad y Ir x iš tikrųjų yra tarpusavyje susiję, bet ir dėl to, kad abu kintamieji patiria stiprų trečiojo veiksnio poveikį – z.

Dalinės koreliacijos koeficientas skiriasi nuo paprasto tiesinės poros koreliacijos koeficiento tuo, kad jis matuoja porinę atitinkamų požymių koreliaciją ( y Ir x) su sąlyga, kad trečiojo veiksnio įtaka ( z) buvo pašalintas.

Atitinkama skaičiavimo formulė:

. (6.10)

Dalinės koreliacijos koeficientas, taip pat poros koreliacijos koeficientas r (apskaičiuojamas pagal (6.4) formulę), gali būti nuo -1 iki 1.

REZULTATAI

8.3a lentelė. Regresijos statistika
Regresijos statistika
Keli R 0,998364
R kvadratas 0,99673
Normalizuotas R kvadratas 0,996321
Standartinė klaida 0,42405
Stebėjimai 10

Pirmiausia apsvarstykite viršutinė dalis 8.3a lentelėje pateikti skaičiavimai – regresijos statistika.

R-kvadrato reikšmė, dar vadinama tikrumo matu, apibūdina gautos regresijos linijos kokybę. Ši kokybė išreiškiama pirminių duomenų ir regresijos modelio (apskaičiuotų duomenų) atitikimo laipsniu. Tikrumo matas visada yra intervale .

Daugeliu atvejų R kvadrato reikšmė yra tarp šių reikšmių, vadinamų kraštutinumais, t.y. tarp nulio ir vieneto.

Jei R kvadrato reikšmė yra artima vienetui, tai reiškia, kad sukurtas modelis paaiškina beveik visą atitinkamų kintamųjų kintamumą. Ir atvirkščiai, R kvadrato reikšmė artima nuliui reiškia prastą sukonstruoto modelio kokybę.

Mūsų pavyzdyje tikrumo matas yra 0,99673, o tai rodo labai gerą regresijos linijos atitikimą pradiniams duomenims.

Keli R- kartotinės koreliacijos koeficientas R - išreiškia nepriklausomų kintamųjų (X) ir priklausomo kintamojo (Y) priklausomybės laipsnį.

Keli R lygūs kvadratinė šaknis nuo determinacijos koeficiento ši vertė įgauna vertes diapazone nuo nulio iki vieno.

Atliekant paprastą tiesinės regresijos analizę, kartotinis R yra lygus Pirsono koreliacijos koeficientui. Iš tiesų, kartotinis R mūsų atveju yra lygus Pirsono koreliacijos koeficientui iš ankstesnio pavyzdžio (0,998364).

8.3b lentelė. Regresijos koeficientai
Šansai Standartinė klaida t-statistika
Y sankirta 2,694545455 0,33176878 8,121757129
Kintamasis X 1 2,305454545 0,04668634 49,38177965
* Pateikiamas sutrumpintas skaičiavimų variantas

Dabar apsvarstykite vidurinę 8.3b lentelėje pateiktų skaičiavimų dalį. Čia pateikiamas regresijos koeficientas b (2,305454545) ir poslinkis išilgai y ašies, t.y. konstanta a (2,694545455).

Remdamiesi skaičiavimais, regresijos lygtį galime parašyti taip:

Y= x*2,305454545+2,694545455

Ryšio tarp kintamųjų kryptis nustatoma pagal ženklus (neigiamus arba teigiamus) regresijos koeficientai(koeficientas b).

Jei ženklas adresu regresijos koeficientas- teigiamas, priklausomo kintamojo ryšys su nepriklausomu bus teigiamas. Mūsų atveju regresijos koeficiento ženklas yra teigiamas, todėl ir ryšys yra teigiamas.

Jei ženklas adresu regresijos koeficientas- neigiamas, priklausomo kintamojo ir nepriklausomo kintamojo ryšys yra neigiamas (atvirkštinis).

8.3c lentelėje. pateikiami likučių išvedimo rezultatai. Kad šie rezultatai atsirastų ataskaitoje, paleidžiant įrankį „Regresija“ būtina aktyvuoti varnelę „Likučiai“.

LIKO ATŠALINIMAS

8.3c lentelė. Lieka
Stebėjimas Numatė Y Lieka Standartiniai likučiai
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Naudodamiesi šia ataskaitos dalimi, galime pamatyti kiekvieno taško nuokrypius nuo sukonstruotos regresijos linijos. Didžiausia absoliuti vertė

Rusijos Federacijos švietimo ir mokslo ministerija

autonominė federacinė žemė švietimo įstaiga aukštasis profesinis išsilavinimas

Tolimųjų Rytų federalinis universitetas

Ekonomikos ir vadybos mokykla

Verslo informatikos ir ekonomikos bei matematinių metodų katedra

LABORATORINIS DARBAS

disciplinoje „Simuliacija“

Specialybė 080801.65 „Taikomoji informatika (ekonomikoje)“

REGRESINĖ ANALIZĖ

Rudakova

Uliana Anatoljevna

Vladivostokas

ATASKAITA

Užduotis: apsvarstykite regresinės analizės procedūrą, pagrįstą 23 objektų duomenimis (pardavimo kaina ir gyvenamuoju plotu).

„Regresijos“ veikimo režimas naudojamas tiesinės regresijos lygties parametrams apskaičiuoti ir jos tinkamumui tiriamam procesui patikrinti.

Norėdami išspręsti regresinės analizės MS Excel problemą, pasirinkite iš meniu Aptarnavimaskomandą Duomenų analizėir analizės įrankis" Regresija".

Pasirodžiusiame dialogo lange nustatykite šiuos parametrus:

1. Įvesties intervalas Y– tai efektyvaus požymio duomenų diapazonas. Tai turi būti vienas stulpelis.

2. Įvesties intervalas Xyra langelių diapazonas, kuriame yra veiksnių reikšmės (nepriklausomi kintamieji). Įvesties diapazonų (stulpelių) skaičius neturi viršyti 16.

.Žymimasis langelis Žymos, nustatomas, jei pirmoje diapazono eilutėje yra pavadinimas.

5. Nulinė konstanta.Šis žymimasis laukelis turi būti nustatytas, jei regresijos linija turi eiti per pradinę vietą (ir 0=0).

6. Išvesties intervalas/ Naujas darbalapis/ Naujas darbo knyga - nurodykite išvesties diapazono viršutinio kairiojo langelio adresą.

.Žymės langeliai grupėje Liekanustatomi, jei norite įtraukti atitinkamus stulpelius ar grafikus į išvesties diapazoną.

.Žymės langelis „Normal Probability Plot“ turi būti įjungtas, jei norite rodyti stebimų Y verčių sklaidos diagramą, palyginti su automatiškai sugeneruotais procentilių intervalais lape.

Išvesties diapazone paspaudę mygtuką OK, gauname ataskaitą.

Naudodami duomenų analizės įrankių rinkinį, atliksime pirminių duomenų regresinę analizę.

Regresijos analizės įrankis naudojamas regresijos lygties parametrams pritaikyti naudojant mažiausių kvadratų metodą. Regresija naudojama analizuojant vieno ar kelių nepriklausomų kintamųjų reikšmių poveikį vienam priklausomam kintamajam.

LENTELĖS REGRESIJOS STATISTIKA

Vertė daugiskaita Ryra determinacijos koeficiento šaknis (R kvadratas). Jis taip pat vadinamas koreliacijos indeksu arba daugialypiu koreliacijos koeficientu. Išreiškia nepriklausomų kintamųjų (X1, X2) ir priklausomo kintamojo (Y) priklausomybės laipsnį ir yra lygus nustatymo koeficiento kvadratinei šaknei, ši reikšmė įgauna reikšmes diapazone nuo nulio iki vieneto. Mūsų atveju jis yra lygus 0,7, o tai rodo reikšmingą ryšį tarp kintamųjų.

Vertė R kvadratas (nustatymo koeficientas), dar vadinamas tikrumo matu, apibūdina gautos regresijos linijos kokybę. Ši kokybė išreiškiama pirminių duomenų ir regresijos modelio (apskaičiuotų duomenų) atitikimo laipsniu. Tikrumo matas visada yra intervale .

Mūsų atveju R kvadrato reikšmė yra 0,48, t.y. beveik 50%, o tai rodo silpną regresijos linijos atitikimą pradiniams duomenims. rasta reikšmė R kvadratas = 48 %<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

Normalizuotas R kvadratasyra tas pats determinacijos koeficientas, bet pakoreguotas pagal imties dydį.

Norma R kvadratas = 1-(1-R kvadratas)*((n-1)/(n-k)),

regresinės analizės tiesinė lygtis

čia n yra stebėjimų skaičius; k - parametrų skaičius. Pridedant naujus regresorius (veiksnius) pageidautina naudoti normalizuotą R kvadratą, nes padidinus juos, padidės ir R kvadrato reikšmė, tačiau tai nerodys modelio pagerėjimo. Kadangi mūsų atveju gauta reikšmė yra 0,43 (kuri nuo R kvadrato skiriasi tik 0,05), galime kalbėti apie didelį pasitikėjimą R kvadrato koeficientu.

Standartinė klaidarodo stebėjimų rezultatų aproksimacijos (aproksimacijos) kokybę. Mūsų atveju klaida yra 5.1. Apskaičiuokite procentais: 5,1/(57,4-40,1)=0,294 ≈ 29% (Modelis laikomas geresniu, kai standartinė paklaida yra<30%)

Stebėjimai- nurodo stebimų verčių skaičių (23).

ANOVOS LENTELĖ ANALIZĖ

Regresijos lygčiai gauti nustatoma -statistika - regresijos lygties tikslumo charakteristika, kuri yra tos priklausomo kintamojo dispersijos dalies, kuri paaiškinama regresijos lygtimi, ir nepaaiškinamos (likutinės) dalies santykis. dispersija.

Stulpelyje df- pateiktas laisvės laipsnių skaičius k.

Likusiai daliai tai reikšmė lygi n-(m + 1), t.y. pradinių taškų skaičius (23) atėmus koeficientų skaičių (2) ir atėmus laisvą terminą (1).

SS kolonoje- kvadratinių nuokrypių nuo gauto požymio vidutinės vertės sumos. Jame pristatoma:

Regresinė suma nuokrypių kvadratu nuo gautos teorinių reikšmių požymio vidutinės vertės, apskaičiuotos pagal regresijos lygtį.

Likutinė pradinių verčių nuokrypių nuo teorinių verčių suma.

Bendra pradinių verčių nuokrypių kvadratu suma nuo gautos savybės.

Kuo didesnė kvadratinių nuokrypių regresijos suma (arba kuo mažesnė likutinė suma), tuo geriau regresijos lygtis apytiksliai atitinka šaltinio taško debesį. Mūsų atveju likutinė suma yra apie 50 proc. Todėl regresijos lygtis labai prastai atitinka šaltinio taško debesį.

MS stulpelyje- nešališkos imties dispersijos, regresija ir liekana.

F stulpelyje regresijos lygties reikšmingumui patikrinti apskaičiuota kriterijų statistikos reikšmė.

Regresijos lygties reikšmingumo statistiniam testui atlikti suformuluojama nulinė hipotezė apie ryšio tarp kintamųjų nebuvimą (visi kintamųjų koeficientai lygūs nuliui) ir pasirenkamas reikšmingumo lygis.

Reikšmingumo lygis yra priimtina tikimybė padaryti I tipo klaidą – bandymo metu atmesti teisingą nulinę hipotezę. Šiuo atveju padaryti I tipo klaidą reiškia iš imties atpažinti ryšį tarp kintamųjų bendrojoje populiacijoje, nors iš tikrųjų jo nėra. Paprastai reikšmingumo lygis laikomas 5%. Palyginus gautą reikšmę = 9,4 su lentelės reikšme = 3,5 (laisvės laipsnių skaičius yra atitinkamai 2 ir 20), galime teigti, kad regresijos lygtis yra reikšminga (F>Fcr).

Skiltyje reikšmė F apskaičiuojama gautos kriterijų statistikos reikšmės tikimybė. Kadangi mūsų atveju ši reikšmė = 0,00123, tai yra mažesnė nei 0,05, galime teigti, kad regresijos lygtis (priklausomybė) yra reikšminga su 95% tikimybe.

Aukščiau aprašyti du ramsčiai rodo viso modelio patikimumą.

Šioje lentelėje pateikiami regresorių koeficientai ir jų įverčiai.

Y sankirtos eilutė nesusieta su jokiu regresoriumi, tai yra laisvasis koeficientas.

Stulpelyje šansai registruojamos regresijos lygties koeficientų reikšmės. Taigi lygtis pasirodė:

Y=25,6+0,009X1+0,346X2

Regresijos lygtis turi pereiti per pradinio taško debesies centrą: 13,02≤M(b)≤38,26

Toliau lyginame stulpelių reikšmes poromis Koeficientai ir standartinė klaida. Matyti, kad mūsų atveju visos absoliučios koeficientų vertės viršija standartinių paklaidų reikšmes. Tai gali rodyti regresorių reikšmę, tačiau tai yra apytikslė analizė. t statistikos stulpelyje pateikiamas tikslesnis koeficientų reikšmingumo įvertinimas.

t-statistikos stulpelyje yra t-testo vertės, apskaičiuotos pagal formulę:

t=(koeficientas)/(standartinė klaida)


n-(k+1)=23-(2+1)=20

Pagal Stjudento lentelę randame reikšmę ttable = 2,086. Lyginant

t su t lentele gauname, kad regresoriaus koeficientas X2 yra nereikšmingas.

Stulpelis p-reikšmė reiškia tikimybę, kad kritinė naudojamo testo statistikos reikšmė (Studento statistika) viršys iš imties apskaičiuotą reikšmę. Šiuo atveju lyginame p vertės su pasirinktu reikšmingumo lygiu (0,05). Matyti, kad nereikšmingu galima laikyti tik regresoriaus koeficientą X2=0,08>0,05

Stulpeliai apačioje 95% ir viršuje 95% rodo ribas pasikliautinieji intervalai su 95% patikimumu. Kiekvienas koeficientas turi savo ribas: Koeficientasttable*Standartinė klaida

Pasitikėjimo intervalai sudaromi tik statistiškai reikšmingoms reikšmėms.

STALO IŠĖMIMO LIKUČIAI

Priminimas yra atskiro taško (stebėjimo) nuokrypis nuo regresijos linijos (numatomos reikšmės).

Normalumo prielaida likučiai daro prielaidą, kad skirtumo tarp numatytų ir stebimų verčių pasiskirstymas yra normalus. Dėl vizualinis apibrėžimas skirstinio pobūdį, įjungiame funkciją likučių diagrama.

Likutinės diagramos rodo skirtumus tarp pradines vertes Y ir apskaičiuojamas pagal regresijos funkciją kiekvienai kintamojo komponento X1 ir X2 reikšmei. Jis naudojamas norint nustatyti, ar naudojama tvirtinimo tiesi linija yra priimtina.

Tinkamumo diagrama gali būti naudojama regresijos linijai vizualizuoti.

Standartiniai likučiai – normalizuoti likučiai, skirti įvertinti jų standartinį nuokrypį.

Tiriant sudėtingus reiškinius, reikia atsižvelgti į daugiau nei du atsitiktinius veiksnius. Teisingą supratimą apie šių veiksnių ryšio pobūdį galima gauti tik tuo atveju, jei visi nagrinėjami atsitiktiniai veiksniai bus išnagrinėti vienu metu. Bendras trijų ar daugiau atsitiktinių veiksnių tyrimas leis tyrėjui nustatyti daugiau ar mažiau pagrįstas prielaidas apie priežastinius ryšius tarp tiriamų reiškinių. Paprasta daugialypio ryšio forma yra tiesinis ryšys tarp trijų požymių. Atsitiktiniai veiksniai žymimi kaip X 1 , X 2 ir X 3 . Porinės koreliacijos koeficientai tarp X 1 ir X 2 žymimas kaip r 12 , atitinkamai tarp X 1 ir X 3 - r 12, tarp X 2 ir X 3 - r 23. Kaip trijų požymių tiesinio ryšio sandarumo matas, naudojami keli koreliacijos koeficientai, žymimi R 1-23, R 2–13, R 3 ּ 12 ir žymimi dalinės koreliacijos koeficientai r 12.3 , r 13.2 , r 23.1 .

Trijų veiksnių kartotinis koreliacijos koeficientas R 1,23 yra tiesinio ryšio tarp vieno iš veiksnių (indekso prieš tašką) ir kitų dviejų veiksnių derinio (indeksai po taško) glaudumo rodiklis.

Koeficiento R reikšmės visada yra intervale nuo 0 iki 1. Kai R artėja prie vieno, trijų požymių tiesinio ryšio laipsnis didėja.

Pavyzdžiui, tarp daugialypės koreliacijos koeficiento R 2 ּ 13 , ir dviejų porų koreliacijos koeficientai r 12 ir r 23 yra ryšys: kiekvienas iš poros koeficientų negali viršyti absoliučia verte R 2–13 d.

Kelių koreliacijos koeficientų skaičiavimo formulės žinomos vertės porų koreliacijos koeficientai r 12 , r 13 ir r 23 turi tokią formą:

Daugialypės koreliacijos koeficiento kvadratas R 2 paskambino daugkartinio nustatymo koeficientas. Tai rodo priklausomo kintamojo kitimo proporciją, veikiant tiriamiems veiksniams.

Daugialypės koreliacijos reikšmė įvertinta pagal F- kriterijus:

n- imties dydis; k- veiksnių skaičius. Mūsų atveju k = 3.

nulinė hipotezė apie daugialypės koreliacijos koeficiento lygybę nuliui ( h o:r=0) priimamas, jei f f<f t, ir atmetamas, jei
ff T.

teorinė vertė f- nustatyti kriterijai v 1 = k- 1 ir v 2 = n - k laisvės laipsniai ir priimtas reikšmingumo lygis a (1 priedas).

Daugialypės koreliacijos koeficiento apskaičiavimo pavyzdys. Tiriant ryšį tarp veiksnių, gauti porų koreliacijos koeficientai ( n =15): r 12 ==0,6; r 13 = 0,3; r 23 = - 0,2.

Būtina išsiaiškinti ženklo priklausomybę X 2 išjungimo ženklas X 1 ir X 3 , ty apskaičiuokite daugkartinės koreliacijos koeficientą:

Lentelės vertė F-kriterijus, kai n 1 = 2 ir n 2 = 15 - 3 = 12 laisvės laipsnių, kai a = 0,05 F 0,05 = 3,89 ir a = 0,01 F 0,01 = 6,93.

Taigi ypatybių santykis R 2,13 = 0,74 reikšmingas
1% reikšmingumo lygis F f > F 0,01 .

Sprendžiant iš daugkartinio nustatymo koeficiento R 2 = (0,74) 2 = 0,55, funkcijos variacija X 2 yra 55 % susijęs su tiriamų veiksnių poveikiu, o 45 % variacijos (1-R 2) negalima paaiškinti šių kintamųjų įtaka.

Dalinė tiesinė koreliacija

Dalinės koreliacijos koeficientas yra rodiklis, matuojantis dviejų požymių konjugacijos laipsnį.

Matematinė statistika leidžia nustatyti koreliaciją tarp dviejų savybių, kai pastovią vertę trečia, nenustatant specialaus eksperimento, o naudojant suporuotus koreliacijos koeficientus r 12 , r 13 , r 23 .

Dalinės koreliacijos koeficientai apskaičiuojami pagal formules:

Skaičiai prieš tašką rodo, tarp kurių ypatybių yra tiriama priklausomybė, o skaičius po taško rodo, kurio požymio įtaka neįtraukiama (pašalinama). Dalinės koreliacijos paklaida ir reikšmingumo kriterijus nustatomi tomis pačiomis formulėmis kaip ir porinei koreliacijai:

.

teorinė vertė t- yra nustatytas kriterijus v = n– 2 laisvės laipsniai ir priimtas reikšmingumo lygis a (1 priedas).

Nulinė hipotezė apie dalinės koreliacijos koeficiento lygybę suvestinėje su nuliu ( Ho: r= 0) priimtina, jei t f< t t, ir atmetamas, jei
tt T.

Daliniai koeficientai gali būti nuo -1 iki +1. Privatus determinacijos koeficientai randami dalinės koreliacijos koeficientų kvadratu:

D 12.3 = r 2 12ּ3 ; d 13.2 = r 2 13ּ2 ; d 23ּ1 = r 2 23ּ1 .

Dažnai labai įdomu nustatyti atskirų veiksnių tam tikro poveikio gaunamai ypatybei laipsnį, atmetant (pašalinus) jo ryšį su kitomis savybėmis, iškreipiančiomis šią koreliaciją. Kartais nutinka taip, kad esant pastoviai pašalinto požymio reikšmei, neįmanoma pastebėti jo statistinio poveikio kitų požymių kintamumui. Norėdami suprasti dalinės koreliacijos koeficiento apskaičiavimo techniką, apsvarstykite pavyzdį. Yra trys variantai X, Y Ir Z. Dėl mėginio dydžio n= nustatyta 180 porinių koreliacijos koeficientų

rxy = 0,799; rxz = 0,57; r yz = 0,507.

Apibrėžkime dalinės koreliacijos koeficientus:

Dalinės koreliacijos koeficientas tarp parametro X Ir Y Z (r xyz = 0,720) rodo, kad tik maža dalis šių požymių ryšio bendroje koreliacijoje ( rxy= 0,799) yra dėl trečiojo požymio įtakos ( Z). Panašią išvadą reikia padaryti ir dėl dalinės parametrų koreliacijos koeficiento X ir parametras Z su pastovia parametro verte Y (r X zּy = 0,318 ir rxz= 0,57). Priešingai, dalinės koreliacijos koeficientas tarp parametrų Y Ir Z su pastovia parametro verte X r yz ּ x= 0,105 reikšmingai skiriasi nuo bendro koreliacijos koeficiento r z= 0,507. Iš to matyti, kad jei pasirinksite objektus su ta pačia parametro verte X, tada ypatybių santykis Y Ir Z jie bus labai silpni, nes didelę šio ryšio dalį lemia parametro kitimas X.

Tam tikromis aplinkybėmis dalinės koreliacijos koeficientas gali būti priešingas suporuotam ženklui.

Pavyzdžiui, tiriant bruožų santykį X, Y Ir Z- gauti poriniai koreliacijos koeficientai (su n = 100): r xy = 0,6; r X z= 0,9;
r z = 0,4.

Dalinės koreliacijos koeficientai, atmetus trečiojo požymio įtaką:

Pavyzdys rodo, kad reikšmės poros koeficientas o dalinės koreliacijos koeficientas skiriasi ženklu.

Dalinės koreliacijos metodas leidžia apskaičiuoti antros eilės dalinės koreliacijos koeficientą. Šis koeficientas rodo ryšį tarp pirmojo ir antrojo požymio su pastovia trečiojo ir ketvirto reikšme. Antros eilės dalinis koeficientas nustatomas remiantis pirmos eilės daliniais koeficientais pagal formulę:

Kur r 12 . 4 , r 13-4, r 23 ּ4 - daliniai koeficientai, kurių reikšmė nustatoma pagal dalinio koeficiento formulę, naudojant porų koreliacijos koeficientus r 12 , r 13 , r 14 , r 23 , r 24 , r 34 .