आर glm भविष्यवाणी बाइनरी विकल्प


सामान्यीकृत रैखिक मॉडल अन्य मॉडलिंग विकल्पों के लिए सहायता (जीएलएम) देखें। प्रत्येक परिवार के लिए अन्य स्वीकार्य लिंक कार्यों के लिए सहायता (परिवार) देखें सामान्यीकृत रैखिक मॉडल के तीन उपप्रकार यहां कवर किए जाएंगे: रिक्तियां रिग्रेसन, पॉज़ोन प्रतिगमन, और अस्तित्व विश्लेषण। तर्कसंगत प्रतिगमन रिक्तिगत प्रतिगमन उपयोगी है, जब आप निरंतर predictor चर के एक सेट से एक द्विआधारी परिणाम की भविष्यवाणी कर रहे हैं। इसकी कम प्रतिबंधात्मक मान्यताओं के कारण यह अक्सर भेदभावपूर्ण कार्य विश्लेषण से अधिक पसंद किया जाता है। तर्कसंगत प्रतिगमन जहां एफ एक द्विआधारी कारक है और एक्स 1-एक्स 3 निरंतर भविष्यवक्ता एलटी-ग्ल्मम (एफ x1x2x3, डेटाम्याडेटा, पारिवारिक () के लिए सारांश (फिट) प्रदर्शन के परिणाम अवधारणा (फिट) गुणक के लिए 95 सीआई (सीओईफ़ (फिट) ) exponentiated coefficients exp (confint (फिट)) exponentiated coefficients के लिए 95 सीआई अनुमानित (फिट, typequotresponsequot) भविष्यवाणी मूल्यों residuals (फिट, typequotdeviancequot) residuals एक्स, डेटा mydata) बाइनरी परिणाम की सशर्त घनत्व साजिश प्रदर्शित करेगा निरंतर x पर एफ चर। पॉसॉन रिग्रेशन पॉसॉन रिग्रेसिंग उपयोगी है, जब भविष्य के पूर्वानुमान वाले पहलुओं के एक सेट से गणना की जा सकती है। पॉसों के प्रतिगमन जहां गिनती एक गिनती है और एक्स 1-एक्स 3 निरंतर भविष्यवक्ता एलटी-ग्लोबल (गिनती x1x2x3, डेटाम्याडेटा, फैमिलीपॉइसन ()) के सारांश (फिट) डिस्प्ले परिणामों को पूरा करते हैं। यदि आपके पास अधिक मात्रा में है (देखें कि अवशिष्ट देवता स्वतंत्रता की डिग्री की तुलना में बहुत अधिक है ), तो आप पॉसिंस () के बजाय क्वासीपॉइसन () का उपयोग करना चाह सकते हैं उत्तरजीविता विश्लेषण उत्तरजीविता विश्लेषण (जिसे इवेंट इतिहास विश्लेषण या विश्वसनीयता विश्लेषण भी कहा जाता है) एक घटना के लिए समय के मॉडलिंग के लिए तकनीकों का एक सेट शामिल करता है। डेटा सही सेंसर हो सकता है - यह घटना अध्ययन के अंत तक नहीं हो सकती है या हमारे पास अवलोकन के बारे में अपूर्ण जानकारी हो सकती है लेकिन पता है कि एक निश्चित समय तक घटना नहीं हुई थी (उदाहरण के लिए प्रतिभागी को सप्ताह में अध्ययन से बाहर कर दिया गया था 10 लेकिन उस समय जीवित था)। जबकि सामान्यीकृत रैखिक मॉडल का विश्लेषण आम तौर पर glm () फ़ंक्शन का उपयोग करके किया जाता है, तो अस्तित्व का विश्लेषण आमतौर पर अस्तित्व के पैकेज से फ़ंक्शन का उपयोग करके किया जाता है। उत्तरजीविता पैकेज एक और दो नमूना समस्याएं, पैरामीट्रिक त्वरित विफलता मॉडल, और कॉक्स आनुपातिक खतरों मॉडल को नियंत्रित कर सकता है। आमतौर पर प्रारूप प्रारंभ समय में प्रवेश किया जाता है रुकने का समय । और स्थिति (1event हुआ, 0event नहीं हुआ)। वैकल्पिक रूप से, डेटा प्रारूप समय में हो सकता है घटना और स्थिति (1event हुआ, 0event नहीं हुआ) स्थिति0 इंगित करता है कि अवलोकन सही सेंकेर किया गया है। आगे विश्लेषण करने से पहले डेटा को सुरव () फ़ंक्शन के जरिए सुरव ऑब्जेक्ट में बंडल किया जाता है। एक या अधिक समूहों के लिए अस्तित्व वितरण का अनुमान लगाने के लिए बच () बच जाता है दो या अधिक समूहों के बीच अस्तित्व वितरण में अंतर के लिए बचाव () कॉक्सफ़ () प्रोजेक्टर वैरिएबल के सेट पर खतरे का काम करता है मेयो क्लिनिक फेफड़े के कैंसर डाटा लाइब्रेरी (अस्तित्व) डेटासेट सहायता (फेफड़े) के बारे में जानने के लिए एक सर्व ऑब्जेक्ट जीवित रहें (फेफड़े, सुरव (समय, स्थिति)) कुल नमूना का प्लॉट अस्तित्व वितरण कैप्लन-मीयर आकलनकर्ता fit0 lt - livefit (जीवित 1, दाटलुंग) सारांश (फिट0) प्लॉट (फिट0, एक्स लाबक्वॉट, सर्विवल टाइम इन दिनक्वाट, ylabquot Survivingquot, yscale100, mainquot, सर्विवल डिस्ट्रीब्यूशन (कुल मिलाकर) quot) पुरुषों और महिलाओं के अस्तित्व के वितरण की तुलना में फिट 1 लेफ्टिनेंट - बच (बचाना सेक्स प्लॉट (फिट 1, एक्स लाबक्वॉट, सर्कलिंग का टाइमवॉट, यूलाबक्वाट Survivingquot, yscale100, colc (quotredquot, quotbluequot), मेनक्वाइट, सिक्ववल डिस्ट्रीब्यूशन ऑफ़ जेडरक्वाट) किंवदंती (क्वाटोपैथक्वाइट, टाईमकलक्वार्ट गेंडाक्वाट, सी (मैटलोकॉट, कोटफ्लारक्वाट), फिलक (उद्धरण, कोटब्ल्यूक्वॉट)) अंतर के लिए परीक्षण पुरुष और महिला उत्तरजीविता घटता (लॉज्रैक टेस्ट) बचती के बीच (बचकाना उम्र और मेडिकल स्कोर से पुरुष के अस्तित्व की भविष्यवाणी करते हैं MaleMod lt-coxph (survobj ageph. ecogph. karnopat. karno, datalung, sub setsex1) प्रदर्शन परिणाम MaleMod आनुपातिक खतरों का आकलन ग्रहण करना cox. zph (MaleMod) थॉमस लुमलेस आर देखें अधिक जानकारी के लिए उत्तरजीविता पैकेज पर समाचार आलेख। अन्य अच्छे स्रोतों में उत्तरजीविता विश्लेषण और सिमुलेशन और उत्तरजीविता विश्लेषण पर एम। जे। क्रॉलेज़ अध्याय करने के लिए माई ज़ॉश यू आर आर सॉफ़्टवेयर शामिल हैं। मॉडल को फिटिंग में इस्तेमाल करने की विधि। डिफ़ॉल्ट विधि glm. fit iteratively reweighted कम से कम वर्गों (IWLS) का उपयोग करता है: वैकल्पिक मॉडल। फ्रेम मॉडल फ्रेम देता है और कोई फिटिंग नहीं करता है। उपयोगकर्ता द्वारा आपूर्ति की जाने वाली फ़ंक्शंस फ़ंक्शंस या एक फ़ंक्शन के रूप में एक फ़ंक्शन के रूप में आपूर्ति की जा सकती है, फ़ंक्शन के साथ, जो समान तर्कों को glm. fit के रूप में लेता है। यदि एक वर्ण स्ट्रिंग के रूप में निर्दिष्ट किया जाता है तो उसे आंकड़े नाम स्थान के भीतर से देखा जाता है। जीएमएम के लिए तार्किक मूल्य यह दर्शाता है कि फ़ेटिंग प्रक्रिया में प्रयुक्त वेक्टर और मॉडल मैट्रिक्स को लौटा मूल्य के घटकों के रूप में वापस करना चाहिए। Glm. fit के लिए x आयाम n पृष्ठ का एक डिजाइन मैट्रिक्स है और y लंबाई n की टिप्पणियों का एक सदिश है। एक वैकल्पिक सूची Model. matrix. default के contrasts. arg देखें। जीएमएम के लिए यदि डिफ़ॉल्ट रूप से आपूर्ति नहीं की जाती है तो डिफ़ॉल्ट नियंत्रण तर्क बनाने के लिए उपयोग किए जाने वाले तर्क भार के लिए आगे के तर्कों को या अन्य तरीकों से पारित किया गया एक सामान्य भविष्यवक्ता के पास प्रपत्र प्रतिक्रिया शब्द होते हैं, जहां प्रतिक्रिया (संख्यात्मक) प्रतिक्रिया वेक्टर होती है और शब्द पदों की एक श्रृंखला होती है जो प्रतिक्रिया के लिए एक रेखीय भविष्यवक्ता निर्दिष्ट करती है। द्विपदीय और क्वासीबिनीमियल परिवारों के लिए प्रतिक्रिया को एक कारक के रूप में भी निर्दिष्ट किया जा सकता है (जब पहला स्तर विफलता को दर्शाता है और अन्य सभी की सफलता) या स्तंभों के साथ दो-स्तंभ मैट्रिक्स के रूप में सफलताओं और विफलताओं की संख्या दे रही है। एक पद के विनिर्देशन का विवरण पहले द्वितीय, सभी शर्तों को पहले किसी भी डुप्लिकेट हटाए गए सभी पदों के साथ मिलकर इंगित करता है। प्रथम रूप में एक विनिर्देश: द्वितीय दूसरे शब्दों में सभी शर्तों के साथ सर्वप्रथम बातचीत करने से प्राप्त शर्तों के सेट को इंगित करता है। विनिर्देश प्रथम सेंड्रेंड पहले और दूसरे के क्रॉस को इंगित करता है। यह पहला दूसरा पहला है: दूसरा। सूत्र में दिए गए नियमों का पुन: आदेश दिया जाएगा ताकि मुख्य प्रभाव पहले आए, अंतःक्रियाओं, सभी दूसरे क्रम, सभी तीसरे क्रम के साथ-साथ आगे आते हैं: इस पास से बचने के लिए सूत्र के रूप में एक शब्द वस्तु। गैर-नल भार का उपयोग यह संकेत करने के लिए किया जा सकता है कि अलग-अलग अवलोकनों के अलग-अलग फैलाव (फैलावों के विपरीत आनुपातिक रूप से भार वाले मूल्यों के साथ) या समतुल्य रूप से, जब वजन के तत्व सकारात्मक पूर्णांक वाले वाई हैं कि प्रत्येक प्रतिक्रिया वाई वाई इकाई वजन टिप्पणियों का मतलब है। एक द्विपदीय जीएलएम के लिए पूर्व भार परीक्षणों की संख्या देने के लिए उपयोग किया जाता है जब प्रतिक्रिया सफलताओं का अनुपात होता है: वे शायद ही कभी पॉसों जीएलएम के लिए इस्तेमाल किया जाता है glm. fit वर्कहोर्स फ़ंक्शन है: यह सामान्य रूप से सीधे नहीं कहा जाता है, लेकिन अधिक कुशल हो सकता है, जहां प्रतिक्रिया वेक्टर, डिज़ाइन मैट्रिक्स और परिवार की गणना पहले ही की जा चुकी है। अगर एक से अधिक एटाटार्ट शुरू और मुस्तैद निर्दिष्ट है, सूची में सबसे पहले इस्तेमाल किया जाएगा। यह अक्सर अर्ध परिवार के लिए मूल्यों की आपूर्ति, और गाऊसी (लॉग) जैसे असामान्य लिंक वाले परिवारों के लिए अक्सर सलाह दी जाती है। सभी वजन सबसेट। ऑफसेट। एटाटार्ट और मोरर्ट का मूल्यांकन उसी तरह किया जाता है जैसे सूत्र में वेरिएबल। यह डेटा में पहले और फिर सूत्र के वातावरण में है। पृष्ठभूमि के लिए चेतावनी संदेश के बारे में संख्यात्मक रूप से 0 या 1 की संख्या के बारे में lsquofitted संभाव्यताएं द्विपद जीएलएम के लिए, वेनेट्स एम्प रिप्ले (2002, पीपी। 1 9 7 डैण्ड 8) देखें। जीएलएम कक्षा एमएम से विरासत में मिली कक्षा का एक ऑब्जेक्ट देता है। इस खंड में बाद में देखें यदि एक गैर-मानक विधि का उपयोग किया जाता है, तो वस्तु उस वर्ग से प्राप्त होगी (यदि कोई हो) उस फ़ंक्शन द्वारा वापस आ जाएगी। फ़ंक्शन सारांश (यानी सारांश। जीएमएल) का उपयोग विचरण तालिका के विश्लेषण के लिए परिणामों के सारांश को प्राप्त करने या प्रिंट करने के लिए किया जा सकता है (यानी, anova. glm)। सामान्य एक्सेसर फ़ंक्शन गुणांक प्रभाव। फिट। मूल्य और अवशेषों का उपयोग ग्लोम द्वारा लौटाए गए मूल्य के विभिन्न उपयोगी विशेषताओं को निकालने के लिए किया जा सकता है। वज़न भार के एक वेक्टर को निकालता है, प्रत्येक मामले के लिए एक फिट (सबसेटिंग और नेशन के बाद)। क्लास ग्लैम का एक ऑब्जेक्ट कम से कम निम्नलिखित घटकों वाली सूची है: एक निरंतर तक, अधिकतम दो बार अधिकतम प्रवेश संभावना। जहां समझदार, निरंतर चुना जाता है ताकि एक संतृप्त मॉडल में देवता शून्य हो। उर्फ एक सूचना मानदंड का एक संस्करण परिवार के एआईसी घटक द्वारा गणना की गयी मापदंडों की तुलना में दो बार अधिकतम लॉज-संभावना की तुलना में दो बार। द्विपद और विष परिवार के लिए फैलाव एक पर तय हो गया है और मानकों की संख्या गुणांक की संख्या है। गाऊसी, गामा और उलटा गौसी परिवारों के लिए अवशिष्ट अव्यवस्था से अनुमान लगाया गया है, और पैरामीटर की संख्या गुणांक की संख्या और एक है। गाऊसी परिवार के लिए फैलाव के एमएलई का उपयोग किया जाता है, इसलिए यह एआईसी का मान्य मान है, लेकिन गामा और उलटा गाऊसी परिवारों के लिए यह नहीं है। अर्ध-संभावना से लगाए गए परिवारों के लिए मूल्य एनए है। बेवकूफ मॉडल के लिए भेदभाव, भक्ति के साथ तुलनीय। नल मॉडल में ओफ़्सेट शामिल होगा, और एक अवरोधन यदि मॉडल में एक है। ध्यान दें कि यह गलत होगा यदि लिंक फंक्शन उचित मतलब के अलावा अन्य डेटा पर निर्भर करता है: सही गणना करने के लिए मजबूर एक शून्य ऑफसेट निर्दिष्ट करें IWLS के पुनरावृत्तियों की संख्या का इस्तेमाल किया (जहां प्रासंगिक) जानकारी model. frame द्वारा एनए एस के विशेष प्रबंधन पर वापस आती है इसके अलावा, गैर-खाली फिटों में घटक qr होगा आर और अंतिम भारित रेखीय फिट से संबंधित प्रभाव। वर्ग के एलएलएम के ऑब्जेक्ट्स सामान्यतया वर्ग सी (ग्लैमर, एलएम) के होते हैं। कि वर्ग एमएम से उत्तराधिकार होता है और कक्षा एमएम के लिए अच्छी तरह से तैयार किए गए तरीके IWLS के अंतिम पुनरावृत्त पर भारित रैखिक मॉडल पर लागू होंगे। हालांकि, देखभाल की ज़रूरत है, क्योंकि क्लास के ग्लैमर के लिए एक्स्ट्रेक्टर फ़ंक्शन जैसे अवशिष्ट और वजन केवल उसी नाम से फिट के घटक को नहीं चुनते हैं। यदि द्विपदीय जीएलएम मॉडल को दो-स्तंभ प्रतिक्रिया देकर निर्दिष्ट किया गया था, तो पहले से लौटे वजन। वेइट्स कुल संख्या के मामले हैं (आपूर्ति किए गए मामले के वजन के आधार पर) और परिणाम के घटक y, सफलता का अनुपात है। फिटिंग फ़ंक्शंस तर्क विधि दो प्रयोजनों में कार्य करती है कोई भी मॉडल फ़्रेम को किसी फिटिंग के साथ निर्मित नहीं किया जा सकता है दूसरा डिफ़ॉल्ट फिटिंग फ़ंक्शन glm. fit को एक फ़ंक्शन द्वारा प्रतिस्थापित करने की अनुमति है जो एक ही तर्क को लेता है और एक अलग फिटिंग एल्गोरिदम का उपयोग करता है। यदि glm. fit को एक वर्ण स्ट्रिंग के रूप में प्रदान किया जाता है तो उस नाम के फ़ंक्शन को खोज करने के लिए इसका इस्तेमाल किया जाता है, जो कि आँकड़े नाम स्थान में शुरू होता है। फिटर द्वारा लौटा वस्तु का वर्ग (यदि कोई हो) को ग्लोम द्वारा लौटाए गए वर्ग में जोड़ा जाएगा। ओलंड विश्वविद्यालय में रॉस इहाका के लिए काम करने वाले साइमन डेविस द्वारा जीएलएम का मूल आर कार्यान्वयन लिखा गया था, लेकिन उसके बाद से आर कोर टीम के सदस्यों द्वारा बड़े पैमाने पर पुन: लिखित किया गया। डिजाइन हेस्पी एपीपी प्रीगिबोन (1 99 2) में वर्णित उसी नाम के एस फ़ंक्शन से प्रेरित था। संदर्भ डॉब्सन, ए जे। (1 99 0) सामान्यीकृत रैखिक मॉडल का परिचय लंदन: चैपमैन और हॉल हैस्थी, टी। जे। और प्रीगिबोन, डी। (1 99 2) सामान्यीकृत रैखिक मॉडल। एस एड्स जेएम के सांख्यिकी मॉडल के अध्याय 6 और टी। जे। हैस्टी, वड्सवर्थ amp ब्रूक्स कोले। मैककुलैग पी। और नेल्डर, जे ए (1 9 8 9) सामान्यीकृत रैखिक मॉडल लंदन: चैपमैन और हॉल वेनबल्स, डब्लू। एन। और रिप्ले, बी डी। (2002) एस। न्यू यॉर्क के साथ आधुनिक एप्लाइड स्टेटस: स्प्रिंगर। गैर-सामान्यीकृत रैखिक मॉडल के लिए एलएम (जो एसएएस जीएलएम कॉल करता है, lsquogeneralrsquo रैखिक मॉडल के लिए)। आकस्मिक तालिकाओं के लिए लॉग-लाइनियर मॉडलों (जो द्विपदीय और पॉसॉन जीएलएम हैं) के लिए लॉजलीन और लॉगलएम (पैकेज मैस) बड़ा डेटासेट के लिए जीएलएम को फिट करने के लिए वैकल्पिक रूप से बड़े एमएलएम में बिगग्लएमएम (विशेष रूप से कई मामलों वाले)। आर में सामान्यीकृत रैखिक मॉडल, भाग 1: डेविड लिलीस, पीएचडी द्वारा बाइनरी उपस्कर प्रतिगमन में पूर्वानुमानित संभाव्यता की गणना करना। साधारण कम वर्ग प्रतिगमन निरंतर चर के रैखिक मॉडल प्रदान करते हैं। हालांकि, सांख्यिकीविदों और शोधकर्ताओं के लिए ब्याज का बहुत डेटा निरंतर नहीं है और इसलिए उपयोगी विधियों के मॉडल बनाने के लिए अन्य विधियों का उपयोग किया जाना चाहिए। बीएलएम () कमांड द्विआधारी परिणाम डेटा, गिनती डेटा, संभावना डेटा, अनुपात डेटा और कई अन्य डेटा प्रकारों पर सामान्यीकृत रैखिक मॉडल (प्रतिगमन) करने के लिए डिज़ाइन किया गया है। इस ब्लॉग पोस्ट में, हम एक ऐसे डेटा प्रकार पर जीएलएम () कमांड के इस्तेमाल का पता लगाते हैं। आइए एक सरल उदाहरण पर एक नज़र डालते हैं जहां हम बाइनरी डेटा मॉडल करते हैं। एमटीसीएर्स डेटा सेट में, चर बनाम इंगित करता है कि कार में वी इंजन या सीधी इंजन है। हम एक ऐसा मॉडल बनाना चाहते हैं, जो हमें वी इंजन की एक वाहन की संभावना की भविष्यवाणी करने या 2100 एलबीएस का वजन और 180 घन इंच के इंजन विस्थापन के लिए एक सीधी इंजन की भविष्यवाणी करने में मदद करता है। पहले हम मॉडल को फिट करते हैं: हम glm () फ़ंक्शन का उपयोग करते हैं, सामान्य तरीके से वेरिएबल्स को शामिल करते हैं, और एक द्विपदीय त्रुटि वितरण निर्दिष्ट करते हैं, जो निम्नानुसार है: हम गुणांक के अनुमान से देखते हैं कि वजन सकारात्मक रूप से प्रभावित करता है, जबकि विस्थापन के पास थोड़ा नकारात्मक प्रभाव मॉडल आउटपुट एक साधारण कम वर्ग मॉडल से कुछ भिन्न होता है मैं अगले लेख में अधिक विस्तार से आउटपुट को समझाऊंगा, लेकिन अभी के लिए, हमारी गणना जारी रखता है। याद रखें, हमारा लक्ष्य यहां भविष्यवाणी के विशिष्ट मूल्यों के लिए, एक वी इंजन की भविष्यवाणी की संभावना की गणना करना है: 2100 एलबीएस का वजन और 180 घन इंच के इंजन विस्थापन। ऐसा करने के लिए, हम एक डेटा फ्रेम बनाते हैं जिसे नया डेटा कहा जाता है, जिसमें हमारे पूर्वानुमान के लिए वांछित मान शामिल हैं। अब हम अनुमानित संभावना की गणना करने के लिए भविष्यवाणी () फ़ंक्शन का उपयोग करते हैं। हमारी भविष्यवाणी प्राप्त करने के लिए हम तर्क type8221response8221 को शामिल करते हैं। भविष्यवाणी की संभावना 0.24 है। यह इतना मुश्किल नहीं था हमारे अगले लेख में मैं glm () फ़ंक्शन से मिली आउटपुट के बारे में और समझाऊंगा। लेखक के बारे में: डेविड लिलीस ने कई शोधकर्ताओं और सांख्यिकीविदों को आर पढ़ा है। उनकी कंपनी, सिग्मा सांख्यिकी और अनुसंधान लिमिटेड आर ऑन ऑन लाइन निर्देश और फेस-टू-फेस कार्यशालाओं दोनों को प्रदान करता है, और आर। डेविड में कोडिंग सेवाएं लागू आँकड़ों में डॉक्टरेट रखती हैं इस छह घंटे की कार्यशाला में जीएलएम समारोह सीखना चाहते हैं आप लॉजिकल प्रोबिट रिग्रेसन, पॉसिंन नकारात्मक बाइनोमियल रिग्रेसन, और गामा रिग्रेसेन्स निर्दिष्ट करने के लिए glm () का उपयोग कैसे करें ... और प्रत्येक एक के लिए विशिष्ट विकल्प शामिल करें संबंधित पदों को देखा जा सकता है, पहले पांच विकल्पों में से प्रत्येक का एक संबद्ध विचरण फ़ंक्शन होता है (द्विपदीय द्विपदीय विचरण मी (1-मी)) के लिए, और लिंक फ़ंक्शन के एक या अधिक विकल्प (द्विपदीय के लिए लॉग-इन, प्रोबिट या पूरक लॉग - लॉग इन करें)। जब तक आप डिफ़ॉल्ट लिंक चाहते हैं, तब तक आपको निर्दिष्ट करना होगा कि परिवार का नाम है। यदि आप एक वैकल्पिक लिंक चाहते हैं, तो आपको एक लिंक तर्क जोड़ना होगा उदाहरण के लिए जांच करने के लिए आप पिछले परिवार को सूची में कहते हैं, अर्ध। अधिकतम अर्ध-संभावना से फिटिंग उपयोगकर्ता-निर्धारित मॉडल की अनुमति देने के लिए है 5.2 उपस्कर प्रतिगमन हम नीचे दिखाए गए गर्भनिरोधक उपयोग के आंकड़ों का उपयोग करके फिटिंग रसद प्रतिगमन मॉडल को समझाएंगे: डेटा मेरे सामान्यीकृत रैखिक मॉडल पाठ्यक्रम के लिए वेबसाइट के डेटासेट अनुभाग से उपलब्ध है। संक्षिप्त विवरण पढ़ने और cuse. dat के लिंक का पालन करने के लिए data. princeton. eduwws509 डेटासेट पर जाएं। बेशक डेटा सीधे आर से डाउनलोड किया जा सकता है: मैंने हेडर पैरामीटर को सच के रूप में निर्दिष्ट किया है। क्योंकि अन्यथा यह स्पष्ट नहीं होगा कि फाइल में पहली पंक्ति में वेरिएबल नाम हैं कोई पंक्ति नाम निर्दिष्ट नहीं हैं, इसलिए पंक्तियों को 1 से 16 तक गिने जाएगा। यह सुनिश्चित करने के लिए क्यूस प्रिंट करें कि आपको ठीक से डेटा मिला। फिर इसे अपना डिफॉल्ट डाटासेट बनायें: आइए पहले एक सरल योजक मॉडल की कोशिश करें, जहां गर्भनिरोधक का उपयोग उम्र, शिक्षा और चाहता है पर निर्भर करता हैअधिक जानकारी यहां बताया गया है। सबसे पहले, फ़ंक्शन को ग्लैमर कहा जाता है और मैंने उसे लार्मिट नामक एक ऑब्जेक्ट के लिए उसका मूल्य सौंपा है (रिक्तिगत प्रतिगमन के लिए फिट)। फ़ंक्शन का पहला तर्क मॉडल का सूत्र है, जो प्रतिक्रिया और रैखिक भविष्यवक्ता को परिभाषित करता है। द्विपदीय डेटा के साथ प्रतिक्रिया या तो एक वेक्टर या दो कॉलम के साथ मैट्रिक्स हो सकती है। अगर प्रतिक्रिया एक सदिश है, तो यह विफलता के लिए 0 और सफलता के लिए 1 के साथ संख्यात्मक हो सकता है, या पहले के स्तर के साथ एक तथ्य का प्रतिनिधित्व करता है जो कि क्फ़ॉफ़्यूरक्वोट का प्रतिनिधित्व करता है और सभी अन्य का प्रतिनिधित्व करता है quotsuccessquot इन मामलों में, बी में से एक वेक्टर उत्पन्न करता है, जो द्विपदीय denominators का प्रतिनिधित्व करते हैं। वैकल्पिक रूप से, प्रतिक्रिया एक मैट्रिक्स हो सकती है, जहां पहले स्तंभ quotsuccessesquot की संख्या है और दूसरा स्तंभ quotfailuresquot की संख्या है। इस मामले में सही दोपक्षीय दोपहर का निर्माण करने के लिए दो कॉलम एक साथ जोड़ता है। चूंकि उत्तरार्द्ध दृष्टिकोण स्पष्ट रूप से हमारे लिए सही है क्योंकि मैं फ़ंक्शन cbind का इस्तेमाल करते हुए मैट्रिक्स को कॉलम वैक्टर बाध्य करके उपयोग करके नंबरों का उपयोग करके और गर्भनिरोधक का उपयोग नहीं किया। भविष्यवाणियों से प्रतिक्रिया को अलग करने वाले विशेष प्रतीक के बाद, हमारे पास मानक विल्किनसन-रोजर्स मॉडल फॉर्मूला है। इस मामले में हम उम्र, शिक्षा और चाहता के मुख्य प्रभावों को निर्दिष्ट कर रहे हैंअधिक क्योंकि सभी तीन भविष्यवाणियां स्पष्ट वैरिएबल हैं, इन्हें स्वचालित रूप से कारकों के रूप में इलाज किया जाता है, जैसा कि आप परिणामों का निरीक्षण करके देख सकते हैं: याद रखें कि आर वर्णक्रम के क्रम में एक कारक के स्तरों को हल करता है। क्योंकि उम्र इसी तरह, शिक्षा के संदर्भ में उच्च संदर्भ कक्ष है क्योंकि उच्चतर कम से कम पहले आता है आर, आर के लिए आधार के रूप में कोई नहीं उठायाअधिक यदि आप इन विकल्पों के बारे में नाखुश हैं तो आप (1) बेस श्रेणी को बदलने के लिए रिलीवेल का उपयोग कर सकते हैं, या (2) अपने खुद के सूचक चर परिभाषित कर सकते हैं मैं उच्च शिक्षा वाले महिलाओं के लिए संकेतकों को परिभाषित करके और अधिक से अधिक बच्चों की इच्छा रखने वाले महिलाओं का उपयोग करूँगा: अब फिर से मॉडल की कोशिश करें: 10 डीएफ पर 29.92 के अवशिष्ट देवता। बहुत महत्वपूर्ण है: इसलिए हमें एक बेहतर मॉडल की आवश्यकता है। मेरे पसंदीदा में से एक उम्र और किसी भी अधिक बच्चों के लिए इच्छा के बीच बातचीत का परिचय नहीं करता है: नोट कैसे आर ने स्वचालित रूप से इंटरएक्शन पदों को बनाया, और यहां तक ​​कि उनके लिए समझदार लेबल भी आए। मॉडल 7 डीएफ पर 12.63 के मॉडल परंपरागत पांच प्रतिशत स्तर पर महत्वपूर्ण नहीं है, इसलिए हमारे पास इस मॉडल के खिलाफ कोई सबूत नहीं है। इस फिट के बारे में अधिक विस्तृत जानकारी प्राप्त करने के लिए सारांश फ़ंक्शन का प्रयास करें: आर, पी-वैल्यू के आधार पर एक, दो या तीन सितारों के साथ महत्वपूर्ण गुणांक को चिह्नित करने के लोकप्रिय कस्टम का अनुसरण करता है। भूखंड (lrfit) की कोशिश करो आप समान भूखंडों को एक रेखीय मॉडल के रूप में प्राप्त करते हैं, लेकिन उदाहरण के लिए सामान्यीकृत रैखिक मॉडल के रूप में अनुकूलित किया जाता है, उदाहरण के लिए बनाए गए अवशिष्ट देवता अवशिष्ट हैं (विचलन के लिए अवलोकन के योगदान का वर्गमूल, कच्चे अवशिष्ट के रूप में एक ही चिन्ह के साथ) कार्य जो फिट से परिणाम निकालने के लिए इस्तेमाल किया जा सकता है अवशिष्ट या निवास शामिल हैं देवता अवशेषों के लिए फिट या फिट। मूल्य फिट मूल्यों (अनुमानित संभावनाओं) के लिए भविष्यवाणी करें रैखिक भाजक (अनुमानित लॉग्स) कोफ या गुणांक के लिए गुणांक के लिए, और देवता देवता के लिए उदाहरण के लिए इनमें से कुछ फ़ंक्शंस में वैकल्पिक तर्क हैं, आप उद्धरण के पांच अलग-अलग प्रकार के व्युत्पन्नों को उद्धृत कर सकते हैं, जिन्हें quotdeviancequot, quotpearsonquot, quotresponsequot (प्रतिसाद-योग्य मूल्य), quotingsquot (IRLS एल्गोरिद्म - रैखिक भविष्यवक्ता में कार्य निर्भर चर, और quotpartyquot) कहा जाता है मॉडल में प्रत्येक अवधि को छोड़कर काम करने वाले अवशेषों का मैट्रिक्स) आप उस प्रकार को निर्दिष्ट करते हैं जिसे आप प्रकार तर्क का उपयोग करना चाहते हैं, उदाहरण के लिए residuals (lrfit, typequotpearsonquot)। 5.3 मॉडल अद्यतन करना यदि आप एक मॉडल को संशोधित करना चाहते हैं तो आप विशेष फ़ंक्शन अपडेट का उपयोग करने पर विचार कर सकते हैं। उदाहरण के लिए उम्र को छोड़ने के लिए: हमारे मॉडल में किसी भी अधिक इंटरेक्शन का इस्तेमाल हो सकता है पहला तर्क एक फिट का परिणाम है, और दूसरा एक अद्यतन सूत्र है। जगह धारक, भविष्यवाणियों और डॉट से प्रतिक्रिया को अलग करता है। मूल सूत्र के दाहिने हाथ को संदर्भित करता है, इसलिए यहां हम केवल उम्र निकालते हैं: नो मोरे वैकल्पिक रूप से, एक दूसरे तर्क के रूप में एक नया सूत्र दे सकता है। नवीनीकरण फ़ंक्शन का प्रयोग एक ही मॉडल को अलग-अलग डेटासेट में फिट करने के लिए किया जा सकता है, तर्क डेटा का उपयोग करके एक नया डेटा फ्रेम निर्दिष्ट किया जा सकता है। एक अन्य उपयोगी तर्क सबसेट है मॉडल को एक अलग सैंपल में फिट करने के लिए यह फ़ंक्शन रैखिक मॉडल के साथ-साथ सामान्यीकृत रैखिक मॉडल के साथ काम करता है। यदि आप मॉडल के अनुक्रम को फिट करने की योजना बना रहे हैं तो आपको एनोवा फ़ंक्शन उपयोगी मिलेगा। नेस्टेड मॉडलों की एक श्रृंखला को देखते हुए, यह उनके बीच विचलन में परिवर्तन की गणना करेगा। बातचीत को जोड़ने की कोशिश में डीआईएफ के खर्च पर 17.288 द्वारा विचलन कम हो गया है। यदि एनोवा के तर्क को एक मॉडल है, तो फ़ंक्शन मॉडल सूत्र में सूचीबद्ध क्रम में प्रत्येक शब्द को जोड़कर प्राप्त किए गए देवता में परिवर्तन दिखाएगा, जैसे कि रैखिक मॉडल के लिए किया था क्योंकि इसमें कई मॉडल के रूप में उपयुक्त होना आवश्यक है क्योंकि सूत्र में शब्द हैं, फ़ंक्शन को इसकी गणना पूरी करने में थोड़ी देर लग सकती है। Anova फ़ंक्शन आपको एक वैकल्पिक परीक्षण निर्दिष्ट करने देता है। सामान्य विकल्प एफ के लिए रैखिक मॉडल और चिसक सामान्यीकृत रैखिक मॉडल के लिए होंगे। पैरामीटर को जोड़ना testquotChisqquot देवताओं के बगल में पी-वैल जोड़ता है। हमारे मामले में हम देख सकते हैं कि सभी शब्द अत्यधिक महत्वपूर्ण थे जब उन्हें मॉडल में पेश किया गया था। 5.4 मॉडल चयन आर में एक बहुत ही शक्तिशाली उपकरण चरणबद्ध प्रतिगमन के लिए एक समारोह है जिसमें तीन उल्लेखनीय विशेषताएं हैं: यह सामान्यीकृत रैखिक मॉडल के साथ काम करता है, इसलिए यह कदम-दिशात्मक रिक्तिगत प्रतिगमन, या चरणबद्ध पॉसॉन प्रतिगमन करेगा, यह पदानुक्रमित मॉडल के बारे में समझता है, इसलिए यह केवल मॉडल में संबंधित मुख्य प्रभावों को शामिल करने के बाद ही इंटरैक्शन जोड़ने पर विचार करें, और यह एक से अधिक स्वतंत्रता से जुड़े शब्दों को समझता है, इसलिए यह एक कारक के प्रभाव का प्रतिनिधित्व करते हुए डमी चर को एक साथ रखेगा। प्रक्रिया का मूल विचार शुरू करना है किसी मॉडल से (जो नल मॉडल अच्छी तरह से हो सकता है) और मॉडल में पहले से ही एक शब्द को हटाने या शामिल करने के लिए उम्मीदवारों की एक सूची से एक शब्द जोड़कर कदम की एक श्रृंखला ले, खोज और परिभाषित की गुंजाइश कहा जाता है पाठ्यक्रम, एक मॉडल सूत्र द्वारा हटाए जाने या शामिल करने के लिए शर्तों का चयन, ऑकेक्स की जानकारी मानदंड (एआईसी) पर आधारित है। आर एआईसी को एनडीएस के रूप में परिभाषित करता है- लॉग-संभावना अधिकतम 2 मानकों की संख्या (एस-प्लस इसे परिभाषित करती है कि वह मॉडल में दो बार मानदंडों की संख्या को दोबारा मानती है। दो परिभाषाएं एक स्थिरांक से भिन्न होती हैं, इसलिए एआईसी में अंतर दो में समान है वातावरण।) एआईसी मानदंड में सुधार नहीं किया जा सकता है जब प्रक्रिया बंद हो जाती है। आर में यह सब काम दो कार्यों को जोड़कर किया जाता है, add1 और drop1 कि एक मॉडल से शब्द को जोड़ने या छोड़ने पर विचार करें ये फ़ंक्शंस मॉडल चयन में बहुत उपयोगी हो सकती हैं, और दोनों ही एनोवा की तरह एक परीक्षण तर्क स्वीकार करते हैं। पहले ड्रॉप 1 पर विचार करें हमारे तर्कसंगत प्रतिगमन मॉडल के लिए, जाहिर है हम इन शर्तों में से किसी भी ड्रॉप नहीं कर सकते ध्यान दें कि आर शिक्षा और आयु का मुख्य प्रभाव छोड़ने पर विचार नहीं करना चाहिए, लेकिन इससे अधिक बातचीत नहीं होगी, लेकिन उम्र के मुख्य प्रभावों की जांच नहीं की गई है या नहीं, क्योंकि बातचीत को बनाए रखने के दौरान ये मुख्य प्रभाव नहीं छोड़ेगा। बहन समारोह add1 के लिए अतिरिक्त शर्तों को परिभाषित करने के लिए एक मौका की आवश्यकता है। हमारे उदाहरण में हम सभी संभावित दो-कारक परस्पर क्रियाओं पर विचार करेंगे: हम देखते हैं कि पारंपरिक पांच प्रतिशत स्तर पर लापता दो-कारक परस्पर क्रियाओं में से कोई भी महत्वपूर्ण नहीं है। (हालांकि, वे संयुक्त रूप से महत्वपूर्ण हो सकते हैं।) ध्यान दें कि शिक्षा के अंतराल से उम्र के मॉडल में हमारे शुरुआती मॉडल की तुलना में कम एआईसी है। कदम समारोह एक स्वचालित खोज करेंगे। यहां हम इसे दो-कारक परस्पर क्रियाओं द्वारा परिभाषित दायरे में खोजते हैं: चरण फ़ंक्शन विस्तृत ट्रेस आउटपुट का उत्पादन करता है जिसे हमने दबा दिया है। हालांकि, लौटा हुआ ऑब्जेक्ट में एक एनोवा घटक शामिल है, जो खोज को सारांशित करता है: जैसा कि आप देख सकते हैं, स्वचालित प्रक्रिया को एक-एक करके, शेष तीन दो-कारक इंटरैक्शन, 99.9 के अंतिम एआईसी प्राप्त करने के लिए। यह एक उदाहरण है, जहां एआईसी, केवल 2 प्रति पैरामीटर के विचलन सुधार की आवश्यकता के कारण, डेटा को अधिक मात्रा में ले जा सकता है। कुछ विश्लेषक प्रति पैरामीटर के लिए उच्च दंड पसंद करते हैं। विशेष रूप से, गुणक (बीआईसी) के रूप में 2 के बजाय लॉग (एन) का उपयोग करके, बायिसियन सूचना मानदंड। हमारे उदाहरण लॉग (1607) 7.38 में, इसलिए हमें 7.38 प्रति अतिरिक्त पैरामीटर के एक विचलन में कमी की आवश्यकता होगी। चरण फ़ंक्शन कश्मीर को एक तर्क के रूप में स्वीकार करता है, डिफ़ॉल्ट 2 के साथ। आप सत्यापित कर सकते हैं कि कोलाज निर्दिष्ट करने से (1607) एक बहुत सरल मॉडल की ओर जाता है न केवल कोई नया इंटरैक्शन पेश किया गया है, लेकिन शिक्षा का मुख्य प्रभाव गिरा दिया गया है (हालांकि यह महत्वपूर्ण है )। कॉपी 2017 जर्मटाकटन रॉड्रीक्यूटेग्यूज, प्रिंसटन विश्वविद्यालय

Comments