HINWEIS: Die IDRE Statistische Beratungsgruppe wird die Website im Februar auf das WordPress CMS migrieren, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht mehr gepflegt werden. Wir werden versuchen, Umleitungen zu pflegen, damit die alten URLs weiterhin so gut funktionieren wie möglich. Willkommen beim Institut für digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata Class Notes Analysieren von Daten 1.0 Stata-Befehle in diesem Gerät Analyse der Varianz Schafft Dummy-Variablen während der Modellschätzung Predicts nach Modellschätzung Kerndichte-Schätzungen und Graphen Graphs a standardisiert Normales Diagramm Diagramme ein Quantil-Plot Graphs ein Residual versus Fit-Plot Test lineare Hypothesen nach Modellschätzung Kreuztabellen mit Chi-Quadrat-Test Testen Sie die Gleichheit der übereinstimmenden Datenpaare Wilcoxon Matched-Paare unterzeichneten Rang Test Mann-Whitney Zwei-Sample-Test Nichtparametrisch analog zum One-way anova 2.0 Demonstration und Erklärung 2.1 Chi-Quadrat-Test von Frequenzen Hier ist der tabulierte Befehl für eine Kreuztabelle mit einer Option zur Berechnung der Chi-Quadrat-Test der Unabhängigkeit und Assoziationsmaßnahmen. Hier ist der Befehl mit einer Option, um die erwarteten Frequenzen anzuzeigen, so dass man auf Zellen mit sehr kleinen erwarteten Werten prüfen kann. 2.2 t-tests Dies ist der Ein-Stichproben-T-Test, der prüft, ob die Stichprobe von Schriften aus einer Population mit einem Mittelwert von 50 gezogen wurde. Dies ist der gepaarte t-Test, der prüft, ob der Mittelwert des Schreibens gleich ist Mittel zum Lesen Dies ist der zweistufige unabhängige t-Test mit gepoolten (gleichen) Abweichungen. Dies ist der zweistufige unabhängige t-Test mit separaten (ungleichen) Abweichungen. 2.3 Varianzanalyse Der Befehl anova führt überraschenderweise eine Varianzanalyse (ANOVA) durch. Hier ist ein Beispiel für eine Einweganalyse der Varianz. In diesem Beispiel wird der Befehl anova verwendet, um eine Zwei-Wege-Faktoranalyse der Varianz (ANOVA) durchzuführen. Hier ist ein Beispiel für eine Analyse der Kovarianz (ANCOVA) mit dem Befehl anova. 2.4 Regression Plain Vanille OLS lineare Regression. Im folgenden Beispiel führen wir die Regression mit robusten Standardfehlern. Dies ist sehr nützlich, wenn es Heterogenität der Varianz gibt. Diese Option wirkt sich nicht auf die Schätzungen der Regressionskoeffizienten aus. Der Vorhersagebefehl berechnet Vorhersagen, Residuen, beeinflusst Statistiken und dergleichen nach einem Schätzbefehl. Die hier gezeigte Vorgabe ist die Berechnung der vorhergesagten Punkte. Bei Verwendung der Rest-Option berechnet der Vorhersagebefehl den Restwert. Der Listenbefehl zeigt die Werte der von uns erzeugten Variablen an. Die Option in 120 legt fest, dass nur die ersten 20 Beobachtungen angezeigt werden. Der kdensity-Befehl mit der normalen Option zeigt ein Dichtegraph der Residuen mit einer Normalverteilung an, die dem Graphen überlagert ist. Dies ist besonders nützlich bei der Überprüfung, dass die Residuen normalerweise verteilt sind, was eine sehr wichtige Annahme für die Regression ist. Der pnorm-Befehl erzeugt ein normales Wahrscheinlichkeitsdiagramm und es ist eine andere Methode, um zu prüfen, ob die Reste aus der Regression normalerweise verteilt sind. Der Befehl qnorm erzeugt ein normales Quantil-Plot. Es ist noch eine andere Methode zum Testen, ob die Residuen normalerweise verteilt sind. Die qnorm-Handlung ist empfindlicher gegenüber Abweichungen von der Normalität in den Schwänzen der Verteilung, während die pnorm-Handlung empfindlicher auf Abweichungen in der Nähe des Mittels der Verteilung ist. Rvfplot ist ein Bequemlichkeitsbefehl, der eine Auftragung des Restes gegen die passenden Werte erzeugt, die es nach Regress oder Anova verwendet wird. Erstellen von Dummy-Variablen mithilfe des Befehls xi Das xi-Präfix ist die Verwendung von Dummy-Code-kategorischen Variablen wie z. B. prog. Der Prädiktor prog hat drei Ebenen und benötigt zwei Dummy-codierte Variablen. Der Testbefehl wird verwendet, um den kollektiven Effekt der beiden dummy-codierten Variablen zu testen, mit anderen Worten, er prüft den Haupteffekt von prog. Das xi-Präfix kann auch verwendet werden, um Dummy-Variablen für prog und für die Interaktion von prog zu erstellen und zu lesen. Der erste Testbefehl testet die Gesamtinteraktion und der zweite Testbefehl testet den Haupteffekt von prog. 2.5 Logistische Regression Um die logistischen Regressionsbefehle zu demonstrieren, erstellen wir eine dichotome Variable namens Honcomp (Ehrenkomposition), um als unsere abhängige Variable zu verwenden. Dies dient lediglich der Veranschaulichung. Der logistische Befehl setzt standardmäßig die Ausgabe in Quotenverhältnissen ein, kann aber die Koeffizienten anzeigen, wenn die Option coef verwendet wird. Die exakt gleichen Ergebnisse können durch Verwendung des Logit-Befehls erhalten werden, der Koeffizienten als Standard erzeugt, aber die Odds Ratio anzeigt, wenn die Option oder die Option verwendet wird. 2.6 Nichtparametrische Tests Das Signetest ist das nichtparametrische Analog des Einzeltest-T-Tests. Der Signrank-Befehl berechnet einen Wilcoxon-Sign-Ranking-Test, das nichtparametrische Analog des gepaarten t-Tests. Der Rangeum-Test ist das nichtparametrische Analog des unabhängigen Zwei-Sample-T-Tests und ist bekannt als der Mann-Whitney - oder Wilcoxon-Test. Der Befehl kwallis berechnet einen Kruskal-Wallis-Test, das nichtparametrische Analog der Einweg-ANOVA. 3.0 Für weitere Informationen Der Inhalt dieser Website sollte nicht als Bestätigung einer bestimmten Website, Buch oder Softwareprodukt von der University of California ausgelegt werden. HINWEIS: Die IDRE Statistische Beratungsgruppe wird die Website auf das WordPress CMS migrieren Im Februar zur Erleichterung der Instandhaltung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht mehr gepflegt werden. Wir werden versuchen, Umleitungen zu pflegen, damit die alten URLs weiterhin so gut funktionieren wie möglich. Willkommen am Institut für digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Regression mit Stata Kapitel 2 Self Assessment Antworten 1. Der folgende Datensatz besteht aus gemessenem Gewicht, gemessener Höhe, berichteten Gewicht und berichtete Höhe von etwa 200 Personen. Wir haben versucht, ein Modell zu bauen, um das gemessene Gewicht durch das angegebene Gewicht, die berichtete Höhe und die gemessene Höhe vorherzusagen. Wir haben nach der Regression ein lvr2plot gemacht und hier ist was wir haben. Erklären Sie, was Sie in der Grafik sehen und versuchen, andere STATA-Befehle zu verwenden, um die problematische Beobachtung (en) zu identifizieren. Was denkst du, das Problem ist und was ist deine Lösung Antwort: lvr2plot ist die Hebelwirkung gegen Restquadrat. Die obere linke Ecke des Plots wird Punkte sein, die hoch in der Hebelwirkung sind und die untere rechte Ecke Punkte sind, die im absoluten Reste hoch sind. Der obere rechte Teil ist die Punkte, die sowohl hoch in Hebelwirkung als auch in absoluten Resten sind. Es gibt einen Punkt in dieser Handlung, die sich so sehr anders unterscheidet als jeder andere Punkt. Es gibt viele Möglichkeiten, herauszufinden, was dieser Punkt ist. Zunächst einmal grafisch können wir eine Option in unserem Befehl lvr2plot hinzufügen, um zu sehen, welche Beobachtung mit dem extremen Punkt auf dem Plot verbunden ist. Es gibt auch numerische Maßnahmen, die wir einsetzen können. Da es offensichtlich sehr hoch auf Hebelwirkung ist, können wir zuerst Hebelwirkung erzeugen und die extremen auflisten. Der andere Weg ist, Köche D zu verwenden, da Köche D die Kombination von Hebel und Rest ist. Wir können auch auf studentisierte Residuen schauen. In allen oben genannten, sehen wir, dass Thema 12 ist ein problematischer Punkt. Ist es ein Eintrag Fehler Ja. Anscheinend für das Fach 12 wurde das gemessene Gewicht mit der gemessenen Höhe umgeschaltet. Wir können bei diesem Fall sehr sicher sein. Deshalb können wir sie zurückschalten. Wir führen dann die gleiche Analyse wieder durch. Wir sehen nun, dass sowohl gemessene Höhe als auch berichtete Höhe keine signifikanten Prädiktoren sind. Dies ist, weil die Prädiktoren kollinear zueinander sind, da wir den Eintrittsfehler korrigiert haben. Lets eine andere Regression mit nur berichtet Gewicht als ein einziger Prädiktor. Beachten Sie, dass angepasst R-Platz ist eigentlich die höchste unter allen Regressionsanalyse haben wir bisher getan. Dies zeigt, dass der Dateneingabefehler die Regressionsanalyse manchmal verzerren könnte. 2 Weiter mit dem ersten Modell, das wir in unserer letzten Übung laufen lassen. Welche Maßnahme und ihr entsprechender STATA-Befehl würden Sie verwenden, wenn Sie wissen wollen, wie viel Veränderung eine Beobachtung auf einem Prädiktor machen würde. Zum Beispiel, wie viel Veränderung wäre es für den Koeffizienten von Prädiktorreptht, wenn wir die Beobachtung 12 aus unserer Regressionsanalyse auslassen Was? Sind die anderen Maßnahmen, die Sie verwenden würden, um die Stärke einer Beobachtung auf Regression zu beurteilen. Was sind die allgemein vorgeschlagenen Cut-off-Werte für sie Antwort: Die Maßnahme, die misst, wie viel Einfluss jede Beobachtung auf einen bestimmten Prädiktor hat, ist DFBETAs. Die DFBETA für einen Prädiktor und für eine bestimmte Beobachtung ist die Differenz zwischen dem Regressionskoeffizienten, der für alle Daten berechnet wurde, und dem Regressionskoeffizienten, der mit der beobachteten Beobachtung berechnet wurde, skaliert durch den Standardfehler, der mit der gelöschten Beobachtung berechnet wurde. Der Cut-off-Wert für DFBETAs ist 2sqrt (n), wobei n die Anzahl der Beobachtungen ist. In unserem Fall ist es der absolute Wert von DFBETAs größer als 2sqrt (181) .14866. Von unserer unten stehenden Liste können wir sehen, dass wir mehrere schwierige Punkte mit Beobachtung haben 12 die mühsamste. Für die Beobachtung 12 ist die DFreptht 24.25463. Das bedeutet, dass mit der Beobachtung 12 in der Regression der Regressionskoeffizient für Reptht um etwa das 24-fache des Standardfehlers zunehmen wird als der Fall mit der ausgeschlossenen Beobachtung. DFBETAs sind berechnungsintensiv, wie es für die Berechnung jedes Prädiktor und jede Beobachtung ist. DFITS und Köche D, andererseits sind zusammenfassende Informationen über den Einfluss (Hebel und Rest) und sind viel weniger rechenintensiv. Zum Beispiel können wir DFITS nach der Regression anschauen, ähnlich wie wir in Übung 1 getan haben. Die Cut-off-Werte von DFITS und Cooks D sind 2sqrt (kn) bzw. 4n. Beobachtungen mit DFITS - oder Köche D-Wert größer als diese Cut-off-Werte verdienen weitere Untersuchungen. 3 . Die folgende Datendatei heißt bbwt. dta und ist aus Weisbergs Applied Regressionsanalyse. Es besteht aus den Körpergewichten und dem Gehirngewicht von etwa 60 Tieren. Wir wollen das Gehirngewicht durch das Körpergewicht vorherzusagen, das heißt, eine einfache lineare Regression des Hirngewichts gegen das Körpergewicht. Zeigen Sie, was Sie tun müssen, um die Linearitätsannahme zu überprüfen. Wenn Sie denken, dass es gegen die Linearitätsannahme verstößt, zeigen Sie mögliche Abhilfemaßnahmen, die Sie berücksichtigen würden. Antwort: Im Allgemeinen können wir acprplot verwenden, um die Linearitätsannahme gegen einen Prädiktor zu überprüfen. Zum Beispiel können wir nach der Regression über dem acprplot gegen unsere einzige Prädiktor-Körper tun. Die Grafik sieht nicht sehr linear aus. In unserem Kapitel haben wir einige logarithmische Umwandlungen gemacht. Versuche es hier und die Ergebnisse sind unten dargestellt. Beachten Sie die Handlung ist viel schöner dieses Mal. Das eingestellte R-Quadrat ist auch um 0,05 an. 4 Wir haben eine Regressionsanalyse mit Datendatei elemapi in Kapitel 2 gemacht. Mit der Analyse, die wir getan haben, haben wir hier ein avplot gemacht. Erklären Sie, was ein avplot ist und wie Sie das avplot unten interpretieren würden. Wenn voll in das Modell gesetzt wäre, wäre es ein bedeutender Prädiktor Antwort: Eine Gruppe von Punkten kann gemeinsam einflussreich sein. Ein avplot ist eine attraktive grafische Methode, um mehrere einflussreiche Punkte auf einem Prädiktor zu präsentieren. Was wir in einem avplot suchen, sind jene Punkte, die eine wesentliche Änderung der Regressionslinie ausüben können. Zum Beispiel ist in der obigen Handlung die Beobachtung mit der Schulnummer 211 in der linken Ecke des Grundstücks sehr gering. Das Löschen würde die Regressionslinie viel abflachen, mit anderen Worten, es würde den Regressionskoeffizienten für die Variable voll signifikant verringern. Sie können die Regression vergleichen, die die Variable voll und den gesamten Datensatz und das Modell ohne die Beobachtung mit snum 211 enthält. Natürlich gibt es andere Punkte, die in ähnlicher Weise sind wie die Beobachtung mit snum 211, die im avplot gezeigt wird, die wert sind Mehr Aufmerksamkeit auf. Auf der anderen Seite, wenn wir den t-Wert auf den Avplot betrachten, ist es nur 68. Der p-Wert, der ihm entspricht, ist die Wahrscheinlichkeit für die T-Verteilung, wobei der Freiheitsgrad der totale Freiheitsgrad ist. Was nicht signifikant ist Die Gleichung oben auf dem avplot ist eigentlich der Regressionskoeffizient und sein Standardfehler, wenn die Variable ein Prädiktor war. In unserer Regression, die vollständige und alle Daten enthält, sehen wir, dass der Koeffizient für voll ist .3157712 und der Standardfehler dafür ist .4625914. Sie sind genau das gleiche wie oben auf dem avplot gezeigt. 5 Der Datensatz wage. dta stammt aus einer nationalen Stichprobe von 6000 Haushalten mit einem männlichen Kopf, der weniger als 15.000 jährlich im Jahr 1966 verdient. Die Daten wurden in 39 demographische Gruppen für die Analyse klassifiziert. Wir haben versucht, die durchschnittlichen Arbeitsstunden von durchschnittlichem Alter des Befragten und durchschnittlichen jährlichen nicht verdienten Einkommen vorauszusagen. Beide Prädiktoren sind signifikant. Nun, wenn wir ASSET zu unserer Prädiktorliste hinzufügen, sind weder NEIN noch ASSET signifikant. Können Sie erklären, warum Antwort: Wenn wir unsere Datensätze sorgfältiger betrachten, zum Beispiel können wir eine Beschreibung zu Beginn der Regressionsanalyse vornehmen, würden wir feststellen, dass die Variablen NEIN und ASSET sehr geschlossen sind. Daher würden wir erwarten, dass diese beiden Variablen stark korreliert sind. Wir können auch ein Scatter-Plot machen, um dies zu überprüfen. Hier ist was wir gemacht haben: Ein weiterer nützlicher Befehl in diesem Kapitel ist vif. So sehen wir, dass es in der ersten Regression keinen Beweis für die Kollinearität gibt, da die Varianz-Inflationsfaktoren ziemlich klein sind. Aber in der zweiten Regressionsanalyse sprang das vif für NEIN und ASSET auf rund 60, was stark das Aussehen der Kollinearität unter den Prädiktoren anzeigt. Die Kollinearität kann auch mit dem Befehl collin erkannt werden. 6. Benutzen Sie den vorherigen Datensatz weiter. Dieses Mal wollen wir den durchschnittlichen Stundenlohn durch den durchschnittlichen Prozentsatz der weißen Befragten vorhersagen. Führen Sie die Regressionsanalyse durch und listen Sie die STATA-Befehle auf, die Sie für die Heterosedastizität verwenden können. Erläutern Sie die Ergebnisse der Prüfung (en). Die härtesten und whitetst basieren auf der Nullhypothese, dass die Varianz konstant ist. Wenn also die Wahrscheinlichkeit groß ist, werden wir die Nullhypothese der konstanten Varianz akzeptieren. Das rvfplot zeigt auch, dass sich die Varianz über die angepassten Werte nicht viel ändert, da wir insgesamt ein Band von gleicher Breite sehen. Auf der anderen Seite ist die Regression unten anders. Sowohl der Schwerpunkt als auch der Whitetst sind signifikant, was auf Heterosedastizität hinweist. Das sieht man auch aus dem unten stehenden Rvfplot, wir sehen, dass die Band immer breiter wird. 7 Wir haben einen Datensatz, der aus Volumen, Durchmesser und Höhe einiger Objekte besteht. Jemand hat eine Regression des Volumens auf Durchmesser und Höhe gemacht. Erklären Sie, welche Tests Sie verwenden können, um Modellspezifikationsfehler zu erkennen und wenn es irgendwelche gibt, Ihre Lösung, um es zu korrigieren. Antwort: Wir können linktest und ovtest verwenden, um Modellspezifikationsfehler zu erkennen. Für linktest suchen wir p-Wert für den quadratischen Begriff und sowohl der linktest als auch der ovtest sind signifikant, was bedeutet, dass unser Modell nicht korrekt angegeben ist. In diesem Fall ist es eigentlich leicht zu verstehen, denn wir suchen nach dem Verhältnis zwischen Volumen, das dreidimensional ist und Durchmesser und Höhe, die 1-dimensional sind. So ist es vernünftig, in höherem Ausmaß zu setzen. Eine Lösung besteht darin, den quadratischen Durchmesser in unsere Regression einzutragen, wie unten gezeigt. Sowohl der linktest als auch der ovtest sind nicht mehr signifikant Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden.
Comments
Post a Comment