Für schnelle Fragen email dataprinceton. edu. Keine Appts. Notwendig während der begehbaren Stunden. Hinweis: Das DSS-Labor ist geöffnet, solange Firestone geöffnet ist, keine Termine erforderlich, um die Labor-Computer für Ihre eigene Analyse zu verwenden. Daten, Datasets und Variablen Datenverwaltung Einstellung von Arbeitsverzeichnis, Protokolldatei, openningsaving einer Stata-Datei, Stata-Farbcodierungssystem, Umbenennen, Umkodieren und Erstellen neuer Variablen, Drop-Fällen, Löschen von Variablen, Zusammenführen, Hinzufügen, Frequenzen, Kreuztabellen und deskriptive Statistiken Datendateien Ein Datensatz ist nur eine Datei, in der Zeilen für Beobachtungen und Spalten für Variablen stehen. Zum Beispiel könnte eine Beobachtung ein Auto sein, und die Variablen würden Stücke von Informationen über das Auto sein, wie die Marke, Länge, Preis und Getriebe-Verhältnis: Wenn Daten bereits in Statas proprietäre Dateiformat ist, wird es die haben Erweiterung dta. Beispielsweise mydata. dta. Daten in diesem Format können mit dem Befehl direkt in Stata eingelesen werden. Wenn Stata Ihnen die Fehlermeldung gibt, wenn Sie versuchen, eine Datendatei zu öffnen, finden Sie hier Informationen zur Behebung des Problems. Stata kann Datensätze in verschiedenen Textformaten sowie im Statas-proprietären Format lesen. Oft beginnt man mit Daten im Textformat, liest sie in Stata und speichert sie im Stata-Format. Sie können auch auf Daten in verschiedenen anderen Formaten stoßen. Beispielsweise werden Daten aus bestimmten Datenarchiven häufig für das statistische Paket SPSS formatiert. Ein Programm namens DBMSCopy. Die sowohl im DSS-Labor als auch auf Windows-Rechnern der OIT-Public-Cluster verfügbar sind, können schnell und einfach Daten aus SPSS und vielen anderen Formaten in das Stata-Format konvertieren. Ein gängiges Textformat ist die abgegrenzte Datei. Abgrenzte Dateien sind meist tabulator - oder kommagetrennte Dateien. Dies bedeutet nur, dass die Variablen in jeder Beobachtung nacheinander auf einer Zeile eingegeben und durch Tabulatoren oder Kommas getrennt werden, während die Beobachtungen durch harte Rückkehr getrennt sind. Das Beispiel oben ist eigentlich, wie eine durch Komma getrennte Textdatei aussehen würde, wenn sie in Word geöffnet wird. Die Befehlssyntax zum Lesen in einer tabulator - oder kommagetrennten Datei lautet: wobei Dateiname der Name der Datei ist, die die tabulator - oder kommagetrennten Daten enthält. Wird oft verwendet, um Tabellenkalkulationen zu speichern, die als CSV-Dateien (comma-delimited) aus einem Paket wie Excel gespeichert sind. Bitte beachten Sie, dass eine Tabellenkalkulation in eine statafreundliche Form gebracht werden muss, bevor Stata sie in geeigneter Weise lesen kann. Nichtbeachtung kann Kopfschmerzen verursachen. Weitere Informationen finden Sie unter Es gibt zwei Befehle außer insheet - infile und infix -, die andere, weniger häufige Arten von Textdateien lesen. Wenn Sie platzbegrenzte Daten, Daten mit fester Breite oder ein Stata-Datenwörterbuch haben. Siehe Mit dem Befehl Stata speichern können Sie eine Datei im Stata-Format speichern: Dabei steht filename für den Namen Ihrer Stata-Datei. Beispiel: speichert eine Stata-Datei mit dem Namen myfile. dta. Diese Datei kann in Stata mit dem Befehl use gelesen werden. Beachten Sie, dass die. dta-Dateierweiterung automatisch an Stata-Dateien angehängt wird. Sie müssen die Dateierweiterung nicht bei der Verwendung oder beim Speichern von Befehlen enthalten. Wenn Sie bereits eine Stata-Datei mit dem Namen myfile. dta haben und eine aktualisierte Version der Datei unter demselben Namen speichern möchten, verwenden Sie den Befehl Stata save mit der Option replace, wie in: wobei Dateiname der Name der gewünschten Datei ist Zu ersetzen, zB Um eine aktualisierte Version der aktiven Datei zu speichern, können Sie einfach Folgendes eingeben: Mit diesem Befehl wird die vorherige Version Ihrer Datei zerstört. Verwenden Sie daher nur die Option Ersetzen, wenn Sie sicher sind, dass Sie die ältere Version Ihrer Datei nicht benötigen. Es gibt keine Möglichkeit, Ihre ursprüngliche Datei abzurufen, sobald eine andere Datei darüber geschrieben hat. Fehlende Werte Manchmal fehlt eine Variable für einige Beobachtungen. (Fehlende bedeutet, dass es keinen Wert gibt - die Person antwortete nicht auf die Umfragefrage oder die Daten konnten aus einem anderen Grund nicht erworben werden.) In Stata werden fehlende Werte in numerischen Variablen durch einen Punkt (.) Dargestellt. Beobachtungen mit fehlenden Werten bleiben aus Tabellen übrig, die durch Tabulator erzeugt werden, und bleiben auch aus Regressionen übrig. Sie erscheinen als Perioden im Stata-Datenbrowser und werden durch Perioden in Befehlen dargestellt. Fehlende Zeichenfolgenwerte erscheinen als leere Zellen im Browser und werden in Befehlen durch zwei doppelte Anführungszeichen mit nichts dazwischen dargestellt (). Was wir in den Kommandos darstellen, wird später etwas mehr Sinn machen. Wenn Sie Daten aus Excel speichern, müssen die fehlenden Werte für Stata leer gelassen worden sein, damit sie fehlen. Stata-Variablentypen Es gibt zwei Arten von Variablen in Stata: numerisch und string. Eine dritte Art, Datum, ist wirklich eine besondere Art der numerischen, wie wir sehen werden. Numerische Variablen sind einfach - sie enthalten Zahlen. String-Variablen enthalten Text, der beliebige Zeichen auf der Tastatur enthalten kann: Buchstaben, Zahlen und Sonderzeichen. Bei auto3 ist make eine Zeichenkettenvariable - alle anderen sind numerisch. Wir können numerische Berechnungen und statistische Analysen numerischer Variablen durchführen - wir können keine String-Variablen verwenden. String-Variablen werden in der Regel als Bezeichner für die Beobachtung verwendet. Eine der numerischen Variablen, Datum, soll ein Datum darstellen - sagen wir, es war das Datum, an dem die Daten über jedes Auto gesammelt wurden. In Stata sind Datumsangaben Zahlen, die die Anzahl der Tage seit dem 1. Januar 1960 repräsentieren. Wenn wir Daten als Zahlen auf diese Weise darstellen, können wir Berechnungen an ihnen durchführen, wie etwa die Zeitdauer zwischen zwei Daten. Aber es sieht seltsam aus, und Stata hat einen einfachen Weg, um Datumsvariablen wie Datumsangaben aussehen zu lassen: (Der Formatbefehl hat andere Verwendungen, die man durch Eingabe von Hilfe-Format sehen kann.) Sie können den Befehl di zusammen mit der Funktion d () verwenden Um den Stata-Wert eines Datums anzuzeigen: Weitere Informationen darüber, wie Stata Daten und Zeitdaten behandelt, finden Sie unter Zeitreihendaten in Stata-Variablen-Namenskonventionen Die Regeln für die Benennung von Variablen in Stata sind einfach: Bei Stata wird zwischen Groß - und Kleinschreibung unterschieden Fall-Buchstaben in Variablennamen ist eine gute Idee. Sie dürfen maximal 32 Zeichen enthalten. Sie können Buchstaben, Zahlen oder Unterstriche () enthalten. Leerzeichen oder andere Sonderzeichen (wie ,,, etc.) sind nicht zulässig. Das erste Zeichen muss ein Buchstabe oder ein Unterstrich sein, keine Zahl. Das Starten von Variablennamen mit Unterstrichen ist eine wirklich schlechte Idee, da Statas eingebaute Variablen mit einem Unterstrich beginnen. Umbenennen von Variablen Das Ändern eines Variablennamens in Stata ist mit dem Befehl rename einfach: copy 2007 Die Treuhänder der Princeton University. Alle Rechte vorbehalten. Dataprinceton. edu ANMERKUNG: Informationen sind für Princeton University. Fühlen Sie sich frei, die Dokumentation zu verwenden, aber wir können nicht beantworten Fragen außerhalb von Princeton Diese Seite zuletzt aktualisiert auf: HINWEIS: Die IDRE Statistical Consulting-Gruppe wird die Migration der Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, Redirects beizubehalten, damit die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata Class Notes Zählen von n bis N Einführung Stata hat zwei eingebaute Variablen namens n und N. N ist die Stata-Notation für die aktuelle Beobachtungsnummer. N in der ersten Beobachtung 1, 2 im zweiten, 3 im dritten und so weiter. N ist die Stata-Notation für die Gesamtzahl der Beobachtungen. Wir können sehen, wie n und N arbeiten. Wie Sie sehen können, enthält die Variable id die Beobachtungsnummer, die von 1 bis 7 läuft, und nt die Gesamtzahl der Beobachtungen, die 7 ist. Zählen mit mit n und N in Verbindung mit dem Befehl kann einige sehr nützliche Ergebnisse liefern. Um den by-Befehl zu verwenden, müssen wir natürlich unsere Daten auf der by-Variablen sortieren. Nun ist n1 die Beobachtungsnummer innerhalb jeder Gruppe und n2 die Gesamtzahl der Beobachtungen für jede Gruppe. Um die niedrigste Punktzahl für jede Gruppe aufzulisten, verwenden Sie Folgendes: Um die höchste Punktzahl für jede Gruppe zu verwenden, verwenden Sie Folgendes: Eine weitere Verwendung von n Verwenden Sie n, um herauszufinden, ob es doppelte ID-Nummern in den folgenden Daten gibt: Die Beobachtungen 6 und 7 haben die gleichen Identifikationsnummern und unterschiedliche Werte. Duplikate finden Mit Hilfe von N können Sie doppelte Beobachtungen finden. In diesem Beispiel sortieren wir die Beobachtungen nach allen Variablen. Dann verwenden wir alle Variablen in der by-Anweisung und set set n gleich der Gesamtzahl der identischen Beobachtungen. Schließlich listen wir die Beobachtungen auf, für die N größer als 1 ist, wodurch die doppelten Beobachtungen identifiziert werden. Wenn Sie eine Menge von Variablen in der Datenmenge haben, könnte es lange dauern, um sie alle zweimal eingeben. Wir können die Wildcard verwenden, um anzuzeigen, dass wir alle Variablen verwenden möchten. Weiterhin können wir in den letzten Versionen von Stata sortieren und in einer einzigen Aussage zusammenfassen. Unten ist eine vereinfachte Version des Codes, die genau die gleichen Ergebnisse wie oben ergeben wird. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, Buch oder Software-Produkt von der University of California. For schnelle Fragen e-Mail dataprinceton. edu ausgelegt werden. Keine Appts. Notwendig während der begehbaren Stunden. Hinweis: Das DSS-Labor ist geöffnet, solange Firestone geöffnet ist, keine Termine erforderlich, um die Labor-Computer für Ihre eigene Analyse zu verwenden. Daten, Datasets und Variablen Datenverwaltung Einstellung von Arbeitsverzeichnis, Protokolldatei, openningsaving einer Stata-Datei, Stata-Farbcodierungssystem, Umbenennen, Umkodieren und Erstellen neuer Variablen, Drop-Fällen, Löschen von Variablen, Zusammenführen, Hinzufügen, Frequenzen, Kreuztabellen und deskriptive Statistiken Datendateien Ein Datensatz ist nur eine Datei, in der Zeilen für Beobachtungen und Spalten für Variablen stehen. Zum Beispiel könnte eine Beobachtung ein Auto sein, und die Variablen würden Stücke von Informationen über das Auto sein, wie die Marke, Länge, Preis und Getriebe-Verhältnis: Wenn Daten bereits in Statas proprietäre Dateiformat ist, wird es die haben Erweiterung dta. Beispielsweise mydata. dta. Daten in diesem Format können mit dem Befehl direkt in Stata eingelesen werden. Wenn Stata Ihnen die Fehlermeldung gibt, wenn Sie versuchen, eine Datendatei zu öffnen, finden Sie hier Informationen zur Behebung des Problems. Stata kann Datensätze in verschiedenen Textformaten sowie im Statas-proprietären Format lesen. Oft beginnt man mit Daten im Textformat, liest sie in Stata und speichert sie im Stata-Format. Sie können auch auf Daten in verschiedenen anderen Formaten stoßen. Beispielsweise werden Daten aus bestimmten Datenarchiven häufig für das statistische Paket SPSS formatiert. Ein Programm namens DBMSCopy. Die sowohl im DSS-Labor als auch auf Windows-Rechnern der OIT-Public-Cluster verfügbar sind, können schnell und einfach Daten aus SPSS und vielen anderen Formaten in das Stata-Format konvertieren. Ein gängiges Textformat ist die abgegrenzte Datei. Abgrenzte Dateien sind meist tabulator - oder kommagetrennte Dateien. Dies bedeutet nur, dass die Variablen in jeder Beobachtung nacheinander auf einer Zeile eingegeben und durch Tabulatoren oder Kommas getrennt werden, während die Beobachtungen durch harte Rückkehr getrennt sind. Das Beispiel oben ist eigentlich, wie eine durch Komma getrennte Textdatei aussehen würde, wenn sie in Word geöffnet wird. Die Befehlssyntax zum Lesen in einer tabulator - oder kommagetrennten Datei lautet: wobei Dateiname der Name der Datei ist, die die tabulator - oder kommagetrennten Daten enthält. Wird oft verwendet, um Tabellenkalkulationen zu speichern, die als CSV-Dateien (comma-delimited) aus einem Paket wie Excel gespeichert sind. Bitte beachten Sie, dass eine Tabellenkalkulation in eine statafreundliche Form gebracht werden muss, bevor Stata sie in geeigneter Weise lesen kann. Nichtbeachtung kann Kopfschmerzen verursachen. Weitere Informationen finden Sie unter Es gibt zwei Befehle außer insheet - infile und infix -, die andere, weniger häufige Arten von Textdateien lesen. Wenn Sie platzbegrenzte Daten, Daten mit fester Breite oder ein Stata-Datenwörterbuch haben. Siehe Mit dem Befehl Stata speichern können Sie eine Datei im Stata-Format speichern: Dabei steht filename für den Namen Ihrer Stata-Datei. Beispiel: speichert eine Stata-Datei mit dem Namen myfile. dta. Diese Datei kann in Stata mit dem Befehl use gelesen werden. Beachten Sie, dass die. dta-Dateierweiterung automatisch an Stata-Dateien angehängt wird. Sie müssen die Dateierweiterung nicht bei der Verwendung oder beim Speichern von Befehlen enthalten. Wenn Sie bereits eine Stata-Datei mit dem Namen myfile. dta haben und eine aktualisierte Version der Datei unter demselben Namen speichern möchten, verwenden Sie den Befehl Stata save mit der Option replace, wie in: wobei Dateiname der Name der gewünschten Datei ist Zu ersetzen, zB Um eine aktualisierte Version der aktiven Datei zu speichern, können Sie einfach Folgendes eingeben: Mit diesem Befehl wird die vorherige Version Ihrer Datei zerstört. Verwenden Sie daher nur die Option Ersetzen, wenn Sie sicher sind, dass Sie die ältere Version Ihrer Datei nicht benötigen. Es gibt keine Möglichkeit, Ihre ursprüngliche Datei abzurufen, sobald eine andere Datei darüber geschrieben hat. Fehlende Werte Manchmal fehlt eine Variable für einige Beobachtungen. (Fehlende bedeutet, dass es keinen Wert gibt - die Person antwortete nicht auf die Umfragefrage oder die Daten konnten aus einem anderen Grund nicht erworben werden.) In Stata werden fehlende Werte in numerischen Variablen durch einen Punkt (.) Dargestellt. Beobachtungen mit fehlenden Werten bleiben aus Tabellen übrig, die durch Tabulator erzeugt werden, und bleiben auch aus Regressionen übrig. Sie erscheinen als Perioden im Stata-Datenbrowser und werden durch Perioden in Befehlen dargestellt. Fehlende Zeichenfolgenwerte erscheinen als leere Zellen im Browser und werden in Befehlen durch zwei doppelte Anführungszeichen mit nichts dazwischen dargestellt (). Was wir in den Kommandos darstellen, wird später etwas mehr Sinn machen. Wenn Sie Daten aus Excel speichern, müssen die fehlenden Werte für Stata leer gelassen worden sein, damit sie fehlen. Stata-Variablentypen Es gibt zwei Arten von Variablen in Stata: numerisch und string. Eine dritte Art, Datum, ist wirklich eine besondere Art der numerischen, wie wir sehen werden. Numerische Variablen sind einfach - sie enthalten Zahlen. String-Variablen enthalten Text, der beliebige Zeichen auf der Tastatur enthalten kann: Buchstaben, Zahlen und Sonderzeichen. Bei auto3 ist make eine Zeichenkettenvariable - alle anderen sind numerisch. Wir können numerische Berechnungen und statistische Analysen numerischer Variablen durchführen - wir können keine String-Variablen verwenden. String-Variablen werden in der Regel als Bezeichner für die Beobachtung verwendet. Eine der numerischen Variablen, Datum, soll ein Datum darstellen - sagen wir, es war das Datum, an dem die Daten über jedes Auto gesammelt wurden. In Stata sind Datumsangaben Zahlen, die die Anzahl der Tage seit dem 1. Januar 1960 repräsentieren. Wenn wir Daten als Zahlen auf diese Weise darstellen, können wir Berechnungen an ihnen durchführen, wie etwa die Zeitdauer zwischen zwei Daten. Aber es sieht seltsam aus, und Stata hat einen einfachen Weg, um Datumsvariablen wie Datumsangaben aussehen zu lassen: (Der Formatbefehl hat andere Verwendungen, die man durch Eingabe von Hilfe-Format sehen kann.) Sie können den Befehl di zusammen mit der Funktion d () verwenden Um den Stata-Wert eines Datums anzuzeigen: Weitere Informationen darüber, wie Stata Daten und Zeitdaten behandelt, finden Sie unter Zeitreihendaten in Stata-Variablen-Namenskonventionen Die Regeln für die Benennung von Variablen in Stata sind einfach: Bei Stata wird zwischen Groß - und Kleinschreibung unterschieden Fall-Buchstaben in Variablennamen ist eine gute Idee. Sie dürfen maximal 32 Zeichen enthalten. Sie können Buchstaben, Zahlen oder Unterstriche () enthalten. Leerzeichen oder andere Sonderzeichen (wie ,,, etc.) sind nicht zulässig. Das erste Zeichen muss ein Buchstabe oder ein Unterstrich sein, keine Zahl. Das Starten von Variablennamen mit Unterstrichen ist eine wirklich schlechte Idee, da Statas eingebaute Variablen mit einem Unterstrich beginnen. Umbenennen von Variablen Das Ändern eines Variablennamens in Stata ist mit dem Befehl rename einfach: copy 2007 Die Treuhänder der Princeton University. Alle Rechte vorbehalten. Dataprinceton. edu ANMERKUNG: Informationen sind für Princeton University. Fühlen Sie sich frei, die Dokumentation zu verwenden, aber wir können nicht beantworten Fragen außerhalb von Princeton Diese Seite zuletzt aktualisiert auf: HINWEIS: Die IDRE Statistical Consulting-Gruppe wird die Migration der Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, Redirects beizubehalten, damit die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata Class Notes Zählen von n bis N Einführung Stata hat zwei eingebaute Variablen namens n und N. N ist die Stata-Notation für die aktuelle Beobachtungsnummer. N in der ersten Beobachtung 1, 2 im zweiten, 3 im dritten und so weiter. N ist die Stata-Notation für die Gesamtzahl der Beobachtungen. Wir können sehen, wie n und N arbeiten. Wie Sie sehen können, enthält die Variable id die Beobachtungsnummer, die von 1 bis 7 läuft, und nt die Gesamtzahl der Beobachtungen, die 7 ist. Zählen mit mit n und N in Verbindung mit dem Befehl kann einige sehr nützliche Ergebnisse liefern. Um den by-Befehl zu verwenden, müssen wir natürlich unsere Daten auf der by-Variablen sortieren. Nun ist n1 die Beobachtungsnummer innerhalb jeder Gruppe und n2 die Gesamtzahl der Beobachtungen für jede Gruppe. Um die niedrigste Punktzahl für jede Gruppe aufzulisten, verwenden Sie Folgendes: Um die höchste Punktzahl für jede Gruppe zu verwenden, verwenden Sie Folgendes: Eine weitere Verwendung von n Verwenden Sie n, um herauszufinden, ob es doppelte ID-Nummern in den folgenden Daten gibt: Die Beobachtungen 6 und 7 haben die gleichen Identifikationsnummern und unterschiedliche Werte. Duplikate finden Mit Hilfe von N können Sie doppelte Beobachtungen finden. In diesem Beispiel sortieren wir die Beobachtungen nach allen Variablen. Dann verwenden wir alle Variablen in der by-Anweisung und set set n gleich der Gesamtzahl der identischen Beobachtungen. Schließlich listen wir die Beobachtungen auf, für die N größer als 1 ist, wodurch die doppelten Beobachtungen identifiziert werden. Wenn Sie eine Menge von Variablen in der Datenmenge haben, könnte es lange dauern, um sie alle zweimal eingeben. Wir können die Wildcard verwenden, um anzuzeigen, dass wir alle Variablen verwenden möchten. Weiterhin können wir in den letzten Versionen von Stata sortieren und in einer einzigen Aussage zusammenfassen. Unten ist eine vereinfachte Version des Codes, die genau die gleichen Ergebnisse wie oben ergeben wird. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.
No comments:
Post a Comment