Datenhandling Und Einstieg In Die Analyse Mit R - FOM

Transcription

Datenhandling und Einstieg in die Analysemit Rifes Institut für Empirie & StatistikFOM Hochschule für Oekonomie & ManagementProf. Dr. Oliver GansserUnterlagen zum Selbststudium

Datenhandling und Einstieg in die Analyse mit RWas ist R? R ist eine freie Programmiersprache für statistisches Rechnen undstatistische Grafiken. Der Funktionsumfang von R kann durch eine Vielzahl von Paketenerweitert und an spezifische statistische Problemstellungen angepasstwerden. Als grafische Benutzeroberfläche wird in R das Paket R-Commander(Paketname: Rcmdr) bereitgestellt. Der R-Commander erleichtert das Datenmanagement und hilft beimSchreiben von Auswertskripten.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R2

Datenhandling und Einstieg in die Analyse mit RDownload & Entpacken Download der FOMPortable-Version unterfom.de/Meine Hochschule/Tools & Services/Software3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R3

Datenhandling und Einstieg in die Analyse mit RDownload & Entpacken Download der FOMPortable-Version für Windows User in einenOrdner mit Schreibrechten.Linux User können dieSoftware Rcmdr direktaus den Paketen desDistributors installieren(total simpel, ein Klick)Windows user3. Februar 2014Mac User beachten bittedie genaue Anleitung, dahier einige Schritte mehrnotwendig sind, als aufden anderen SystemenProf. Dr. Oliver Gansser Datenhandling und Einstieg in R4

Datenhandling und Einstieg in die Analyse mit RDownload & Entpacken für die FOMPortable-Version Nachdem Sie die FOMPortable-Version von R aus dem Online-Campus heruntergeladen haben, entpacken Sie die .zip-Datei.Im Ordner „user“ wurdenDatensätze, Skripte undder Fragebogen für ModulWissenschaftlicheMethodik hinterlegt(Master of Science).Im Hauptverzeichnisbefindet sich die Datei RStart.bat mit der Sie dieR-Umgebung öffnen.Idealerweise verknüpfenSie diese Datei mit IhremDesktop.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R5

Datenhandling und Einstieg in die Analyse mit RBenutzeroberflächen Es öffnen sich die R-Console und der R-Commander Beide Fenster müssen immer geöffnet bleiben. Alle Befehle die in der R Console eingegeben werden können,funktionieren auch im Rcmdr. Im Rcmdr: Befehl mit Cursor markieren oder hinter den Befehlsetzten und auf„Befehl ausführen“ klicken.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R6

Datenhandling und Einstieg in die Analyse mit RR Commander (Rcmdr) zeigt die hinter denjeweiligen Menüpunktenhinterlegten Funktionensowie die verwendetenArgumente undParameter an. werden dieSkriptbefehle und dieErgebnisse von z.B.Berechnungenausgegeben. gibt Statusnachrichtenund Fehlermeldungenaus.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R7

Datenhandling und Einstieg in die Analyse mit RR-Konventionen R kann zwischen Groß- und Kleinschreibung unterscheiden. Ein Kommentar in Skripten wird mit # eingeleitet. Fehlende Werte sind mit NA gekennzeichnet. Das Dezimaltrennzeichen ,(„Komma“) ist . („Punkt“)Das ist wichtig, wenn Sie aus anderen Formaten Daten importieren.Sie müssen in diesem Fall folgendes wissen (s. Folie 19): Wie sind die Felder der zu importierenden Datei getrennt. Welches Format haben die Daten beim Dezimaltrennzeichen. Eine Zuweisung erfolgt über „ -“Die Daten (und alle Eingaben) werden mit dem Beenden von R (einemder beiden Fenster) gelöscht.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R8

Datenhandling und Einstieg in die Analyse mit RFunktionen R ist eine objektorientierte Sprache, d. h. eine Funktion kann je nachTyp des Funktionsarguments unterschiedliche Ergebnisse liefern. Für viele Argumente und Parameter existieren Voreinstellungen dienicht explizit angegeben werden müssen. Funktionen werden direkt angewendet. Häufig werden die Ergebnisse von Funktionen Objekten zugewiesen,so dass mit den Ergebnissen weitergearbeitet werden kann. Die Ergebnisse werden im Workspace gespeichert. Der Inhalt kann mittels ls() angezeigt werden.Mit rm()werden Objekte aus dem Workspace entfernt.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R9

Datenhandling und Einstieg in die Analyse mit RR-Modellspezifikation Vielen Verfahren in R muss das Datenmodell über eine formulaübergeben werden. Zum Verständnis hier die wichtigsten formula Zeichen (z. B. für dieRegressionanalyse): trennt abhängig von unabhängig: y x fügt erklärende Variablen hinzu: y u v * fügt erklärende Variablen und Interaktion hinzu: y u*v : fügt Interaktion direkt hinzu y u v u:v . fügt alle Variablen hinzu y .3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R10

Datenhandling und Einstieg in die Analyse mit RR-Literatur Unzählige Bücher und Internetquellen, auch auf Deutsch, eineAuswahl: Hatzinger, Hornig & Nagel (2011). R: Einführung durch angewandte Statistik,Wien: Pearson Studium Statistik Einführung, sehr gutes Buch, an allen FOMStandorten in der Bibliothek vorhanden. Ligges, U. (2008). Programmieren mit R. Springer. eher technisch Luhmann, M. (2010): R für Einsteiger, Weiheim. gutes Einstiegsbuch Springer Reihe useR! für SpezialgebieteIm Internet tp://www.r-project.org/other-docs.html3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R11

Datenhandling und Einstieg in die Analyse mit RR-Hilfe Es gibt viele Hilfsquellen (Befehle über R Console oder Rcmdr): R Hilfe Startseite: help.start() Direkte Hilfe zu einer Funktion: ?lm Suchfunktion: help.search("lm") FAQ: http://cran.r-project.org/doc/FAQ/R-FAQ.html Mailinglisten, z.B. https://stat.ethz.ch/mailman/listinfo/r-help Häufig hilft schon eine Internetsuche „R lm“ Oder Sie klicken den Hilfebutton im Rcmdr Menü:3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R12

Datenhandling und Einstieg in die Analyse mit RInstallieren von PaketenViele (spezielle) Methoden sind in Paketen enthalten, die teilweisezunächst installiert (über R Console) und dann geladen werden müssen:per Menüführungper Direkteingabe Install.packages(„Hier der Paketname“)3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R13

Datenhandling und Einstieg in die Analyse mit RLaden von PaketenInstallierte Pakete müssen zur Nutzung geladen werden. Auch hier gibtes verschiedene Möglichkeiten:Per Menüführung imRcmdr:Extras/Lade PaketeVor dem Laden muss dasPakt ein mal installiertwerden.per Menüführungper Direkteingabe Library(Hier der Paketname)3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R14

Datenhandling und Einstieg in die Analyse mit RAusgewählte Pakete Folgende Zusatzpakete (contributed) gehören zur (portablen) FOM R-Standard Installation: Rcmdr (GUI) conjoint (Conjointanalyse) CTT (Testtheorie) linprog (lineare Programmierung) rela (Relabiliäten, Cronbach‘s alpha etc.) Matching (Propensity Score Matching) mvpart (Entscheidungsbäume) nortest (Normalverteilungstests) plm (Panelregression) psych (Psychometrische Methoden, Hauptkomponentenrotation etc.) pwr (Powerberechnungen) randomForest (Random Forests) sampleSelection (Tobit/Heckit Verfahren) sem (Strukturgleichungen) wird evtl. durch lavaan ersetzt tseries (Zeitreihenmethoden, (G)Arch etc.) Ab SoSe 14 arules und arulesViz (Assoziationsanalyse (Modul (E)CRM))3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R15

Datenhandling und Einstieg in die Analyse mit RDaten einlesen und praktische Tipps Grafische Möglichkeit über den R-Commander (nächste Folien). Textdateien (ASCII) über read.table(). Diverse Binärformate (z.B. SPSS über read.spss() im Paketforeign). Wenn Daten in Excel vorliegen sollte folgendes beachtet werden: In der ersten Zeile befinden sich normalerweise die Variablennamen. Darunter dieDaten. Diese Daten sollten möglichst ohne Formatierungen vorliegen. DieDatentabelle muss nicht hübsch sein, sondern zweckmäßig. Pro Zeile liegen Daten je Auskunftsperson vor (Merkmalsträger, Beobachtung). Legen Sie, wenn noch nicht geschehen, eine erste Spalte an, die Sie als VariableApn.Nr. o. ä. bezeichnen. Diese Nummer sollte auch auf dem Fragebogen stehen. Alle Spalten die für die Auswertung nicht benötigt werden, können gelöschtwerden.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R16

Datenhandling und Einstieg in die Analyse mit RDaten einlesen aus ExcelDaten in Excel:Spalten VariablenZeilen Auskunftspersonen Sie können jetzt entscheiden, ob Sie die Variablennamen nun umbenennen(Var1 Geschlecht, Var2 Alter) oder in einem fortlaufenden Formatbehalten. Wenn Sie eine Datei ohne Variablennamen importieren, vergibt R beimimportieren fortlaufende Variablennamen. Z. B. V1, V2, V3, usw.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R17

Datenhandling und Einstieg in die Analyse mit RDaten einlesen aus ExcelSollte die Exceldatei imOrdner nicht angezeigtwerden klicken Sie auf „AllFiles(*.*).Hier kann ein Matrixnameeingegeben werden, auf densich die Skriptbefehlebeziehen. Dies ist wichtig beizu öffnenden Skriptdateien.Da in Excel meist mehrereTabellen gespeichert sind, istdie Tabelle mit den Rohdateneinzulesen.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R18

Datenhandling und Einstieg in die Analyse mit RDaten einlesen aus anderen Formaten Aus SPSS (Wenn Daten im SPSS Formatvorliegen): Wertelabels können als Werteetikettenübernommen werden.Variablenlabels werden nicht übernommen. Aus Textdateien (Wenn Daten im MACFormat oder Linux Format vorliegen): Datenfeldtrennzeichen undDezimaltrennzeichen beachten.Wertelabels werden nicht übernommen.Fehlende Werte werden von R durch NA(not available) ersetzt.Wie müssen die Daten vorhergespeichert werden? Mac: Speichern unter Windowskommagetrennt (.csv)Linux: Speichern unter CSV (Trennzeichengetrennt)3. Februar 2014Achtung: Das Trennzeichenbeim Import (Mac und Linux)ist „;“Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R19

Datenhandling und Einstieg in die Analyse mit RDatenhandlingDatenmatrix auswählen, fallsmehrere geladen sind.Achtung, dies ist beimSpeichern zu berücksichtigen!(Folie 22 und 25)Datenmatrix bearbeiten (WieExcel)Daten nur betrachten3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R20

Datenhandling und Einstieg in die Analyse mit RDatenmatrix bearbeitenVariablen oderMatrixinhalte könnengeändert/ergänzt werdenR erkennt mit dem Einlesen,um was für einen Datentypes sich handelt: Felder mit Buchstabenwerden als CharakterVariablen eingelesen. Felder mit Zahlen werdenals Numerische Variableneingelesen.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R21

Datenhandling und Einstieg in die Analyse mit RMenüführung im RcmdrErgebnisse imAusgabefenster könnengespeichert werden. Skripte aus demSkriptfenster, diespäter noch benötigtwerden, könnengespeichert werden. Gespeicherte Skriptekönnen geöffnetwerden. Bsp: Skript zur PCSim Ordner „user“. Daten können im R-Format gespeichert werden (*.Rdata). Eine Datendatei kann mehrere Datenmatrizen enthalten. Eine einzelne Datenmatrix wird besser unter Datenmanagementgespeichert (s. Folie 25).3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R22

Datenhandling und Einstieg in die Analyse mit RMenüführung im RcmdrGrundsätzlich können alle drei Fenster des Rcmdr wie mit jedem Editorbearbeitet werden. Alle üblichen Strg-Funktionen sind möglich.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R23

Datenhandling und Einstieg in die Analyse mit RMenüführung im RcmdrEine Datenmatrix im *RData Formatkann neu erstellt oder eine bereitsgespeicherte Datei (mit mehrerenMatrizen) oder Matrix kann geladenwerden.Merge data sets aggregiert mehrereMatrizen zu einer Matrix. Dieses Feldist nur aktiv, wenn auch mehrereMatrizen geladen sind.Hier befinden sich alle Operationen,die mit der gesamten Datenmatrixdurchgeführt werden können.Hier befinden sich alle Operationen,die mit einzelnen Variablendurchgeführt werden können.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R24

Datenhandling und Einstieg in die Analyse mit RMenüführung im RcmdrFür bestimmte Verfahren(z. B. die PCA) ist esnotwendig, Teilmengenzu bilden.Speichern oderexportieren einereinzelnen Matrix (vgl.Folie 22)Teilmengen können mit oder ohne Anweisung erfolgen.Nützliche Operatoren sind: , , , etc, (siehe nächste Folie!)3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R25

Datenhandling und Einstieg in die Analyse mit ROperatoren in ww.statmethods.net/3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R26

Datenhandling und Einstieg in die Analyse mit RAktive Datenmatrix/Teilmenge der aktiven Datenmatrix3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R27

Datenhandling und Einstieg in die Analyse mit RMerge data setZwei oder mehrereMatrizen zu einerMatrixzusammenführenÜber das Skript können so sehr vieleDatenmatrizen sehr schnell aggregiert werden,Bspw:.MergedDataset - mergeRows(Datenmatrix1,Datenmatrix2, common.only FALSE)MergedDataset - mergeRows(MergedDataset,Datenmatrix3, common.only FALSE)MergedDataset - mergeRows(MergedDataset,Datenmatrix4, common.only FALSE)usw.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R28

Datenhandling und Einstieg in die Analyse mit RAktive Datenmatrix/Aggregate variables in aktive data setDie Aggregationsregelnkönnen mittels derOperatoren individuellfestgelegt werden.3. Februar 2014Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R29

Datenhandling und Einstieg in die Analyse mit RAktive Datenmatrix/Variablen übereinander platzieren3. Februar 2014 Variablen können sotransponiert werde

Matching (Propensity Score Matching) . Februar 2014 Prof. Dr. Oliver Gansser Datenhandling und Einstieg in R 24 Datenhandling und Einstieg in die Analyse mit R Menüführung im Rcmdr Eine Datenmatrix im *RData Format kann neu erstellt oder eine bereits gespeicherte Datei (mit mehreren Matrizen) oder Matrix kann geladen werden. Merge data sets aggregiert mehrere Matrizen zu einer