Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren

eBook1.040 Seiten6 Stunden

Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren

Name: Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren
Author: Sebastian Sauer
ISBN: 9783658215873

Von Sebastian Sauer

Bewertung: 0 von 5 Sternen

()

Vorschau lesen

Über dieses E-Book

Die Kaufempfehlung, die Ihnen ein Webstore ausspricht, die Einschätzung, welcher Kunde kreditwürdig ist, oder die Analyse der Werttreiber von Immobilien – alle diese Beispiele aus dem heutigen Leben sind Ergebnis moderner Verfahren der Datenanalyse. Dieses Buch führt in solche statistische Verfahren anhand der Programmiersprache R ein.
Ziel ist es, Leser mit der Art und Weise vertraut zu machen, wie führende Organisationen und Praktiker angewandte Statistik heute einsetzen. Weil sich mit der Digitalisierung auch die statistischen Verfahren verändert haben, vermittelt der Autor neben klassischen Analysemethoden wie Regression auch moderne Methoden wie Textmining und Random-Forest-Modelle. Dabei sind die Inhalte des Buchs durchgehend so aufbereitet, dass sie auch für Leser ohne umfangreiche mathematische Vorkenntnisse verständlich sind. Anhand von Fallbeispielen und Übungen werden die Leser durch alle Phasen der Datenanalyse geführt: Sie lernen, wie Daten eingelesen, aufbereitet, visualisiert, modelliert und kommuniziert werden können. Dabei wird vor allem die Aufbereitung, Umformung und Prüfung der Daten ausführlicher als in anderen Publikationen behandelt, da dieser Teil in der Praxis oft einen wesentlichen Teil des Aufwands ausmacht. Aber auch die Visualisierung bekommt viel Raum, denn gute Diagramme ermöglichen Einblicke, die Zahlen und Worte verbergen.Mit seinem praxisorientierten Ansatz will das Buch dazu befähigen,

alle grundlegenden Schritte eines Datenanalyseprojekts durchzuführen,
Daten kompetent in R zu bearbeiten,
simulationsbasierte Inferenzstatistik anzuwenden und kritisch zu hinterfragen,
klassische und moderne Vorhersagemethoden anzuwenden und
betriebswirtschaftliche Fragestellungen mittels datengetriebener Vorhersagemodelle zu beantworten.

Sowohl Anwender ohne statistisches Grundlagenwissen als auch Nutzer mit Vorerfahrung lesen dieses Buch mit Gewinn. In verständlicher Sprache und anhand von anschaulichen Beispielen zeigt der Autor, wie moderne Datenanalyse heute funktioniert.

Karussell überspringen

SpracheDeutsch

HerausgeberSpringer Gabler

Erscheinungsdatum29. Jan. 2019

ISBN9783658215873

Autor

Sebastian Sauer

Ähnlich wie Moderne Datenanalyse mit R

Mathematik für Sie

Karussell überspringen

Die Schönheit der Zahlen: Die Ordnung der Welt durch den menschlichen Geist
eBook
Die Schönheit der Zahlen: Die Ordnung der Welt durch den menschlichen Geist
vonFrankfurter Allgemeine Archiv
Bewertung: 0 von 5 Sternen
0 Bewertungen
Einmaleins Mathematik 2./3. Klasse
eBook
Einmaleins Mathematik 2./3. Klasse
vonBrigitte Schreiber
Bewertung: 5 von 5 Sternen
5/5
Textaufgaben 4. Klasse: Sachaufgaben - Übungsprogramm mit Lösungen für die 4. Klasse und Aufgaben für den Übertritt
eBook
Textaufgaben 4. Klasse: Sachaufgaben - Übungsprogramm mit Lösungen für die 4. Klasse und Aufgaben für den Übertritt
vonAdolf Hauschka
Bewertung: 0 von 5 Sternen
0 Bewertungen
Vom 1x1 zum Glück: Warum wir Mathematik für das Leben brauchen
eBook
Vom 1x1 zum Glück: Warum wir Mathematik für das Leben brauchen
vonRudolf Taschner
Bewertung: 0 von 5 Sternen
0 Bewertungen
Fit zum Übertritt - Mathe 4. Klasse
eBook
Fit zum Übertritt - Mathe 4. Klasse
vonTina Harder
Bewertung: 0 von 5 Sternen
0 Bewertungen
Tests in Mathe - Lernzielkontrollen 2. Klasse
eBook
Tests in Mathe - Lernzielkontrollen 2. Klasse
vonAgnes Spiecker
Bewertung: 0 von 5 Sternen
0 Bewertungen
Rechnen und Textaufgaben - Gymnasium 5. Klasse
eBook
Rechnen und Textaufgaben - Gymnasium 5. Klasse
vonSusanne Simpson
Bewertung: 0 von 5 Sternen
0 Bewertungen
Mathe trainieren 1. Klasse
eBook
Mathe trainieren 1. Klasse
vonHelena Heiß
Bewertung: 0 von 5 Sternen
0 Bewertungen
Quer durch die 3. Klasse, Mathe und Deutsch - Übungsblock
eBook
Quer durch die 3. Klasse, Mathe und Deutsch - Übungsblock
vonTina Harder
Bewertung: 0 von 5 Sternen
0 Bewertungen
Mathematik-Abitur Band 1: Analysis - Infinitesimalrechnung
eBook
Mathematik-Abitur Band 1: Analysis - Infinitesimalrechnung
vonReinhold Goldmann
Bewertung: 0 von 5 Sternen
0 Bewertungen
Kritik an Black Swan
eBook
Kritik an Black Swan
vonIntroBooks Team
Bewertung: 0 von 5 Sternen
0 Bewertungen
Quer durch die 1. Klasse, Mathe und Deutsch - Übungsblock
eBook
Quer durch die 1. Klasse, Mathe und Deutsch - Übungsblock
vonAndrea Guckel
Bewertung: 0 von 5 Sternen
0 Bewertungen
Mathe trainieren 2. Klasse
eBook
Mathe trainieren 2. Klasse
vonHelena Heiß
Bewertung: 0 von 5 Sternen
0 Bewertungen
Rechnen und Textaufgaben - Gymnasium 6. Klasse
eBook
Rechnen und Textaufgaben - Gymnasium 6. Klasse
vonSusanne Simpson
Bewertung: 0 von 5 Sternen
0 Bewertungen
Textaufgaben 2. Klasse: Sachaufgaben - Übungsprogramm mit Lösungen für die 2. Klasse
eBook
Textaufgaben 2. Klasse: Sachaufgaben - Übungsprogramm mit Lösungen für die 2. Klasse
vonHeike Hünemann-Rottstegge
Bewertung: 0 von 5 Sternen
0 Bewertungen
Mein Übungsheft Rechnen - 2. Klasse: Mathematik: Aufgaben mit Lösungen im Zahlenraum bis 100 - wiederholen, trainieren, lernen
eBook
Mein Übungsheft Rechnen - 2. Klasse: Mathematik: Aufgaben mit Lösungen im Zahlenraum bis 100 - wiederholen, trainieren, lernen
vonJoshua Schulz
Bewertung: 0 von 5 Sternen
0 Bewertungen
Mein Übungsheft Rechnen - 3. Klasse
eBook
Mein Übungsheft Rechnen - 3. Klasse
vonDiana Depireux
Bewertung: 0 von 5 Sternen
0 Bewertungen
Mathematik verstehen Band 2: Grundlagen für das Studium naturwissenschaftlicher und technischer Fächer
eBook
Mathematik verstehen Band 2: Grundlagen für das Studium naturwissenschaftlicher und technischer Fächer
vonWerner Fricke
Bewertung: 0 von 5 Sternen
0 Bewertungen
Grundlagen und Methoden der Wirtschaftsinformatik: Eine anwendungsorientierte Einführung
eBook
Grundlagen und Methoden der Wirtschaftsinformatik: Eine anwendungsorientierte Einführung
vonGabriele Roth-Dietrich
Bewertung: 0 von 5 Sternen
0 Bewertungen
Qualitative Forschung einfach erklärt: Qualitative Interviews, Fragebogen erstellen und Gruppendiskussion
eBook
Qualitative Forschung einfach erklärt: Qualitative Interviews, Fragebogen erstellen und Gruppendiskussion
vonMax Mittelstaedt
Bewertung: 0 von 5 Sternen
0 Bewertungen
Textaufgaben 3. Klasse: Sachaufgaben - Übungsprogramm mit Lösungen für die 3. Klasse
eBook
Textaufgaben 3. Klasse: Sachaufgaben - Übungsprogramm mit Lösungen für die 3. Klasse
vonAdolf Hauschka
Bewertung: 0 von 5 Sternen
0 Bewertungen
Übungen zur Kombinatorik
eBook
Übungen zur Kombinatorik
vonSimone Malacrida
Bewertung: 0 von 5 Sternen
0 Bewertungen
Mathe-Toolbox: Mathematische Notationen, Grundbegriffe und Beweismethoden
eBook
Mathe-Toolbox: Mathematische Notationen, Grundbegriffe und Beweismethoden
vonUwe Schöning
Bewertung: 0 von 5 Sternen
0 Bewertungen
Mathe trainieren 3. Klasse
eBook
Mathe trainieren 3. Klasse
vonHelena Heiß
Bewertung: 0 von 5 Sternen
0 Bewertungen
Mathenglish - Das Übungsbuch für Mathe und Englisch: Lerne Mathe und Englisch gleichzeitig (5.-7.Klasse)
eBook
Mathenglish - Das Übungsbuch für Mathe und Englisch: Lerne Mathe und Englisch gleichzeitig (5.-7.Klasse)
vonClemens Kaesler
Bewertung: 0 von 5 Sternen
0 Bewertungen
Aufgabensammlung für die Oberstufe zur Analysis
eBook
Aufgabensammlung für die Oberstufe zur Analysis
vonMarco Schuchmann
Bewertung: 0 von 5 Sternen
0 Bewertungen
Mein Übungsheft Rechnen - 1. Klasse
eBook
Mein Übungsheft Rechnen - 1. Klasse
vonTina Harder
Bewertung: 0 von 5 Sternen
0 Bewertungen
Wahrscheinlichkeitsrechnung und Statistik
eBook
Wahrscheinlichkeitsrechnung und Statistik
vonWerner Fricke
Bewertung: 0 von 5 Sternen
0 Bewertungen
Der Anfang der Unendlichkeit: Erklärungen, die die Welt verwandeln
eBook
Der Anfang der Unendlichkeit: Erklärungen, die die Welt verwandeln
vonDavid Deutsch
Bewertung: 0 von 5 Sternen
0 Bewertungen
Anglizismen und andere "Fremdwords" deutsch erklärt: Über 1000 aktuelle Begriffe
eBook
Anglizismen und andere "Fremdwords" deutsch erklärt: Über 1000 aktuelle Begriffe
vonHeinz C. Pütz
Bewertung: 0 von 5 Sternen
0 Bewertungen

Buchvorschau

Moderne Datenanalyse mit R - Sebastian Sauer

Teil IRahmen

Sebastian SauerModerne Datenanalyse mit RFOM-EditionFOM Hochschule für Oekonomie & Managementhttps://doi.org/10.1007/978-3-658-21587-3_1

1. Statistik heute

Sebastian Sauer¹

(1)

FOM Hochschule für Oekonomie & Management, Nürnberg, Deutschland

Sebastian Sauer

Email: sebastian.sauer@fom.de

Datenanalyse, praktisch betrachtet, kann man in fünf Schritte einteilen (Wickham und Grolemund 2017), s. Abb. 1.1. Analog zu diesem Modell der Datenanalyse ist dieses Buch aufgebaut. Zuerst muss man die Daten einlesen, die Daten also in R (oder einer anderen Software) verfügbar machen (laden). Fügen wir hinzu: In schöner Form verfügbar machen; das man nennt auch Tidy Data (hört sich cooler an). Sobald die Daten in geeigneter Form in R geladen sind, folgt das Aufbereiten. Das beinhaltet das Zusammenfassen, Umformen oder Anreichern der Daten, je nach Bedarf. Ein nächster wesentlicher Schritt ist das Visualisieren der Daten. Ein Bild sagt bekanntlich mehr als tausend Worte. Schließlich folgt das Modellieren oder das Prüfen von Hypothesen: Man überlegt sich, wie sich die Daten erklären lassen könnten. Zu beachten ist, dass diese drei Schritte – Aufbereiten, Visualisieren, Modellieren – keine starre Abfolge sind, sondern eher ein munteres Hin-und-Her-Springen, ein aufeinander aufbauendes Abwechseln. Der letzte Schritt ist das Kommunizieren der Ergebnisse der Analyse – nicht der Daten. Niemand ist an Zahlenwüsten interessiert; es gilt, spannende Einblicke zu vermitteln. Die Datenanalyse als solche ist in einen Rahmen eingebettet; das beinhaltet philosophische und technische Grundlagen. Entsprechend diesen fünf Schritten sowie dem einbettenden Rahmen ist dieses Buch in Teile gegliedert. Zu Beginn jedes Teiles ist ein Diagramm analog zu 1.1 dargestellt, um einen Überblick über den jeweiligen Schritt der Datenanalyse zu geben.

../images/455465_1_De_1_Chapter/455465_1_De_1_Fig1_HTML.png

Abb. 1.1

Der Rahmen als Bestandteil der Datenanalyse

Lernziele

../images/455465_1_De_1_Chapter/455465_1_De_1_Fig2_HTML.gif

Wissen, was Statistik ist, bzw. einige Aspekte einer Definition kennen

Statistik zu Data Science und anderen verwandten Begriffen abgrenzen können

Grundkonzepte wie Daten, Variable und Beobachtung definieren können

Die Begriffe Signal und Rauschen in Verbindung bringen können

Die Wissensgebiete der Datenanalyse aufzählen und erläutern können

1.1 Datenanalyse, Statistik, Data Science und Co.

Was ist Statistik? Eine Antwort dazu ist, dass Statistik die Wissenschaft von Sammlung, Analyse, Interpretation und Kommunikation von Daten mithilfe mathematischer Verfahren ist und zur Entscheidungshilfe beitragen solle (Romeijn 2016; The Oxford Dictionary of Statistical Terms 2006). E. N. Brown und Kass (2009) rücken die Wahrscheinlichkeitsrechnung ins Zentrum einer Definition von Statistik oder „Statistik-Denken. Cobb (2015, S. 3) spricht kurz und bündig von „thinking with and about data als dem Wesensmerkmal von Statistik.

Wie lässt sich Statistik von Datenanalyse abgrenzen? Tukey (1962) definiert Datenanalyse als den Prozess des Erhebens von Daten, ihrer Auswertung und Interpretation. Unschwer zu sehen, dass sich diese beiden Definitionen nur um die Betonung der stochastischen Modellierung, der Anwendung der Wahrscheinlichkeitsrechnung, unterscheiden. Betrachtet man Lehrbücher der Statistik (Bortz 2013; Freedman et al. 2007), so fällt der stärkere Fokus auf mathematische Ableitung und Eigenschaften von Objekten der Statistik ins Auge; Datenanalyse scheint einen stärkeren Anwendungsfokus zu haben (im Gegensatz zu einem mathematischen Fokus). Statistik wird häufig in die zwei Gebiete deskriptive und inferierende Statistik eingeteilt (vgl. Abb. 1.2). Erstere fasst viele Zahlen zusammen (s. Kap. 8), so dass wir den Wald statt vieler Bäume sehen. Eine Statistik bezeichnet dabei die zusammenfassende Kenngröße; eine prototypische Statistik ist der Mittelwert. Die Inferenzstatistik verallgemeinert von den vorliegenden Daten auf eine zugrunde liegende Grundgesamtheit (Population; s. Kap. 16). So zieht man etwa eine Stichprobe von einigen College-Studenten und schließt auf dieser Basis auf alle Menschen dieser Welt. Ein abenteuerlicher Schluss, aber leider kein seltener (Henrich et al. 2010). Da Analyse von Daten ein allgemeiner Begriff ist, der wenig mit bestimmten Methoden aufgeladen ist, wird Datenanalyse im Folgenden als gemeinsamer Kern aller einschlägigen Disziplinen oder Begrifflichkeiten verwendet; der Fokus ist dabei als angewandt gedacht. In diesem Buch werden Statistik und Datenanalyse im Folgenden lose als Synonyme betrachtet.

../images/455465_1_De_1_Chapter/455465_1_De_1_Fig3_HTML.png

Abb. 1.2

Sinnbild für die Deskriptiv- und die Inferenzstatistik

../images/455465_1_De_1_Chapter/455465_1_De_1_Fig4_HTML.gif

Aufgabe der deskriptiven Statistik ist es primär, Daten prägnant zusammenzufassen. Aufgabe der Inferenzstatistik ist es, zu prüfen, ob Daten einer Stichprobe auf eine Grundgesamtheit verallgemeinert werden können.

Liegt der Schwerpunkt der Datenanalyse auf computerintensiven Methoden, so wird auch von Data Science gesprochen, wobei der Begriff nicht einheitlich verwendet wird (Hardin et al. 2015; Wickham und Grolemund 2017). Einige Statistiker sehen Data Science als „Statistik am Computer, und plädieren für ein „Neudenken der Statistik bzw. des Statistikunterrichts, so dass Computermethoden eine zentrale Rolle spielen (Cobb 2015). Andere Statistiker wiederum grenzen Data Science von der Statistik ab, mit dem Argument, dass bei Ersterer Fragen der angewandten Informatik zentral sind, bei der Statistik nicht (Baumer et al. 2017). Die Popularität von Data Science ist dem Fortschritt in der Rechen- und Speicherkapazität der Computer zu verdanken. Heutzutage sind ganz andere Daten und Datenmengen verarbeitbar und von Interesse. Sicherlich bedingt die technische Machbarkeit auch, welche Forschungsfragen hoch im Kurs rangieren. Eine Echtzeit-Analyse von Twitter-Daten wäre bis vor einiger Zeit kaum möglich gewesen, da die Hardware nicht leistungsfähig genug war. (Wir übersehen hier geflissentlich, dass die Hardware heute immer noch an Grenzen kommt und dass es früher kein Twitter gab.) Die Datenmengen erfordern Arbeitsschritte wie z. B. Authentifizierung in die Twitter-Schnittstelle, wiederholtes Abfragen der Schnittstelle unter Beachtung der erlaubten Download-Obergrenzen, Umwandeln von einem Datenformat in ein anderes, Einlesen in eine Datenbank, Prüfung auf Programmfehler, Automatisierung des Prozesses, Verwendung mehrerer Rechenkerne, Bereinigung des Textmaterials von Artefakten, Aufbereiten der Daten und so weiter. Keine dieser Aufgaben war bei Statistikern vor 100 Jahren verbreitet. Da konnte man sich noch ganz auf die mathematischen Eigenschaften des t-Tests konzentrieren. Die Verschiebung innerhalb der Datenanalyse spiegelt einfach die technische Entwicklung allgemein in der Gesellschaft wider. Das heißt nicht, dass heute jeder Programmierer sein muss; auch für die Datenanalyse nicht. Glücklicherweise gibt es eine Reihe von Werkzeugen, die die Handhabung der Daten einfacher macht. Diese sind hinzugekommen zum Handwerkskoffer des Datenschreiners. Nichtsdestotrotz ist ein grundlegendes Verständnis von computergestützter Datenverarbeitung wichtig und wird zunehmend wichtiger für die Datenanalyse.

Schließlich kursieren u. a. noch die Begriffe Data Mining, maschinelles Lernen und statistisches Lernen. Data Mining und maschinelles Lernen sind Begriffe, die eher in informatiknahen Gebieten verwendet werden; entsprechend sind die Themen mehr in Richtung Informatik verschoben. Die technische Repräsentation und technische Aspekte der Datenmanipulation (Data Warehouse, Datenbanken) werden von IT-affinen Autoren stärker betont als von Autoren, die nicht aus IT-nahen Fakultäten stammen. Beim statistischem Lernen stehen Konzepte und Algorithmen des Modellierens (s. Kap. 15) im Vordergrund. Auf der anderen Seite: Vergleicht man die Inhaltsverzeichnisse von Büchern aus allen diesen Bereichen, so stellt man eine große Überschneidung des Inhaltsverzeichnisses fest. Typische Themen in allen diesen Büchern sind (Bishop 2006; Han et al. 2011; James et al. 2013; Tan 2013) baumbasierte Verfahren (s. Kap. 21), Support Vector Machines, Dimensionsreduktion, Clusteranalyse, Regression (s. Kap. 18) oder Datenexploration (s. Kap. 11). Kurz: Die Gebiete überlappen einander beträchtlich; mal stehen IT-nahe Themen im Vordergrund, mal wird die Mathematik betont, mal die Anbindung an empirisches Forschen. Immer geht es darum, aus Daten Wissen zu generieren bzw. Entscheidungen datenbasiert und rational zu begründen.

1.2 Wissensgebiete der Datenanalyse

Egal, ob man von Datenanalyse, Statistik, Data Mining, maschinellem Lernen, Data Science oder statistischem Lernen spricht: In der Schnittmenge des Analysierens von Daten gleichen sich die Anforderungen. Wenn sich die Nuancen zwischen den Fachgebieten auch verschieben, so sind doch stets die folgenden Wissensgebiete gefragt:

Philosophische Grundlagen

Dazu gehören die Annahmen, die im Alltag meist unhinterfragt für bare Münzen genommen werden. Annahmen, die das Fundament des Gebäudes der Datenanalyse stützen. Ist dieses Fundament auf Sand gebaut, so ist nicht zu erwarten, dass das Gebäude seinen Zweck erfüllt. Zu den Grundlagenfragen gehört die Frage, was Wahrscheinlichkeit, Erkenntnis, Kausalität und Unendlichkeit sind. So wird zum Beispiel kontrovers diskutiert, ob Wahrscheinlichkeit besser als Grenzwert der relativen Häufigkeit, als subjektive Angelegenheit oder als Erweiterung der Aussagenlogik zu betrachten ist (Briggs 2016; Jaynes 2003; Keynes 2013; Rucker 2004). Wichtig ist weiter die Frage, was eine Messung genau ist, woran man erkennt, ob ein Variable quantitative Aussagen erlaubt und woran man die Güte eines Messinstruments festmacht (Saint-Mont 2011).

Mathematisch-statistische Anwendungen

Zentrale Theorie für die Statistik oder für Wissenschaft allgemein ist die Wahrscheinlichkeitsrechnung bzw. die Theorie der Wahrscheinlichkeit (Jaynes 2003). In den meisten Lehrbüchern der Statistik, auch in den Einsteigerbüchern, findet sich eine mal schmalere, mal ausführlichere Einführung in Aspekte verschiedener Verteilungen, die gewisse Zufallsprozesse, berechenbare Zufallsprozesse, voraussetzen.¹ Häufig wird angenommen, dass sich eine bestimmte Variable nach einem bekannten stochastischen Modell verhält, so dass aus dem Modell Aussagen ableitbar sind. Besondere Berühmtheit hat die Normalverteilung erlangt, die wohl an keinem Studenten eines empirisch orientierten Faches vorbeigegangen ist.² Neben der Stochastik spielen aber noch weitere Felder der angewandten Mathematik eine Rolle; maßgeblich sind das die lineare Algebra und die Infinitesimalrechnung (J. D. Brown 2015). Ein eigener Zweig, der stark mit der Wahrscheinlichkeitslehre verbunden ist, ist die Bayes-Statistik (Wagenmakers et al. 2016).

Computerwissenschaftliche Anwendungen

Die zunehmende Digitalisierung der Gesellschaft macht vor der Datenanalyse keinen Halt. Im Gegenteil; es liegt in der Natur der Datenanalyse, computeraffin zu sein – sind doch Daten Gegenstand sowohl der Statistik als auch der Computerwissenschaft. War es vor einigen Jahren noch ausreichend oder beeindruckend, den Knopf für den t-Test zu kennen, sind die Anforderungen bei modernen Daten meist höher. Einlesen, Aufbereiten und Speichern können leicht den größten Zeitanteil einer Datenanalyse ausmachen. In einigen Anwendungen kommt noch der Anspruch dazu, dass die Analyse schnell gehen muss: Wir haben gerade viele Kunden auf der Webseite und müssen wissen, wem wir welches Produkt und welchen Preis vorschlagen müssen. Nein, wir wollen die Antwort nicht morgen, wir brauchen sie in ein paar Sekunden; Korrektur: jetzt. Ach ja, der Datensatz ist ein paar Terabyte³ groß.

Fach- und Branchenkenntnis

Möchte man die Zufriedenheit eines Kunden vorhersagen, so ist es hilfreich, etwas über die Ursachen von Kundenzufriedenheit zu kennen – also Wissen über den Gegenstand Kundenzufriedenheit zu haben. Wenn man schon die Ursachen nicht kennt, so ist zumindest Wissen über zusammenhängende Variablen (Korrelate) sinnvoll. Wenn ein Arzt aus Erfahrung weiß, was die Risikofaktoren einer Erkrankung sind, dann sollten diese Informationen in das statistische Modell einfließen. Sach- inkl. Branchenkenntnis ist zentral für gute (genaue) statistische Modelle (Shearer 2000). Wissen über den Sachgegenstand ist schon deshalb unerlässlich, weil Entscheidungen keine Frage der Statistik sind: Ob ein Kunde zufrieden ist mit einer Vorhersage durch ein statistisches Modell oder ein Patient gesund genug ist nach Aussage eines statistisches Modells, muss der Anwender entscheiden. Ob ein Betrugsversuch mit 90 %, 99 % oder 99.9 % Sicherheit erkannt werden soll, kann einen Unterschied machen – für einen bestimmten Anwender, in einer bestimmten Situation. Ein wichtiger, vielleicht der wichtigste Punkt der Datenanalyse ist es, Entscheidungen für Handlungen zu begründen. Daher muss die Datenanalyse immer wieder auf die Entscheidung und damit auf die Präferenz des Nutzers zurückgeführt werden.

1.3 Einige Grundbegriffe

Daten (die Einzahl Datum ist ungewöhnlich) kann man definieren als Informationen, die in einem Kontext stehen (Moore 1990), wobei eine numerische Konnotation mitschwingt. Häufig sind Daten in Tabellen bzw. tabellenähnlichen Strukturen gespeichert; die Excel-Tabelle ist der Prototyp davon. Tabellen, so wie sie hier verstanden werden, zeichnen sich dadurch aus, dass sie rechteckig sind und aus Zeilen und Spalten bestehen. Rechteckig impliziert, dass alle Zeilen gleich lang sind und alle Spalten gleich lang sind (die Tabelle muss aber nicht quadratisch sein). Knotenpunkte von Zeilen und Spalten heißen Zellen oder Elemente ; die Zellen dürfen auch leer sein oder mit einem Symbol für „kein Wert vorhanden" gefüllt sein.

Daten sind ein Produkt von Variablen (Merkmalen) und Beobachtungseinheiten (Fällen, Beobachtungen). Eine Tabelle mit ihren zwei rechtwinkligen Achsen der Zeilen und Spalten verdeutlicht das (s. Abschn. 9.3.1 und Abb. Abb. 9.6). Die Beobachtungseinheit ist das Objekt, das die untersuchten Merkmale aufweist. Oft sind es Personen, es können aber auch Firmen, Filme, Filialen oder Flüge sein. Ein Merkmal einer Beobachtungseinheit kann ihre Schuhgröße, der Umsatz, die Verspätung oder das Budget sein. Betrachten wir das Merkmal Schuhgröße der Beobachtungseinheit Person S und finden wir 46, so ist 46 der Wert oder die Ausprägung dieses Merkmals dieser Beobachtungseinheit. Um nicht so viel schreiben zu müssen, wird der Wert der Beobachtungseinheit $$i$$ in der Variablen $$k$$ häufig als $$x_{ik}$$ bezeichnet. Die Gesamtheit der verfügbaren und zusammengehörigen Daten eines Sachverhalts bezeichnen wir als Datensatz ; meist ist es eine Stichprobe aus einer Population. Nehmen wir an, es gäbe nur zwei verschiedene Schuhgrößen: 36 und 46. Dann hat die Variable Schuhgröße zwei Ausprägungen .

Natürlich gibt es auch Daten, die sich nicht (so einfach) in das enge Korsett einer Tabelle pressen lassen; Textdokumente, Sprachdaten oder Bilder zum Beispiel. Nicht tabellarisierte Daten werden auch als unstrukturiert, Daten in Tabellenform als strukturiert bezeichnet. Rein mengenmäßig überwiegen unstrukturierte Daten in der Welt. Allerdings sind strukturierte Daten einfacher zu verarbeiten; wir werden uns auf diese konzentrieren.

1.4 Signal und Rauschen

Die Aufgabe der Wissenschaft – oder sogar jeglichen Erkennens – kann man als zweistufigen Prozess betrachten: erstens Signale (Phänomene) erkennen und zweitens diese dann erklären (Bogen und Woodward 1988; Silver 2012). Signale erkennen ist der Versuch, aus Daten ein Muster, Regularitäten, herauszulesen. Das impliziert, dass Daten dieses Muster nicht direkt offenbaren und nicht identisch mit dem Muster sind. Mit dem alten Bild, im Rauschen ein (leises) Geräusch, das Signal, herauszuhören, ist der Sachverhalt gut beschrieben (Haig 2014). Daten sind vergänglich, veränderlich, vorübergehend – und für den erkennenden Verstand ohne Interesse. Das Muster ist es, welches von alleinigem Interesse ist. Schält sich ein Muster heraus, ist es über die Zeit, Erhebungsmethode und Situation hinweg stabil, so hat man ein Phänomen identifiziert. Im Gegensatz zu Daten ist ein Phänomen unbeobachtbar; es ist die Abstrahierung der Gemeinsamkeit aus der Konkretheit der Daten. Ein Phänomen könnte sein, dass „Männer, die Windeln kaufen, auch Bier kaufen". Ist ein Phänomen identifiziert, so ist die wichtigste Frage zumeist, was die Ursache des Phänomens ist. Wissenschaftliche und Alltagstheorien untersuchen Phänomene, nicht Daten. Warum ist es wichtig, Ursachen von Phänomen zu kennen? Ein Grund ist, dass man das Auftreten eines Phänomens beeinflussen kann, wenn man seine Ursache kennt. Überspitzt formuliert: Die Ursache der Entzündung sind Bakterien? Entferne die Bakterien, und die Entzündung klingt ab.

Abb. 1.3 stellt den Unterschied (und den Zusammenhang) von Rauschen und Signal dar. Der linke Teil des Diagramms zeigt die Körpergröße einer Reihe von Frauen und Männern (und damit von zwei Variablen). Die Beobachtungseinheit, als schwarzer Punkt dargestellt, ist eine Person. Wie man sieht, unterscheiden sich die Körpergrößen der Personen; einige sind größer, andere kleiner. Auch zwischen den Geschlechtern gibt es Unterschiede. Unser Auge ist schnell mit der Erkenntnis des Musters, dass „Männer größer sind als Frauen. Nicht alle Männer sind größer als alle Frauen; einige Frauen sind größer als einige Männer. Aber in den meisten Fällen gilt: Der Mann ist größer als die Frau. Anders betrachtet: Der „mittlere Mann ist größer als die „mittlere" Frau (als Quadrat bzw. Linie dargestellt im rechten Teil der Abb. 1.4). Als Beobachtung in den Daten existiert aber weder die mittlere Frau noch der mittlere Mann; wir erkennen dies als Phänomen in den Daten bzw. aus den Daten heraus.

../images/455465_1_De_1_Chapter/455465_1_De_1_Fig5_HTML.png

Abb. 1.3

Muster und Rauschen

Das Rauschen in den Daten kann vielerlei Ursachen haben: Messfehler, Besonderheiten der ausgewählten Merkmalsträger oder der Situation. Zufall ist keine Ursache im strengen Sinne des Wortes; in der Regel wird dieser Begriff verwendet, wenn man die wahre Ursache nicht kennt.⁴ Experimentieren ist nichts anderes als die Kunst, Rauschen vor der Messung zu verringern. Genauer gesagt solches Rauschen zu verringern, welches das Signal sonst überlagert. Analog kann man sagen, dass Datenanalyse das Ziel hat, Rauschen nach der Messung zu entfernen. Die Entdeckung eines Phänomens hat immer etwas von einer Erfindung, da ein Phänomen nicht beobachtet, sondern erschlossen wird. Daher gibt es auch nicht die eine richtige Statistik-Technik, die in einer bestimmten Situation anzuwenden ist (zumindest gibt es die nicht immer). Vielmehr wird man verschiedene Methoden, Daten und Philosophien nutzen, um der Phänomene habhaft zu werden.

Es wurde bereits eine gewisse Geringschätzung für Daten ausgedrückt, mit der Begründung, dass nur Phänomene interessant seien. Es stimmt, dass für die Erkenntnis und für weitere Erklärungen nur Phänomene eine Rolle spielen. Allerdings: Ohne Daten keine Muster. Als Grundlage für Phänomene sind Daten natürlich unerlässlich. Angenommen, wir hätten nur einen Mann und eine Frau aus unserer Stichprobe. Wie wahrscheinlich ist es, dass wir das gleiche Muster (den gleichen Unterschied in der Körpergröße) finden würden (s. Abb. 1.4, links)? Sicherlich wären wir mit viel mehr Ungewissheit konfrontiert: Das Phänomen (der wahre Größenunterschied) wäre schwieriger zu entdecken. Kleinere Stichproben bergen mehr Raum für Zufall als große (unter sonst gleichen Umständen; s. Abb. 1.4, rechts). Gleichzeitig wären wir gewisser über das Muster, wenn die Männer alle ähnlich groß wären (sagen wir zwischen 1.80 und 1.81 m) und auch die Frauen sich ziemlich in der Größe ähnelten (sagen wir zwischen 1.65 und 1.66 m). Sinkt die Streuung (Variabilität) der Beobachtungen, steigt die Gewissheit hinsichtlich des Phänomens.

../images/455465_1_De_1_Chapter/455465_1_De_1_Fig6_HTML.png

Abb. 1.4

Das Ziehen von Stichproben birgt Zufall

Aufgaben

../images/455465_1_De_1_Chapter/455465_1_De_1_Fig7_HTML.gif

Richtig oder falsch?⁵

Eine gängige Unterteilung der Statistik erfolgt in die drei Bereiche deskriptiv, inferierend und explikativ.

Aufgabe der Inferenzstatistik ist es, Daten prägnant zusammenzufassen.

Zu den Wissensgebieten der Datenanalyse zählen Wissen um Wahrscheinlichkeit, Kausalität, stochastische Modelle, Normalverteilung.

Den Begriff Daten kann man definieren als Information ohne Kontext.

Wesentliches Merkmal von Tabellen, wie in diesem Text verstanden, ist eine Organisation aus Zeilen und Spalten; eine rechteckige Struktur ist nicht nötig.

Unter einer Beobachtungseinheit versteht man den Gegenstand, der in den Zeilen einer Tabelle auftauchen soll.

Wissenschaft kann man als zweistufigen Prozess verstehen: Signale erkennen und Daten erklären.

Wissenschaftliche Theorien beziehen sich auf Daten, nicht auf Phänomene.

Experimentieren ist die Kunst, Rauschen vor der Messung zu verringern.

10.

Kleinere Stichproben bergen mehr Raum für Zufall als große.

Fußnoten

Zufall wird hier verstanden als ein nicht näher bekannter Prozess, dessen Ergebnisse zwar nicht sicher sind, aber doch ein gewisses Muster erwarten lassen.

Micceri (1989) zeigt auf, dass Normalverteilungen seltener sind als gemeinhin angenommen. McElreath (2015) bietet einen gut verständlichen Einblick in die Informationsentropie; diese Darstellung zeigt, dass eine Normalverteilung eine konservative Annahme für eine Verteilung darstellt.

1 Terabyte sind $$10^{12}$$ Byte.

Diesem Gedanken hinterliegt ein deterministisches Weltbild; strittige quantentheoretische Phänomene (Jaynes 2003) und der (meiner Meinung nach) freie menschliche Wille sind davon ausgeklammert.

Lösungen: F, F, R, F, F, R, F, F, R, R.

Sebastian SauerModerne Datenanalyse mit RFOM-EditionFOM Hochschule für Oekonomie & Managementhttps://doi.org/10.1007/978-3-658-21587-3_2

2. Hallo, R

Sebastian Sauer¹

(1)

FOM Hochschule für Oekonomie & Management, Nürnberg, Deutschland

Sebastian Sauer

Email: sebastian.sauer@fom.de

Lernziele

../images/455465_1_De_2_Chapter/455465_1_De_2_Fig1_HTML.gif

Die Geschichte von R in kurzer Form kennen

Vor- und Nachteile der Verwendung von R unterscheiden

Vor- und Nachteile von Skriptsprachen wie R einem „Klickprogramm" wie Excel gegenüberstellen können

2.1 Eine kurze Geschichte von R

Was ist R? Wo kommt es her? Und warum dieser komische Name? Was R ist, ist einfach zu beantworten: Ein Dialekt der Programmiersprache S, die wiederum von John Chambers und anderen bei der Firma AT&T entwickelt wurde, beginnend im Jahre 1976; schon etwas her (Peng 2014). S wurde einige Male hin und her verkauft, schließlich unter dem Namen S-Plus. Das Besondere an S-Plus ist, dass es seine Wurzeln nicht in der typischen Programmierung, sondern in der Datenanalyse hat. S-Plus sollte eine interaktive Umgebung bieten, in der der Nutzer schnell und unkompliziert einige Analysen ausführen kann (Peng 2014). Das ist der Grund, warum man in R genauso wie in S-Plus einzelne Zeilen direkt ausführen kann (ein Interpreter), anstatt ein komplettes Programm zu schreiben, das nur als Ganzes in Computersprache übersetzt (kompilieren) und ausgeführt werden kann (ein Compiler). Allerdings sollte S-Plus gleichzeitig die Möglichkeit bieten, größere Programme zu schreiben, und alle wichtigen Eigenschaften einer vollwertigen Programmiersprache aufweisen, so dass fortgeschrittene Nutzer anspruchsvolle Syntax (Ausdrücke der Programmiersprache; Code) schreiben können. Man kann S-Plus und R also als Skriptsprache bzw. Programmiersprache oder (auch) als interaktive Analyseumgebung bezeichnen. Unter einer Skriptsprache versteht man eine Programmiersprache, die für schnelle Entwicklung, kleinere Programme oder eben schnelles Ausprobieren (interaktive Analyse) ausgelegt ist. Ein Interpreter ist praktisch, weil man „mal eben schnell" eine Zeile Code bzw. die Änderung einer Zeile Code in einem längeren Programm betrachten kann. Ein Nachteil eines Interpreters ist die geringere Geschwindigkeit beim Ausführen, da immer wieder Code in Maschinensprache übersetzt werden muss.

Ein Nachteil von S ist, dass es kommerziell vertrieben wird, wie andere Statistik-Software auch; das stellt eine Hemmschwelle für Nutzer dar. Im Jahr 1991 entwickelten Ross Ihaka und Robert Gentleman von der Uni Auckland in Neuseeland [Dank an Ross und Robert] R explizit für Datenanalyse und Datenvisualisierung (vgl. Ihaka und Gentleman (1996)). R ist frei – frei wie in Freibier und frei wie in Freiheit!¹) Die Syntax von R ist der von S-Plus noch immer sehr ähnlich, allerdings hat sich R stark entwickelt seit seiner Geburt in den 1990er Jahren. Die Freiheit von R ist eine große Stärke: Alle, die sich berufen fühlen, können die Funktionalität von R erweitern. Wenn Sie eine geniale Idee für eine neue Methode der Statistik haben, nur zu, Sie können sie einfach für die ganze Welt verfügbar machen. Und die ganze Welt kann Ihre Idee einfach nutzen. Das führte dazu, dass es eine unglaublich reichhaltige Fülle an Erweiterungen für R gibt (sog. Pakete ), um eben jene neuen Ideen, wie genial auch immer, für Ihre Analysen nutzbar zu machen.

R ist für alle gängigen Betriebssysteme verfügbar (Windows, Mac, Linux) und steht an einem zentralen Ort, dem Comprehensive R Archive Network², kurz CRAN , zum Download bereit. Dort findet man auch weitere Informationen wie häufige Fragen oder Anleitungen und eine große Zahl an Erweiterungen für R. Genauer gesagt, beinhaltet das „Standard-R", wie man es sich von CRAN herunterlädt, schon ein paar Pakete, die sozusagen von Haus aus mitgeliefert werden. Dazu zählt das Paket base, das grundlegende Funktionen enthält, und noch gut zwei Dutzend weitere.³

Wie jedes Ding, oder wie jede Software, hat R auch Schwächen. Der R-Kern ist vergleichsweise alt und einige Erblasten werden aus Kompatibilitätsgründen mitgeschleppt. Aber grundlegende Funktionsweisen von R zu ändern, könnte dazu führen, dass einfacher Standard-R-Code auf einmal nicht mehr funktioniert. Wer weiß, was dann passiert? Studenten lernen dann vielleicht Falsches zum $$p$$ -Wert, mein Download bricht vorzeitig ab und Ihr Aktien-Forecast macht Sie doch nicht zum Millionär … Das ist der Grund, warum Neuerungen bei R nicht im „Kern", in Standard-R, sondern in den Paketen vonstatten gehen.

R wurde (und wird) eher von Statistik-Freunden denn von waschechten Programmierern entwickelt und genutzt; das hat R den Vorwurf eingebracht, nicht so effizient und breit nutzbar zu sein wie andere Programmiersprachen. Tatsächlich ist in Kreisen, die eher aus der Informatik stammen, die Programmiersprache Python⁴ verbreiteter. In einigen Foren tobt die Diskussion, welche von beiden Sprachen den größten Nutzerkreis habe, am coolsten sei und so weiter. Python hat auch einige Vorteile, die hier aus Gründen der Befangenheit begrenzten Seitenzahl nicht ausgeführt werden. Es gibt auch einige Neuentwicklungen, zum Beispiel die Programmiersprache Julia⁵, die schneller rechnet als R. Schwer zu sagen, welche Programmiersprache in ein paar Jahren Platzhirsch sein wird. Vorhersagen sind bekanntlich schwierig, gerade wenn sie die Zukunft betreffen. Aber plausibel ist, dass ein so dynamisches Feld wie die Datenanalyse genug Platz für mehrere Ökosysteme bietet.

2.2 Warum R? Warum, R?

2.2.1 Warum R?

Warum sollte man Daten mit R analysieren und nicht mit … Excel, zum Beispiel? Vielleicht ist die schärfere Unterscheidung zu fragen, ob man eine Programmiersprache (wie R) verwendet oder eine „klickbare Oberfläche" (wie Excel). Für beide Kategorien gibt es einige Vertreter, und die im Folgenden aufgeführten Vor- und Nachteile gelten allgemein für Programmiersprachen in Abgrenzung zu klickbaren Programmen. Wenn auch hier vertreten wird, dass eine Programmiersprache wie R für ernsthafte Datenanalyse besser geeignet ist, so ist die Frage, welche Programmiersprache zweitrangig ist. Neben R ist Python auch sehr stark verbreitet, allerdings ist R für einen Einstieg sehr gut geeignet: Nach einer aktuellen Analyse basierend auf Textmining von Posts bei https://www.stackoverflow.com ist R die am meisten geschätzte Programmiersprache (Robinson 2017). Die Unterscheidung Programmiersprache vs. klickbare Oberfläche lässt außen vor, dass es Zwischenstufen gibt: So kann man mit Excel und SPSS auch Syntax schreiben und für R gibt es klickbare Oberflächen.⁶

R ist beliebt und beleibt, was die Anzahl von „Paketen" angeht, also Erweiterungen im Sinne von neuen Funktionen von R. Ende 2017 gab es 13201 R-Pakete; Tendenz steigend. Abb. 2.1 zeigt im linken Teil die Gesamtanzahl von R-Paketen auf CRAN, dem zentralen Ablageort (Repositorium; eine Art „Webstore") für R-Pakete (Rickert 2017). Der mittlere und rechte Teil zeigen die Anzahl der neuen Pakete pro Monat (rechts mit logarithmischer Achse; da die Steigung rechts linear aussieht, deutet es auf exponentielle Steigung hin). Unter Daten liebenden Wissenschaftlern ist R die vielleicht am weitesten verbreitete Wahl; aber auch Unternehmen wie Google, Apple oder Twitter setzen (auch) auf R (Sight 2017). So hat Microsoft vor einiger Zeit eine führende Firma im R-Umfeld aufgekauft.

../images/455465_1_De_2_Chapter/455465_1_De_2_Fig2_HTML.png

Abb. 2.1

Anzahl (neuer) R-Pakete auf CRAN

Was spricht für R, im Gegensatz zu Excel?

R kennt die modernen Verfahren – Excel nicht.

Moderne Verfahren der Datenanalyse, speziell aus der prädiktiven Modellierung sind in R sehr gut vertreten. In Excel nicht oder viel schwächer. So beinhaltet das R-Paket caret aktuell 237 verschiedene prädiktive Modelle – normale Regression ist eines davon. Diese Vielfalt gibt es in Excel nicht. Außerdem sind die Verfahren, die es in Excel gibt, zumeist nicht die neuesten. In R können neue Verfahren ohne Zeitverlust der Allgemeinheit zur Verfügung gestellt werden. Daher ist man am Puls der Zeit, wenn man mit R arbeitet. In Excel nicht.

R ist reproduzierbar – Excel nicht.

In R ist der „Rohstoff (Daten) von den „Verarbeitungsschritten (Analyseverfahren wie Mittelwert bilden) getrennt; in Excel vermengt.⁷ In Excel sind Daten und Analysebefehle in einer Tabelle vermengt; teilweise sogar in einer Zelle. Das macht das Vorgehen intransparent; in welcher Zelle hatte ich noch mal den 78. Arbeitsschritt geschrieben? Und war es eigentlich der 78. oder doch der 79. Schritt? In dieser vermengten Form ist es schwierig, die Analyse zu dokumentieren. Genauso schwierig ist es, Fehler zu finden. Komplexe Exceltabellen an andere Menschen (inklusive Ihr zukünftiges Ich) weiterzugeben, ist daher problematisch. In jüngerer Zeit sind einige Fehler in Datenanalysen bekannt geworden, die auf der Verwendung von Excel beruhen. So berichten Ziemann et al. (2016), dass etwa ein Fünftel von Fachartikeln in führenden Zeitschriften Fehler enthalten, die von Excel erzeugt wurden. So wurden z. B. Gennamen wie „Septin 2 von Excel unaufgefordert in ein Datum (September) umformatiert; damit wurde die eigentliche Information zerstört. Solche Fehler sind schwer zu finden, wenn Daten und Analyseverfahren vermengt sind, wie in Excel (vgl. Krugman (2013)). Aktuell wird verstärkt diskutiert über Forschungsergebnisse, die sich nicht bestätigen lassen (Begley und Ioannidis 2015; Open Science Collaboration 2015); das sind alarmierende und schockierende Nachrichten. Wenn schon in der Wissenschaft, wo die strengsten Maßstäbe an Sorgfalt angelegt werden, so viele Fehler auftauchen, wie mag es an in der „Praxis aussehen, wo häufig „pragmatisch" vorgegangen wird? Die Möglichkeit, eine Analyse effizient nachzuvollziehen, ist daher zentral. Reproduzierbarkeit ist daher eine zentrale Forderung zur Sicherung der Qualität einer Datenanalyse. Mit R ist das ohne Weiteres möglich; mit Excel ist es schwierig.

R ist automatisierbar – Excel nicht (oder weniger).

Hat man eine Analyse „verschriftlicht", also ein Skript geschrieben, in dem alle Befehle niedergeschrieben sind, kann man dieses Skript starten, und die Analyse wird automatisch ausgeführt. Ähnliches ist mit Excel deutlich schwieriger. Problemlos kann man in R die Analyse parametrisieren, also z. B. sagen „Hey, führe die Analyse mit den Geschäftszahlen letzter Woche durch und nimm das Stylesheet „mightyDonald. In Excel? Schwierig. Alle 78 Schritte der letzten Datenanalyse noch einmal durchzuklicken, begünstigt Sehnenscheidenentzündung und ist fehleranfällig. Ein R-Skript mit einem kurzen Befehl oder einem „Run-Button" auszuführen, ist deutlich einfacher.

R ist frei: quelloffen und kostenlos – Excel nicht.

Sie möchten wissen, wie eine bestimmte Berechnung genau durchgeführt wird, sozusagen wissen, was unter der Motorhaube passiert? Mit R kein Problem. Sie möchten diese Berechnung ändern? Mit R kein Problem. Außerdem möchten Sie diese Berechnung einfach an interessiertes Fachpublikum weitergeben dürfen? Mit R kein Problem. R ist ein Computerprogramm, das von Freiwilligen gepflegt und weiterentwickelt wird. Jeder kann mitmachen. Kostet nix. Manch kommerzielles Programm für Datenanalyse hingegen ist sehr teuer.

R erstellt elegante Diagramme – Excel nicht.

Abb. 2.2 zeigt Beispiele für hochwertige Abbildungen, die mit R erstellt wurden (links: Ein Circlize-Plot mit dem R-Paket circlize; Zuguang (2017); rechts: Kartenmaterial visualisiert; Kashnitsky (2017))

../images/455465_1_De_2_Chapter/455465_1_De_2_Fig3_HTML.png

Abb. 2.2

Beispiele für Datenvisualisierung mit R

2.2.2 Warum, R?

Die Kehrseite von R ist die aufwändigere Einarbeitung. Es dauert länger mit R als mit Excel, bis man die Grundlagen beherrscht, also einfache Arbeitsschritte selber ausführen kann. Die Aufwandskurve ist bei einfachen, grundlegenden Tätigkeiten steiler als bei der Arbeit mit Excel (s. Abb. 2.3); das kann frustrieren.⁸ Bei zunehmender Komplexität wird der Aufwand, ein Problem zu lösen, mit R aber schließlich geringer als mit Excel. Das liegt daran, dass, wie bereits gesagt, komplexe Analyseverfahren in Excel nicht oder nur umständlich verfügbar sind.

../images/455465_1_De_2_Chapter/455465_1_De_2_Fig4_HTML.png

Abb. 2.3

Schwierigkeiten mit R

Eine andere Eigenart einer Programmiersprache kann bisweilen für Frust sorgen: Man hackt ein paar geniale Befehle ein, freut sich, erwartet Wunderbares, und es passiert … nichts. Oder es kommt eine Fehlermeldung, zumeist präzise, verständlich und konstruktiv. Ein R-Klassiker ist: „Object of type closure is not subsettable".⁹ Diese Fehlermeldung, dem R-Anwärter wenig verständlich, tritt dann auf, wenn man Versucht, eine Funktion (closure) zu indizieren (s. Abschn. 5.3).

Zum Glück gibt es im Internet einen regen Austausch an Fragen zu R; http://www.stackoverflow.com ist die bekannteste Anlaufstelle für Fragen zu R (s. Abschn. 3.8.1). Eine Apologie von Schwierigkeiten beim Lernen von R, angelehnt an Dantes Göttliche Komödie, findet sich bei Burns (2012). Es gibt für R „klickbare Oberflächen"¹⁰, die die Arbeit vereinfachen können, ohne die Vorteile von R einzuschränken. Dazu zählen RStudio (s. Kap. 3), das R-Paket R-Commander (Fox 2016) oder eigenständige, auf R basierende Programme wie Jamovi¹¹ oder Exploratory.¹²

Aufgaben

../images/455465_1_De_2_Chapter/455465_1_De_2_Fig5_HTML.gif

Richtig oder falsch?¹³

R ist ein Dialekt der Programmiersprache Q.

R wurde zu Beginn kommerziell vertrieben.

R ist für Windows, Mac OS und Linux verfügbar.

Alternativen zu R sind Python, Julia und Excel.

Es gibt ca. 1000 R-Pakete auf CRAN.

Excel vermengt Syntax und Daten; R nicht.

Trennung von Syntax und Daten verbessert (potenziell) die Reproduzierbarkeit einer Analyse.

Etwas zugespitzt könnte man formulieren, dass in R komplexe Sachen einfach, einfache Aufgaben aber komplex sind.

CRAN ist ein Ort bzw. eine Webseite, auf der man R kaufen kann.

10.

Python ist eine Programmiersprache, die für die Datenanalyse nicht geeignet ist.

Fußnoten

R ist unter der GNU-Lizenz veröffentlicht; https://en.wikipedia.org/wiki/R_(programming_language); unter http://www.fsf.org/ finden Sie Details, was freie Software bedeutet.

https://cran.r-project.org/.

https://stat.ethz.ch/R-manual/R-devel/doc/html/packages.html.

https://www.python.org/.

https://julialang.org/.

Bekannt und hilfreich ist der R-Commander (Fox 2005).

Wir lassen hier außen vor, dass man mit Excel auch Skripte schreiben kann.

http://youtube.com/watch?v=PbcctWbC8Q0.

https://imgflip.com/i/1z7avz.

GUIs, Grafische Benutzeroberflächen.

https://www.jamovi.org/.

https://exploratory.io/.

F, F, R, F, F, R, R, R, F, F.

Sebastian SauerModerne Datenanalyse mit RFOM-EditionFOM Hochschule für Oekonomie & Managementhttps://doi.org/10.1007/978-3-658-21587-3_3

3. R starten

Sebastian Sauer¹

(1)

FOM Hochschule für Oekonomie & Management, Nürnberg, Deutschland

Sebastian Sauer

Email: sebastian.sauer@fom.de

Lernziele

../images/455465_1_De_3_Chapter/455465_1_De_3_Fig1_HTML.gif

In der Lage sein, einige häufige technische Probleme zu lösen

R-Pakete installieren können

Einige grundlegende R-Funktionalitäten verstehen

Als Haupt-Analysewerkzeug nutzen wir R; daneben wird uns die sog. Entwicklungsumgebung (integrated development environment; IDE) RStudio einiges an komfortabler Funktionalität bescheren.¹ Eine ganze Reihe von R-Paketen (Packages; d. h. Erweiterungen) werden wir auch nutzen.

3.1 R und RStudio installieren

Sie können R unter https://cran.r-project.org herunterladen und installieren (für Windows, Mac oder Linux). RStudio finden Sie auf der gleichnamigen Homepage: https://www.rstudio.com; laden Sie die Desktop-Version für Ihr Betriebssystem herunter. RStudio ist, vereinfacht gesagt, „nur eine Oberfläche (GUI; Graphical User Interface) für R, mit einer R von praktischen Zusatzfunktionen.² Die eigentliche Arbeit verrichtet das „normale R, welches automatisch gestartet wird, wenn Sie RStudio starten (sofern R installiert ist). Die Oberfläche von RStudio sieht unter allen Betriebssystemen etwa so aus wie in Abb. 3.1 dargestellt.

../images/455465_1_De_3_Chapter/455465_1_De_3_Fig2_HTML.png

Abb. 3.1

RStudio

Das Skriptfenster von RStudio ähnelt einem normalen Text-Editor; praktischerweise finden Sie aber einen Button „run, der die aktuelle Zeile oder die Auswahl „abschickt, d. h. in die Konsole gibt, wo die Syntax ausgeführt wird.³ Wenn Sie ein Skript-Fenster öffnen möchten, so können Sie das Icon ../images/455465_1_De_3_Chapter/455465_1_De_3_Fig3_HTML.gif klicken (Alternativ: Ctrl-Shift-N oder File > New File > R Script). Aus dem Fenster der Konsole spricht R zu uns bzw. sprechen wir mit R. Wird ein Befehl (synonym: Funktion) hier eingegeben, so führt R ihn aus. Es ist aber viel praktischer, Befehle in das Skript-Fenster einzugeben als in die Konsole. Behalten Sie die Konsole im Blick, wenn Sie eine Antwort von R erwarten. Im Fenster Globale Umgebung* (engl. environment ) zeigt R, welche Variablen (Objekte) vorhanden sind. Stellen Sie sich die Umgebung wie einen Karpfenteich vor, in dem die Datensätze und andere Objekte herumschwimmen. Was nicht in der Umgebung angezeigt wird, existiert nicht für R. Kurz gesagt: Die Daten, die Ihr R kennt, werden in der Umgebung angezeigt. Im Fenster rechts unten werden mehrere Informationen bereitgestellt, z. B. werden Diagramme (Plots) dort ausgegeben; auch Informationen zu Paketen (Packages) und Hilfeseiten (Help) finden sich dort. Klicken Sie mal die anderen Reiter im Fenster rechts unten durch.

../images/455465_1_De_3_Chapter/455465_1_De_3_Fig4_HTML.gif

Wenn Sie RStudio starten, startet R automatisch auch. Starten Sie daher, wenn Sie RStudio gestartet haben, nicht noch extra R. Damit hätten Sie sonst zwei Instanzen von R laufen, was zu Verwirrung (bei R und beim Nutzer) führen kann. Wer Shortcuts mag, wird in RStudio überschwänglich beschenkt; der Shortcut für die Shortcuts ist Shift-Alt-K.

3.2 Pakete

Ein Großteil der Neuentwicklungen bei R passiert in sog. Paketen , das sind Erweiterungen für R. Diese Erweiterungen beherbergen zusätzliche Funktionen und manchmal auch Daten und mehr. Jeder, der sich berufen fühlt, kann ein R-Paket schreiben und es zum „R-Appstore" (CRAN⁴) hochladen. Von dort kann es dann frei (das heißt auch kostenlos) heruntergeladen werden. Einige Pakete werden mit dem Standard-R mitgeliefert, aber ein Großteil der Funktionalität von R muss bzw. kann nach Belieben nachinstalliert werden. Am Anfang vergisst man gerne, dass ein Paket installiert sein muss, bevor man seine Funktionen nutzen kann.

3.2.1 Pakete von CRAN installieren

Am einfachsten installiert man R-Pakete in RStudio über den Button Install im Reiter Packages (s. Abb. 3.2). Beim Installieren von R-Paketen könnten Sie gefragt werden, welchen „Mirror Sie verwenden möchten. Das hat folgenden Hintergrund: R-Pakete sind in einer Art „App-Store, mit Namen CRAN (Comprehense R Archive Network) gespeichert. Damit nicht ein armer, kleiner Server überlastet wird, wenn alle Menschen dieser Welt just gerade beschließen sollten, ein Paket herunterzuladen, gibt es viele Kopien dieses Servers – seine Spiegelbilder (Mirrors). Suchen Sie sich einfach einen Server aus, der in der Nähe steht oder der Ihnen vorgeschlagen wird. Sie können Pakete auch per Befehl installieren; das geht so: install.packages(″name_des_pakets″). Also zum Beispiel:

install.packages(″tidyverse″)

Der Klick auf den Menüpunkt Install löst diesen R-Befehl zur Installation von Pakete aus (s. Abb. 3.2).

../images/455465_1_De_3_Chapter/455465_1_De_3_Fig5_HTML.png

Abb. 3.2

So installiert man Pakete in RStudio

3.2.2 Pakete installieren vs. Pakete starten (laden)

Nicht vergessen: Installieren muss man eine Software nur einmal; starten (laden) muss man die R-Pakete jedes Mal, wenn man sie vorher geschlossen hat und wieder nutzen möchte.⁵ Ein Paket, z. B. tidyverse, laden Sie mit diesem Befehl: library(tidyverse). Der Befehl bedeutet sinngemäß: „Hey R, geh in die Bücherei (library) und hole das Buch (package) tidyverse!" Alternativ können Sie in RStudio unter dem Reiter Packages den Namen des Pakets anklicken.

../images/455465_1_De_3_Chapter/455465_1_De_3_Fig6_HTML.gif

Wann benutzt man bei R Anführungszeichen? Im Detail ist es Kraut und Rüben, aber die Grundregel lautet: Wenn man Text anspricht, braucht man Anführungsstriche. Sprechen Sie existierende Daten oder Befehle an, brauchen Sie hingegen keine Anführungsstriche. Aber es gibt Ausnahmen: Im Beispiel library(tidyverse) ist tidyverse hier erst mal für R nichts Bekanntes, weil noch nicht geladen. Demnach müssten eigentlich Anführungsstriche (einfache oder doppelte) stehen. Allerdings meinte ein Programmierer, dass es doch bequemer sei, so ohne Anführungsstriche – spart man doch zwei Anschläge auf der Tastatur. Recht hat er. Aber bedenken Sie, dass es sich um die Ausnahme einer Regel handelt. Sie können also auch schreiben: library(″tidyverse″), das entspricht der normalen R-Rechtschreibung.

Zu Beginn jedes Kapitels dieses Buchs stehen die R-Pakete, die in dem jeweiligen Kapitel verwendet werden. Denken Sie daran, die benötigten Pakete zu installieren und zu starten, bevor Sie in dem Kapitel arbeiten. Am Anfang vergisst man gerne mal, ein Paket zu starten, und wundert sich dann, warum eine Funktion R unbekannt ist.

../images/455465_1_De_3_Chapter/455465_1_De_3_Fig7_HTML.gif

Wenn Sie R bzw. RStudio schließen, werden alle gestarteten Pakete ebenfalls geschlossen. Sie müssen die benötigten Pakete beim erneuten Öffnen von RStudio wieder starten.

Möchte man einen Überblick bekommen, wofür ein Paket, z. B. tidyverse, gut ist, gibt man am besten ein: help(tidyverse) bzw. ?tidyverse. Daraufhin wird die Hilfe- bzw. Infoseite des Pakets geöffnet.

3.2.3 Pakete wie pradadata von Github installieren

Github ist ein weiterer Ort, an dem man viele R-Pakete finden kann. Im Unterschied zu CRAN, wo der Autor eines Paket zu einigen Qualitätschecks gezwungen wird, ist der Autor bei Github sein eigener Herr. Daher finden sich häufig Pakete, die noch in einer früheren Entwicklungsphase sind, auf Github. Um Pakete von Github zu installieren, kann man den Befehl install_github() verwenden, der aus dem Paket devtools kommt. Die Daten dieses Buches finden sich in einem Paket auf Github (pradadata).⁶ Daher

Gefällt Ihnen die Vorschau?

Seite 1 von 1

Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren, modellieren und kommunizieren

Über dieses E-Book

Sebastian Sauer

Ähnliche Autoren

Ähnlich wie Moderne Datenanalyse mit R

Ähnliche E-Books

Mathematik für Sie

Ähnliche Podcast-Episoden

Ähnliche Artikel

Verwandte Kategorien

Rezensionen für Moderne Datenanalyse mit R

Wie hat es Ihnen gefallen?

Buchvorschau

Moderne Datenanalyse mit R - Sebastian Sauer

1. Statistik heute

Lernziele

1.1 Datenanalyse, Statistik, Data Science und Co.

1.2 Wissensgebiete der Datenanalyse

1.3 Einige Grundbegriffe

1.4 Signal und Rauschen

Aufgaben

2. Hallo, R

Lernziele

2.1 Eine kurze Geschichte von R

2.2 Warum R? Warum, R?

2.2.1 Warum R?

2.2.2 Warum, R?

Aufgaben

3. R starten

Lernziele

3.1 R und RStudio installieren

3.2 Pakete

3.2.1 Pakete von CRAN installieren

3.2.2 Pakete installieren vs. Pakete starten (laden)

3.2.3 Pakete wie pradadata von Github installieren