Entdecken Sie Millionen von E-Books, Hörbüchern und vieles mehr mit einer kostenlosen Testversion

Nur $11.99/Monat nach der Testphase. Jederzeit kündbar.

Methoden der Statistik und Prozessanalyse: Eine anwendungsorientierte Einführung
Methoden der Statistik und Prozessanalyse: Eine anwendungsorientierte Einführung
Methoden der Statistik und Prozessanalyse: Eine anwendungsorientierte Einführung
eBook976 Seiten4 Stunden

Methoden der Statistik und Prozessanalyse: Eine anwendungsorientierte Einführung

Bewertung: 0 von 5 Sternen

()

Vorschau lesen

Über dieses E-Book

Dieses Buch konzentriert sich auf die Anwendung von modernen Methoden der

Statistik zur Modellierung und Analyse von Prozessmodellen der Verfahrenstechnik.

Beispiele für moderne Methoden sind Matrixansätze, im Gegensatz zu

manuellen Berechnungen, sowie das Konzept orthogonaler Basen. Diese Ansätze

ermöglichen eine computergestützte Analyse von Versuchsplänen.

Zunächst werden die wichtigsten Aspekte und Methoden der Statistik und Prozessanalysevorgestellt. Auf dieser

Grundlage werden anschließend komplexere Methoden für die Anwendung

erarbeitet. Hierbei legen die Autoren großen Wert auf eine kurze, jedoch umfassende

und konsistente Darstellung.

Zur Erleichterung der Implementierung werden detaillierte Vorgehensweisen für

die relevanten Konzepte vorgestellt und anhand geeigneter Beispiele vorgestellt.

    

Die Beispiele sind so gewählt, dass sie mit vorhandenen Softwarewerkzeugen (Matlab, Excel) nachgebildet werden können. Für diesen Zweck werden Excel-Vorlagen und

MATLAB-Programme bereitgestellt. Ein ausführliches deutsch-englisches Glossar

ist ebenfalls enthalten.


SpracheDeutsch
HerausgeberSpringer Vieweg
Erscheinungsdatum5. Juli 2021
ISBN9783662616260
Methoden der Statistik und Prozessanalyse: Eine anwendungsorientierte Einführung

Ähnlich wie Methoden der Statistik und Prozessanalyse

Ähnliche E-Books

Chemie für Sie

Mehr anzeigen

Ähnliche Artikel

Rezensionen für Methoden der Statistik und Prozessanalyse

Bewertung: 0 von 5 Sternen
0 Bewertungen

0 Bewertungen0 Rezensionen

Wie hat es Ihnen gefallen?

Zum Bewerten, tippen

Die Rezension muss mindestens 10 Wörter umfassen

    Buchvorschau

    Methoden der Statistik und Prozessanalyse - Yuri Shardt

    © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2021

    Y. Shardt, H. WeißMethoden der Statistik und Prozessanalysehttps://doi.org/10.1007/978-3-662-61626-0_1

    1. Einführung in die Statistik und Datenvisualisierung

    Yuri A. W. Shardt¹   und Heiko Weiß²  

    (1)

    Technische Universität Ilmenau, Erfurt, Deutschland

    (2)

    Technische Universität Ilmenau, Hirschbach (Schleusingen), Deutschland

    Yuri A. W. Shardt (Korrespondenzautor)

    Email: yuri.shardt@tu-ilmenau.de

    Heiko Weiß

    Email: heiko_weiss_@gmx.de

    Εἰκὸς γὰρ γίνεσθαι πολλὰ καὶ παρὰ τὸ εἰκός.

    Es ist wahrscheinlich, dass etwas Unwahrscheinliches passiert.

    Aristoteles, Poetik, 1456a, 24

    1.1 Grundlagen der deskriptiven Statistik

    1.1.1 Lagemaße

    1.1.2 Streuungsmaße

    1.1.3 Andere statistische Größen

    1.2 Datenvisualisierung

    1.2.1 Balkendiagramme und Histogramme

    1.2.2 Kreisdiagramme

    1.2.3 Liniendiagramme

    1.2.4 Kastengrafiken

    1.2.5 Streudiagramme

    1.2.6 Wahrscheinlichkeitsdiagramme

    1.2.7 Tabellen

    1.2.8 Profildiagramme

    1.2.9 Andere Darstellungsformen

    1.3 Beispiel: Reibungsfaktor in Rohren

    1.3.1 Erläuterungen zu den Datensätzen

    1.3.2 Statistische Größen

    1.3.3 Datenvisualisierung

    1.3.4 Anmerkungen

    Weiterführende Literatur

    Elektronisches Zusatzmaterial

    Die elektronische Version dieses Kapitels enthält Zusatzmaterial, das berechtigten Benutzern zur Verfügung steht https://​doi.​org/​10.​1007/​978-3-662-61626-0_​1.

    Obwohl es üblicherweise den Anschein hat, dass mit Statistik versucht wird, Unsicherheiten und unwahrscheinliche Ereignisse auszudrücken und zu kategorisieren, handelt es sich tatsächlich um ein viel breiteres und allgemeineres Feld. Statistik ist die Wissenschaft des Sammelns, Analysierens, Interpretierens und Darstellens von Daten auf objektive Art und Weise. Basierend auf der Wahrscheinlichkeitsrechnung wurden die Anwendungsgebiete der Statistik erweitert, um Themen wie Kurvenanpassung, Spieltheorie und Vorhersagen zu berücksichtigen. Die Ergebnisse werden in vielen verschiedenen Bereichen genutzt. Dazu gehören Biologie, Marktforschung, Umfragen, Wirtschaft, Kryptografie, Chemie und Verfahrenstechnik.

    Grundlegende statistische Methoden können bis in die früheste Vergangenheit zurückverfolgt werden, wie etwa für einen Bauern das Sammeln von Informationen über das Vieh, die Menge, Qualität und Art des Getreides in den Getreidespeichern oder für damalige Astronomen die Analyse der Mondphasen. Mit diesen einfachen Datensätzen konnten Diagramme erstellt, statistische Werte berechnet, Muster erkannt und verwendet werden. Griechische Philosophen, wie Aristoteles (384–322 v. Chr.), referierten über die Bedeutung der Wahrscheinlichkeit und ihre unterschiedlichen Erscheinungen. In der Zwischenzeit entwickelten antike Astronomen wie Ptolemäus (ca. 90–168 n. Chr.) und Al-Biruni (973–1048) Methoden, um mit den zufälligen und systembedingten Fehlern ihrer astronomischen Messungen umzugehen. Zu Beginn des späten Mittelalters um 1300 wurden unvollständige Ansätze der Wahrscheinlichkeitsrechnung entwickelt und für die Erzeugung von Verschlüsselungscodes verwendet. Zu Beginn des 17. Jahrhunderts wurden, angetrieben durch ein allgemeines Interesse an Glücksspielen, die Grundlagen der Wahrscheinlichkeitsrechnung von Abraham de Moivre (1667–1754), Blaise Pascal (1623–1662) und Jacob Bernoulli (1655–1705) entwickelt. Diese Wissenschaftler versuchten, optimale Strategien für Glücksspiele zu lösen und zu bestimmen. Auch die entstehenden Nationalstaaten interessierten sich verstärkt für die Sammlung und Interpretation ökonomischer und demografischer Zusammenhänge. Tatsächlich leitet sich das Wort Statistik, das der deutsche Philosoph Gottfried Achenwall (1719–1772) 1749 erstmals verwendete, vom neolateinischen Begriff statisticum collegium ab, was so viel wie Staatsrat bedeutet. Es bezieht sich auf die Tatsache, dass schon damals die primäre Verwendung der gesammelten Informationen darin bestand, Einsicht über den Nationalstaat zu gewähren (Varberg 1963). Im frühen 19. Jahrhundert führten Arbeiten u. a. von Johann Carl Friedrich Gauß (1777–1855), Pierre-Simon Laplace (1749–1827) und Thomas Bayes (1701–1761) zur Entwicklung neuer theoretischer und praktischer Gedanken. Die Begründung der Wahrscheinlichkeitstheorie, insbesondere die Entwicklung der Gaußverteilung, ermöglichte viele praktische Einsatzmöglichkeiten, wie beispielsweise die Kurvenanpassung und lineare Regression. Nachfolgende Arbeiten von Forschern wie Andrej Kolmogoroff (1903–1987) und Andrej Markoff (1856–1922) verfestigten die theoretischen Grundlagen und entwickelten neue Methoden zum besseren Verständnis von Zufälligkeit und dessen Verhalten. Ausgehend von diesen Grundlagen entwickelten Karl Pearson (1857–1936) und Ronald Fisher (1890–1962) den Hypothesentest, die χ²-Verteilung, die Hauptkomponentenanalyse, die statistische Versuchsplanung, die Varianzanalyse und die Maximum-Likelihood-Methode, die bis heute angewendet werden. In der Folge wurden diese Ideen von George Box (1919–2013), Gwilym Jenkins (1932–1982) und Lenart Ljung (1946–) genutzt, um erweiterte stochastische Modelle für Anwendungszwecke in den Bereichen Wirtschaft, Biologie und Prozesskontrolle zu entwickeln. Mit der Entwicklung von Computern lassen sich viele der bisher entwickelten Methoden effizient und schnell umsetzen, um enorme Datenmengen zu analysieren. Darüber hinaus hat die zunehmende Verfügbarkeit von Computern dazu geführt, dass neue Methoden wie Monte-Carlo-Simulationen und Bootstrapping zum Einsatz kommen.

    Auch wenn die Statistik nach wie vor hauptsächlich in der Volkswirtschaftslehre und Demografie angewandt wird, hat sie ihren Anwendungsbereich auf nahezu alle menschlichen Tätigkeiten ausgedehnt. Einige der ersten modernen Anwendungen waren die Planung und Analyse von Versuchsreihen in der Landwirtschaft, um zu zeigen, welche Düngemittel und Bewässerungsmethoden trotz unkontrollierbarer Umweltunterschiede, wie z. B. Sonneneinstrahlung oder lokale Bodenverhältnisse, besser sind. Später wurden diese Methoden erweitert, um verschiedene genetische Experimente zu analysieren. Gegenwärtig können mithilfe leistungsfähiger Computer unerwartete statistische Zusammenhänge in einem Datensatz mit vielen Tausend Variablen verarbeitet und ans Licht gebracht werden. So ist es für Werbetreibende beispielsweise möglich, Veränderungen im Verbraucherverhalten auf der Grundlage ihrer Einkäufe über einen bestimmten Zeitraum genau vorherzusagen.

    Ein weiterer Bereich, in dem die Statistik in hohem Maße genutzt wird, ist die Verfahrenstechnik. Diese ist dadurch gekennzeichnet, dass große Datenmengen aus einem bestimmten (oft chemischen) Prozess erfasst und interpretiert werden, um eine sicherere, umweltfreundlichere und rentablere Anlage zu erhalten. Die Prozessindustrie nutzt ein breites Spektrum an statistischen Ansätzen, die von einfachen deskriptiven Methoden über lineare Regressionen bis hin zu komplexen Themen wie Systemidentifikation und Data-Mining reichen. Um die fortgeschrittenen Methoden zu nutzen, ist es notwendig, die Grundlagen der Statistik gründlich zu verstehen. Daher wird dieses Kapitel mit einigen grundlegenden Zusammenhängen in der statistischen Analyse von Datensätzen beginnen, verbunden mit einer gründlichen Erläuterung der verschiedenen Methoden zur Visualisierung bzw. Darstellung von Daten. Die darauffolgenden Kapitel werden theoretische und komplexe Ansätze behandeln, die immer wieder auf die hier vorgestellten Methoden zurückkommen werden. Schließlich soll als Randbemerkung erwähnt werden, dass der Schwerpunkt dieses Buches auf der Darstellung von Methoden liegt, die mit heutiger Computertechnik gelöst werden können. Aus diesen Gründen werden Matrizen und verallgemeinerte Lösungsansätze im Vordergrund stehen. Abgesehen von den letzten beiden Kapiteln, in denen MATLAB® und Excel® einbezogen werden, wird jedoch so gut wie kein Schwerpunkt auf eine bestimmte Software als Berechnungswerkzeug gelegt. Vielmehr sollen die theoretischen und Implementierungsaspekte eingehend untersucht werden

    1.1 Grundlagen der deskriptiven Statistik

    Der grundlegendste Schritt in der statistischen Analyse eines Datensatzes besteht darin, ihn aussagekräftig zu beschreiben, d. h. die mit dem Datensatz verknüpften Eigenschaften zu berechnen und darzustellen. Ein Datensatz besteht aus einer endlichen Anzahl von Datenwerten bzw. Datenpunkten. In diesem Buch wird ein Datensatz entweder mit einer Mengen-Notation {

    $$x_{1} ,x_{2} , \ldots ,x_{n}$$

    } oder einer Vektor-Notation

    $$\vec{x} = \left\langle {x_{1} ,x_{2} , \ldots ,x_{n} } \right\rangle$$

    beschrieben. Die Mengen-Notation ist nützlich zum Auflisten der Elemente eines Datensatzes, während die Vektor-Notation für die mathematische Manipulation sinnvoll ist. Die Größe des Datensatzes ist dabei gleich n. Zu den häufigsten verwendeten statistischen Größen gehören Lage- und Streuungsmaße.

    1.1.1 Lagemaße

    Lagemaße liefern Informationen über den zentralen oder typischen Wert eines Datensatzes. Zu den grundlegenden Lagemaßen gehören der Mittelwert, Modus und Median. Eine Zusammenfassung der grundlegenden Eigenschaften der Lagemaße ist in Tab. 1.1 enthalten.

    Tab. 1.1

    Zusammenfassung der Haupteigenschaften der Lagemaße

    Der Mittelwert ist ein Maß für den zentralen Wert einer Menge von Zahlen und wird üblicherweise mit einem Querstrich ( ../images/329633_1_De_1_Chapter/329633_1_De_1_Figa_HTML.png ) über einer Variablen gekennzeichnet. Zum Beispiel wird der Mittelwert von $$\vec{x}$$ als $$\bar{x}$$ geschrieben. Die übliche Mittelwertbildung besteht aus der Summe aller Werte dividiert durch die Gesamtzahl der Datenpunkte n:

    $$\bar{x} = \frac{{\sum\limits_{i = 1}^{n} {x_{i} } }}{n}.$$

    (1.1)

    Alternativ kann auch ein gewichteter Mittelwert berechnet werden, wobei jedem Wert ein Gewicht w zugeordnet wird:

    $$\bar{x} = \frac{{\sum\limits_{i = 1}^{n} {w_{i} x_{i} } }}{{\sum\limits_{i = 1}^{n} {w_{i} } }}.$$

    (1.2)

    Der gewichtete Mittelwert kann verwendet werden, wenn die Genauigkeit einiger Werte geringer ist als die anderer. Obwohl der Mittelwert ein häufig verwendetes Lagemaß ist, handelt es sich nicht unbedingt um eine robuste Größe. Das heißt, der Mittelwert kann aufgrund von wenigen Werten, die sich signifikant von den anderen unterscheiden, stark verzerrt sein. Wenn man z. B. den Datensatz von drei Zahlen {2; 3; 4} hat, deren Mittelwert $$\bar{x}$$  = 3 ist, und die 4 durch 10 ersetzt, wird der Mittelwert zu $$\bar{x}$$  = 5, der größer als die beiden anderen Zahlen ist.

    Der Modus stellt den häufigsten Wert in einem bestimmten Datensatz dar. Es kann mehrere Modi geben, wobei der Datensatz dann als multimodal¹ bezeichnet wird. Für den Datensatz {2; 4; 5; 5; 5; 6; 7; 10; 10; 10; 11} gibt es zwei Modi, und zwar 5 und 10, da beide genau dreimal vorkommen. Obwohl der Modus im Allgemeinen weniger empfindlich auf geringfügige Änderungen im Datensatz reagiert, ist es immer noch relativ einfach, die Ergebnisse zu verzerren, indem man zu viele identische Werte hinzufügt, um einen neuen modalen Wert zu erzeugen. Außerdem muss der häufigste Eintrag in keiner Weise die Eigenschaften des Datensatzes beschreiben. Dies kann insbesondere dann der Fall sein, wenn einer der Extremwerte etwas häufiger auftritt als die anderen Zahlen und somit zum Modalwert wird.

    Der Median stellt den mittleren Wert eines geordneten Datensatzes dar. Wenn die Anzahl der Datenpunkte ungerade ist, dann ist der mittlere Wert der Median. Andererseits, wenn die Anzahl der Datenpunkte gerade ist, dann wird der Median aus dem Mittelwert der beiden mittleren Werte berechnet. Es kann auch vorkommen, dass der Medianwert einem Wert aus dem Datensatz entspricht, was jedoch nicht immer der Fall sein muss. Für die als {2; 4; 5; 10; 14; 14; 16; 17} angegebene Menge ist der Median 12 (= 0,5(10 + 14)). Der Hauptvorteil des Medians besteht darin, dass er den mittleren Wert einer gegebenen Menge repräsentiert und robust gegenüber einzelnen Extremwerten ist.

    1.1.2 Streuungsmaße

    Streuungsmaße sollen Aufschluss darüber geben, wie die Werte in einem gegebenen Datensatz verteilt sind, d. h. ob die Werte konzentriert oder in einem großen Zahlenbereich liegen. Zu den grundlegenden Streuungsmaßen gehören Spannweite, Standardabweichung bzw. Varianz, Schiefe und Median der absoluten Abweichungen (MAD). Eine Zusammenfassung der grundlegenden Eigenschaften dieser Größen ist in Tab. 1.2 angegeben.

    Tab. 1.2

    Zusammenfassung der Haupteigenschaften der Streuungsmaße

    Die Spannweite eines Datensatzes ist definiert als die Differenz zwischen dem größten und kleinsten Wert eines Datensatzes. Es ist auch möglich, die Spannweite als die beiden Extremwerte des Datensatzes anzugeben. Die Spannweite bietet eine einfache, aber nicht sehr aussagekräftige Interpretation der Streuung der Werte. Denn je größer der Bereich, desto größer ist scheinbar die Streuung der Werte. Offensichtlich wird die Spannweite durch große Extremwerte stark beeinflusst, da sie direkt in die Berechnung eingehen.

    Die Standardabweichung σ und die Varianz σ² sind zwei zusammenhängende Größen, die sich auf die Streuung des Datensatzes beziehen. Die Varianz ist immer gleich dem Quadrat der Standardabweichung. Je größer die Standardabweichung, desto größer ist die Streuung des Datensatzes. Die Varianz kann wie folgt berechnet werden:

    $$\hat{\sigma }^{2} = \frac{{\sum\limits_{i = 1}^{n} {\left( {x_{i} - \bar{x}} \right)^{2} } }}{n - 1}.$$

    (1.3)

    Die Standardabweichung kann dann durch Ziehen der Quadratwurzel des mit Gl. (1.3) erhaltenen Wertes berechnet werden. Der Zirkumflex ( ../images/329633_1_De_1_Chapter/329633_1_De_1_Figb_HTML.png ) über einer Größe bedeutet, dass diese aus einem Datensatz geschätzt bzw. berechnet wird und nicht einem theoretischen Wert entstammt. Beispielsweise ist in der Gl. (1.3) $$\hat{\sigma }^{2}$$ der Schätzwert für die tatsächliche Varianz σ² des Datensatzes.

    Die Verwendung unterschiedlicher Datenpunkte kann zu einer gewissen Variation des berechneten Wertes führen. Es kann festgestellt werden, dass die Varianz empfindlich gegenüber Extremwerten ist. Gelegentlich wird die Varianz auch als Funktionsvariable var bezeichnet, z. B. var(x) als Varianz von x.

    Eine Methode zur Vermeidung der Empfindlichkeit der Standardabweichung gegenüber Extremwerten ist die Berechnung des Medians der absoluten Abweichung (MAD), welche als σMAD bezeichnet wird. Dabei wird der Mittelwert durch den robusten Median ersetzt, sodass sich folgende Berechnungsgleichung ergibt:

    $$\hat{\sigma }_{{\text{MAD}}} = {\text{median}}\left( {\left| {x_{i} - \bar{x}_{\text{median}} } \right|} \right),$$

    (1.4)

    wobei median die Funktion zur Bestimmung des Medians eines Datensatzes und $$\bar{x}$$ median der Medianwert des Datensatzes sind. Es ist möglich, $$\hat{\sigma }_{{\text{MAD}}}$$ in eine robuste Schätzung der Standardabweichung umzuwandeln. Für die Berechnung wird ein Umrechnungsfaktor benötigt, der jedoch die Kenntnis der zugrunde liegenden Verteilung voraussetzt. Für eine Normalverteilung lautet die robuste Schätzung der Standardabweichung wie folgt:

    $$\hat{\sigma } = 1{,}4826\hat{\sigma }_{{\text{MAD}}} .$$

    (1.5)

    Die Schiefe γ gibt die Asymmetrie einer Verteilung an. Die Schiefe wird durch die Gruppierung der Extremwerte des Datensatzes bestimmt. Wenn mehr Daten in der Nähe der kleinsten Werte liegen, dann ist die Verteilung rechtsschief. Wenn sich der Datensatz andererseits in Richtung der größten Werte bündelt, dann ist die Verteilung linksschief. Die Schiefe eines Datensatzes kann wie folgt berechnet werden:

    $$\hat{\gamma } = \frac{{\frac{1}{n}\sum\limits_{i = 1}^{n} {\left( {x_{i} - \bar{x}} \right)^{3} } }}{{\left( {\frac{1}{n}\sum\limits_{i = 1}^{n} {\left( {x_{i} - \bar{x}} \right)^{2} } } \right)^{1,5} }}.$$

    (1.6)

    Grafisch ist die Schiefe aus einem Histogramm ersichtlich, welches die Frequenz einer Größe in Abhängigkeit von dieser selbst darstellt. Beispiele für links- und rechtsschiefe Verteilungen sind in Abb. 1.1 dargestellt.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig1_HTML.png

    Abb. 1.1

    Rechtsschiefer (links) und linksschiefer (rechts) Datensatz

    1.1.3 Andere statistische Größen

    Neben den Lage- und Streuungsmaßen gibt es weitere Möglichkeiten, einen bestimmten Datensatz zu quantifizieren. In diesem Abschnitt werden zwei wichtige Größen kurz vorgestellt: Quantile und Ausreißer.

    1.1.3.1 Quantile

    Ein Quantil ist eine Möglichkeit, basierend auf einer geordneten Rangfolge, den Datensatz in Segmente zu unterteilen. Gewöhnliche Quantile sind der Median (zwei Segmente mit einer Trennung der Daten bei 50 %), Quartile (vier Segmente bei 25, 50 und 75 %), Quintile (fünf Segmente bei 20, 40, 60 und 80 %) und Perzentile (100 Segmente). Um eine sinnvolle Einteilung zu ermöglichen, sollten mindestens so viele verschiedene Datenpunkte vorhanden sein wie Segmente.

    Die Aufteilung eines Datensatzes in Quantile kann in folgenden Schritten durchgeführt werden:

    1.

    Ordnen des Datensatzes vom kleinsten bis zum größten Wert.

    2.

    Ermitteln eines Schätzwertes der Grenzen für jedes der Segmente mithilfe der folgenden Formel (Hyndman und Fan 1996):

    $$\begin{aligned} h &= \left( {n - 1} \right)p + 1, \\ Q_{p} &= x_{\left\lfloor h \right\rfloor } + \left( {h - \left\lfloor h \right\rfloor } \right)\left( {x_{\left\lfloor h \right\rfloor + 1} - x_{\left\lfloor h \right\rfloor } } \right), \\ \end{aligned}$$

    (1.7)

    wobei n die Anzahl der Datenpunkte ist, $$p=k/q $$ , k und q sind als k-tes q-til definiert, $$x_{i}$$ ist der i-te Wert des vorhandenen Datensatzes und $$\lfloor . \rfloor$$ die Abrundungsfunktion, die eine beliebige Zahl auf ihre nächste ganze Zahl abrundet. Wenn p = 1, dann ist beispielsweise $$Q_{p}=x_{n}$$ .

    Verschiedene Formulierungen für die Berechnung des Stichprobenquantils können durch Änderung der Gleichung für h erhalten werden:

    1.

    Exklusive Formulierung:h = (n + 1)p + 1 mit p und $$Q_{p}$$ , die auf die gleiche Weise wie zuvor berechnet werden.

    2.

    Formulierung der linearen Interpolation:h = np + 0,5 mit p und $$Q_{p}$$ , die auf die gleiche Weise wie zuvor berechnet werden.

    Die Unterschiede der berechneten Werte sind zumeist sehr gering. Ein Vergleich der zuvor genannten Methoden ist in Tab. 1.6 im Zusammenhang mit einem Beispiel dargestellt (siehe Abschn. 1.3.3).

    Es sei angemerkt, dass in allen Versionen von Excel® die in Gl. (1.7) definierte Methode verwendet wird (entweder als Funktion quartile oder quartile.inkl). Neuere Versionen von Excel® (2010 oder neuer) unterstützen auch die Variante der exklusiven Formulierung (als quartile.exkl). Alle Versionen von MATLAB® greifen auf die Variante der linearen Interpolation zurück.

    1.1.3.2 Ausreißer

    Ausreißer sind Datenpunkte, die sich scheinbar deutlich von den umgebenden Werten und dem erwarteten Verhalten unterscheiden. Ausreißer können durch viele verschiedene Faktoren verursacht werden. Dies betrifft z. B. Fehler bei der Dateneingabe und -erfassung oder durch systembedingte Zufälligkeiten. Immer wenn ein Datenwert als Ausreißer vermutet wird, ist es nützlich zu überprüfen, ob er korrekt erfasst und gespeichert worden ist. Die Beurteilung, ob es sich um einen Ausreißer handelt, ist letztlich subjektiv und beruht auf Erfahrung. Gemeinsame Regeln für die Bestimmung von Ausreißern sind u. a. (Lin et al. 2007):

    1.

    Visuelle Tests: Eine visuelle Überprüfung, um festzustellen, welche Werte sich weit entfernt von der Mehrheit der Daten befinden. Beispielsweise kann in der Menge {1; 2; 1; 1; 2; 2; 3; 0; 2; −10} −10 als Ausreißer betrachtet werden. Die Darstellung von Datenwerten mithilfe von Diagrammen bzw. Graphen kann sehr nützlich sein. Meist sind Abbildungen wie die Kastengrafik, Liniendiagramme und Punktdiagramme gut für die Bestimmung von Ausreißern geeignet.

    2.

    3σ-Regel: Datenpunkte, deren Z-Wert groß ist (>3), wobei der Z-Wert wie folgt angegeben wird:

    $$Z_{i} = \frac{{x_{i} - \bar{x}}}{\sigma }.$$

    (1.8)

    Dabei sind xi der interessierende Datenpunkt, Zi der entsprechende Z-Wert, $$\bar{x}$$ der Mittelwert und σ die Standardabweichung des Datensatzes. Dieser Ansatz funktioniert nur, wenn davon ausgegangen werden kann, dass der Datensatz normalverteilt ist. Er ist nicht sehr robust.

    3)

    Hampel-Test (Davies und Gather 1993): Mit dem Hampel-Test wird überprüft, ob Daten außerhalb des Bandes xmedian ± 3 $$\hat{\sigma }_{{\text{rob}}}$$ liegen, wobei $$\hat{\sigma }_{{\text{rob}}}$$ definiert ist als

    $$\hat{\sigma }_{{\text{rob}}} = 1{,}4826\,{\cdot}\,{\text{median}}\left( {\left| {x_{i} - x_{\text{median}} } \right|} \right).$$

    (1.9)

    und median die Funktion ist, die den Median des angegebenen Datensatzes ermittelt. Diese Gleichung stellt den Median der absoluten Abweichungen dar und ist eine robuste Methode zur Schätzung der Datenstreuung. Die Konstante ist so gewählt, dass $$\hat{\sigma }_{{\text{rob}}}$$ bei einer Normalverteilung σ entspricht. Das heißt, dass bei vorliegender Normalverteilung der Hampel-Test und die 3σ-Regeln die gleichen Ergebnisse liefern.

    1.2 Datenvisualisierung

    Die Datenvisualisierung ermöglicht, Informationen anschaulich darzustellen. Dabei geht es nicht nur darum, die relevanten Informationen korrekt, sondern auch optisch ansprechend zu visualisieren. Es gibt viele verschiedene Möglichkeiten zur Darstellung eines bestimmten Datensatzes, z. B. Grafiken und Tabellen. Jede Methode hat ihre Vor- und Nachteile. Im Allgemeinen können die folgenden Kriterien herangezogen werden, um festzustellen, welche Darstellungsform am besten geeignet ist:

    1.

    Informationsdichte: Wie viele Informationen sollen gezeigt werden? Gibt es nur wenige Aspekte, die es zu erfassen gilt oder gibt es mehrere Punkte, die zu berücksichtigen sind?

    2.

    Vergleich: Welchen Nutzen hat die Visualisierung der Werte? Welche Zusammenhänge zwischen den Daten sind hervorzuheben?

    3.

    Effektivität: Welche Methode verdeutlicht die gewünschten Zusammenhänge am besten? Wie gut werden die Informationen wiedergegeben? Sind die gewünschten Zusammenhänge deutlich erkennbar?

    4.

    Art der Darstellung: Welche Darstellungsform wird benötigt? Müssen verschiedene Farben verwendet werden? Wenn ja, wie viele? Müssen mehrere verschiedene Symbole verwendet werden? Wenn ja, welche? Können diese in der Abbildung leicht unterschieden werden? Was passiert, wenn die Abbildung in Schwarz-weiß gedruckt werden soll? Welche Art von Skala wird verwendet: linear oder logarithmisch?

    Unabhängig von der gewählten Methode ist es wichtig, dass die folgenden Informationen, soweit zutreffend, enthalten sind:

    1.

    Titel/Überschriften: Jede Abbildung oder Gruppe von Abbildungen sollte einen eindeutigen Titel oder eine Überschrift haben, die die Informationen in der Abbildung kurz erklärt.

    2.

    Beschriftungen: Geeignete Beschriftungen sollten hinzugefügt werden. Diese sollten gegebenenfalls die vollständige Bezeichnung des dargestellten Inhalts, Abkürzungen und Einheiten enthalten. Alle Achsen und Legendenüberschriften sind zu berücksichtigen. Eine akzeptable und sehr nützliche Vorgehensweise für die Achsbeschriftung ist die Verwendung der folgenden Form: „Vollständiger Name, Abkürzung (Einheiten)", z. B. „Temperatur, T (°C)". Eine Legende sollte hinzugefügt werden, wenn mehrere Informationen in ein und demselben Graphen dargestellt sind.

    3.

    Darstellungsform: Sind die verwendeten Symbole klar unterscheidbar? Zu bedenken ist, dass viele Abbildungen in Schwarz-Weiß-Publikationen verwendet werden. Das bedeutet, dass es schwierig werden kann, wenn unterschiedliche Farben verwendet werden, um verschiedene Merkmale zu zeigen. Außerdem sollten Datenpunkte nicht grundlos durch Linien verbunden werden. Das bedeutet, dass experimentelle Daten als Einzelpunkte und theoretische Größen mit einer einzigen durchgehenden Linie darzustellen sind.

    Gute Erläuterungen zur Datenvisualisierung sowie einige Gedanken und deren Umsetzung findet man in den Büchern von Edward Tufte (1997, 2001).

    1.2.1 Balkendiagramme und Histogramme

    Ein Balkendiagramm ist ein Diagramm mit vertikalen oder horizontalen Balken, dessen Länge proportional zu einem bestimmten Wert ist. Grundsätzlich werden Balkendiagramme verwendet, um diskrete Informationen darzustellen. Eine Achse enthält die Kategorie oder das diskrete Element, während auf der anderen Achse die Daten abgetragen werden. Typische Balkendiagramme sind in Abb. 1.2 dargestellt. Obwohl auch 3-D-Balkendiagramme möglich sind, bieten sie keinen Vorteil für eine genauere und effizientere Darstellung der Informationen.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig2_HTML.png

    Abb. 1.2

    Vertikales (links) und horizontales (rechts) Balkendiagramm

    Ein Histogramm zeigt, ähnlich einem Balkendiagramm, die Häufigkeit von Werten eines Datensatzes. Im Gegensatz dazu stellt ein Histogramm kontinuierliche Daten dar. Ein Histogramm wird erstellt, indem zunächst Klassen oder Zahlenbereiche angelegt werden. Als nächstes wird die Anzahl der Fälle, in denen ein Wert aus dem Datensatz in jedem der Bereiche liegt, ermittelt. Danach kann ein vertikales Balkendiagramm erzeugt werden, wobei die Klassen mit ihrer entsprechenden Häufigkeit dargestellt werden. Es soll angemerkt werden, dass die Klassen normalerweise so angeordnet werden, dass sie die gleiche Größe haben (mit Ausnahme der beiden Endpunkte) und stetig sind. Das bedeutet, dass sich zwei benachbarte Klassen den gleichen Endpunkt teilen. Beispielsweise können vier Klassen mit x < 3; 3 ≤ x < 5; 5 ≤ x < 7 und x ≥ 7 gegeben sein. Ein typisches Histogramm ist in Abb. 1.3 zu sehen. Nicht jede Software bietet Methoden zur direkten Erstellung eines Histogramms. In manchen Fällen ist es notwendig, die Daten manuell zu klassifizieren und anschließend das entsprechende Histogramm zu erstellen.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig3_HTML.png

    Abb. 1.3

    Typisches Histogramm

    1.2.2 Kreisdiagramme

    Ein Kreisdiagramm ist durch einen Kreis gekennzeichnet, der in verschiedene Stücke aufgeteilt wurde. Es wird auch als Tortendiagramm bezeichnet, da es wie eine zugeschnittene Torte aussieht. Kreisdiagramme können dazu eingesetzt werden, um die Beziehungen von Teilen im Verhältnis zum Ganzen darzustellen, z. B. die Komponenten eines Finanzbudgets. Zu viele verschiedene Elemente in einem Kreisdiagramm können jedoch zu Schwierigkeiten bei der effektiven Darstellung der Elemente führen, da die Anzahl der verfügbaren Farben und der Platz begrenzt sein kann. Außerdem benötigt ein Kreisdiagramm tendenziell mehr Platz als idealerweise für die Darstellung der Informationen benötigt wird. Ein typisches Kreisdiagramm ist in Abb. 1.4 dargestellt.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig4_HTML.png

    Abb. 1.4

    Typisches Kreisdiagramm

    1.2.3 Liniendiagramme

    Ein Liniendiagramm ist ein Graph, der einzelne Datenpunkte enthält, die durch eine Linie verbunden sind. Zumeist stellt die horizontale bzw. x-Achse die Zeit und die vertikale bzw. y-Achse den Wert einer bestimmten Größe mit ihrem zeitlichen Verlauf dar. Aus diesem Grund wird ein Liniendiagramm oft auch als Zeitreihendiagramm bezeichnet. Ein Liniendiagramm kann sehr nützlich sein, um die zeitliche Änderung einer Größe aufzuzeigen. Jedoch können zu viele verschiedene Linien dafür sorgen, dass die Abbildung schwer zu lesen und zu verstehen ist. Ein typisches Liniendiagramm ist in Abb. 1.5 dargestellt.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig5_HTML.png

    Abb. 1.5

    Typisches Liniendiagramm

    1.2.4 Kastengrafiken

    Eine Kastengrafik, ist ein komplexes Diagramm, das sich auf Quartile stützt, um verschiedene Eigenschaften des Datensatzes abzubilden. Es lassen sich damit gut verschiedene Datensätze vergleichen. Eine Kastengrafik besteht aus zwei Teilen: dem Kasten (Box) und den Antennen (Whiskern). Der Kasten wird durch die Grenzen des 25. (Q1) und 75. (Q3) Perzentils gebildet, wobei die Mittellinie immer den Median (Q2) darstellt. Die Grenzwerte (Whisker) werden nach einer der folgenden Regeln festgelegt:

    1.

    Maximum und Minimum des Datensatzes.

    2.

    Die Untergrenze befindet sich innerhalb des 1,5-fachen Interquartilsbereiches des unteren Quartils und die Obergrenze entsprechend innerhalb des 1,5-fachen Interquartilsbereiches des oberen Quartils. Der Interquartilsbereich ist definiert als die Differenz zwischen Q3 und Q1. Eine solche Grafik wird oft als Tukey-Kastengrafik bezeichnet.

    3.

    Das 9. und 91. Perzentil.

    4.

    Das 2. und 98. Perzentil.

    Datenpunkte, die außerhalb der Grenzen liegen, werden gewöhnlich durch Kreuze oder Punkte und meistens mit einer anderen Farbe kenntlich gemacht. Solche Punkte können als Ausreißer bezeichnet werden. Bei den meisten Kastengrafiken werden Grenzen verwendet, die durch die ersten beiden Regeln definiert sind. Typische Kastengrafiken sind in Abb. 1.6 dargestellt. Diese wurden unter Verwendung des Interquartilsbereichs der Datenpunkte (Regel 2) erstellt.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig6_HTML.png

    Abb. 1.6

    Typische Kastengrafiken

    1.2.5 Streudiagramme

    Ein Streudiagramm visualisiert die Werte durch Markierungen. Diese Markierungen sind nicht miteinander verbunden und daher sieht es so aus, als ob alle Werte verstreut sind. Ein Streudiagramm ist hilfreich, um die Zusammenhänge zweier Größen darzustellen, wobei die Datenwerte ziemlich stark variieren können. Oftmals können die wahren oder vorhergesagten Werte durch eine Linie überlagert werden. Die Auswahl geeigneter Werte kann wichtig sein, vor allem, wenn viele Datenpunkte abgebildet werden sollen. Idealerweise ist jeder Datenpunkt gut sichtbar. In manchen Fällen kann es sinnvoll sein, Daten aus mehreren Experimenten oder Versuchen zusammen in einem einzelnen Graphen darzustellen. Auch hier müssen die verschiedenen Markierungen nicht nur individuell unterscheidbar sein, sondern sich gegenseitig voneinander abgrenzen lassen. Ein typisches Streudiagramm ist in Abb. 1.7 dargestellt.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig7_HTML.png

    Abb. 1.7

    Typisches Streudiagramm

    1.2.6 Wahrscheinlichkeitsdiagramme

    Ein Wahrscheinlichkeitsdiagramm ist eine Grafik, bei der ein Datensatz mit einer erwarteten statistischen Verteilung verglichen wird. Dabei werden die tatsächlichen empirischen Quantile den theoretischen Quantilen gegenübergestellt. Solche Wahrscheinlichkeitsdiagramme werden oft auch als QQ- oder PP-Diagramme bezeichnet. Die am häufigsten verwendete statistische Verteilung für diesen Zweck ist die Normalverteilung. Die genauen Werte, die auf jeder der Achsen aufgetragen werden, hängen von der gewünschten Grafik und der verwendeten Software ab. Grundsätzlich werden die theoretischen Werte auf der x-Achse und die tatsächlichen Werte auf der y-Achse abgetragen. Gelegentlich werden die Datenwerte modifiziert, um bestimmte Eigenschaften hervorzuheben. Ein allgemeines Wahrscheinlichkeitsdiagramm kann mit den folgenden Schritten erstellt werden:

    1.

    Ordnen der Datenpunkte $$x_{i}$$ nach dem entsprechenden Rang, der mit $$R_{i}$$ bezeichnet wird

    2.

    Berechnen der Lage der Quantile über folgende Formel:

    $$U_{Ri} = \left\{ {\begin{array}{*{20}c} {1 - 0{,}5^{{\frac{1}{n}}} } &amp; {i = 1} \\ {\frac{i - 0{,}3175}{n + \, 0{,}365}} &amp; {i = 2;3; \ldots ;n - 1} \\ {0{,}5^{{\frac{1}{n}}} } &amp; {i = n.} \\ \end{array} } \right.$$

    (1.10)

    Es soll angemerkt werden, dass dafür verschiedene Formeln verwendet werden können. Die einfachste Formel lautet wie folgt:

    $$U_{Ri} = \frac{i - 0{,}5}{n}.$$

    (1.11)

    Die Resultate sind, unabhängig von der verwendeten Formel, sehr ähnlich.

    3.

    Berechnen des Wertes $${N_{Ri}}$$ für jeden Rang $${U_{Ri}}$$ mit der folgenden Formel:

    $$N_{Ri} = {\text{icdf}}\left( {U_{Ri} } \right),$$

    (1.12)

    wobei icdf die inverse Verteilungsfunktion ist (weitere Informationen zu den Verteilungsfunktionen findet man in Abschn. 2.​3).

    4.

    Falls erforderlich, kann der Datensatz auch transformiert werden. Zwei gängige Transformationen sind:

    a)

    Standardisierte Zufallsvariable: Wenn die theoretische Verteilung als normal angenommen wird, kann es sinnvoll sein, die Daten in eine standardisierte Zufallsvariable zu transformieren. Damit besteht keine Notwendigkeit, den wahren Mittelwert und die Standardabweichung des Datensatzes zu kennen. Die Formel für die standardisierte Zufallsvariable lautet:

    $$Z_{i} = \frac{{x_{i} - \bar{x}}}{{\hat{\sigma }}}.$$

    (1.13)

    b)

    Quantile: Eine weitere Möglichkeit besteht darin, die Quantile des entsprechenden Datensatzes auf den y-Achsen anstelle der tatsächlichen Werte darzustellen. Zur Berechnung der Quantile kann jede der zuvor genannten Formeln verwendet werden. Die gebräuchlichste ist Gl. (1.11). Dadurch entsteht eine gedachte Verteilungsfunktion. Einige Softwareprogramme, wie MATLAB®, verwenden diesen Ansatz zur Erstellung von Wahrscheinlichkeitsdiagrammen.

    5.

    Abtragen von $${N_{Ri}}$$ auf der x-Achse und $${x_{i}}$$ auf der y-Achse zum Erzeugen des Wahrscheinlichkeitsdiagramms.

    Die Interpretation von Wahrscheinlichkeitsdiagrammen basiert auf folgenden theoretischen Beobachtungen:

    1.

    Die gezeichneten Werte sollten auf einer Geraden liegen, die idealerweise durch y = x gekennzeichnet ist.

    2.

    Wird die durch die Daten bestimmte Gerade vertikal um einen festen Betrag verschoben, so stellt dies die Differenz des Mittelwerts zwischen der angenommenen theoretischen und der tatsächlichen Verteilung dar.

    3.

    Wenn die ermittelte Gerade eine andere Steigung (≠1) hat, dann weicht die Standardabweichung des Datensatzes von der Standardabweichung der angenommenen Verteilung ab.

    In Abb. 1.8 werden Normalverteilungen mit verschiedenen Mittelwerten und Abweichungen im Vergleich zu einer Normalverteilung mit einem Mittelwert von null und einer Varianz von eins grafisch dargestellt. Es ist zu erkennen, dass der Anstieg der Geraden und der Schnittpunkt mit der y-Achse gut mit den theoretischen Werten übereinstimmen. Auf Grundlage dieser Beobachtungen ist es daher sinnvoll, eine Gerade (Linie der besten Übereinstimmung) einzubeziehen, um eine Schätzung des wahren Mittelwerts und der Standardabweichung machen zu können.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig8_HTML.png

    Abb. 1.8

    Wahrscheinlichkeitsdiagramme und der Einfluss der Parameter μ und σ²

    Ausgehend von diesen theoretischen Beobachtungen bedeutet dies, dass die Punkte im Wahrscheinlichkeitsdiagramm alle auf der idealen Geraden liegen sollten. Der genaue Anstieg und der Schnittpunkt mit der y-Achse sind selbst nicht entscheidend. Abweichungen von der Geraden deuten darauf hin, dass die Daten möglicherweise nicht mit der angenommenen theoretischen Verteilung übereinstimmen. Die häufigsten Abweichungen sind:

    1.

    Ausreißer oder extreme Werte der Endpunkte.

    2.

    Abweichungen an den Enden, bei denen sich Werte unterhalb bzw. oberhalb der Geraden befinden. Das heißt, dass die wahre Verteilung des Datensatzes eine andere Verteilung als die theoretische aufweist. Wenn das linke Ende unterhalb und das rechte Ende oberhalb der idealen Geraden liegt, dann ist die Streuung in diesen Bereichen größer als in der theoretischen Zielverteilung. Wenn hingegen das linke Ende oberhalb und das rechte Ende unterhalb der Geraden liegt, dann ist die Streuung in diesen Bereichen kleiner als in der Zielverteilung.

    3.

    Konvexe oder konkave Krümmungen in der Mitte bedeuten, dass der gegebene Datensatz nicht symmetrisch im Vergleich zur theoretischen Zielverteilung ist.

    4.

    Zwischenräume oder Ebenen, in denen bestimmte Werte liegen. Ursache dafür sind vor allem Diskretisierungsfehler, die bei der Messung, Speicherung oder Verarbeitung von Daten auftreten.

    Die Abb. 1.9 zeigt Beispiele, wie solche Fälle in einem Wahrscheinlichkeitsdiagramm aussehen können. In Abb. 1.9a ist eine Normalverteilung mit dem Mittelwert 0 und der Varianz 1 mit zwei Ausreißern (eingekreist) zu sehen. Dabei soll darauf hingewiesen werden, dass angrenzende Punkte der Ausreißer ebenfalls verzerrt sein können. Die Abb. 1.9b zeigt den Fall, dass die Enden der Verteilung nicht übereinstimmen. Hier wurde eine t-Verteilung (siehe Abschn. 2.​4.​2) mit zwei Freiheitsgraden mit der Normalverteilung verglichen. Die t-Verteilung weist höhere Flanken als die Normalverteilung auf. Deutlich wird dies an den beidseitigen Verbiegungen bezüglich der Mittellinie. In Abb. 1.9c wird der Fall einer konvexen Krümmung in der Mitte dargestellt. Hier wurde die asymmetrische F-Verteilung mit der Normalverteilung verglichen. In einem solchen Fall kann es sehr schwierig sein, die gewünschte Gerade zu zeichnen. Abb. 1.9d zeigt den Fall, dass verschiedene Ebenen mit Lücken vorhanden sind. In diesem Fall wurden die Daten einer Normalverteilung mit dem Mittelwert 5 und der Varianz 4 auf drei Nachkommastellen abgerundet. Dies zeigt deutlich, dass Runden die Ursache für solche Ebenen und Lücken sein kann. Außerdem soll erwähnt werden, dass die Referenzgerade nicht einfach zu erstellen ist, wenn die Daten nicht mit der zugrunde liegenden Verteilung übereinstimmen.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig9_HTML.png

    Abb. 1.9

    Eigenschaften von Wahrscheinlichkeitsdiagrammen

    Letztendlich kann bei kleinen Stichproben (z. B. weniger als etwa 30 Datenwerte) ein weniger ideales Verhalten an den Enden der Geraden toleriert werden. Das Ausmaß der tolerierten Abweichungen hängt davon ab, wofür das Wahrscheinlichkeitsdiagramm verwendet werden soll. Abb. 1.10 zeigt das Normalwahrscheinlichkeitsdiagramm von acht Datenpunkten einer Standardnormalverteilung für neun verschiedene Ausführungen. Es ist zu erkennen, dass alle Datenwerte unterschiedlich stark gekrümmt sind. Im Detail wird der Einfluss der Größe des Datensatzes auf die Wahrscheinlichkeitsdiagramme in Daniel und Wood (1980) behandelt.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig10_HTML.png

    Abb. 1.10

    Neun Wahrscheinlichkeitsdiagramme von acht Datenwerten einer Standardnormalverteilung

    1.2.7 Tabellen

    Eine Tabelle ist eine Darstellung von Informationen in Form von Text. Sie besteht aus Zeilen und Spalten. Eine Tabelle ist hilfreich, um eine kleine Menge von Daten darzustellen, deren genaue Werte wichtig sind. Beispielsweise können Informationen über statistische Größen, wie Mittelwert, Modus und Standardabweichung, aufgelistet werden. Jede Tabelle sollte Bezeichnungen für die Spalten und Zeilen enthalten. Diese können ähnlich wie die Achsen eines Graphen formatiert werden, indem der Name der Variablen, ein Symbol und die entsprechende Einheit angegeben werden.

    Eine gut gestaltete Tabelle enthält alle relevanten Informationen und ist selbsterklärend. Zahlen sollten korrekt formatiert sein und nicht direkt von einem benutzten Programm entnommen werden. Es ist nicht notwendig, mehr als etwa drei oder vier Ziffern anzugeben (es sei denn, es liegen besondere Umstände vor). Die Einträge sollten mit einem Abstand von drei Ziffern (beidseitig) versehen sein. Außerdem sollte eine wissenschaftliche Notation verwendet werden, z. B. kann die Zahl 1,258963232153232e3, die man aus einem Taschenrechner erhält, entweder als 1,259 × 10³ (wissenschaftliche Notation) oder als 1 259 (Tausendertrennzeichen) angegeben werden. Eine typische Tabelle wird mit Tab. 1.3 gezeigt.

    Tab. 1.3

    Typische Formatierung einer Tabelle

    1.2.8 Profildiagramme

    Profildiagramme bieten verschiedene Möglichkeiten, Informationen zusammenzufassen, sodass nur Trends und die Vergleichbarkeit verschiedener Datensätze kompakt abgebildet werden. Profildiagramme haben zumeist keine expliziten Achsen bzw. Kategorien. Sie können entweder als Liniendiagramme oder als Balkendiagramme verwendet werden. Es ist üblich, Liniendiagramme zu verwenden, um das Verhalten mehrerer Prozessvariablen zu veranschaulichen. Damit kann man herausfinden, welche Größen andere beeinflussen. Balkendiagramme werden häufig als Histogramme verwendet, um die Verteilung der Variablen und gleichzeitig die einzelnen Werte aufzuzeigen. Typische Beispiele sind in Abb. 1.11 dargestellt.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig11_HTML.png

    Abb. 1.11

    Balkendiagramm (links), das die Häufigkeit des Auftretens eines bestimmten Fehlers über mehrere Tage hinweg anzeigt und Liniendiagramm (rechts), das den stündlichen Prozesswert für sechs verschiedene Größen einer einzigen Anlage über den Tagesverlauf anzeigt

    1.2.9 Andere Darstellungsformen

    In den vorherigen Abschnitten wurden die gebräuchlichsten Methoden zur Datenvisualisierung vorgestellt. Komplexere Darstellungsweisen können durch die Kombination verschiedener Visualisierungsmethoden in einem einzigen Diagramm erstellt werden. Dabei können die Daten auf eine bestimmte Weise verändert werden. Die verschiedenen Techniken, die dafür zur Verfügung stehen, hängen stark von dem beabsichtigten Anwendungsfall ab und werden in den entsprechenden Abschnitten in späteren Kapiteln vorgestellt. Häufig werden solche Diagramme erstellt, wenn es eine Vielzahl von darzustellenden Informationen gibt. Beispielsweise wenn man daran interessiert ist, welche Größen für eine Analyse wichtig sind. Zwei typische komplexe Datenvisualisierungsmethoden sind in Abb. 1.12 und 1.13 dargestellt.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig12_HTML.png
    Gefällt Ihnen die Vorschau?
    Seite 1 von 1