eBook56 Seiten1 Stunde

Big Data - Apache Hadoop

Name: Big Data - Apache Hadoop
Author: Bernd Fondermann
ISBN: 9783868024005

Von Bernd Fondermann, Kai Spichale und Lars George

Bewertung: 0 von 5 Sternen

()

Vorschau lesen

Über dieses E-Book

Doug Cutting hatte das Problem, das Internet (alles HTML) herunterzuladen und zu speichern. Was vor zehn Jahren schon eine Herausforderung war, ist heute, bei exponentiellem Anwachsen der Datenmenge, nicht einfacher. Es wurde Cutting schnell klar, dass die klassische Batch-Verarbeitung hier nicht ausreicht. Dann stieß er im Internet auf die Lösung: MapReduce.
MapReduce beschreibt eine verteilte Ablaufumgebung, die grob gesagt in zwei Schritten aus Inputdaten neue Daten generiert. Cutting implementierte MapReduce Mitte des vergangenen Jahrzehnts als Open Source in Java und nannte das Projekt Hadoop. Eine Einführung in MapReduce, Hadoop und die Hadoop-Datenbank Apache-HBase sind die Kernthemen dieses shortcuts der Big-Data-Experten Bernd Fondermann, Kai Spichaale und Lars George.

Karussell überspringen

Computer

SpracheDeutsch

Herausgeberentwickler.press

Erscheinungsdatum16. März 2012

ISBN9783868024005

Autor

Bernd Fondermann

Ähnlich wie Big Data - Apache Hadoop

Titel in dieser Serie (16)

Karussell überspringen

CSS: Grundlagen und Best Practices
eBook
CSS: Grundlagen und Best Practices
vonRegine Heidorn
Bewertung: 0 von 5 Sternen
0 Bewertungen
Big Data - Apache Hadoop
eBook
Big Data - Apache Hadoop
vonBernd Fondermann
Bewertung: 0 von 5 Sternen
0 Bewertungen
Cloud Computing Grundlagen: Technisch / rechtlich / wirtschaftlich und architekturell
eBook
Cloud Computing Grundlagen: Technisch / rechtlich / wirtschaftlich und architekturell
vonMario Meir-Huber
Bewertung: 0 von 5 Sternen
0 Bewertungen
Cloud Computing Anbietervergleich: Amazon / Microsoft / Google & Co
eBook
Cloud Computing Anbietervergleich: Amazon / Microsoft / Google & Co
vonMario Meir-Huber
Bewertung: 0 von 5 Sternen
0 Bewertungen
Datenbanken: Grundlagen und Entwurf
eBook
Datenbanken: Grundlagen und Entwurf
vonVeikko Krypczyk
Bewertung: 0 von 5 Sternen
0 Bewertungen
iOS Essentials: Frameworks, Tools und Twitter API
eBook
iOS Essentials: Frameworks, Tools und Twitter API
vonMarkus Kopf
Bewertung: 0 von 5 Sternen
0 Bewertungen
HTML 5 meets GWT
eBook
HTML 5 meets GWT
vonStefan Starke
Bewertung: 0 von 5 Sternen
0 Bewertungen
Enterprise Java Web Services
eBook
Enterprise Java Web Services
vonBernhard Löwenstein
Bewertung: 0 von 5 Sternen
0 Bewertungen
Java 7: Project Coin, Generics und NIO2
eBook
Java 7: Project Coin, Generics und NIO2
vonAngelika Langer
Bewertung: 0 von 5 Sternen
0 Bewertungen
PHP for Office: Automatisierte Dokumentenerstellung mit PHPExcel, PHPWord und PHPPowerPoint
eBook
PHP for Office: Automatisierte Dokumentenerstellung mit PHPExcel, PHPWord und PHPPowerPoint
vonRalf Hohoff
Bewertung: 1 von 5 Sternen
1/5
Magento Entwicklung: Themes, Widgets und Eigene Entitäten
eBook
Magento Entwicklung: Themes, Widgets und Eigene Entitäten
vonVinai Kopp
Bewertung: 0 von 5 Sternen
0 Bewertungen
NoSQL Einführung: CouchDB, MongoDB und Regis
eBook
NoSQL Einführung: CouchDB, MongoDB und Regis
vonOliver Kurowski
Bewertung: 0 von 5 Sternen
0 Bewertungen
Onlinerecht: Grundlegende juristische Spielregeln im eCommerce
eBook
Onlinerecht: Grundlegende juristische Spielregeln im eCommerce
vonMichael Rohrlich
Bewertung: 0 von 5 Sternen
0 Bewertungen
Usability von UML Editoren: Ein Vergleich
eBook
Usability von UML Editoren: Ein Vergleich
vonAndy Transchel
Bewertung: 0 von 5 Sternen
0 Bewertungen
Java ME: Pragmatische Plattform für Mobile und Embedded
eBook
Java ME: Pragmatische Plattform für Mobile und Embedded
vonTam Hanna
Bewertung: 0 von 5 Sternen
0 Bewertungen
Progressive Web-Apps: Offlinefähige Web-Anwendungen mit nativen Qualitäten
eBook
Progressive Web-Apps: Offlinefähige Web-Anwendungen mit nativen Qualitäten
vonManfred Steyer
Bewertung: 0 von 5 Sternen
0 Bewertungen

Computer für Sie

Karussell überspringen

Das Minecraft-Server-Buch
eBook
Das Minecraft-Server-Buch
vonTimothy L. Warner
Bewertung: 0 von 5 Sternen
0 Bewertungen
Laws of UX: 10 praktische Grundprinzipien für intuitives, menschenzentriertes UX-Design
eBook
Laws of UX: 10 praktische Grundprinzipien für intuitives, menschenzentriertes UX-Design
vonJon Yablonski
Bewertung: 0 von 5 Sternen
0 Bewertungen
Raspberry Pi Kinderleicht: Pi 4 mit 8 GB
eBook
Raspberry Pi Kinderleicht: Pi 4 mit 8 GB
vonMarco Reichel
Bewertung: 0 von 5 Sternen
0 Bewertungen
Lexikon der Symbole und Archetypen für die Traumdeutung
eBook
Lexikon der Symbole und Archetypen für die Traumdeutung
vonPeter Chairon
Bewertung: 5 von 5 Sternen
5/5
Anglizismen und andere "Fremdwords" deutsch erklärt: Über 1000 aktuelle Begriffe
eBook
Anglizismen und andere "Fremdwords" deutsch erklärt: Über 1000 aktuelle Begriffe
vonHeinz C. Pütz
Bewertung: 0 von 5 Sternen
0 Bewertungen
New Game Plus: Perspektiven der Game Studies. Genres - Künste - Diskurse (Bild und Bit. Studien zur digitalen Medienkultur)
eBook
New Game Plus: Perspektiven der Game Studies. Genres - Künste - Diskurse (Bild und Bit. Studien zur digitalen Medienkultur)
vonBookwire
Bewertung: 0 von 5 Sternen
0 Bewertungen
Scrum und Kanban - Doppelter Erfolg durch Kombination: Scrum und Kanban erfolgreich kombinieren - Bessere Prozessbeherrschung im Sprint - eine Vorbereitung auf die Professional Scrum Kanban (PSK-1) -Zertifizierung
eBook
Scrum und Kanban - Doppelter Erfolg durch Kombination: Scrum und Kanban erfolgreich kombinieren - Bessere Prozessbeherrschung im Sprint - eine Vorbereitung auf die Professional Scrum Kanban (PSK-1) -Zertifizierung
vonPaul C. Müller
Bewertung: 0 von 5 Sternen
0 Bewertungen
Datenbanken: Grundlagen und Entwurf
eBook
Datenbanken: Grundlagen und Entwurf
vonVeikko Krypczyk
Bewertung: 0 von 5 Sternen
0 Bewertungen
WordPress - Elementor
eBook
WordPress - Elementor
vonIsabella Krystynek
Bewertung: 0 von 5 Sternen
0 Bewertungen
Docker und die Containerwelt: Einstieg und Expertentipps rund um Docker-Container
eBook
Docker und die Containerwelt: Einstieg und Expertentipps rund um Docker-Container
vonMahmoud Reza Rahbar Azad
Bewertung: 1 von 5 Sternen
1/5
Einstieg in ChatGPT: Künstliche Intelligenz verstehen und nutzen: Ein praktischer Ratgeber für Einsteiger
eBook
Einstieg in ChatGPT: Künstliche Intelligenz verstehen und nutzen: Ein praktischer Ratgeber für Einsteiger
vonRolf Jeger
Bewertung: 0 von 5 Sternen
0 Bewertungen
Niklas Luhmann: "... stattdessen ...": Eine biografische Einführung
eBook
Niklas Luhmann: "... stattdessen ...": Eine biografische Einführung
vonEberhard Blanke
Bewertung: 0 von 5 Sternen
0 Bewertungen
Machine Learning – kurz & gut: Eine Einführung mit Python, Pandas und Scikit-Learn
eBook
Machine Learning – kurz & gut: Eine Einführung mit Python, Pandas und Scikit-Learn
vonChi Nhan Nguyen
Bewertung: 5 von 5 Sternen
5/5
Aufstieg der Roboter: Wie unsere Arbeitswelt gerade auf den Kopf gestellt wird - und wie wir darauf reagieren müssen
eBook
Aufstieg der Roboter: Wie unsere Arbeitswelt gerade auf den Kopf gestellt wird - und wie wir darauf reagieren müssen
vonMartin Ford
Bewertung: 0 von 5 Sternen
0 Bewertungen
Shopware 6 Handbuch
eBook
Shopware 6 Handbuch
vonAlmut Schweinsberger
Bewertung: 0 von 5 Sternen
0 Bewertungen
Tastenkombinationen für den Mac: Alle wichtigen Funktionen
eBook
Tastenkombinationen für den Mac: Alle wichtigen Funktionen
vonUlrich Vermeer
Bewertung: 0 von 5 Sternen
0 Bewertungen
Running Lean: Das How-to für erfolgreiche Innovationen
eBook
Running Lean: Das How-to für erfolgreiche Innovationen
vonAsh Maurya
Bewertung: 4 von 5 Sternen
4/5
Kybernetik, Kommunikation und Konflikt: Gregory Bateson und (s)eine kybernetische Konflikttheorie
eBook
Kybernetik, Kommunikation und Konflikt: Gregory Bateson und (s)eine kybernetische Konflikttheorie
vonLina Nagel
Bewertung: 0 von 5 Sternen
0 Bewertungen
Neuronale Netze selbst programmieren: Ein verständlicher Einstieg mit Python
eBook
Neuronale Netze selbst programmieren: Ein verständlicher Einstieg mit Python
vonTariq Rashid
Bewertung: 0 von 5 Sternen
0 Bewertungen
Pocket Book - Das inoffizielle Handbuch. Anleitung, Tipps, Tricks
eBook
Pocket Book - Das inoffizielle Handbuch. Anleitung, Tipps, Tricks
vonMatthias Matting
Bewertung: 0 von 5 Sternen
0 Bewertungen
...Als die Noten laufen lernten...Band 2: Kabarett-Operette-Revue-Film-Exil. Unterhaltungsmusik bis 1945
eBook
...Als die Noten laufen lernten...Band 2: Kabarett-Operette-Revue-Film-Exil. Unterhaltungsmusik bis 1945
vonKarin Ploog
Bewertung: 0 von 5 Sternen
0 Bewertungen
Command Line Kung Fu: Bash-Scripting-Tricks, Linux Tipps und praktische Einzeiler für die Shell
eBook
Command Line Kung Fu: Bash-Scripting-Tricks, Linux Tipps und praktische Einzeiler für die Shell
vonJason Cannon
Bewertung: 0 von 5 Sternen
0 Bewertungen
IT-Sicherheit ist sexy!: Argumente für Investitionen in IT-Sicherheit
eBook
IT-Sicherheit ist sexy!: Argumente für Investitionen in IT-Sicherheit
vonBirgit Pauls
Bewertung: 0 von 5 Sternen
0 Bewertungen
Big Data: Die neue Intelligenz des Menschen (GEO eBook)
eBook
Big Data: Die neue Intelligenz des Menschen (GEO eBook)
vonBookwire
Bewertung: 0 von 5 Sternen
0 Bewertungen
Einführung ins Darknet: Darknet ABC
eBook
Einführung ins Darknet: Darknet ABC
vonMartin Hoffer
Bewertung: 0 von 5 Sternen
0 Bewertungen
Games | Game Design | Game Studies: Eine Einführung (Deutschsprachige Ausgabe)
eBook
Games | Game Design | Game Studies: Eine Einführung (Deutschsprachige Ausgabe)
vonGundolf S. Freyermuth
Bewertung: 0 von 5 Sternen
0 Bewertungen
Das Excel SOS-Handbuch: Wie sie Excel (2010-2019 & 365) schnell & einfach meistern. Die All-in-One Anleitung für ihren privaten & beruflichen Excel-Erfolg!
eBook
Das Excel SOS-Handbuch: Wie sie Excel (2010-2019 & 365) schnell & einfach meistern. Die All-in-One Anleitung für ihren privaten & beruflichen Excel-Erfolg!
vonJohannes Wild
Bewertung: 0 von 5 Sternen
0 Bewertungen
Nimm den Chor doch selber auf: Crashkurs für das Aufnehmen und Mischen von Chören
eBook
Nimm den Chor doch selber auf: Crashkurs für das Aufnehmen und Mischen von Chören
vonRaik Johne
Bewertung: 0 von 5 Sternen
0 Bewertungen
Business-Intelligence-Lösungen für Unternehmen
eBook
Business-Intelligence-Lösungen für Unternehmen
vonErik Purwins
Bewertung: 0 von 5 Sternen
0 Bewertungen
So findest du den Einstieg in WordPress: Die technischen Grundlagen zu Installation, Konfiguration, Optimierung, Sicherheit, SEO
eBook
So findest du den Einstieg in WordPress: Die technischen Grundlagen zu Installation, Konfiguration, Optimierung, Sicherheit, SEO
vonClaudia Nicoleta Grimm
Bewertung: 0 von 5 Sternen
0 Bewertungen

Buchvorschau

Big Data - Apache Hadoop - Bernd Fondermann

Bernd Fondermann, Kai Spichale, Lars George

Big Data

Apache Hadoop

ISBN: 978-3-86802-400-5

Ein Imprint der Software & Support Media GmbH

1 Daten im großen Stil – Apache Hadoop

von Bernd Fondermann

Doug Cutting hatte ein Problem, für das Internetarchiv das Internet (sprich alles HTML) herunterzuladen und zu speichern. Das war vor zehn Jahren schon eine Herausforderung, heute ist sie mit dem exponentiellen Anwachsen der Daten nicht kleiner. Allein die schiere Datenmenge: Petabyte, also Millionen von Gigabyte.

Und selbstverständlich kann man diese Daten in einer riesigen, über das Netzwerk erreichbaren Festplatte ablegen, einem Network Attached Storage (NAS) wie sie heute verfügbar sind. Solche Lösungen sind aber nicht nur teuer, sie haben auch einen entscheidenden architektonischen Nachteil: Zum massiven Verarbeiten der Files müssen sie über das Netzwerk zum entsprechenden Programm geschleust werden. Was die Laufzeit substanziell verlängern kann. Soll also stattdessen alles in Scharen von relationalen Datenbanken untergebracht werden? Clustering von RDB ist auch heute noch kein Mainstream. Zudem sind Oracle, Postgres und Co. exzellent geeignet für normalisierte Daten. Das ist eine Eigenschaft, die Quellcode von Webseiten nicht hat. Für viele nebenläufige, beliebige Lesezugriffe sind relationale DBs zwar geeignet, aber nicht optimiert. Und wehe, es kommen ein paar Schreiboperation dazwischen. Außerdem sind sie extrem gut darin, einen konsistenten Zustand über den gesamten Bestand zu gewährleisten und strukturierte Daten miteinander zu verknüpfen. Das ist entscheidend für das E-Business, in dessen Aufschwungphase relationale Datenbanken groß geworden sind. Für die Verarbeitung von gecrawlten Webseiten sind andere Dinge viel wichtiger: Redundanz, Verteilung, Durchsatz, Skalierbarkeit auf große Datenmengen, Toleranz gegenüber Ausfällen von Teilsystemen.

Der Batch-Job, das hässliche Entlein?

Langlaufende Batch-Jobs besuchen die Websites, speichern sie historisiert ab und verarbeiten sie weiter. Es wurde Cutting schnell klar, dass die klassische Batch-Verarbeitung hier nicht ausreicht [1]. Doch wie schafft man es, dass solche Prozesse weiterlaufen, auch wenn Teile Fehler generieren, und wie kann man sie effektiv und effizient über möglichst viele Maschinen verteilen, auch wenn man nicht vorhersagen kann, wo Daten zusammenhängen und eigentlich gemeinsam verarbeitet werden müssen? Cutting stieß im Internet auf ein Paper einer Firma namens Google Inc., die dasselbe Problem hatte und eine Lösung dafür vorstellte: MapReduce beschreibt eine verteilte Ablaufumgebung, die grob gesagt in zwei Schritten aus Inputdaten neue Daten generiert. Dabei ist die Struktur von Input und Output unerheblich. Die Idee ist so einfach wie genial, aber für relational Geschulte (und wer könnte sich davon ausnehmen) fremd: In einem ersten Schritt, Map genannt, werden alle Datensätze in verteilten Prozessen gelesen, verarbeitet und die Ergebnisse unabhängig voneinander (parallelisiert) in eine Key-Value-Datenstruktur (eine Multi-Map) geschrieben. Dabei achtet man darauf, dass genau die Daten denselben Key erhalten, die im zweiten, dem Reduce-Schritt, gemeinsam weiterverarbeitet werden. Werte zu unterschiedlichen Keys werden unabhängig voneinander gegebenenfalls parallel weiterverarbeitet. So erreicht man, dass beide Phasen hochparallel und verteilt ablaufen und dennoch Zusammenhänge innerhalb von großen Datenmengen hergestellt werden können. Cutting implementierte MapReduce Mitte des vergangenen Jahrzehnts als Open Source in Java und nannte

Gefällt Ihnen die Vorschau?

Seite 1 von 1

Big Data - Apache Hadoop

Über dieses E-Book

Bernd Fondermann

Ähnliche Autoren

Ähnlich wie Big Data - Apache Hadoop

Titel in dieser Serie (16)

Ähnliche E-Books

Computer für Sie

Ähnliche Podcast-Episoden

Ähnliche Artikel

Verwandte Kategorien

Rezensionen für Big Data - Apache Hadoop

Wie hat es Ihnen gefallen?

Buchvorschau

Big Data - Apache Hadoop - Bernd Fondermann

Big Data

1 Daten im großen Stil – Apache Hadoop

Der Batch-Job, das hässliche Entlein?