Blogautor: Let’s Catch Vuca Technikleitung
Was ist Big Data?
In der jetzigen Zeit gibt es enorm große, schnelllebige und extrem komplexe
Datenbestände, welche sich mit den allseits bekannten Methoden nur schwer
schnell und einfach verarbeiten lassen. Das Problem, schnell auf große
Datenmengen (für zum Beispiel Analysezwecke) zugreifen zu wollen, ist jedoch
kein Neues. Schon in den frühen 2000er Jahren gewann der Begriff an Bedeutung.
Auslöser dafür war, dass der Branchenanalytiker Doug Laney die heute bekannte
Definition von Big Data in seinem Modell erklärte.
3-V Modell von Doug Laney
Das 3-V Modell umfasst 3 Faktoren: Volume – Velocity – Variety
Also auf Deutsch: Masse – Geschwindigkeit – Vielfalt
Volume
Lasst uns als Beispiel den Social Media Bereich nehmen. Volume würde sich hier
auf den Umfang aller generierten Daten beziehen. Also alle Daten, die durch
Webpages, Portale und/oder Online Portale erzeugt wird. Im Allgemeinen kann man
sagen, dass B2C (Business to Consumer) Firmen die Datenmengen hier enorm
vorantreiben. Wenn man überlegt, dass Facebook alleine 2 Milliarden
(2.000.000.000), YouTube 1 Milliarde (1.000.000.000), Twitter 350 Millionen
(350.000.000) und Instagram 700 Millionen (700.000.000) User hat, bekommt man
langsam eine Ahnung um welche riesigen Datenmengen es sich hier handelt. Diese
Datenmenge wird natürlich von Sekunde zu Sekunde größer und größer, egal ob es
sich jetzt um Bilder, Videos, Posts, Tweets, Kommentare o.a. handelt.
Velocity
Mit Velocity spricht man über die Geschwindigkeit, in welcher diese Daten
generiert werden. Wenn wir jetzt bei obigem Beispiel bleiben, dann werden zum
Beispiel täglich über 900 Millionen (900.000.000) Bilder auf Facebook, 500
Millionen (500.000.000) Tweets oder 0.4 Millionen Stunden Videomaterial auf
YouTube hochgeladen. Auf der Suchplattform Google werden täglich mehr als 3.5
Milliarden (3.500.000.000) Suchanfragen gestellt. Eine davon kam wahrscheinlich
gerade von dir und hat dich zu diesem Beitrag geleitet.
Big Data hilft Firmen, unter anderem den oben genannten, diesen enormen
einkommenden Datenverkehr einzulesen und diesen auch gleichzeitig zu
verarbeiten, um keine sogenannten „Bottlenecks“ (=Flaschenhals) zu erzeugen.
Variety
Mit Variety spricht man über die Vielfältigkeit der eingehenden Daten. Hier gibt
es sowohl strukturierte Daten – wie zum Beispiel Texte, Tweets, usw., – als auch
unstrukturierte Daten – wie Emails, Voicemails, usw..
Bei Variety ist es am wichtigsten, die eingehenden Daten zu klassifizieren,
Strukturen zu erkennen und sie Kategorien zuzuordnen.
(
https://www.whishworks.com/hs-fs/hubfs/Blog/The-3Vs-of-big-data.png?width=618&name=The-3Vs-of-big-data.png
[https://www.whishworks.com/hs-fs/hubfs/Blog/The-3Vs-of-big-data.png?width=618&name=The-3Vs-of-big-data.png]
)5-V Modell
Wobei in vergangen Jahren Big Data durch das 3V Modell definiert wurden, wurde
es kürzlich durch ein neues Modell abgelöst; Das 5V Modell.
Wobei die ersten drei Faktoren gleichbleiben, kommen zwei weitere dazu. Alle
fünf Faktoren sind jetzt also: Volume, Velocity, Variety, Veracity und Value.
Auf Deutsch: Masse – Geschwindigkeit – Vielfalt – Richtigkeit – Gewichtung
Veracity
Mit Veracity, also der Richtigkeit, bezieht man sich auf die Inkonsistenz, die
bei großen Datenmengen auftritt. Auch bei Big Data kann es vorkommen, dass die
Qualität der Daten abnimmt, genauso wie die Genauigkeit.
Die Qualität bei Big Data ist stark von einer Variable abhängig, nämlich der
Qualität der Daten der vielen verschiedenen Quellen. Oft sind die Quelldaten
einfach schlampig, inkonsistent oder gar falsch im Ausgangsystem gespeichert.
Das ist leider eine Variable, die man nicht selber steuern kann.
Value
Value steht für den Wert der Daten für die Firma bzw. die Gewichtung der Daten.
Hier muss also wirklich stark unterschieden werden welche Daten für eine Firma
von Wert sind – und welche nicht.
Daten alleine sind aber natürlich nichts wert. Es kommt ganz darauf an, was man
aus den Daten macht. Bei der Auswertung von Daten sollte man also immer mit dem
Wert der Daten starten. Dieses ´V´, ist wahrscheinlich das Wichtigste von allen.
Anwendung
Da Big Data ein so enorm flexibles, anpassbares und weitnutzbares Tool ist, kann
es fast überall einen Nutzen finden. Folgende sind jedoch die Bereiche, in denen
Big Data am häufigsten Verwendung findet:
· Bildungswesen
· Forschung
· Finanzwesen
· Micro-Targeting
· Politik (Wahlkampagnen)
· Wirtschaftsanalysen
Quellen finden Sie im zweiten Teil des Blogthemas.