September 11, 2020

Big Data – Teil 1

Blogautor: Let’s Catch Vuca Technikleitung

Was ist Big Data?
In der jetzigen Zeit gibt es enorm große, schnelllebige und extrem komplexe
Datenbestände, welche sich mit den allseits bekannten Methoden nur schwer
schnell und einfach verarbeiten lassen. Das Problem, schnell auf große
Datenmengen (für zum Beispiel Analysezwecke) zugreifen zu wollen, ist jedoch
kein Neues. Schon in den frühen 2000er Jahren gewann der Begriff an Bedeutung.
Auslöser dafür war, dass der Branchenanalytiker Doug Laney die heute bekannte
Definition von Big Data in seinem Modell erklärte.

3-V Modell von Doug Laney
Das 3-V Modell umfasst 3 Faktoren: Volume – Velocity – Variety
Also auf Deutsch: Masse – Geschwindigkeit – Vielfalt

Volume
Lasst uns als Beispiel den Social Media Bereich nehmen. Volume würde sich hier
auf den Umfang aller generierten Daten beziehen. Also alle Daten, die durch
Webpages, Portale und/oder Online Portale erzeugt wird. Im Allgemeinen kann man
sagen, dass B2C (Business to Consumer) Firmen die Datenmengen hier enorm
vorantreiben. Wenn man überlegt, dass Facebook alleine 2 Milliarden
(2.000.000.000), YouTube 1 Milliarde (1.000.000.000), Twitter 350 Millionen
(350.000.000) und Instagram 700 Millionen (700.000.000) User hat, bekommt man
langsam eine Ahnung um welche riesigen Datenmengen es sich hier handelt. Diese
Datenmenge wird natürlich von Sekunde zu Sekunde größer und größer, egal ob es
sich jetzt um Bilder, Videos, Posts, Tweets, Kommentare o.a. handelt.

Velocity
Mit Velocity spricht man über die Geschwindigkeit, in welcher diese Daten
generiert werden. Wenn wir jetzt bei obigem Beispiel bleiben, dann werden zum
Beispiel täglich über 900 Millionen (900.000.000) Bilder auf Facebook, 500
Millionen (500.000.000) Tweets oder 0.4 Millionen Stunden Videomaterial auf
YouTube hochgeladen. Auf der Suchplattform Google werden täglich mehr als 3.5
Milliarden (3.500.000.000) Suchanfragen gestellt. Eine davon kam wahrscheinlich
gerade von dir und hat dich zu diesem Beitrag geleitet.

Big Data hilft Firmen, unter anderem den oben genannten, diesen enormen
einkommenden Datenverkehr einzulesen und diesen auch gleichzeitig zu
verarbeiten, um keine sogenannten „Bottlenecks“ (=Flaschenhals) zu erzeugen.

Variety
Mit Variety spricht man über die Vielfältigkeit der eingehenden Daten. Hier gibt
es sowohl strukturierte Daten – wie zum Beispiel Texte, Tweets, usw., – als auch
unstrukturierte Daten – wie Emails, Voicemails, usw..

Bei Variety ist es am wichtigsten, die eingehenden Daten zu klassifizieren,
Strukturen zu erkennen und sie Kategorien zuzuordnen.

(
https://www.whishworks.com/hs-fs/hubfs/Blog/The-3Vs-of-big-data.png?width=618&name=The-3Vs-of-big-data.png
[https://www.whishworks.com/hs-fs/hubfs/Blog/The-3Vs-of-big-data.png?width=618&name=The-3Vs-of-big-data.png]
)5-V Modell
Wobei in vergangen Jahren Big Data durch das 3V Modell definiert wurden, wurde
es kürzlich durch ein neues Modell abgelöst; Das 5V Modell.
Wobei die ersten drei Faktoren gleichbleiben, kommen zwei weitere dazu. Alle
fünf Faktoren sind jetzt also: Volume, Velocity, Variety, Veracity und Value.
Auf Deutsch: Masse – Geschwindigkeit – Vielfalt – Richtigkeit – Gewichtung

Veracity
Mit Veracity, also der Richtigkeit, bezieht man sich auf die Inkonsistenz, die
bei großen Datenmengen auftritt. Auch bei Big Data kann es vorkommen, dass die
Qualität der Daten abnimmt, genauso wie die Genauigkeit.

Die Qualität bei Big Data ist stark von einer Variable abhängig, nämlich der
Qualität der Daten der vielen verschiedenen Quellen. Oft sind die Quelldaten
einfach schlampig, inkonsistent oder gar falsch im Ausgangsystem gespeichert.
Das ist leider eine Variable, die man nicht selber steuern kann.

Value
Value steht für den Wert der Daten für die Firma bzw. die Gewichtung der Daten.
Hier muss also wirklich stark unterschieden werden welche Daten für eine Firma
von Wert sind – und welche nicht.

Daten alleine sind aber natürlich nichts wert. Es kommt ganz darauf an, was man
aus den Daten macht. Bei der Auswertung von Daten sollte man also immer mit dem
Wert der Daten starten. Dieses ´V´, ist wahrscheinlich das Wichtigste von allen.

Anwendung
Da Big Data ein so enorm flexibles, anpassbares und weitnutzbares Tool ist, kann
es fast überall einen Nutzen finden. Folgende sind jedoch die Bereiche, in denen
Big Data am häufigsten Verwendung findet:
· Bildungswesen
· Forschung
· Finanzwesen
· Micro-Targeting
· Politik (Wahlkampagnen)
· Wirtschaftsanalysen

Quellen finden Sie im zweiten Teil des Blogthemas.

Die US-Wirtschaft nach Trumps Amtsantritt

Ein Blog von Michal Motola Einführung Die Amtseinführung von Donald Trump im Januar 2025 weckte hohe Erwartungen an wirtschaftliche Reformen durch Steuersenkungen, Deregulierung und eine

Wenn die KI lügt, betrügt und… tötet?

Ein Blog von Felix Reder und David Mayerhofer I Asked 5 Als to Break the Law to Save a Life Habt ihr das gerade gesehen?

Zivilgesellschaft

Ein Blog von Julian Höher Zivilgesellschaft umfasst alle Formen organisierten, nicht-staatlichen und nicht-kommerziellen Engagements. Typische Akteure sind: NGOs (Nichtregierungsorganisationen) Kirchen und Glaubensgemeinschaften Gewerkschaften, Vereine, Jugendgruppen

Kalter Krieg auf dünnem Eis?

ein Blog von Henry Schöfer Reichtum unter dem schmelzenden Eis Lange Zeit galt die Arktis als lebensfeindliche, ewige Eiswüste ohne wirtschaftliche Bedeutung. Doch der Klimawandel

Stuxnet

Ein Blog von Felix Reder Einleitung: Das Rätsel von Natans Tief unter der Erde, geschützt durch meterdicke Betonschichten, liegt die iranische Urananreicherungsanlage Natans. Hier, im

Big Data – Teil 1

Related Posts

Die US-Wirtschaft nach Trumps Amtsantritt

Wenn die KI lügt, betrügt und… tötet?

Zivilgesellschaft

Kalter Krieg auf dünnem Eis?

Stuxnet

EMAIL NOW

IMPRINT

ADDRESS