Was ist Big Data?

Ab wann sind Daten groß genug um Big genannt zu werden? Und ist Big nicht ein wenig relativ und willkürlich?

Zuerst einmal stellt sich die Frage, was Daten überhaupt sind. Schon hier wird es schwammig, denn eine allgemein gültige Definition gibt es nicht. Aber für unsere Zwecke reicht es, wenn wir uns darauf einigen, dass Daten Angaben oder (Zahlen-)Werte sind, die durch Messung oder Beobachtung gewonnen werden. Um die Frage nach Big Data zu beantworten, schadet es nicht ein wenig auszuholen. Weiterlesen

Von Fußballfeldern, Badewannen, Millionen und Milliarden

… oder: warum wir zum Messen verschiedene Skalen verwenden (sollen)

„Bayerns Bauern [haben] in diesem Jahr Blühflächen in der Größenordnung von rund 12.000 Fußballfeldern geschaffen“ und „Wenn der Ostsee gefüllt ist, fasst er so viel Wasser wie etwa zwei Milliarden Badewannen“ sind zwei der unzähligen Schlagzeilen, in denen diese beiden „Maßeinheiten“ herhalten müssen. Doch warum werden Flächen überhaupt in Fußballfelder umgerechnet und Volumen (oder Volumina) in Badewannen?

Weiterlesen

Warum der Durchschnitt manchmal nicht hilft

… oder warum es besser sein kann, den Median zu verwenden.

Wenn Daten in Form von Erhebungen, Umfragen oder Stichproben gesammelt werden und darüber berichtet wird, dann ist der Durchschnitt in der Regel nur ein Eck entfernt. Wie sonst soll aus einer (riesigen) Gruppe Information für ein einzelnes Mitglied gezogen werden? Zum Beispiel beim Einkommen, oder bei der Körpergröße? Was ist jedoch die Aussage des Durchschnittes? Oder anders gefragt, kann mit dem Durchschnitt auch eine vernünftige Aussage für einen Großteil der betrachteten Gruppe getroffen werden? Weiterlesen