Einfach nur Daten zu sammeln und dann zu hoffen, dass sich hieraus durch bloße Betrachtung etwas ablesen lässt, wird kaum zum gewünschten Erfolg führen. Dementsprechend ist ein strukturiertes Vorgehen angesagt:
1. Stellen Sie die Daten in einem lesbaren Format bereit
Die Daten nützen Ihnen nichts, wenn sie verschlüsselt und auf irgendwelchen Servern verteilt in diversen Formaten herumliegen. Führen Sie diese also zunächst nach Möglichkeit an einer zentralen Stelle zusammen. Die meisten Analyse-Tools arbeiten nach wie vor mit kommagetrennten Werten („CSV-Format”, Comma Separated Values). Die erste Datensammlung kann also durchaus in Tools wie Microsoft Excel als Teil von Microsoft 365 Business erfolgen. 2. Bereinigen Sie die Daten
Sehen Sie sich die gesammelten Daten an. Gibt es jeweils eine Spalte für jedes Kriterium und für jeden Fall eine Zeile? Entsprechen die Daten mit ihren Zeilenwerten den Spaltenkriterien oder gibt es Fehler? Wenn beispielsweise die Postleitzahl eines Kunden im Feld Geburtsjahr auftaucht, kann die spätere Analyse kaum gelingen. Gleiches gilt für fehlerhafte oder unvollständige Datensätze: Löschen Sie diese genau wie leere Zeilen am besten, bevor Sie sich an die Analyse wagen.
Wenn Sie Datensätze wegen einzelner fehlender Werte nicht löschen wollen, kann es hilfreich sein, diese mit dem Mittelwert der übrigen Datensätze zu befüllen. Entfernen Sie außerdem Duplikate: Eventuell hilft es, die Daten hierbei zuvor nach bestimmten Spalten wie beispielsweise dem Geburtsdatum (falls es um Personen geht) zu sortieren.
3. Verschlanken Sie die Daten
Ist wirklich alles, was in Ihrer Tabelle steht, für Ihre Analyse von Bedeutung? Lassen sich bestimmte Kriterien eventuell zusammenfassen? Beim Thema „Alter” beispielsweise könnten und sollten Sie Gruppen bilden, da das genaue Geburtsdatum der einzelnen Personen für Ihre Überlegungen selten von Interesse sein wird. Des weiteren sollten Sie herausfinden, ob Sie wirklich alle Fälle (also Zeilen) Ihrer Daten analysieren müssen, oder ob Ihnen eine Stichprobe beispielsweise der ersten 500 Fälle reicht. Deutlich mehr Daten zu analysieren kann sinnvoll sein, kann aber auch dazu führen, dass die eigentliche Analyse extrem lange dauert.
4. Erstellen Sie ein Datenmodell
Sie möchten gerne wissen, welche Kunden welchen Alters bei Ihnen bevorzugt welches Produkt kaufen? Dann brauchen Sie ein Modell, das bestimmte Muster in Ihren Datensätzen möglichst optimal beschreibt. Konkreter gesagt: Sie schließen von den Daten nun auf die zugrunde liegende Realität. Wenn Sie die Analyse nicht in Excel, beispielsweise mit Hilfe von Diagrammen, durchführen wollen, sollten Sie spezielle Analysesoftware wie beispielsweise SPSS oder G*Power einsetzen. 5. Validieren Sie Ihr(e) Lieblings-Datenmodell(e)
Sie haben bestimmte Muster in Ihren Daten identifiziert und daraufhin Modelle erstellt? Gut, dann sollten Sie diese nun anhand weiterer Daten überprüfen. Fallen die Ergebnisse mit neuen Daten ähnlich oder genauso aus? Dann haben Sie gute Chancen, dass Ihr Modell „valide” ist, also der Realität bereits nahe kommt. Wenn Sie keine neuen Daten erheben können oder wollen, sollten Sie Ihr Modell zunächst mit Teilen Ihrer Grunddaten aufstellen und es dann gegen den Rest der Daten testen.
6. Lassen Sie die Modelle gegeneinander antreten
Manchmal kann es mehrere valide Modelle geben – doch auch hier zeigen sich meist Unterschiede. Finden Sie nun heraus, welches Ihrer Modelle die Realität tatsächlich am besten beschreibt. Achten Sie darauf, in jedem Fall genügend Daten als Grundlage zu verwenden – und Ihr Modell fortlaufend zu hinterfragen. Immerhin ändert sich ja auch die Realität ständig.
7. Fassen Sie das Ganze schriftlich zusammen
Damit auch andere Mitarbeiter später Ihre Analysen nachvollziehen können, sollten Sie diese dokumentieren. Notieren Sie genau, welchen Umfang Ihre Stichprobe hat(te), wann diese erhoben wurde und welche Grundannahmen Sie getroffen haben. Gleiches gilt für die Frage, welche Datensätze Sie warum verworfen oder „bereinigt” haben.