Transformer: 3. Daten prüfen.

mnuCheck.png
Abb.1: Menü Prüfung der Daten
Zunächst ein paar allgemeine Bemerkungen: 'Welch ein Aufwand für so eine einfache Aufgabe' wird mancher Leser denken. Und er hat recht, wenn man nur ein paar hundert Datensätze oder weniger in einer Tabelle strukturieren will. Allerdings verliert man sehr schnell den Überblick, wenn man mehr als 1000 Datenzeilen ordnen, kontrollieren und auswerten will. Eine programm-gestützte Überprüfung von Daten wird um so dringlicher, je größer und unübersichtlicher ein Datenpool ist. Selbst ein einfaches Scrollen durch 10 000 oder mehr Datenzeilen kann eine zeitraubende und auf die Dauer zermürbende Arbeit werden. Da kann ein Programm mit verschiedenen Prüffunktionen, die Hinweise auf Datenfehler liefern, eine wertvolle Hilfe sein. Bitte berücksichtigen Sie in der Kritik das Problem großer Datenmengen.

Vor jedem weiteren Schritt, sollten die Daten geprüft bzw. validiert werden. Vielleicht fehlt irgendwo ein Komma, ein Punkt oder ein anderes Zeichen. Das kann fatale Folgen haben. Ein Beispiel: Wenn in einer Zeile an einer bestimmten Position ein Dezimalpunkt fehlt, also beispielsweise statt 1.0 die Zeichenfolge 10 oder 1 0, dann kann das Programm nicht wissen, wie diese Zeichenfolge zu interpretieren ist. Ist 10 gleich zu setzen mit 10.0 oder liegt hier ein Fehler vor? Oder wie soll 1 0 mit einem fehlenden Dezimalpunkt in der Mitte interpretiert werden? Wenn wir diesen Fehler übersehen und später Leerzeichen als Spaltentrennzeichen eingeben, dann wird die Ziffer 1 in eine Spalte und die Ziffer 0 konsequenterweise in die nächstfolgende Spalte geschoben. Demzufolge hätten wir in dieser fehlerhaften Zeile eine Spalte mehr als in den übrigen fehlerfreien Zeilen.

Eine Prüfung kann solche Fehler oder verdächtige Stellen aufspüren. Vor allem wenn sehr viele Datensätze im Editor stehen, ist eine visuelle Durchsicht meistens nicht ausreichend. Das menschliche Auge übersieht häufig solche 'Kleinigkeiten' vor allem in großen Datenmengen.

DataCheck-1.png
Abb.2: Prüfprotokoll: Warnungen
Eine Überprüfung von Daten ist unerlässlich, wenn man zutreffende Ergebnisse und Aussagen erhalten möchte. Der Datencheck ist allerdings vorerst rein formal: Überprüft wird, ob alle Daten in 'Reih und Glied' aufgelistet sind. Das heißt, ob an jeder Position in einer Zeile, bzw. in einer bestimmten Kolumne in allen Zeilen der gleiche Datentyp (Ziffer, Buchstabe, Sonderzeichen, Interpunktsionszeichen etc.) vorhanden ist, oder ob hier in einigen Zeilen suspekte Abweichungen gefunden werden.

Wenn beispielsweise in der Kolumne 7 in 11090 Zeilen eine Ziffer steht, in 10 Zeilen aber ein anderer Zeichentyp z.B. Leerzeichen, Buchstabe oder Sonderzeichen, dann sind diese 10 Zeilen an der Position 7 suspekt. Hier könnten Fehler vorliegen.

Wie findet man solche verdächtige Stellen? Wir öffnen das Menü Bearbeiten - Prüfen und erhalten sofort ein Prüfprotokoll. Im Prüfbericht steht ganz oben eine Warnung, wonach die angestrebte Tabelle nicht rechteckig (rektangular) ist, weil die Zeilen nicht gleich lang sind:
Die Zeile Nr 9329 enthält 91 Zeichen,
Die Zeile Nr 1 die enthält dagegen nur 78 Zeichen.
Wenn wir die Daten zur längsten Zeile Nr 9329 scrollen, sehen wir den Grund: Diese Zeile enthält am Ende den zusätzlichen Kommentar 'N5131E0924A'. Diesen Kommentar benötigen wir nicht und löschen ihn.
DataCheck-2.png
Abb.3: Prüfprotokoll: Verdächtige Positionen im Datenpool
Anschließend betrachten wir den letzten und wichtigsten Abschnitt im Prüfprotokoll: Bitte überprüfen und korrigieren Sie gegebenenfalls folgende Datensätze im Editor (Abb 3). Hier handelt es sich nicht unbedingt um Fehler, sondern um verdächtige Stellen im Datenpool. Diese Stellen sollten wir genauer ansehen. Dabei müssen wir nicht unbedingt mit Hilfe des vertikalen Rollbalkens zu den aufgelisteten Zeilen im Editor scrollen, sonder wir klicken ganz einfach mit der Maus auf die Schaltfläche Suspekte Positionen im Editor suchen in der untersten Leiste des Prüfberichts (Abb 3). Automatisch rollt der Editor zur ersten suspekten Zeile und setzt dort den Curson an die verdächtige Position, die rot unterlegt ist. Sofern dort eine Verschiebung der Daten nach links oder rechts vorliegt, sind auch die weiteren Stellen (Positionen) in dieser Zeile, die aus der Reihe tanzen, rot unterlegt.

DataCheck-3.png
Abb.4: Prüfprotokoll: Justierfehler
In der ersten suspekten Zeile Nr 5724 finden wir in der Kolumne (=Position) 29 die Ziffer 5. In allen übrigen 11999 Zeilen ist an dieser Position ein Leerzeichen. Es handelt sich also ganz offenkundig um einen Datenfehler. Wie dieser Fehler in den Datenpool gekommen ist kann das Protokoll nicht erkennen, sondern nur eine formale Abweichung aufdecken. Wir löschen also die Ziffer 5 an der Position 29 in der fehlerhaften Zeile und richten damit diese Zeile auf die Kolumnen in den übrigen Zeilen aus. Oder wir löschen die gesamte fehlerhafte Zeile. In die betreffenden Spalte hat der Datalogger 'Höhenmeter über Grund' geschrieben. Ob dieser Datensatz korrigiert oder gelöscht wird, müssen wir selbst entscheiden. Diese Aufgabe kann das Programm (noch) nicht lösen, da es im Datenpool noch gar keine Spalten und Werte erkennen kann, solange noch kein Spaltentrennzeichen (Separator) gesetzt ist. Deshalb ist hier vorerst auch nur von Zeilen, Kolumnen und Positionen die Rede die verschiedene Zeichentypen enthalten.

Nach einem weiteren Mausklick auf die Schaltfläche Suspekte Positionen im Editor suchen in der untersten Leiste des Prüfberichts (Abb. 4) springt der Cursor zur nächsten verdächtigen Stelle, nämlich in die Zeile Nr 368 an die Position 31 und nach dem nächsten Mausklick in die Zeile Nr 2151 an die gleiche Position, die jetzt im Editor erscheint An dieser und den weiteren suspekten Positionen finden wir keinen Fehler, sondern ein Problem der Justierung der Daten. Weil der Dezimalpunkt in der Kolumne 31 nicht ausgerichtet ist, werden die Zeilen mit zwei oder mehr Stellen vor dem Dezimalpunkt nach rechts verschoben. Deshalb sind die betroffenen Zeilen auch etwas länger, als die übrigen Zeilen mit nur einer Stelle vor dem Dezimalpunkt.

Wir verzichten auf eine manuelle Ausrichtung dieser Zeilen, denn im Prüfprotokoll sind über 20 Zeilen mit diesem Justierfehler aufgelistet. Das wäre zu umständlich und zeitraubend. Mit dem Menü Bearbeiten - Justieren geht das viel einfacher und schneller. Diese Möglichkeit wird beschrieben im folgenden Kapitel Daten justieren