Hands-On Data Preparation
Die Entwicklung und Anwendung komplexer maschineller Lernverfahren hängt von einer effektiven und zielgerichteten Datenaufbereitung und der Sicherstellung einer guten Datenqualität ab. Viele Analysemethoden benötigen z.B. zwingend vollständige Daten. Deshalb muss ein Analyst neben der Datenqualität z.B. auch die Vollständigkeit der Daten überprüfen und fehlende Werte ggf. ergänzen (Missing Data Imputation). Weitere Datenaufbereitungsschritte wie z.B. Normalisieren, Balancieren, Feature/Instanz-Auswahl, Noise-Filtering, Sampling oder Diskretisieren können notwendig sein. Die Auswahl, Kombination und parametrische Anpassung dieser Verfahren hängt vom geplanten Analyseverfahren ab und ist oft ein zeitintensiver, iterativer Prozess.