Der Data-Science-Prozess (d.h., die Erstellung datengetriebener Produkte wie Empfehlungssysteme, Betrugserkennungssysteme, Chatbots etc.) ist in gewissem Sinne dem ähnlich, was ein Koch in einem Restaurant bei der Vorbereitung eines neuen Menüs macht. Er muss etwas neues kreieren, das die Gäste anspricht, und das dann während der ganzen Saison immer wieder angeboten wird. Selbst wenn es ein Rezept gibt, ist es, um den richtigen Geschmack, die richtige Konsistenz oder das richtige Aussehen zu treffen, meist notwendig, mehrere Anläufe zu nehmen und zu experimentieren, d.h. aus Versuchen und Fehlern zu lernen. Die Voraussetzung sind Zutaten (Daten), bereits vorhandene Intuition (Fachwissen und technische/fachliche Expertise) und die richtigen Gerätschaften (Werkzeuge).
You would rather read the article in English? Click here to read: »What does Paul Bocuse (French three-star-decorated chef) have to do with Data Science?«
Geschäfts- und Datenverständnis (Business and Data Understanding)
Warum müssen wir überhaupt kochen? Für wen? Zu welchem Anlass? Über welche Gerichte reden wir? Und woher wissen wir, ob es uns gelungen ist? All diese Fragen, die sich auf das Geschäftsziel, den potenziellen Mehrwert, die Beteiligten und das erwartete Ergebnis beziehen, bilden auch den Ausgangspunkt eines jeden Data-Science-Projekts (hier wird das normalerweise Geschäftsverständnis (Business Understanding) oder Problemstellungsphase genannt). Nun ist es offensichtlich, dass es nicht dasselbe ist, ob man Spaghetti Bolognese kocht oder ein saucengetränktes Timpano zubereitet. Dennoch gibt es eine Reihe von Zutaten (Fleischbällchen, Pasta und Tomatensauce), Zubereitungsschritten und Küchengeräten (Werkzeugen), die beiden Gerichten gemein sind. Was sich unterscheidet, sind die Kombination und die Anteile der Zutaten, die verwendeten Gerätschaften und ihre Einstellungen, und die Reihenfolge und der Zeitpunkt der Vorbereitungsschritte.
Die Geschäftsanforderungen engen meist den Pool der geeigneten Gerichte ein. Dies beschränkt auch die Menge der Zutaten, die verwendet werden (d.h. die Daten). Zum Beispiel wird man höchstwahrscheinlich keine Schokolade verwenden, wenn man eine Variation von Penne all’arrabbiata kocht (außer, man ist sehr innovativ). An dieser Stelle treten neue Fragen auf: Sind alle Zutaten verfügbar? In welchen Mengen? Und mit welcher Qualität? Wenn Zutaten fehlen – wo bekommt man diese her und wie lange dauert es, sie zu bekommen? Tomaten auf dem Balkon anzupflanzen ist vielleicht nicht die effektivste Lösung, um langfristig Nachschub zu haben. Die Nachbarn um etwas zu bitten mag zwar zu guten nachbarschaftlichen Beziehungen beitragen (als einmalige Lösung), doch ist es wahrscheinlich effizienter, in den Supermarkt zu gehen oder besser noch direkt zum Produzenten.
In der Datenverständnisphase (Data Understanding) ist das Ziel, aus den Gerichten, die potenziell zum Geschäftsziel passen, eines auszuwählen, für das die entsprechenden Zutaten (Daten) verfügbar sind und das tatsächlich zubereitet werden kann (d.h. die Zeit, die Fähigkeiten, die Werkzeuge etc. sind vorhanden).
Datenvorbereitung (Data Preparation)
Ein Gericht besteht keineswegs aus willkürlich zusammengewürfelten Zutaten. Die Zutaten müssen vorbereitet werden, meist in einer bestimmten Reihenfolge, und eine unterschiedliche Behandlung derselben Zutaten kann massive Auswirkungen auf das Ergebnis haben. Beispielsweise muss für ein Dessert wie Iles flottantes das Eiweiß zuerst vom Eigelb getrennt werden und dann steif geschlagen werden, während bei einem Omelette die ganzen Eier direkt verschlagen werden. Dasselbe gilt für Daten.
Besorgen wir zuerst die Zutaten (d.h. die Daten). Beide können aus unterschiedlichen Quellen stammen (Supermarkt, Großhändler, Produzent etc., bzw. Data Warehouses, Cloud-Speicher, API etc.) und unterschiedliche Formen und Verpackungen (Datenformate) haben. Beim Prozess der Datenaufnahme (Data Ingestion) geht es darum, alle Zutaten zu sammeln und sie in einer nutzbaren Form auf der Arbeitsfläche bereitzustellen, um mit der Zubereitung zu beginnen.
Genau wie Daten können auch Zutaten Qualitätsunterschiede aufweisen. Es kann zum Beispiel Probleme mit der Datenformatierung geben: Gemüse oder Obst ist nicht immer gleich groß, manches ist reifer als anderes usw. Es kann auch fehlende Werte geben: z.B. einen Eierkarton, der nur 6 statt 12 Eier enthält. Die Daten können unausgeglichen sein: zu viel Pasta und nicht genug Sauce o.ä. (für weitere Beispiele siehe “Handbook of Bad Data” (McCallum 2013)). Ein Koch wird immer die Qualität seiner Zutaten prüfen, manche aussortieren und, falls nötig, sogar seinen Lieferanten wechseln. All das ist das Ziel des Datensäuberungsprozesses (Data Cleaning).
Modellierung, Evaluation & Deployment
Und nun lasst uns kochen! Obwohl die Art des Gerichts ja bereits die Art des zu verwendenden Kochgeschirrs (d.h. des Modells) einschränkt (Töpfe und Pfannen, Ofengeschirr, Küchenutensilien etc.), so gibt es doch immer noch genug Raum zum Experimentieren (Temperatur, Kochzeit, Rühren oder nicht, etc.). Ähnlich wie ein Koch, der viele verschiedene Alternativen ausprobiert, bevor die gewünschte Konsistenz, der gewünschte Geschmack oder das gewünschte Aussehen erreicht ist, probieren auch Data Scientists verschiedene Modellversionen aus, jede mit leichten Variationen ((Hyper-)Parametern), um die beste Kombination von Zutaten (Daten), Zwischenprodukten (Features) und Kochgeschirr (Modell) zu finden. Dies entspricht der Modellierungsphase.
Geschmack ist subjektiv, und was dem Koch schmeckt, mag nicht immer das sein, was die Gäste wollen oder bereit sind zu bestellen. Die Kunst des Kochs besteht darin, den Geschmack der Gäste zu verstehen und das Gericht gegebenenfalls anzupassen. Dasselbe gilt für datengetriebene Produkte. Es ist möglich, dass beide einer kontrollierten Umgebung gut funktionieren (z.B. zu Hause mit ein paar Freunden), in einer Produktionsumgebung, bei der sie allen möglichen Arten von Gästen ausgesetzt sind (z.B. in einem Restaurant oder in einer Restaurantkette), aber schlecht. Ziel des Evaluationsprozesses ist es, Feedback zur Leistung zu erhalten und, falls nötig, das Gericht (Produkt) anzupassen oder zu ändern. Dies kann für eine bestimmte Gruppe von Gästen (Kunden) getan werden (z.B. für die Stammgäste (Stammkunden) oder für einen bestimmten Anlass. Die Idee ist hier, nicht zu viel Zeit zu verlieren und das Produkt so bald wie möglich zu bewerten (beispielsweise durch Verwendung eines MVP in einer A/B Testumgebung).
Um ein neues Gericht aus der Küche eines Restaurants in den Speiseraum zu bringen, sind mehrere Dinge erforderlich. Natürlich muss die Speisekarte geändert werden, damit die Gäste das neue Gericht finden, verstehen und bestellen können (d.h., das neue datengetriebene Produkt in das aktuelle Portfolio einzubauen erfordert evtl. neue UX-Entscheidungen). Ein Preis muss bestimmt werden. Die Bedienung sollte wissen, wie sie den Gästen das Gericht beschreiben und verkaufen soll. Das Küchenteam muss in der Lage sein, das Gericht innerhalb einer vorgegebenen Zeit zuzubereiten, selbst wenn der Koch nicht da ist. Das Restaurant muss sicherstellen, dass kontinuierlich Feedback eingeholt wird, entweder direkt von den Gästen oder von der Bedienung, usw. Das entspricht dem Deployment-Prozess.
Schlussfolgerung
Genau wie in der Küche sind auch die verschiedenen Phasen oder Prozesse im Bereich Data Science nicht unabhängig voneinander. Meist gibt es viele Iterationen. Es kann sein, dass eine Phase misslingt (z.B. nicht genug Zutaten; nicht die richtigen Zutaten für das Gericht; die Gäste des Restaurants bestellen das neue Gericht nicht; etc.) und dass eine Anpassung erforderlich ist (neue Zutaten bestellen, das Gericht verändern, die Speisekarte umorganisieren etc.). Außerdem muss die Küche gut organisiert sein, um während der Stoßzeiten Schritt zu halten, Abfall zu vermeiden und hohe Qualitäts- und Hygienestandards zu gewährleisten. Die Rezepte müssen niedergeschrieben und bei Bedarf aktualisiert werden, um sicherzustellen, dass die Gäste jedes Mal, wenn sie das gleiche Gericht bestellen, das Gleiche serviert bekommen. Und auch wenn technische Versiertheit vorausgesetzt wird, ist es für den Erfolg letztlich ausschlaggebend, das Geschäftsproblem und die Bedürfnisse der Gäste (Kunden) zu verstehen.
Sind Sie daran interessiert, Data Scientist zu werden? Das Fraunhofer IESE und die Fraunhofer-Allianz Big Data bieten gemeinsam ein dreistufiges Zertifikatsprogramm zum Data Scientist an.
Für weitere Informationen über Data Science empfiehlt der Autor diese Website: https://towardsdatascience.com/
1 thoughts:
Comments are closed.