Künstliche Intelligenz im Mittelstand: Darauf sollten Sie achten, wenn Sie Daten erheben und Projekte erfolgreich starten
Heute sprechen wir mit Dr. Dietrich Wettschereck, unserem Experten für Künstliche Intelligenz, über Risiken bei Projekten und Investitionen sowie über die Erhebung, Analyse und Qualität von Daten.
Dietrich, warum zögern so viele Unternehmen vor der Beauftragung von KI Projekten?
Dietrich Wettschereck: Viele haben Angst, dass die Qualität ihrer Daten nicht ausreicht und sind nicht bereit, eine größere Summe zu investieren, ohne die Sicherheit zu haben, dass sie von dem Ergebnis auch tatsächlich profitieren. Diese Angst ist nachvollziehbar, denn es ist leider eher die Regel als die Ausnahme, dass genau diese Datenqualität nicht ausreicht. Es geht eben auch um viel Geld. Große Konzerne investieren hier beträchtliche Summen, um Künstliche Intelligenz ganzheitlich für sich zu nutzen.
Das heißt, ich muss zwangsläufig direkt viel Geld investieren, wenn ich die ersten Schritte im KI-Bereich gehen will?
D.W.: Nein, natürlich gibt es sinnvolle Schritte, die bezahlbar sind. Unternehmen sollten sich hier unbedingt beraten lassen, um die wichtigsten Fragen zu beantworten: Welches konkrete Ziel will ich mit KI erreichen? Warum will ich das erreichen? Welche Daten brauche ich in welcher Menge und Qualität dazu? Wie generiere ich diese Daten und was kostet mich das?
Und wenn ich schon Daten habe und diese jetzt nutzen möchte?
D.W.: Dann solltest Du diese unbedingt überprüfen lassen. Sind es die richtigen Daten? Sind es ausreichend viele Daten für den angedachten Use Case? Habe ich die Daten richtig abgespeichert? Gibt es Bilddaten, bei denen ich für die Datenanalyse auf spezielle Formatbedingungen achten muss? Auf Basis der gewonnenen Erkenntnisse kannst Du dann nachjustieren und die Granularität der Daten zielgenau anpassen, um diese später zu nutzen.
Wie und wann sollten Unternehmen Daten sammeln und wie lange dauert es, bis sie wirklich davon profitieren können?
D.W.: Es dauert meistens ein paar Monate, bis die Daten generiert sind. Das heißt im Umkehrschluss auch: Wenn ich diese ohne richtige Vorbereitung sammle, verliere ich im Zweifel wertvolle Zeit, weil ich es danach nochmal machen muss. Als Dienstleister im Bereich KI machen wir häufig die Erfahrung, dass viele Unternehmen diese Zeitinvestition nicht bedenken und genau an der Stelle einen Fehler machen. Sie kommen zu uns mit der Aussage, dass sie seit Jahren Daten erheben und dass man damit ja jetzt sicher etwas machen könne. Das funktioniert meistens nicht, weil die Daten zu einem anderen Zweck erhoben wurden und daher Unzulänglichkeiten beinhalten, die man erst bei der Datenanalyse feststellt.
Was macht denn die Qualität von Daten aus, damit sie in einem späteren KI Projekt zielgerichtet und produktiv eingesetzt werden können?
D. W.: Hier gibt es kein festes Regelwerk, das kommt ganz auf den individuellen Use Case an. Aber natürlich gibt es bestimmte Parameter, auf die man immer achten sollte. Dazu gehört, möglichst unterschiedliche Szenarien zu beobachten und beispielsweise Fehlerfälle genau zu dokumentieren. Freitextfelder sollten zudem soweit möglich vermieden werden. Bei Bildern gilt es, auf die zur Datenanalyse nötige Auflösung zu achten. Bei der Beschriftung ist wichtig, dass sie passend und einheitlich ist. Fehler hierin sind gerade durch historische Entwicklungen begründet. Manchmal wechselt die Bezeichnung von Artikeln aufgrund irgendwelcher Umstände und dann passen die Entitäten nicht mehr zusammen. Das stellt für eine spätere Datenanalyse immer ein Problem dar. In diesen Fällen ist es ratsam, eine saubere Dokumentation durchzuführen, auch wenn diese in genau dem Moment nicht zwingend Priorität hat und es andere Aufgaben gibt, die deutlich wichtiger scheinen.
Gibt es Vorgaben, die Daten erfüllen müssen? Kannst Du Beispiele nennen, die das veranschaulichen?
D. W.: Auch das ist von Fall zu Fall und je nach Daten sehr unterschiedlich. Bilder und Fotos benötigen mindestens die Auflösung 2 x 2 Megapixel. Schwieriger wird es z. B. bei Zeitreihendaten. Hier ist es enorm wichtig, in welchem Intervall man die Daten abspeichert. Stell Dir beispielsweise eine Firma vor, die in den letzten 3 Jahren täglich um 12:00 mittags die Temperatur gemessen hat, weil sie diese Daten zum Beispiel für den Produktionsprozess oder für bestimmte Abrechnungen brauchte. Jetzt hat das Unternehmen ganz unabhängig davon den Verdacht, dass eine wichtige Maschine im Betrieb unterhalb einer bestimmten Temperatur nicht mehr funktioniert. Nun nehmen die Verantwortlichen die Daten ihrer dreijährigen Messung und glauben, diese für die Erklärung des Maschinenausfalls verwenden zu können. Aber natürlich ist es nicht sinnvoll, Messdaten von der wärmsten Zeit des Tages zu nehmen, um zu erklären, warum eine Maschine bei niedrigen Temperaturen nicht mehr funktioniert. Das ist jetzt zugegebenermaßen ein konstruierter und sehr vereinfachter Fall, allerdings versteht man anhand dessen das Problem, dass viele Daten, von denen man glaubt, sie seien für KI sinnvoll, genau dies eben nicht sind: weil sie zu einem ganz anderen Zweck und mit ganz anderen Anforderungen erhoben wurden. Um den Ausfall der Maschine zu erklären, bräuchten die Firma in dem Fall Daten aus der Nacht oder unter bestimmten Bedingungen, die für niedrigere Temperaturen verantwortlich sein können.
Angenommen, ich habe meine Datenerhebung gestartet: Kann ich dann erstmal beobachten oder muss ich währenddessen etwas Wichtiges beachten?
D.W.: Du solltest die Daten regelmäßig mit Hilfe von Experten beobachten und bewerten. Es kann durchaus passieren, dass man während der Analyse feststellt, dass die Daten so immer noch nicht ausreichen. Dann muss man ggf. Details ändern, auf eine noch feinere Granularität achten oder gar ganz andere Daten erheben. Manche Fragen kann man erst beantworten, wenn man in der Analyse ist. Datenerhebung und -auswertung ist ein unglaublich iterativer Prozess, den Unternehmen in den wenigsten Fällen intuitiv selbst übernehmen können. Es bringt also mit Ausnahme von einigen Glücksfällen nichts, wenn man über die Jahre hinweg ein riesiges Data Warehouse ansammelt, wenn die Datenqualität nicht exakt auf den Zweck, dem sie dienen soll, angepasst ist. Da aus Erfahrung oftmals viele Anpassungen notwendig sind, sollten diejenigen, die die Daten erheben, in kontinuierlichem Austausch mit denjenigen stehen, die sie analysieren bzw. mit dem Dienstleister, der sie berät.
Heißt das, je häufiger und granularer ich die richtigen Daten erhebe, desto besser?
D.W.: Nicht unbedingt. Auf der einen Seite steigert die Frequenz und damit die Menge der Daten natürlich die Qualität der Analyse. Auf der anderen Seite kostet mehr Datenakkumulation nicht nur mehr Geld, sondern erzeugt auch größere Datenmengen – gerade wenn es um die Daten von Maschinen geht. Hier sind wir ganz schnell im Terabytebereich. Ein drittes Argument: wenn man mit Kundendaten arbeitet, muss man datenschutzrechtlich das Gebot der Minimalverwendung von personenbezogenen Daten beachten. Das heißt, ich darf – zumindest in Deutschland – per Gesetz nur genau die Daten erheben, die ich mit dem Kunden abgesprochen habe und muss klarstellen, zu welchem Zweck die Daten erhoben und verarbeitet werden. Auch deshalb sind mehr Daten nicht immer zwingend besser und manchmal auch gar nicht erlaubt. In anderen Ländern wie Amerika sieht die Rechtslage anders aus, aber bei uns gibt es diese Limitierungen.
Welche Daten werden denn gebraucht und worauf gilt es beim Datenschutz zu achten?
D.W.: Aus Datenschutzsicht ist es ganz schwierig, weil man ja erst einmal nur Daten erheben darf, die man auch wirklich braucht, um den Vertragszweck zu erfüllen. Das sind in der Regel sehr wenige Daten. Ohne Zustimmung des Kunden darf ich mir beispielsweise das individuelle Surfverhalten auf der Website nicht merken, um Werbung besser zu platzieren. Wenn ich also eine Klickpfadanalyse anstellen will, die typische Bewegungspfade von Kunden auf meiner Website zeigt, muss ich mir das Einverständnis der Nutzer einholen oder ich anonymisiere die Daten so, dass alles gesetzeskonform ist. Es zeigt sich: bei der Anonymisierung von Daten gibt es viele Fallstricke zu beachten. Wenn Unternehmen KI-Projekte beauftragen, bei denen sie mit Kundendaten arbeiten, sind sie also genauso wie der Dienstleister in der Pflicht, bei der Datenerhebung auf alle datenschutzrelevanten Faktoren zu achten. Dann hilft es natürlich, wenn sich auch der Dienstleister dieser Sensibilität und Verantwortung bewusst ist.
Gilt das für jede Form von Daten?
D.W.: Nein. Bei der Erhebung von Maschinen- oder auch Produkt- und Unternehmensdaten ist der Datenschutz deutlich leichter zu handhaben. Man muss nur aufpassen, wenn Personendaten ins Spiel kommen. Wenn z. B. dokumentiert wird, wer zu einer bestimmten Zeit Schichtleiter oder Maschinenführer ist, dürfen diese Information bei der Datenerhebung nicht ohne Weiteres mit erhoben werden oder müssen so anonymisiert werden, dass die Daten nicht auf eine bestimmte Person zurückgeführt werden können.
Was können Unternehmen tun, die bereits Daten erhoben haben und in Hinblick auf die Datenqualität unsicher sind?
D.W.: Es gibt Mechanismen, mit denen man Datenqualität prüfen kann. Wir bieten eine solche Prüfung mit unserem KI Deep Dive an. Dieses kleine und sehr gezielt geschnürte Angebot ist genau für solche Fälle gedacht, denn der Kunde investiert statt 100.000 € nur 10.000 €. Im Ergebnis wissen die Kunden danach genau, ob die Qualität ihrer Daten ausreicht, ob sich eine größere Investition tatsächlich lohnt und was genau sie tun müssen, um das eigentliche KI Projekt zu starten. So ist das Risiko deutlich kleiner, dass das Geld am Ende ohne nennenswertes Ergebnis verpufft.
Möchten Sie mehr News über Künstliche Intelligenz erhalten? Dann abonnieren Sie unseren tarent Newsletter.