Data Pipelines & [reverse] ETL

Daten sind ein wesentlicher Aspekt eines jeden Unternehmens. Sie ermöglichen die Entwicklung von Lösungen, die Verfolgung von Kennzahlen und schaffen eine Struktur für rationalisierte und integrierte Prozesse. Datenanalysen, können, wenn richtig eingesetzt, die Entscheidungsfähigkeit von Unternehmen verbessern.

Dabei gibt es allerdings einen Haken.

Bevor Daten demokratisiert werden können, muss die Infrastruktur dafür existieren. Unternehmen arbeiten deswegen zunehmend daran ihre Dateninfrastruktur zu entwickeln oder Ihre derzeitige IT-Landschaft dahingegen zu aktualisieren.

Nur um das klarzustellen: Niemand sagt, dass das ausgefallenste und teuerste Datenanalyse-Tool verwendet werden muss. Viele Unternehmen, mit denen wir im Projekt DeepScan zusammenarbeiten, nutzen einfache und kostengünstige Lösungen, wenn es um Datenanalyse geht. Insbesondere für mittlere und große Unternehmen stellt die Wahl der richtigen, zukunftsfähigen Lösung allerdings eine thematische Weiche für die Zukunft, mit einem potenziellen Kostenfaktor.

Einer der wichtigsten Entscheidungspunkte ist die Auswahl der richtigen Data Pipeline. Diese Datenpipelines sind es, die Daten in die Data Lakes der Zukunft bringen, Nutzern später zur Analyse bereitstellen und Data Science Teams den Aufbau von KI Use Cases ermöglichen.

Für unser Projekt Deep Scan wollen wir heute unsere aktuelle Data Pipeline vorstellen. Auch wenn es sich in unserem Fall um den Spezialfall „Forschungsprojekt“ handelt, hoffen wir dennoch einen interessanten Einblick gewähren zu können. Die verwendeten Lösungen sind dabei weder ab vom Standard noch speziell für die Forschung, ganz im Gegenteil, die in der Pipeline verbauten Lösungen orientieren sich am Markt und nutzen aktuellste Anbieter.

Unsere Pipeline startet aktuell mit den verschiedenen Datenquellen, welche in unserem Fall die im ERP-Labor genutzten und von Partnern bereitgestellten ERP-Systeme umfassen. Im ETL Schritt extrahieren wir die relevanten Daten aus den Datenquellen über unterschiedlichste Technologien (SQL, REST-API / ODATA) und transformieren diese in ein fürs Projekt generalisiertes Zielschema. Hierzu kommt maßgeblich Airbyte oder Airflow zum Einsatz. Als Data Lake dient uns Min.io ein Multi-Cloud Object Storage mit S3 Interface. Zur Daten Präparation für die Datenanalysen und Machine Learning Experimente nutzen wir je nach Ziel Superset für die initiale Analyse, Knime und Tableau für einfache Modellierungen und natürlich Python für die weitere Implementierung mit Bibliotheken wie Tensorflow oder scikit-learn.

ACFE Conference 2022

Die Association of Certified Fraud Examiners (ACFE) ist die weltweit größte Organisation zur Betrugsbekämpfung und der führende Anbieter von Schulungen und Weiterbildungen zur Betrugsbekämpfung. Gemeinsam mit mehr als 90.000 Mitgliedern bekämpft der ACFE weltweit Wirtschaftsbetrug und stärkt das öffentliche Vertrauen in die Integrität und Objektivität des Berufsstandes.

Wie jedes Jahr finden im Jahr 2022 diverse ACFE Konferenz statt, aufgrund von COVID für die Teilnehmer einige im Online Format. Wer sich interessiert findet alles Nötige hier:

https://www.acfe.com/conferences.aspx

Improved Neural Arithmetic Logic Unit (iNALU) 4 Deepscan

Im Projekt Deepscan werden komplexe Neuronale Netz Architekturen für die Erkennung von Anomalien entworfen und getestet. Neuronale Netze müssen mathematische Beziehungen erfassen, um verschiedene Aufgaben zu lernen. Sie approximieren diese Beziehungen implizit und lassen sich daher oft nicht gut verallgemeinern. Die kürzlich vorgeschlagene Neural Arithmetic Logic Unit (NALU) ist eine neuartige neuronale Architektur, die in der Lage ist, die mathematischen Beziehungen durch die Einheiten des Netzes explizit darzustellen, um Operationen wie Summation, Subtraktion oder Multiplikation zu lernen. Obwohl NALUs bei verschiedenen nachgelagerten Aufgaben nachweislich gute Leistungen erbringen, offenbart eine eingehende Analyse praktische Konstruktionsmängel, wie die Unfähigkeit, negative Eingabewerte zu multiplizieren oder zu dividieren, oder Probleme mit der Trainingsstabilität bei tieferen Netzen. Daniel Schlör1*, Markus Ring2 und Andreas Hotho1 gehen diese Probleme an und schlagen eine verbesserte Modellarchitektur vor. Sie evaluierten das Modell empirisch in verschiedenen Situationen, vom Erlernen einfacher arithmetischer Operationen bis hin zu komplexeren Funktionen. Die durchgeführten Experimente zeigen, dass die iNALU Stabilitätsprobleme löst und das ursprüngliche NALU-Modell in Bezug auf arithmetische Präzision und Konvergenz übertrifft.

Abb. 1.: iNALU Architektur

Das komplette Paper kann in Frontiers in Artificial Intelligence gelesen werden:

https://www.frontiersin.org/articles/10.3389/frai.2020.00071/full

Studie des Bundeskriminalamts zum Thema Cybercrime – Zahl der cyberkriminellen Straftaten nimmt weiter zu

Eine kürzlich veröffentlichte Studie des BKA zum Thema Cybercrime zeigt, dass die Anzahl der erfassten Cybercrime-Delikte in den letzten Jahren stetig gestiegen ist. Insgesamt registrierte das BKA für das Jahr 2020 etwa 108.000 Cybercrime-Delikte. Dies bedeutet einen Anstieg von 7.9 % zum Jahr 2019. Im Zweijahres-Vergleich ist die Anzahl cyberkrimineller Handlungen gar um 24.5 % gestiegen. Gleichzeitig ist der relative Anteil der aufgeklärten Fälle nahezu stagniert. So wurden 2019 rund 32.3 % aller Cybercrime-Delikte aufgeklärt, 2020 waren es mit 32.6 % nur 0.3 Prozentpunkte mehr.

Anzahl der erfassten und aufgeklärten Cybercrime-Fälle in Deutschland (Quelle: Bundeskriminalamt)

Das BKA nennt eine Reihe von Ursachen für den stetigen Anstieg cyberkrimineller Handlungen. Ein Faktor sei der voranschreitende Digitalisierungstrend, welcher durch die Corona Pandemie einen zusätzlichen Schub erfahren habe. Dieser Trend resultiere in mehr Möglichkeiten für Cyberkriminelle, Straftaten zu begehen. Gleichzeitig habe man in den letzten Jahren eine fortschreitende Professionalisierung der Angreifer und wachsende Fähigkeiten von Malware, sich vor Sicherheitsmechanismen wie Antivirenscannern zu tarnen, beobachten können. Letztlich seien die Eintrittsbarrieren in die Cyberkriminalität in den vergangen Jahren stetig zurückgegangen. So könne man heute durch Angebote wie Cybercrime-as-a-Service Cyber-Straftaten begehen, ohne dabei tiefgreifende technische Fähigkeiten haben zu müssen.

Neue Studie zum Thema Echtzeit-Vorhersage von Produktretouren in ERP-Systemen

Steigende Auftragszahlen in Unternehmen führen gleichzeitig zu einer höheren Anzahl von Retouren, was sowohl negative soziale, ökologische als auch ökonomische Auswirkungen zur Folge hat. Vor diesem Hintergrund haben sich Wissenschaftler der Universität mit dem Problem der Erhöhung von Produktretouren in Unternehmen befasst. Im Vordergrund der Arbeit stand die Entwicklung eines generischen Modells zur Echtzeit-Retourenvorhersage. Dieses soll auf Grundlage von Benutzerinteraktionen und dem aktuellen Warenkorb Wahrscheinlichkeiten für die Produktrückgabe eines bestimmten Kunden bewerten und berechnen. Dabei interagiert das Modell indirekt mit dem Kunden, um den Warenkorb zu verändern. 

Research Paper zum Thema Echtzeit-Vorhersage von Produktretouren in ERP-Systemen

Das Meta-Modell zur Echtzeit-Vorhersage von Retouren wurde auf Basis von Kundeninteraktionen und ERP-Daten entwickelt. Dabei wurde das Modell in drei Stufen evaluiert. Die erste Stufe zeigte, dass ein generischer Ansatz zur Vorhersage der Wahrscheinlichkeit von Produktretouren Retouren auf Warenkorbebene vorhersagen kann. In der zweiten Stufe wurde ein Machine Learning Modul über Schnittstellen in ein cloudbasiertes ERP-System integriert. Die letzte Stufe beschreibt schließlich eine simulationsbasierte Evaluation zur Echtzeitvorhersage im Browser und ein Feedbacksystem. 

Meta-Modell zur Echtzeit-Vorhersage von Retouren in ERP-Systemen

Zusammengefasst unterstützt das Metamodell Kunden durch Echtzeit-Empfehlungen zur Anpassung ihres Warenkorbs auf Basis von Interaktionen mit der Website und ERP-Daten, um die Retourenquote zu senken. Ein Feedback-System wertet die Daten aus und gibt individuelle Vorschläge, um das Verhalten der Kunden zu beeinflussen. Ziel ist es letztlich so die Entscheidungsfindung der Kunden für die Produkte in ihrem Warenkorb zu beeinflussen, um letztlich Produktretouren zu reduzieren.

DeepScan@FIS Logistics Day 2021

Laut Studie der Bundesvereinigung Logistik (BVL) haben über 50% der Logistik-Unternehmen kein digitales Geschäftsmodell. Dabei zeigt dieselbe Umfrage, dass die Befragten die Chancen der digitalen Transformation stärker bewerten als die damit verbundenen Risiken. Dies unterstreicht die Notwendigkeit, die Digitalisierung der Lager- und Transportlogistik aktiv voranzutreiben. Die FIS richtet diesbezüglich regelmäßig den FIS Logistics Day ein, an dem Kunden und Interessierte sich zu aktuellen Entwicklungen im Umfeld Logistik und Digitalisierung informieren können.

Da mit zunehmender Digitalisierung und Automation aber auch die geschäftlichen Risiken wachsen, hat auch das Projektteam DeepScan ein Interesse seine Erkenntnisse dort einzubringen. Auf die Teilnehmer wartet insgesamt „Ein spannender Mix aus SAP-Keynote, Kundenberichten, Showcases, Fachvorträgen und einer Podiumsdiskussion […] mit FIS, Kunden und Experten aus Wissenschaft und Wirtschaft“. Der Beitrag ist unter den Showcases, unter dem Namen „Einblicke in die Forschung“ zu finden, wobei aktuelle Ergebnisse aus den Projekt zusammen mit den Ergebnissen anderer Forschungsgruppen in einer kurzen Keynote vorgestellt werden.

Weitere Informationen findet man bei Interesse unter:

https://www.fis-gmbh.de/de/aktuelles-downloads/veranstaltungen/fis-logistics-day-2021/

Umgang mit besonders schutzwürdigen personenbezogenen Daten in ERP-Systemen

Im Kontext des Datenschutzes nimmt insbesondere der sachgemäße Umgang mit personenbezogenen Daten eine übergeordnete Rolle ein. So erwarten Personen, dass persönliche Informationen auf spezifische und begrenzte Weise verwendet und vor der Weitergabe an Unbefugte geschützt werden. In der Europäischen Union wird der Schutz persönlicher Informationen in erster Linie von der DSGVO abgedeckt, welche seit Mait 2018 wirksam ist. Deren sachlicher Anwendungsbereich gilt gemäß Art. 2 Abs. 1 “für die ganz oder teilweise automatisierte Verarbeitung personenbezogener Daten sowie für die nichtautomatisierte Verarbeitung personenbezogener Daten, die in einem Dateisystem gespeichert sind oder gespeichert werden sollen.”

Datenschutzgrundverordnung in ERP Systemen (Quelle: Pixabay)

Die DSGVO unterscheidet zwischen verschiedenen Kategorien personenbezogener Daten, welche je nach Art einen besonders hohen rechtlichen Schutz erfahren. So ist bei der Verwendung und Verarbeitung personenbezogener Daten ein besonderes Augenmerk auf all diejenigen Arten von persönlichen Informationen zu richten, welche unter die Kategorie der besonders schutzwürdigen personenbezogenen Daten fallen. Die Verarbeitung dieser Daten ist nach Regelung der DSGVO untersagt. Diese definiert besonders schützenswerte Daten nach Art. 9 Abs. 1 als personenbezogene Daten “aus denen die rassische und ethnische Herkunft, politische Meinungen, religiöse oder weltanschauliche Überzeugungen oder die Gewerkschaftszugehörigkeit hervorgehen.“ 

Im Regelfall sollte auf die Verarbeitung dieser Daten in ERP-Systemen verzichtet werden. Dies kann beispielsweise durch das Entfernen besonders schutzwürdiger Daten während der Extraktion erfolgen. Daneben empfiehlt sich nach Datenextraktion ein Sanity-Check, um nicht benötigte persönliche Informationen zu identifizieren und zu beseitigen. Ein weiterer Ansatz zum Schutz dieser Daten kann eine Pseudonymisierung darstellen, beispielweise durch den Einsatz kryptografischer Hash-Funktionen. Die DSGVO nennt allerdings zudem bestimmte Umstände, welche die Verarbeitung besonders schutzwürdiger Daten rechtfertigen. Darunter fällt beispielsweise die explizite Zustimmung einer Person zur Verwendung ihrer persönlichen Daten oder der Zweck der Vertragserfüllung, sprich um einen Vertrag abzuschließen oder auszuführen. 

Neue Studie zum Thema „Adaptionsbarrieren für die industrielle Instandhaltung in Deutschland“

Die Anwendungsszenarien der Künstlichen Intelligenz (KI) sind weitreichend und vielschichtig. Insbesondere im Kontext der politischen Initiative „Industrie 4.0“ bieten sich durch KI-basierte Systeme enorme Potentiale zur Effizienzsteigerung und Automatisierung von Prozessen. Ein konkreter Anwendungsfall sind KI-basierte intelligente Unterstützungssysteme (IUS), welche durch eine vorausschauende Maschinenwartung Unternehmen bei der Instandhaltung von Produktionsanlagen unterstützen können. Dennoch verläuft die Integration solcher KI-Systeme in der deutschen Unternehmenslandschaft aufgrund technischer und sozialer Adaptionsbarrieren oftmals zögerlich. Vor diesem Hintergrund haben Wissenschaftler der Universität Würzburg untersucht, welche konkreten Hemmnisse der Integration solcher Systeme im Wege stehen und welche Anreize gesetzt werden können, um deren Einsatz langfristig zu erhöhen. 

Neue Studie der Universität Würzburg zum Thema Adaptionsbarrieren von KI-basierten Entscheidungssystemen in der Instandhaltung

Aktuelle Forschungsergebnisse legen nahe, dass die technischen Herausforderungen insbesondere im Bereich des langfristigen Abgriffes und der langfristigen Speicherung liegen. Daneben setzt ein Großteil der Unternehmen auf reaktive Maßnahmen, anstatt präventive Ansätze zu verfolgen. Die durchgeführte Studie unterstreicht diese Hemmnisse hinsichtlich der technologischen Bereitschaft. So erfassen aktuell nur 44,18% der befragten deutschen Produktionsunternehmen Maschinendaten. Daneben besteht nur ein geringes Interesse an Datenabgriff (7,98%). Dennoch zeigte sich unter anderem, dass ein Gros der Unternehmen, welche Daten bereits erfassen, diese auch für spätere Auswertungen speichern (Überwiegend=50,39%; Teilweise=37,98%). Daneben setzen viele Unternehmen bereits auf prädikative (26,04%) und präskriptive (15,63%) Wartungsstrategien.

Neben technischen Herausforderungen müssen auch soziale Aspekte betrachtet werden. Dabei stellt insbesondere die Adaptionsbereitschaft von Mitarbeitern ein IUS in den eigenen Entscheidungsprozess einzubeziehen ein wichtiges Kriterium dar. Mögliche Hemmnisse können hier beispielsweise Kontroll- und Arbeitsplatzverlust oder die mangelnde Transparenz des Entscheidungsprozesses sein. Die Studie zeigt, dass viele Mitarbeiter ihr Wissen über KI als schlecht oder moderat einschätzen (sehr niedrig=7,53%, niedrig=29,79%, mittel=42,81%) und viele Mitarbeiter keinerlei Erfahrung im Umgang mit IUS haben (74,66%). Im Zuge der Studie wurde vor diesem Hintergrund ein möglicher Lösungsvorschlag zum Abbau der sozialen Hemmnisse untersucht. So konnte durch Erstellung zweier Dashboards (eines mit hohem Erklärungsgrad, eines ohne Erklärungen) festgestellt werden, dass eine erhöhte Erklärbarkeit der IUS-Berechnungen die Adaptionsbereitschaft unter Mitarbeitern steigern kann (56,36% würden ein Dashboard ohne Erklärung nutzen, 67,30% würden ein Dashboard mit Erklärung nutzen). 

Zusammenfassend kann festgehalten werden, dass die Beschäftigten deutscher Fertigungsunternehmen bereits eine hohe Bereitschaft für den Einsatz von KI haben. Allerdings existieren noch zahlreiche Hürden, welche durch gezielte Maßnahmen abgebaut werden müssen. Die Erklärbarkeit der IUS-Systeme kann hierbei eine wichtige Unterstützung darstellen, um den Weg zu einer KI-basierten Instandhaltung von Produktionsanlagen zu ebnen.

Studie Fraud in ERP-Systemen (4/4) – Maßnahmen zur Fraud-Aufdeckung und Zukunftsausblick

Im letzten der Teil der Serie geht es um die Maßnahmen, welche aktuell von Unternehmen ergriffen werden, um Fraud im Unternehmen gezielt vorzubeugen und zu bekämpfen. Daneben soll ein Ausblick gegeben werden, wie die Fraud-Bekämpfung in Zukunft aussehen könnte. 

In vorherigen Teilen konnte dargestellt werden, dass Fraud ein gängiges Problem in Unternehmen ist. Es stellt sich nun die Frage, wie Unternehmen konkret bei der Fraud-Bekämpfung vorgehen. Vor diesem Hintergrund wurden die Teilnehmer gefragt, welche Maßnahmen zur Vermeidung von Betrug in ihrem Unternehmen eingesetzt werden. Die Befragten konnten dabei mehrere Instrumente nennen. Die Ergebnisse zeigen, dass der Fokus der Fraud-Bekämpfung primär auf klassischen kontrollierenden Maßnahmen fußt. So nannte eine Vielzahl der Teilnehmer, dass ihr Unternehmen beispielsweise das 4-Augen Prinzip (80%), Rollenkonzept (59%) oder Mitarbeiterschulungen (56%) einsetzt. Ein geringfügiger Teil der Teilnehmer (3%) gab an, dass ihr Unternehmen aktuell keine konkreten Maßnahmen zur Betrugsbekämpfung einsetzt. 

Aktuelle Maßnahmen zur Fraud-Bekämpfung

Aktuelle Maßnahmen, die von Unternehmen genutzt werden, können ein guter Ansatzpunkt zur Fraud-Bekämpfung sein, weißen allerdings Schwachstellen hinsichtlich der Geschwindigkeit und Genauigkeit der Betrugsaufdeckung auf. Vor diesem Hintergrund ist ein Ausblick auf zukünftige Trends, welche zur Realisierung einer vollautomatisierten Fraud-Bekämpfung beitragen könnten, empfehlenswert. Dabei sind insbesondere Software-Lösungen zu nennen, welche auf Basis maschinellen Lernens und künstlicher Intelligenz Betrugsszenarien in Echtzeit und mit hoher Genauigkeit aufdecken könnten. Entsprechend zu Intrusion-Detection-Systemen im IT-Security-Bereich, die live den Netzwerkverkehr oder die Login-Versuche von Usern an IT-Systemen überwachen, werden zukünftige Fraud-Detection-Systeme die im System verbuchten geschäftlichen Transaktionen überwachen. Die Überwachung wird dabei über einen multimodalen Ansatz durch das Zusammenschließen von Machine Learning und Algorithmen der Künstlichen Intelligenz ermöglicht und durch Erklärungen (explainable AI) sowie einem Human-in-the-loop-Ansatz ergänzt. 

Abschließend kann gesagt werden, dass klassische Maßnahmen ein guter Ansatzpunkt zur Fraud-Bekämpfung sein können. Eine Auseinandersetzung mit zukünftigen Trends ist allerdings empfehlenswert, um Betrugsfälle schneller und effizienter aufdecken zu können. Mit dem heutigen Teil endet die Serie zur Studie Fraud in ERP-Systemen. Falls Sie an weitreichenderen Informationen der Studie interessiert sind oder offene Fragen haben, können Sie gerne mit unserer wissenschaftlichen Mitarbeiterin Anna Fuchs in Kontakt treten. 

Kontakt: a.fuchs@uni-wuerzburg.de

Studie Fraud in ERP-Systemen (3/4) – Fraud-Arten und -Aufdeckung

Da Betrug in verschiedenen Formen auftreten kann, wird sich der heutige Teil der Miniserie auf die verschiedenen Arten und Formen von Betrugsvorfällen konzentrieren. Darüber hinaus wird veranschaulicht, wie Betrugsvorfälle in Unternehmen typischerweise erkannt werden und in welchem Zeitrahmen eine solche Erkennung stattfindet.

Betrugsvorfälle sind nicht identisch, sondern können in unterschiedlichen Formen und Varianten auftreten. Vor diesem Hintergrund ist es für Unternehmen wichtig, zwischen verschiedenen Betrugsarten unterscheiden zu können, insbesondere um diese frühzeitig zu erkennen und zu verhindern. Im Rahmen der Studie wurden durch Befragungen die verbreitetsten Arten von Betrug identifiziert. Besonders häufig wurden der Diebstahl von Material aus dem Unternehmen, manipulierte Reisekostenabrechnungen oder Datendiebstahl genannt. Weitere häufig genannte Betrugsarten sind zum Beispiel gefälschte Rechnungen oder der Diebstahl von IT- oder Telekommunikationsgeräten.

Häufige Fraud-Arten

Nachdem gezeigt wurde, dass Fraud auf verschiedene Arten auftreten kann, stellt sich nun die Frage, wie Unternehmen Fraud-Vorfälle üblicherweise erkennen. Vor diesem Hintergrund wurden die Teilnehmer der Studie nach den gängigsten Maßnahmen zur Betrugsaufdeckung in ihrem Unternehmen befragt. Häufig genannte Arten waren z.B. routinemäßige interne Prüfungen (28%), interne (25%) und externe (13%) Hinweise oder Revisionen (13%). Gleichzeitig stellte sich die Frage, wie schnell diese Maßnahmen zur Betrugsaufdeckung beitragen. Daher wurden die Teilnehmer auch nach dem Zeitrahmen gefragt, in dem Betrugsvorfälle in ihrem Unternehmen typischerweise entdeckt werden. Die Ergebnisse zeigen, dass nur ein kleiner Bruchteil der Betrugsaktivitäten in Echtzeit entdeckt wird. Die eigentliche Aufdeckung findet regelmäßig erst im Nachhinein statt, zum Beispiel am Monats- oder Jahresende.

Zeitrahmen und Arten der Fraud-Aufdeckung

Nachdem im heutigen Teil die Arten und die Erkennung von Betrugsvorfällen vorgestellt wurden, geht es nächste Woche mit den konkreten Maßnahmen zur Betrugsbekämpfung weiter. Neben den aktuellen Maßnahmen, die von Unternehmen zur Betrugserkennung eingesetzt werden, wird auch ein Ausblick gegeben, wie die Betrugsbekämpfung in Zukunft aussehen könnte.

Wenn Sie allgemeine Fragen zur Studie haben oder sich für die spezifischen Ergebnisse interessieren, können Sie gerne unsere wissenschaftliche Mitarbeiterin Anna Fuchs kontaktieren.

Kontakt: a.fuchs@uni-wuerzburg.de