DATALAKE AS A SERVICE
Revolutionieren Sie Ihre
Cloud-Infrastruktur
noch heute mit der Datalake-Lösung von Datamesh!
Erschließen Sie das wahre Potenzial Ihrer Daten mit unserem nahtlosen und innovativen Produkt, das Kompatibilität garantiert und den Wert Ihrer Daten maximiert.
Unsere Datalake-Lösung wurde für die mühelose Integration in Ihre bestehende Azure- oder AWS-Umgebung entwickelt und ist die Antwort, nach der Sie schon lange gesucht haben.
Warum eine Datalake Integration mit uns?
Laut Alex Gorelik, Autor des Bestsellers “What is a data lake?" und "The Enterprise Big Data Lake", sollte ein effizientes Datalake die folgenden Eigenschaften erfüllen:
Eine kostengünstige Speicherung und skalierbare Rechenleistung um große Datenmengen zu speichern und zu verarbeiten, ohne dabei übermäßige Kosten zu verursachen.
Den Zugang und eine effiziente Verwaltung der Daten umsetzen, damit jeder die Daten finden kann, gebraucht werden.
Eine mehrstufige Zugangsverwaltung beinhalten, und Daten nur denjenigen zugänglich machen, die sie benötigen.
Obwohl einige dieser Bedingungen von modernen Cloud-Diensten erfüllt werden, z. B. von Amazon S3, gibt es insgesamt keine kostengünstige Lösung, die alle Bedingungen erfüllt und in bestehende Strukturen implementiert. Die Implementierung von Datalakes ist deswegen mit großem Aufwand und Kosten verbunden.
Die Architektur
Unser Produkt kann vollständig in Ihre bestehende Cloud-Infrastruktur integriert werden. Wir bieten derzeit Integrationen für Azure und Amazon Web Services an. Der Kern des Datalake ist ein moderner Objektspeicher, in dem beliebige Datenformate gespeichert werden können.
Der Rest der Architektur lässt sich in drei Komponenten aufteilen:
Extract and Load: Datenaus über 250 Quellen abrufen und an einem Ort speichern.
Transform: Mit Hilfe von SQL werden Daten gefiltert, bereinigt, kombiniert undvieles mehr.
Serve: Dieverarbeiteten Daten können über JDBC abgerufen und für Endbenutzeranwendungenoder Dashboards verwendet werden.
Nachstehend werden die Datenspeicherung des Datalake und die drei oben genannten Bereiche mit der zugrunde liegenden Architektur näher erläutert.
Datasources
Extract & Load
Large File System
Transform
Serverless SQL
Encryption
Azure und AWS verschlüsseln die Daten standardmäßig. Für die Verschlüsselung wird der 256-Bit Advanced Encryption Standard (AES-256) verwendet.
Dies ist der effizienteste der bestehenden Standards und bedeutet, dass der Zugriff auf Ihre Daten von außerhalb Ihres Cloud-Kontos praktisch unmöglich ist.
Für zusätzliche Sicherheit bieten wir eine Verschlüsselung für sensible Daten über einen von Ihnen verwalteten Schlüssel. Dies gibt Ihnen mehr Flexibilität bei der Verwaltung der Zugriffsrechte und Sie können Ihre bestehenden Benutzer im Cloud-Konto für die Zugriffsverwaltung verwenden.
Data Cleaning
Um nützliche Informationen aus den Daten gewinnen zu können, sollten sie keine Fehler enthalten. Unser Datalake bietet hierfür viele Funktionen in einfacher SQL-Syntax.
Einige Beispiele:
sql: Use sql statments like concat, cast or split to clean up data
json: col : outer. inner. Name
If upper and lower case is mixed : LOWER
To standardize the number of decimal places: FORMAT_NUMBER
Die Einrichtung des Datalake wird komplett für Sie übernommen, aber auch danach sind unsere Experten für Sie da und unterstützen Sie bei der Wartung des Systems.
Data Profiling
Mit dem automatischen Datenprofiler erhalten Sie jederzeit und ohne jeden Aufwand einen aktuellen Überblick über Ihre Daten. Das ermittelte Datenprofil enthält u.a. für jede Spalte Folgendes:
Der Datentyp der Daten, ob die Spalte Nullwerte enthält oder ob die Spalte Duplikate für numerische Daten enthält:
json: col : outer. inner. Name
If upper and lower case is mixed : LOWER
To standardize the number of decimal places: FORMAT_NUMBER
Monitoring and Notification Fehler
Bei Code besteht Einigkeit darüber, dass er automatisch getestet werden muss, um Fehler zu vermeiden. Bei Daten hingegen sind Tests nicht Standard und Fehler in den Daten werden meist erst dann bemerkt, wenn das Produktions-Dashboard leer ist. Dadurch werden Fehler oft zu spät bemerkt und es kommt zu Datenverlusten. Um dem entgegenzuwirken, bietet unsere Datalake-Lösung umfangreiche Tests während der Transformationen. So kann beispielsweise erkannt werden, ob eine Spalte Nullwerte enthält oder in einem ungültigen Format vorliegt.
Kosten
Unser Datalake ist so konzipiert, dass er in Ihrer bestehenden AWS- oder Azure-Umgebung bereitgestellt werden kann. Für die Ersteinrichtung berechnen wir eine feste Einrichtungsgebühr von 5.000 €.
Die laufenden Kosten hängen von der vorhandenen AWS- oder Azure-Umgebung ab. In beiden Fällen werden 15 % des Rechnungsbetrags berechnet, so dass Sie die volle Kontrolle über die Infrastrukturkosten haben.
Dieses Preismodell ist ideal für Ihre individuellen Anforderungen. Die monatliche Mindestgebühr beträgt 2000 € bei 8 Stunden Support.
Nachfolgend sind die Kosten für ein Beispiel berechnet.
AWS
S3 Buckets mit optionaler Verschlüsselung
Extrahieren und Laden über Airbyte
Transformation mit dbt & Databricks
Serverloses SQL mit Athena und JDBC-Schnittstelle
15%
pro Monat
AWS
BELIEBT
Azure
Blob-Speicherung mit optionaler Verschlüsselung
Extrahieren & Laden über Airbyte
Transformation mit dbt & Databricks
JDBC-Schnittstelle über Azure Serverless SQL
15%
pro Monat
AWS
Full Control
Da alle Komponenten unseres Datalake in Ihrem bestehenden Cloud-Abonnement bereitgestellt werden, haben Sie die volle Kontrolle. So können Sie die anfallenden Kosten auf die einzelnen Cloud-Services zurückführen und diese nach Ihren Anforderungen optimieren.
Expert Assistance
Das Deployment des Datalake wird komplett für Sie übernommen, aber auch danach sind unsere Experten für Sie da und unterstützen Sie bei der Wartung der Systeme.
Features
Ein Überblick der Funtionen unseres Datalakes:
Data Ingestion
Import aus Kafka, MySQL und anderen Quellen
Umwandlung in standardisierte Formate durch Apache Spark
Standard-
ization
Data Cleaning
Prüfen auf Fehler und fehlende Daten
Automatische Statistiken über Ihre Daten. Unterstützt von Apache Spark
Data
Profiling
Monitoring
& Alerting
*Fehler melden, sobald sie auftauchen*
Verbinden, Verknüpfen und Erstellen von Ansichten mit SQL. Unterstützt von Apache Spark
Business Logic
Standardization
Mit Ausnahme der Landezone verwenden alle anderen Zonen das Delta-Format zur Speicherung der Daten. Dieses Format bietet die folgenden Vorteile:
Compression: Die Daten werden mit modernen Kompressionsalgorithmen komprimiert und belegen nur so viel Speicherplatz wie nötig.
Time travel: Dieses Format zeichnet alle Änderungen an den Tabellen auf und ermöglicht es Ihnen sogar, zu einem bestimmten Zeitpunkt zurückzugehen.
Scalable and Efficient: Delta ist für Big Data optimiert und ermöglicht die Nutzung beliebiger Datenmengen.