DATALAKE AS A SERVICE

Revolutionieren Sie Ihre
Cloud-Infrastruktur
noch heute mit
der Datalake-Lösung von Datamesh!

Erschließen Sie das wahre Potenzial Ihrer Daten mit unserem nahtlosen und innovativen Produkt, das Kompatibilität garantiert und den Wert Ihrer Daten maximiert.

Unsere Datalake-Lösung wurde für die mühelose Integration in Ihre bestehende Azure- oder AWS-Umgebung entwickelt und ist die Antwort, nach der Sie schon lange gesucht haben.

Warum eine Datalake Integration mit uns?

Laut Alex Gorelik, Autor des Bestsellers “What is a data lake?" und "The Enterprise Big Data Lake", sollte ein effizientes Datalake die folgenden Eigenschaften erfüllen:

  • Eine kostengünstige Speicherung und skalierbare Rechenleistung um große Datenmengen zu speichern und zu verarbeiten, ohne dabei übermäßige Kosten zu verursachen.

  • Den Zugang und eine effiziente Verwaltung der Daten umsetzen, damit jeder die Daten finden kann, gebraucht werden.

  • Eine mehrstufige Zugangsverwaltung beinhalten, und Daten nur denjenigen zugänglich machen, die sie benötigen.

Obwohl einige dieser Bedingungen von modernen Cloud-Diensten erfüllt werden, z. B. von Amazon S3, gibt es insgesamt keine kostengünstige Lösung, die alle Bedingungen erfüllt und in bestehende Strukturen implementiert. Die Implementierung von Datalakes ist deswegen mit großem Aufwand und Kosten verbunden.

Die Architektur

Unser Produkt kann vollständig in Ihre bestehende Cloud-Infrastruktur integriert werden. Wir bieten derzeit Integrationen für Azure und Amazon Web Services an. Der Kern des Datalake ist ein moderner Objektspeicher, in dem beliebige Datenformate gespeichert werden können.

Der Rest der Architektur lässt sich in drei Komponenten aufteilen:

  • Extract and Load: Datenaus über 250 Quellen abrufen und an einem Ort speichern.

  • Transform: Mit Hilfe von SQL werden Daten gefiltert, bereinigt, kombiniert undvieles mehr.

  • Serve: Dieverarbeiteten Daten können über JDBC abgerufen und für Endbenutzeranwendungenoder Dashboards verwendet werden.

Nachstehend werden die Datenspeicherung des Datalake und die drei oben genannten Bereiche mit der zugrunde liegenden Architektur näher erläutert.

Datasources

Extract & Load

Large File System

Transform

Serverless SQL

Encryption

Azure und AWS verschlüsseln die Daten standardmäßig. Für die Verschlüsselung wird der 256-Bit Advanced Encryption Standard (AES-256) verwendet.

  • Dies ist der effizienteste der bestehenden Standards und bedeutet, dass der Zugriff auf Ihre Daten von außerhalb Ihres Cloud-Kontos praktisch unmöglich ist.

  • Für zusätzliche Sicherheit bieten wir eine Verschlüsselung für sensible Daten über einen von Ihnen verwalteten Schlüssel. Dies gibt Ihnen mehr Flexibilität bei der Verwaltung der Zugriffsrechte und Sie können Ihre bestehenden Benutzer im Cloud-Konto für die Zugriffsverwaltung verwenden.

Data Cleaning

Um nützliche Informationen aus den Daten gewinnen zu können, sollten sie keine Fehler enthalten. Unser Datalake bietet hierfür viele Funktionen in einfacher SQL-Syntax.
Einige Beispiele:

  • sql: Use sql statments like concat, cast or split to clean up data

  • json: col : outer. inner. Name

  • If upper and lower case is mixed : LOWER

  • To standardize the number of decimal places: FORMAT_NUMBER

Die Einrichtung des Datalake wird komplett für Sie übernommen, aber auch danach sind unsere Experten für Sie da und unterstützen Sie bei der Wartung des Systems.

Data Profiling

Mit dem automatischen Datenprofiler erhalten Sie jederzeit und ohne jeden Aufwand einen aktuellen Überblick über Ihre Daten. Das ermittelte Datenprofil enthält u.a. für jede Spalte Folgendes:

Der Datentyp der Daten, ob die Spalte Nullwerte enthält oder ob die Spalte Duplikate für numerische Daten enthält:

  • json: col : outer. inner. Name

  • If upper and lower case is mixed : LOWER

  • To standardize the number of decimal places: FORMAT_NUMBER

Monitoring and Notification Fehler

Bei Code besteht Einigkeit darüber, dass er automatisch getestet werden muss, um Fehler zu vermeiden. Bei Daten hingegen sind Tests nicht Standard und Fehler in den Daten werden meist erst dann bemerkt, wenn das Produktions-Dashboard leer ist. Dadurch werden Fehler oft zu spät bemerkt und es kommt zu Datenverlusten. Um dem entgegenzuwirken, bietet unsere Datalake-Lösung umfangreiche Tests während der Transformationen. So kann beispielsweise erkannt werden, ob eine Spalte Nullwerte enthält oder in einem ungültigen Format vorliegt.

Kosten

Unser Datalake ist so konzipiert, dass er in Ihrer bestehenden AWS- oder Azure-Umgebung bereitgestellt werden kann. Für die Ersteinrichtung berechnen wir eine feste Einrichtungsgebühr von 5.000 €.
Die laufenden Kosten hängen von der vorhandenen AWS- oder Azure-Umgebung ab. In beiden Fällen werden 15 % des Rechnungsbetrags berechnet, so dass Sie die volle Kontrolle über die Infrastrukturkosten haben.

Dieses Preismodell ist ideal für Ihre individuellen Anforderungen. Die monatliche Mindestgebühr beträgt 2000 € bei 8 Stunden Support.

Nachfolgend sind die Kosten für ein Beispiel berechnet.

AWS

  • S3 Buckets mit optionaler Verschlüsselung

  • Extrahieren und Laden über Airbyte

  • Transformation mit dbt & Databricks

  • Serverloses SQL mit Athena und JDBC-Schnittstelle

15%

pro Monat

AWS

BELIEBT

Azure

  • Blob-Speicherung mit optionaler Verschlüsselung

  • Extrahieren & Laden über Airbyte

  • Transformation mit dbt & Databricks

  • JDBC-Schnittstelle über Azure Serverless SQL

15%

pro Monat

AWS

Full Control

Da alle Komponenten unseres Datalake in Ihrem bestehenden Cloud-Abonnement bereitgestellt werden, haben Sie die volle Kontrolle. So können Sie die anfallenden Kosten auf die einzelnen Cloud-Services zurückführen und diese nach Ihren Anforderungen optimieren.

Expert Assistance

Das Deployment des Datalake wird komplett für Sie übernommen, aber auch danach sind unsere Experten für Sie da und unterstützen Sie bei der Wartung der Systeme.

Features

Ein Überblick der Funtionen unseres Datalakes:

Import aus Kafka, MySQL & weiteren Quellen

Data Ingestion

Import aus Kafka, MySQL und anderen Quellen

Umwandlung in standardisierte Formate durch Apache Spark

Standard-
ization

Import aus Kafka, MySQL & weiteren Quellen

Data Cleaning

Prüfen auf Fehler und fehlende Daten

Automatische Statistiken über Ihre Daten. Unterstützt von Apache Spark

Data
Profiling

Import aus Kafka, MySQL & weiteren Quellen

Monitoring
& Alerting

*Fehler melden, sobald sie auftauchen*

Verbinden, Verknüpfen und Erstellen von Ansichten mit SQL. Unterstützt von Apache Spark

Business Logic

Standardization

Mit Ausnahme der Landezone verwenden alle anderen Zonen das Delta-Format zur Speicherung der Daten. Dieses Format bietet die folgenden Vorteile:

  • Compression: Die Daten werden mit modernen Kompressionsalgorithmen komprimiert und belegen nur so viel Speicherplatz wie nötig.

  • Time travel: Dieses Format zeichnet alle Änderungen an den Tabellen auf und ermöglicht es Ihnen sogar, zu einem bestimmten Zeitpunkt zurückzugehen.

  • Scalable and Efficient: Delta ist für Big Data optimiert und ermöglicht die Nutzung beliebiger Datenmengen.

Kontaktieren Sie uns noch heute
und erschließen Sie das wahre Potenzial Ihrer Daten
.