Als Data Engineer entwickelst und optimierst du Datenpipelines für industrielle Telemetriedaten im großen Maßstab. Du arbeitest mit PySpark und Databricks, verwandelst komplexe Datenprobleme in robuste, skalierbare Lösungen und trägst maßgeblich dazu bei, dass unsere Plattformen auch bei hohen Throughput zuverlässig performen.
Tätigkeiten
- Analyse und Verarbeitung großer Mengen industrieller Telemetriedaten mit PySpark und Databricks
- Entwicklung und Optimierung skalierbarer Datenpipelines für produktive Umgebungen
- Sicherstellung von Datenqualität, Performance und Zuverlässigkeit über den gesamten Datenlebenszyklus
- Eigenverantwortliches Arbeiten in einem modernen, remote-first Umfeld
- Enge Zusammenarbeit mit einem kleinen, hochspezialisierten Team aus erfahrenen Kolleg*innen
Anforderungen
Voraussetzungen:
- Fundierte Praxiserfahrung mit PySpark und Databricks in produktiven Umgebungen
- Erfahrung im Aufbau und Betrieb skalierbarer Datenpipelines für große Datenvolumina
- Gutes Verständnis für Telemetrie- und Zeitreihendaten sowie deren spezifische Herausforderungen
- Die Fähigkeit, komplexe Datenprobleme in pragmatische, nachhaltige Lösungen zu überführen
- Strukturierte, eigenverantwortliche Arbeitsweise
Von Vorteil:
- Erfahrung mit industriellen Datenquellen und IoT-Datenlandschaften
- Kenntnisse in Azure (Data Lake, Event Hubs, Databricks auf Azure)
- Vertrautheit mit Delta Lake, Spark Structured Streaming oder vergleichbaren Technologien
- Erfahrung mit CI/CD-Prozessen für Datenpipelines
Team
Unser Team ist klein, verteilt (Berlin, Düsseldorf, Stuttgart, Konstanz) und arbeitet mit echter Gestaltungsfreiheit.
Wir sind ein hochspezialisiertes Team mit flachen Hierarchien und kurzen Entscheidungswegen.
Bewerbungsprozess
- Kennenlernen mit der Geschäftsführung - auf persönlicher Ebene, ca. 30 Minuten
- Kennenlernen mit dem Team und technischer Deep Dive - ca. 60 Minuten
- Finales Gespräch - ca. 30 Minuten
- Angebot