Energy Data Lab
Willkommen im Energy Data Lab (EDL), einer Initiative, die darauf abzielt, das Forschungsumfeld für Machine-Learning-Modelle für Energiesysteme zu transformieren. Unsere Vision ist es, Energie-Forschende zu stärken, indem wir eine neuartige digitale Plattform für den Austausch von Daten, Modellen und Code auf standardisierte und skalierbare Weise bereitstellen und leistungsstarke Tools anbieten, um Forschende während des gesamten Entwicklungsprozesses von ML-Modellen zu unterstützen.
Bei der Entwicklung neuer ML-Modelle für Energiesysteme durchlaufen Forschende verschiedene Schritte. Zuerst müssen Daten beschafft, erkundet, gereinigt und umgeformt werden, damit sie für die Modellierung verwendet werden können. Diese Schritte sind typischerweise zeitaufwändig und repetitiv. Das EDL wird eine Vielzahl von Benchmark-Datensätzen zusammen mit Visualisierungen und Bereinigungs- oder Zusammenführungsskripten anbieten, die den Datenvorbereitungsprozess erheblich beschleunigen werden. Für die Entwicklung und das Training von Modellen werden Gewichte vortrainierter Modelle bereitgestellt, um die Leistung und Rechenzeit für EDL-User zu verbessern, zusammen mit einer Vielzahl von Benchmark-Modellen. Damit fördert das EDL transparente Forschung und ermöglicht es allen Usern, Methoden auf standardisierte Weise zu vergleichen.
Als leistungsstarkes Tool, um diese Features zu ermöglichen, wird das EDL Directed Acyclic Graphs (DAGs) einsetzen. Diese DAGs repräsentieren und verfolgen die gesamte ML-Entwicklungspipeline. Jedes Artefakt in diesem Prozess (etwa ein Datensatz, ein Skript wie ein Datenbereinigungsprotokoll oder ein ML-Modell) wird als Knoten in einem DAG dargestellt. Die gerichteten Kanten beschreiben dann, welches Artefakt ein anderes Artefakt verwendet. Zum Beispiel würde der Prozess der Bereinigung eines Rohdatensatzes wie in Abbildung 1 dargestellt beschrieben werden.
Unser wichtigstes Entwicklungsprinzip besteht darin, das EDL benutzerzentriert zu gestalten, d. h. eng an die Bedürfnisse von Energie-Forschenden anzupassen. Aus diesem Grund war unser erster Schritt im Entwicklungsprozess, zukünftige User des EDL zu interviewen. Das Ergebnis wurde auf der 1. nfdi4energy-Konferenz im Jahr 2024 präsentiert, und eine Zusammenfassung der Ergebnisse finden Sie im veröffentlichten Präsentations-Abstract.
Ein zentraler Ratschlag aus den Benutzerinterviews war die Dezentralisierung der Plattform. Die Plattform soll nicht alle Ressourcen in einem zentralen Repository speichern, sondern vielmehr als Register für Artefakte dienen, die an den Instituten gespeichert werden können, von denen die Artefakte stammen. Dies fördert die Leistungsfähigkeit und Sicherheit des EDL und entspricht der dezentralen Natur der Forschung.
Ein weiteres Merkmal, das zukünftige EDL-User wünschen, ist eine einfache und schnelle Forschungsdatenverwaltung. Forschende beklagten sich über Herausforderungen, ihre eigenen Artefakte auf verständliche und standardisierte Weise zu speichern und zu annotieren. Das EDL wird daher so eingerichtet, dass es als personalisiertes und/oder projektbezogenes Forschungsdatenverwaltungstool verwendet werden kann. Mit einem Bekenntnis zur Transparenz ermutigt das EDL dann Institutionen, Einblicke in ihre Modelle, Experimente und Daten zu teilen. Durch Ankreuzen eines "öffentlich" Kontrollkästchens laden Forschende andere dazu ein, ihre Forschungsartefakte zu erkunden und zu nutzen. Auf diese Weise wird das EDL mehr als nur ein Datenverwaltungstool – es ist eine Plattform für den Austausch, die Zusammenarbeit und die Inspiration.
Indem wir dieses Konzept zum Leben erwecken, wird das EDL (i) die Forschung und Entwicklung von ML-Techniken im Energiebereich beschleunigen, (ii) die Qualität der entsprechenden Forschung verbessern und (iii) die tatsächliche Performance von ML-Modellen im Energiemanagement verbessern.
Wenn Sie Fragen, Ideen oder sonstiges Feedback haben, zögern Sie nicht, uns per E-Mail zu kontaktieren!
Sind Sie auf der Suche nach einer Masterarbeit, einem Praktikum oder einem Interdisziplinären Projekt (IDP)? Schließen Sie sich uns im Energy Data Lab an, und lassen Sie uns gemeinsam die Zukunft der ML-Modellentwicklung für Energiesysteme gestalten!