Apps & Mobile Entwicklung
Bahnfunk-Störung: Wenn ein Update den Bahnverkehr stoppt
Eine bundesweite Störung des digitalen Bahnfunks GSM-R hat den Bahnverkehr der Deutschen Bahn am späten Dienstagabend zeitweise lahmgelegt. Zwar lief der Betrieb in der Nacht wieder an, doch die technische Ursache ist weiter nur in Teilen bekannt.
Was passiert ist
Die Deutsche Bahn meldete am späten Abend eine bundesweite Störung des digitalen Bahnfunks GSM-R. In der Folge wurden Züge vorläufig an Bahnhöfen zurückgehalten. Betroffen waren Fern- und Regionalverkehr, Teile des S-Bahn-Verkehrs, Privatbahnen sowie der Güterverkehr. Gegen Mitternacht war die Ursache laut Bahn identifiziert, kurz darauf lief der Verkehr schrittweise wieder an. Am Morgen sprach die DB von einem weitgehend reibungslosen Betriebsanlauf, einzelne Einschränkungen sollten aber weiterhin möglich sein.
Offiziell nennt die Bahn bislang keine detaillierte technische Ursache. Nach Informationen des RBB gehen Sicherheitsbehörden derzeit nicht von Sabotage aus. Stattdessen werde ein fehlerhaftes Update der Bahn als Ursache vermutet. Auch der SWR berichtet, Bahnmitarbeiter hätten von einem solchen Software-Update gesprochen. Bestätigt ist damit bislang nur: Der Ausfall betraf das GSM-R-System, die Update-These ist noch nicht abschließend aufgeklärt.
Warum GSM-R mehr als nur „Funk“ ist
GSM-R ist nicht mit dem Mobilfunkempfang der Reisenden im Zug zu verwechseln. Das System ist ein eigenes digitales Funknetz für den Bahnbetrieb und dient unter anderem der Kommunikation zwischen Triebfahrzeugführern und Fahrdienstleitern. Darüber laufen betriebliche Gespräche, oder auch der Zugfunk-Notruf.
Fällt diese Kommunikationsschicht großflächig aus, geht es vor allem um Betriebssicherheit. Fahrdienstleiter müssen Triebfahrzeugführer erreichen können, etwa bei Gefahren, Änderungen im Betriebsablauf oder betrieblichen Anweisungen. Umgekehrt müssen Triebfahrzeugführer Notrufe absetzen und die zuständige Betriebsstelle erreichen können. Ohne diese gesicherte Kommunikation ist ein regulärer Zugbetrieb nur stark eingeschränkt oder gar nicht möglich.
Die eigentliche Frage: Warum bundesweit?
Aus technischer Sicht ist deshalb weniger überraschend, dass ein GSM-R-Ausfall den Zugverkehr stoppt. Spannender ist die Frage, warum ein mutmaßlich fehlerhaftes Update eine derart große Wirkung entfalten konnte. Bei kritischer Infrastruktur wäre zu erwarten, dass Änderungen kontrolliert ausgerollt, regional begrenzt getestet und bei Problemen schnell zurückgerollt werden können.
Ein bundesweiter Effekt deutet nicht zwingend darauf hin, dass „alle Funkmasten“ gleichzeitig ausgefallen sind. Möglich wäre auch ein Fehler in einer zentralen Komponente, etwa in der Netzsteuerung, der Vermittlung, der Authentifizierung, der Leitstellenanbindung oder im Managementsystem. Wird ein solcher zentraler Dienst beschädigt, können viele regional eigentlich getrennte Funkzellen praktisch gleichzeitig unbrauchbar werden.
Der Punkt ist, dass Redundanz nur dann schützen, wenn sie nicht dieselbe fehlerhafte Software, dieselbe Konfiguration oder denselben Steuerpfad nutzt. Zwei Systeme, die zwar physisch getrennt sind, aber logisch gemeinsam verwaltet werden, können durch denselben Fehler gleichzeitig betroffen sein. In der IT spricht man vom „Blast Radius“: Ein einzelner Fehler wirkt weit über die eigentlich erwartete Zone hinaus.
Was jetzt geklärt werden muss
Sollte sich das fehlerhafte Update als Ursache bestätigen, stellen sich mehrere technische und organisatorische Fragen. Welche Komponente wurde aktualisiert? Warum konnte der Fehler bundesweit wirksam werden? Gab es einen gestaffelten Rollout oder wurde die Änderung großflächig gleichzeitig aktiv? Waren Testsysteme und Produktionssystem ausreichend getrennt? Warum griff eine Rückfallebene nicht so, dass zumindest Teile des Netzes weiter regulär betrieben werden konnten? Und wie schnell war ein Rollback möglich?
Die Bahn hat die Störung vergleichsweise schnell behoben. Das ändert aber nichts an der grundsätzlichen Frage, wie robust ein sicherheitsrelevantes Kommunikationsnetz gegen eigene Änderungen ist. Kritische Infrastruktur muss nicht nur gegen Angriffe geschützt werden. Sie muss auch so gebaut und betrieben werden, dass ein fehlerhaftes internes Update nicht zum bundesweiten Stillstand führt.