Connect with us

Künstliche Intelligenz

Core Java: Parallel, aber richtig – Wie Java-Collectors unter Last bestehen


Manchmal reicht es nicht aus, dass Code funktioniert – er muss auch unter Last funktionieren. In modernen Anwendungen, die große Datenmengen verarbeiten, steht Entwicklerinnen und Entwicklern mit der Streams-API in Java ein elegantes, deklaratives Werkzeug zur Verfügung, um Daten in Pipelines zu transformieren, zu filtern und schließlich zu aggregieren. Die Vorstellung, mit wenigen Zeilen komplexe Datenoperationen zu beschreiben, ist nicht nur verführerisch, sondern tatsächlich realistisch. Doch was passiert, wenn diese Operationen auf Millionen von Einträgen treffen? Wenn die Ausführung in mehreren Threads parallel erfolgen soll, um Zeit zu sparen und Mehrkernsysteme effektiv zu nutzen?


Sven Ruppert

Sven Ruppert

Seit 1996 programmiert Sven Java in Industrieprojekten und seit über 15 Jahren weltweit in Branchen wie Automobil, Raumfahrt, Versicherungen, Banken, UN und Weltbank. Seit über 10 Jahren ist er von Amerika bis nach Neuseeland als Speaker auf Konferenzen und Community Events, arbeitete als Developer Advocate für JFrog und Vaadin und schreibt regelmäßig Beiträge für IT-Zeitschriften und Technologieportale.
Neben seinem Hauptthema Core Java beschäftigt er sich mit TDD und Secure Coding Practices.

Genau an dieser Stelle rückt ein Konzept in den Vordergrund, das oft zu wenig Beachtung findet: der Collector. Er ist das Element am Ende einer Stream-Pipeline, das bestimmt, was mit den verarbeiteten Daten geschehen soll. Und obwohl die API einfach erscheint – collect(Collectors.toList()) – verbirgt sich dahinter eine Architektur, die in paralleler Ausführung ganz eigene Herausforderungen mit sich bringt.

Im Folgenden geht es daher nicht nur um die Syntax oder die Mechanik von Collectoren, sondern um ein tiefes Verständnis für die Bedingungen, unter denen sie korrekt und effizient zum Einsatz kommen. Wir schauen auf Standardlösungen des JDK (Java Development Kit), diskutieren individuelle Implementierungen, zeigen typische Fehler – und kommen letztlich zu der Frage: Wie viel Parallelisierung verträgt ein Collector, ohne dass es gefährlich wird?

Die Streams-API von Java vermittelt auf den ersten Blick den Eindruck, dass sich das Sammeln von Ergebnissen – das sogenannte terminale Aggregieren – problemlos parallelisieren lässt. Doch hinter der Methode collect(...) verbirgt sich mehr als nur syntaktische Bequemlichkeit. Sie ist eine koordinierte Zusammenarbeit zwischen einem Datenstrom und einem Collector – einem Objekt, das aus Einzelteilen ein Ganzes formt.

Ein Collector besteht im Kern aus vier funktionalen Komponenten: dem supplier, der für jeden Teilprozess einen neuen Zwischenspeicher bereitstellt; dem accumulator, der Elemente in diesen Zwischenspeicher einspeist; dem combiner, der mehrere Zwischenspeicher zu einem zusammenführt; und schließlich dem finisher, der das Endergebnis produziert. Während supplier und accumulator auch in sequenziellen Streams essenziell sind, tritt der combiner erst dann in Aktion, wenn mehrere Threads unabhängig voneinander gesammelt haben – also bei einem parallelStream().

Hier liegt der erste fundamentale Unterschied zwischen sequenzieller und paralleler Verarbeitung: In einem sequenziellen Stream genügt es, schrittweise in einen einzigen Speicher zu akkumulieren. In der parallelen Variante hingegen entstehen mehrere voneinander isolierte Zwischenspeicher, deren Inhalte später konfliktfrei zu einem Endergebnis verschmolzen werden müssen. Dieses Verschmelzen geschieht durch den combiner – und genau an dieser Stelle entscheidet sich, ob ein Collector für parallele Verarbeitung tauglich ist oder nicht.

Die Tauglichkeit hängt von mehreren Eigenschaften ab: Die Operationen müssen assoziativ sein, also unabhängig von der Kombination der Zwischenergebnisse dasselbe Resultat liefern. Zudem darf kein geteilter Zustand ohne Synchronisierung vorliegen. Und nicht zuletzt müssen die einzelnen Schritte deterministisch und frei von Seiteneffekten bleiben – andernfalls wird aus einer Parallelisierung schnell eine Quelle subtiler Fehler.

Das Wissen um diese strukturellen Anforderungen ist der erste Schritt zu einem bewussten Einsatz paralleler Verarbeitung. Denn nur wer verstanden hat, wie Collector und Stream im Zusammenspiel funktionieren, kann abschätzen, wann ein Performancegewinn möglich ist – und wann man sich stattdessen instabile oder schlicht falsche Ergebnisse einhandelt.

Stellen wir uns vor, ein Stream wird parallel ausgeführt – etwa über ein großes Dataset, das in mehrere Segmente aufgeteilt ist. Jedes dieser Segmente wird nun unabhängig verarbeitet. Was trivial klingt, hat tiefgreifende Implikationen: Sobald mehrere Threads gleichzeitig sammeln, dürfen sich deren Zwischenergebnisse nicht in die Quere kommen. Die Verantwortung für die Korrektheit liegt beim Collector – genauer: bei seiner strukturellen und funktionalen Ausgestaltung.

Die erste grundlegende Eigenschaft ist Assoziativität. Ein combiner-Aufruf muss unabhängig von der Reihenfolge konsistente Ergebnisse liefern. combine(a, b) und combine(b, a) müssen äquivalente Resultate erzeugen. Das ist notwendig, weil die Reihenfolge der Kombination in einem parallelen Kontext vom Scheduler abhängt – und somit unvorhersagbar ist.

Der zweite Punkt betrifft den Zugriff auf Speicherstrukturen. Sobald ein Collector während der Akkumulation einen gemeinsamen, veränderbaren Zustand nutzt – etwa eine nicht synchronisierte Liste oder Map – entsteht ein potenzieller Hotspot für Race Conditions. Der Collector muss entweder ausschließlich mit lokalen, thread-isolierten Zwischenspeichern arbeiten oder sich auf nebenläufige Datenstrukturen stützen, wie etwa ConcurrentHashMap, LongAdder oder explizit synchronisierte Wrapper.

Darüber hinaus ist auch Determinismus ein wesentliches Kriterium: Eine parallele Ausführung darf nicht zu unterschiedlichen Ergebnissen führen – weder inhaltlich noch strukturell. Insbesondere bei ungeordneten Strukturen wie HashSet oder HashMap ist Vorsicht geboten, da die Iterationsreihenfolge variieren kann – was bei Collectors.joining() oder Collectors.toMap() problematisch wird, wenn die Anwendung auf Ordnung angewiesen ist.

Die drei Anforderungen Assoziativität, isolierter Zustand und Determinismus bilden den technischen Prüfstein für parallele Collectoren. Sie sind nicht optional, sondern grundlegend. Wer sie ignoriert, riskiert schwer zu reproduzierende Fehler, unvollständige Ergebnisse oder performante, aber semantisch falsche Ausgaben.

Beispiele aus der Java-Standardbibliothek: Ein naheliegender Weg, um das abstrakte Konzept paralleler Collectoren greifbar zu machen, führt über die bereits in der Java-Standardbibliothek enthaltenen Collectors. Viele Entwickler nutzen Collectors.toList(), toSet() oder joining() nahezu täglich – selten jedoch im Wissen darum, ob und wie sich diese Collectoren in einem parallelen Kontext verhalten.

Ein einfaches Beispiel: Der Collector Collectors.toList() nutzt intern eine ArrayList. Diese ist nicht thread-sicher. Folglich ist das Ergebnis bei paralleler Verwendung potenziell inkonsistent, sofern nicht intern für Isolation der Zwischenspeicher gesorgt ist.


public static 
Collector> toList() {
   return new CollectorImpl<>(ArrayList::new, List::add,
                              (left, right) -> { left.addAll(right); return left; },
                              CH_ID);
}


Tatsächlich funktioniert dieser Collector in parallelen Streams dennoch korrekt, weil die Streams-API jedem Thread seinen eigenen Akkumulationsbereich zuteilt und erst am Ende über einen kombinierten Merge-Prozess zusammenführt. Der entscheidende Punkt liegt also nicht in der Datenstruktur selbst, sondern in ihrer kontrollierten Isolierung.

Weniger robust zeigt sich Collectors.groupingBy(...). Diese Variante basiert auf einer HashMap, die nicht für gleichzeitigen Zugriff ausgelegt ist. Wird dieser Collector ohne Schutzmaßnahmen in einem parallelStream() eingesetzt, drohen Race Conditions. Die Standardlösung dafür lautet Collectors.groupingByConcurrent(...), die intern auf ConcurrentHashMap setzt und somit für gleichzeitigen Zugriff konzipiert ist.


public static 
Collector>>
groupingByConcurrent(Function super T, ? extends K> classifier) {
   return groupingByConcurrent(classifier, ConcurrentHashMap::new, toList());
}


Ein Blick auf die Signatur dieser Methode zeigt bereits die Intention:


Map> result = namen.parallelStream()
    .collect(Collectors.groupingByConcurrent(String::length));


In diesem Beispiel werden Strings nach ihrer Länge gruppiert – in einer parallel verarbeitbaren Weise. Entscheidend ist, dass sowohl die Map-Implementierung als auch der Akkumulationsprozess thread-safe sind.

Ebenso interessant ist Collectors.toConcurrentMap(...), der explizit dafür vorgesehen ist, große Mengen von Key-Value-Paaren parallel zu aggregieren. Hier ist die Kombination von Schlüsselkonflikten und der richtige Umgang mit Merge-Funktionen von besonderem Interesse.

Die Erkenntnis aus diesen Beispielen lautet: Nicht jeder Standard-Collector ist per se für Parallelität geeignet. Nur weil eine Methode aus dem Collectors-Baukasten stammt, bedeutet das nicht, dass sie in jeder Ausführungskonfiguration korrekt funktioniert. Der Kontext entscheidet – und mit ihm die verwendete Datenstruktur, das Verhalten des combiner und die Art der Akkumulation.

Wer also aus einem Stream nicht nur ein beliebiges Ergebnis, sondern ein korrektes und performantes Ergebnis ziehen will, sollte die Wahl seines Collectors ebenso sorgfältig treffen wie das Filterkriterium am Anfang der Pipeline.

So mächtig die vorgefertigten Collectors der Java-Standardbibliothek auch sein mögen, manchmal reichen sie für spezifische Anforderungen nicht aus. Besonders wenn domänenspezifische Aggregationen, spezialisierte Datenstrukturen oder nicht-triviale Reduktionslogik benötigt werden, lohnt sich ein Blick auf die Möglichkeit, eigene Collector-Implementierungen zu erstellen.

In der Regel lässt sich ein eigener Collector mit der statischen Methode Collector.of(...) erstellen. Diese Methode erwartet fünf Parameter: einen Supplier, der einen neuen Akkumulator erzeugt; einen BiConsumer, der ein Element in den Akkumulator einfügt; einen BinaryOperator zum Kombinieren zweier Akkumulatoren; optional eine Function zur Konvertierung des Ergebnisses; und schließlich ein Array Collector.Characteristics..., das Metainformationen wie CONCURRENT oder UNORDERED bereitstellt.

Ein einfacher, aber aussagekräftiger Collector könnte etwa Zeichenketten parallel zu einer ConcurrentLinkedQueue sammeln:


Collector> toConcurrentQueue() {
    return Collector.of(
        ConcurrentLinkedQueue::new,
        Queue::add,
        (left, right) -> { left.addAll(right); return left; },
        Collector.Characteristics.CONCURRENT, Collector.Characteristics.UNORDERED
    );
}


Dieser Collector ist sowohl CONCURRENT als auch UNORDERED, das bedeutet: Er kann von mehreren Threads gleichzeitig beschrieben werden, ohne dass die Einfügereihenfolge garantiert werden muss. Wichtig ist dabei, dass ConcurrentLinkedQueue als thread-sichere Datenstruktur fungiert und die Operation addAll ebenfalls nebenläufig unkritisch ist.

Doch auch komplexere Szenarien sind denkbar, etwa das parallele Ermitteln von statistischen Kennzahlen (Minimum, Maximum, Durchschnitt) über eine Datenmenge. In solchen Fällen kann ein record als Akkumulatorstruktur dienen, der in sich bereits alle benötigten Teilzustände kapselt. Der combiner muss dann lediglich diese Strukturen feldweise konsolidieren.

Eigene Collector-Implementierungen zwingen dazu, sich mit der Parallelisierbarkeit der genutzten Datenstrukturen und der Kombinierbarkeit der Aggregationslogik intensiv auseinanderzusetzen. Das ist kein Nachteil, sondern ein wertvoller Lerneffekt. Denn nur wer versteht, was ein Collector im Inneren macht, kann ihn bewusst und sicher einsetzen.

Wer Collectoren im Parallelisierungskontext produktiv einsetzen möchte, sollte einige bewährte Strategien berücksichtigen – nicht als starre Regeln, sondern als Orientierungsrahmen für robuste und effiziente Implementierungen.

Ein erster Grundsatz lautet: Nur parallelisieren, wenn ein echter Nutzen zu erwarten ist. Kleine Datenmengen, triviale Transformationen oder IO-gebundene Prozesse profitieren in der Regel nicht von parallelStream(). Im Gegenteil: Der Overhead des Thread-Managements kann den potenziellen Performancegewinn sogar übersteigen. Eine Parallelisierung lohnt sich erst dann, wenn die zu verarbeitenden Datenmengen hinreichend groß und die Operationen CPU-intensiv sind.

Zweitens: Nur thread-sichere oder isolierte Datenstrukturen verwenden. Das bedeutet entweder, dass jeder Thread seinen eigenen Akkumulator nutzt – was die Streams-API intern unterstützt – oder dass explizit nebenläufige Datenstrukturen wie ConcurrentHashMap, ConcurrentLinkedQueue oder atomare Wrapper eingesetzt werden.

Drittens: Collectors gezielt auswählen. Die Standardbibliothek bietet mit groupingByConcurrent, toConcurrentMap oder mapping leistungsfähige Werkzeuge, die speziell für den parallelen Einsatz konzipiert wurden. Wer darüber hinaus eigene Lösungen entwickelt, sollte besonderes Augenmerk auf den combiner und die Assoziativität der Logik legen.

Viertens: Ergebnisse validieren – insbesondere bei neuen oder komplexen Pipelines. Parallele Streams verhalten sich nicht deterministisch in der Ausführung, deshalb sind Tests in unterschiedlichen Auslastungsszenarien und unter variierender Last notwendig. Das gilt vor allem dann, wenn Entwicklerinnen oder Entwickler Collectoren selbst entwickeln oder anpassen.

Und nicht zuletzt: Messen statt vermuten. Tools wie JMH (Java Microbenchmark Harness), Flight Recorder oder async-profiler helfen dabei, realistische Aussagen über die Performancevorteile zu treffen. Parallelisierung ohne Metriken ist wie Blindflug mit Rückenwind – vielleicht schneller, aber womöglich in die falsche Richtung.



Source link

Weiterlesen
Kommentar schreiben

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Künstliche Intelligenz

heise übernimmt Hardware-Shop Mindfactory: Bundeskartellamt gibt grünes Licht


Die heise group übernimmt wie geplant den Hardware-Händler Mindfactory. Die Übergabe findet zum 31. Juli 2025 statt, woraufhin das Unternehmen in die heise mindfactory GmbH umbenannt wird. Das Bundeskartellamt äußerte keine Einwände. Der Markenname Mindfactory bleibt erhalten; für Kunden soll sich praktisch nichts ändern.

Als neuen Geschäftsführer ernennt heise Marcel Kirchner, der bereits seit knapp 16 Jahren bei Mindfactory im Einkauf als Purchasing Manager arbeitet. Er beteiligt sich mit 3,57 Prozent am Unternehmen. Der Standort in Wilhelmshaven, alle Mitarbeiter und Kundenbeziehungen werden übernommen.

Kunden, die vor der Insolvenz bei Mindfactory eingekauft haben, erhalten künftig weiter Support von der heise mindfactory GmbH. Geschäftsführer Ansgar Heise sagt dazu: „heise lässt Kunden von Mindfactory bei Beschwerden nicht im luftleeren Raum, Reklamationen werden angenommen.“

Die Redaktionen der heise group, einschließlich heise online und c’t, bleiben unabhängig von der neuen Handelssparte. Das Gleiche gilt für die Preisvergleicher Geizhals und guenstiger, die mehrheitlich heise gehören. Mindfactory soll dort etwa nicht bevorzugt behandelt werden.

Ansgar Heise sagt: „Sowohl die Redaktionen als auch Geizhals bleiben unabhängig. Wir werden das hohe Vertrauen auf Leser- und Kundenseite nicht verspielen. Das passt weder moralisch noch rational zu uns. Wir sehen eine große Chance in der Übernahme und werden auch die Beziehungen zu den Händlern nicht gefährden.“

Zum Kaufpreis des Hardware-Händlers äußern sich weder heise noch Mindfactory.

Mindfactory verschickt derweil Mails an Kunden, um über den Verkauf an heise zu informieren. Wer nicht widerspricht, behält das Kundenkonto und kann wie gewohnt weiter online bestellen.


(mma)



Source link

Weiterlesen

Künstliche Intelligenz

iPhone 17: Wann es kommt, wie die Produktion läuft, wie es aussieht


Es dauert gar nicht mehr lange, bis Apples diesjährige iPhones erscheinen: Allen Anzeichen nach wird es im September wieder so weit sein. Pünktlich zum Anlaufen der Produktionsanlagen sind aus Asien und anderswo nun frische Details zu den neuen Modellen durchgesickert. Dabei geht es unter anderem um Änderungen bei Apples Mini-Anzeige Dynamic Island, dem genauen Vorstellungstermin, der Produktion der Geräte und mögliche Sonderfarben.

So geht der Bloomberg-Journalist Mark Gurman davon aus, dass Apples iPhone-Event in die Woche ab dem 8. September fallen dürfte (KW 37). Der tatsächliche Termin könnte der 9. September sein, denn Apple mag Dienstage für Veranstaltungen. Alternative sind auch gleich der Montag (8.) oder der Mittwoch (10.) denkbar. Freitage oder Wochenenden nutzt Apple nie, denn oftmals werden gleich am Freitag Vorbestellungen ermöglicht. So hielt Apple das iPhone-16-Event im letzten Jahr am 9. September (Montag) ab, die Preorder-Phase begann am darauffolgenden Freitag (13. September).

Geplant sind vermutlich insgesamt vier neue iPhone-Modelle. Das Standard-iPhone 17 trifft auf den neuen Formfaktor iPhone 17 Air mit besonders dünnem Gehäuse sowie die Pro-Modelle iPhone 17 Pro und 17 Pro Max, die jeweils die beste Chip- und Kamera-Ausstattung erhalten dürften. Ein Plus-Modell, also ein großes Standard-iPhone, ist angeblich diesmal nicht vorgesehen. Neben den neuen iPhones werden, sollte Apple sich an sein übliches Playbook halten, auch neue Apple-Watch-Modelle erwartet, insbesondere die dritte Variante der Apple Watch Ultra gilt als besonders interessant unter anderem mit Satellitenfunk.

Die Produktion des iPhone 17 ist Berichten aus Indien zufolge mittlerweile angelaufen. Fertiger Foxconn startete Produktionsläufe sowohl in Indien als auch in China, hieß es. Zentrale Komponenten wie Gehäuse, Bildschirm oder Kamera sollen bereits in den vergangenen Wochen in den Fabriken eingetroffen sein. Alle Geräte – womöglich mit Ausnahme des iPhone 17 Air – sollen von Beginn an auch in Indien gefertigt werden.

Für die Pro-Modelle plant Apple angeblich besondere Farben, darunter ein „kupferartiges Orange“, so der Leak-Experte Sonny Dickson. Ansonsten sind wohl Schwarz, Grau und Silber für die Modelle vorgesehen, ähnlich wie im Vorjahr. Die neue Kameraanordnung soll über die gesamte Breite des Gehäuses gehen.

Für das iPhone 17 Air sieht Apple angeblich eine Sonderfarbe namens „Sky Blue“ vor. Diese ist eher zurückgenommen, wie der Leaker Majin Bu behauptet. Er will außerdem vernommen haben, dass Apple an der Dynamic Island arbeitet. Diese erwarte eine „signifikante Evolution in den kommenden Jahren“, mit mehr Funktionen und mehr Integration. Apple nutzt die Fläche um die Kamera-Einbuchtung des iPhone, um dort Zusatzinformationen und Live-Aktivitäten anzuzeigen.


(bsc)



Source link

Weiterlesen

Künstliche Intelligenz

Eventfotografie: Emotionale Aufnahmen auf Festen und Veranstaltungen


Eventfotografie ist etwas Besonderes. Denn mit der Kamera können wir einzigartige Momente und Emotionen bei Feiern und Veranstaltungen festhalten. So bleiben Erinnerungen lebendig, und die Atmosphäre eines besonderen Tages wird eingefangen. Wir haben außerdem die Chance, kreativ zu sein und die vielen einzigartigen Geschichten hinter jedem Event in Bildern zu erzählen.

Aus unserer eigenen Perspektive können wir von der Stimmung, den Gesprächen und den Menschen erzählen, mit denen wir die Zeit bei einer Veranstaltung verbracht haben. Es ist eine wunderbare Chance, authentische und emotionale Bilder zu kreieren, die die Atmosphäre des Moments treffend einfangen. Denn Ereignisse vergehen, aber dank der Fotos bleiben die Erinnerungen daran erhalten.

Fotografieren auf Events ist auch ein kommunikativer Akt, denn wir kommen mit anderen Menschen in Kontakt, und es macht einfach Freude, die schönsten Augenblicke festzuhalten.


Das war die Leseprobe unseres heise-Plus-Artikels „Eventfotografie: Emotionale Aufnahmen auf Festen und Veranstaltungen“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Beliebt