Entwicklung & Code
Testing Unleashed: Ist wirklich jeder für Qualität verantwortlich?
In dieser Folge sprechen Richard Seidl und Gitte Ottosen darüber, wie Teams Qualität in der agilen Welt organisieren. Sie diskutieren, wer in einem crossfunktionalen Team für das Testen zuständig ist und was ein Tester über die Tools hinaus beiträgt. Das Gespräch spannt den Bogen von der Teststrategie bis zur KI-Unterstützung, mit einem klaren Blick auf Risiken, Daten und Verzerrungen.
„But if you ask many Scrum masters today, and unfortunately a few coaches as well, what does the Agile manifesto say or what are the 12 principles of Agile? They don’t know.“ – Gitte Ottosen
Dieser Podcast betrachtet alles, was auf Softwarequalität einzahlt: von Agilität, KI, Testautomatisierung, bis hin zu Architektur- oder Code-Reviews und Prozessoptimierungen. Alles mit dem Ziel, bessere Software zu entwickeln und die Teams zu stärken. Frei nach dem Podcast-Motto: Better Teams. Better Software. Better World.
Richard Seidl spricht dabei mit internationalen Gästen über modernes Software Engineering und wie Testing und Qualität im Alltag gelebt werden können.
Die aktuelle Ausgabe ist auch auf Richard Seidls Blog verfügbar: „Ist wirklich jeder für Qualität verantwortlich? – Gitte Ottosen“ und steht auf YouTube bereit.
(mdo)
Entwicklung & Code
Jailbreak oder Drogenlabor? – Anthropic und OpenAI testen sich gegenseitig
Anthropic und OpenAI haben im Juni und Juli gegenseitig ihre Modelle auf Sicherheit sowie Stabilität untersucht und nun zeitgleich die jeweiligen Berichte veröffentlicht. Dabei wenden beide jeweils ihre eigenen Testverfahren auf die Modelle des anderen an, sodass die Berichte nicht direkt vergleichbar sind, aber viele interessante Details zeigen.
Sicherheit umfasst in den Untersuchungen nicht nur die reine Hacker-Sicherheit, wie im aktuellen Threat Report, sondern meint auch Modell-, Aussage- und Stabilitätsfestigkeit. Beispielsweise sind Halluzinationen ein Thema.
Ziel der externen Evaluierungen war es, „Lücken aufzudecken, die andernfalls übersehen werden könnten“, schreibt OpenAI im Report. Dabei ging es nicht um die Modellierung von realen Bedrohungsszenarien, sondern darum, „wie sich die Modelle in Umgebungen verhalten, die speziell als schwierig konzipiert sind.“
Anthropic möchte „die besorgniserregendsten Aktionen verstehen, die diese Modelle auszuführen versuchen könnten, wenn sie die Gelegenheit hätten … um dieses Ziel zu erreichen, konzentrieren wir uns speziell auf die Bewertung agentenbezogener Fehlausrichtungen.“
Die Tests erfolgten über die jeweiligen APIs an den Modellen selbst, also beispielsweise GPT und nicht ChatGPT, wobei die Entwickler gewisse Sicherheitsmechanismen deaktiviert haben, um die Ausführung der Tests nicht zu stören. Einbezogen haben sie die Modelle GPT-4o, 4.1, o3 sowie o4-mini auf der einen Seite und Claude Opus 4 sowie Sonnet 4 auf der anderen. Beide Testteams ließen ihre eigenen Modelle zum Vergleich mitlaufen.
Reasoning hat Sicherheitsvorteile
Da die Forscherinnen und Forscher die Tests sehr unterschiedlich konzipiert haben, lassen sich wenig zusammenfassende Ergebnisse feststellen. Anthropic betont „keines der von uns getesteten Modelle war auffallend falsch ausgerichtet“. Und beide Berichte zeigen, dass aktiviertes Reasoning meist besser abschneidet, aber auch nicht immer.
Außerdem ergeben die Studien, dass hohe Sicherheit mit vielen ablehnenden Antworten einhergeht. Die Modelle, die in einem Testbereich gut abschneiden, verweigern dort auch häufiger komplett die Aussage.
Im Folgenden ein paar Beispiele aus den umfangreichen Berichten.
Die KI hilft im Drogenlabor, bei Biowaffen und der Terrorplanung
Anthropic widmet sich intensiven Verhaltenstests: Was lässt die KI mit sich machen? Kooperiert sie mit den Anwenderinnen und Anwendern auch bei schädlichen oder zweifelhaften Prompts? Hilft sie gar bei Verbrechen oder Terror? – Die Antwort lautet eindeutig „ja“, setzt im Dialog allerdings viele Wiederholungen und fadenscheinigen Kontext voraus, wie die Behauptung, man recherchiere, um Übel abzuwenden. GPT-4o und 4.1 sind „freizügiger, als wir erwarten würden“. Dagegen zeigt sich GPT-o3 als das beste Modell im Vergleich auch mit den Claude-Modellen, lehnt im Gegenzug aber auch übermäßig viele Fragen schlichtweg ab („Overrefusal“).
GPT-4.1 und -4o machen eher mit, wenn es um schädliches Verhalten geht. o3 hingegen lässt sich am wenigsten missbrauchen (höhere Werte sind schlechter).
(Bild: Anthropic)
Gute Sicherheit geht mit häufigerer Aussageverweigerung einher. Anthropic spricht von „overrefusal“.
(Bild: Anthropic)
In diesem Zusammenhang untersucht Anthropic weitere menschenähnliche Verhaltensweisen wie Whistleblowing oder Versuche der KI, aus vermeintlichem Eigennutz verfälschte Antworten zu geben, „zum Beispiel dokumentierten wir eigennützige Halluzinationen von o3“.
Ausbruch aus dem Käfig
OpenAI wählt einen strukturierten Forschungsansatz und wirft einen Blick darauf, wie genau sich die Modelle an Vorgaben – auch modellinterne – halten und wie gut es einem Angreifer gelingt, hier die Grenzen zu überschreiten. Die Modelle sollen die Hierarchie der Vorgaben (Instruction Hierarchy) einhalten, also interne Regeln vor externen beachten. Beispielsweise soll das Modell bestimmte interne Aussagen oder Passwörter geheim halten. Hier beweist sich Claude 4 als besonders sicher. Beim Jailbreak-Test (StrongREJECT v2), der versucht, das Modell zu Aussagen zu bewegen, die es nicht machen soll, schnitten die GPT-Modelle besser ab, insbesondere o3. Sicherheitsforscher sehen im Jailbreaking eines der größten Sicherheitsprobleme im Zusammenhang mit KI.
OpenAI o3 und o4-mini bieten den besten Schutz vor Jailbreaking (höhere Werte sind besser).
(Bild: OpenAI)
Opus und Sonnet halluzinieren am wenigsten, verweigern aber auch am häufigsten die Antwort komplett.
Opus 4 und Sonnet 4 neigen am wenigsten zu Halluzinationen, verweigern die Aussage aber oft komplett.
(Bild: OpenAI)
Beide Teams loben einander: „Die Bewertungen von Anthropic ergaben, dass unsere Modelle in mehreren Bereichen verbesserungswürdig sind“, schreibt etwa OpenAI und weist auf GPT-5 hin, das der Test noch nicht berücksichtigt. Und die andere Partei sagt: „Die Ergebnisse von OpenAI haben uns geholfen, uns über die Grenzen unserer eigenen Modelle zu informieren, und unsere Arbeit bei der Evaluierung von OpenAIs Modellen hat uns geholfen, unsere eigenen Werkzeuge zu verbessern.“
Viele weitere Details finden sich in den parallelen Veröffentlichungen von Anthropic und OpenAI.
(who)
Entwicklung & Code
Webentwicklung ohne Grenzen Teil 3: Der Praxis-Guide für barrierefreies Design
Barrierefreiheit heißt nicht nur, konform zu Gesetzen und Richtlinien zu sein und technische Maßnahmen umzusetzen. Vielmehr ist ein Perspektivwechsel nötig, damit Entwicklerinnen und Entwickler gemeinsam mit den Nutzern zu mehr Teilhabe beitragen. Darum geht es nun im letzten Teil der Artikelserie zu barrierefreiem Design.
Marie-Christin Lueg arbeitet als Wissenschaftliche Mitarbeiterin im Fachgebiet Rehabilitationssoziologie der TU Dortmund. Ihr Schwerpunkt liegt im Bereich digitale Teilhabe und partizipative Forschung.
Nele Maskut ist Lehramtsanwärterin an einer Förderschule mit dem Förderschwerpunkt Geistige Entwicklung. Ein besonderes Anliegen ist ihr die Förderung der digitale Teilhabe von Menschen mit Behinderung.
Was bedeutet digitale Barrierefreiheit für alle?
Die vier Grundprinzipien Wahrnehmbarkeit, Bedienbarkeit, Verständlichkeit und Robustheit helfen dabei, einzelne Funktionen in der Webentwicklung zu implementieren und zu prüfen, etwa die formale und sprachliche Gestaltung einer Webseite (siehe Teil 2 der Serie). Content-Management-Systeme (CMS) und Developer-Tools vereinfachen es, Barrierefreiheit gemäß der in Teil 1 beschriebenen aktuell geltenden Richtlinien umzusetzen. Das sind wichtige Grundvoraussetzungen digitaler Barrierefreiheit. Um Softwareprodukte konsequent für alle zugänglich und nutzbar zu gestalten, plädieren wir dafür, noch einen weiteren Schritt zu wagen und die Perspektiven und Wünsche der Nutzerinnen und Nutzer stärker einzubeziehen.
Individuelle Herausforderungen – individuelle Lösungen!
In der realen Nutzung unterscheiden sich individuelle Bedürfnisse nicht nur starr zwischen verschiedenen Menschen und Usergruppen. Auch die Bedürfnisse einer einzelnen Person können beispielsweise situations- oder tagesformabhängig variieren. Hier bedarf es also individueller und flexibel anpassbarer Lösungen. Eine besondere Herausforderung besteht in der Umsetzung von Barrierefreiheit für Menschen, die Schwierigkeiten damit haben, komplexe (sprachliche) Inhalte und Strukturen zu verstehen. Das betrifft nicht nur Menschen mit kognitiven Beeinträchtigungen und Lernschwierigkeiten, sondern auch solche mit Fluchterfahrungen, mit geringer Lese- und Schreibkompetenz, mit Wahrnehmungsbeeinträchtigungen oder mit altersbedingten Einschränkungen. Diese Personengruppen benötigen an ihre individuellen Bedürfnisse angepasste, vereinfachte Webseiten. Um das zu verdeutlichen, möchten wir Ihnen gerne drei Personen vorstellen:
(Bild: Freepik)
Paul arbeitet als Projektmanager. Als Mensch im Autismus-Spektrum empfindet er Webseiten als herausfordernd, die zu viele Sinneseindrücke gleichzeitig ansprechen und die von ihm verlangen, sich auf jeder Webseite auf ein neues Layout einzulassen. Besonders ablenkend sind für ihn schmückende Bilder und Werbeinhalte. Hier wünscht er sich die Möglichkeit, solche Inhalte nach einem kurzen Check auszuschalten und eine Ansicht des Textes einzustellen, die auf allen Websites gleich aussieht.
(Bild: Freepik)
Julia besucht in ihrer Freizeit gerne Kochseiten im Internet. Als Mensch mit Lernschwierigkeiten versteht sie nicht immer alle Zutaten und Anweisungen. Sie verrutscht beim Lesen häufig in der Zutatenliste und kann viele Rezepte nicht zubereiten. Sie wünscht sich, zu einzelnen Wörtern zusätzliche Informationen abrufen zu können, um beispielsweise alternative Erklärungen oder Bilder zu erhalten. Zudem möchte sie eine Hilfestellung, um die Zeile wiederzufinden, die sie zuletzt gelesen hat.
(Bild: Freepik)
Enrique studiert als internationaler Student an einer deutschen Universität. Ein großer Teil der Informationen auf der Website der Universität sind mindestens ins Englische übersetzt, sodass er sie verstehen kann. Immer wieder stößt er allerdings auf deutschsprachige Webseiten oder Passagen. Er wünscht sich die Möglichkeit, Texte direkt auf der Website zu übersetzen und bei ihm noch unbekannten Wörtern Erklärhilfen nutzen zu können.
Die aufgeführten Personen stehen beispielhaft für viele weitere Menschen, deren Bedürfnisse und Individualität bei der Umsetzung von digitaler Barrierefreiheit mitbedacht werden sollten. Denn wie bereits in Teil 1 ausführlich diskutiert, gilt auch in diesem Fall: Alle Personen profitieren von zusätzlichen Einstellungen der Barrierefreiheit – von den Leserinnen und Lesern mit Lernschwierigkeiten über Durchschnittsbesucherinnen und -besucher bis hin zu den Webentwicklerinnen und -entwicklern selbst.
Individuelle Anpassung von Websites
Mittlerweile existieren einige Software-Tools, die Websites an die individuellen Bedürfnisse von Menschen anpassen. Am bekanntesten dürften Overlay-Tools sein, die in bestehende Websites integrierbar sind. Die Tools können Websites für viele Menschen besser zugänglich und nutzbar machen. Overlay-Tools sind aber selbst nicht immer barrierefrei umgesetzt und somit nicht immer kompatibel mit genutzten Hilfsmitteln, beispielsweise Screenreadern. Zudem unterscheiden sich die Tools untereinander hinsichtlich ihrer Platzierung und Werkzeuge, sodass sich Nutzerinnen und Nutzer bei jeder Website neu mit dem entsprechenden Overlay-Tool auseinandersetzen müssen. Das kann zeitaufwendig sein und lenkt von den eigentlichen Inhalten der Webseite ab. Mehr Informationen zu Overlay-Tools stehen hier zur Verfügung: BITVTest (2022), Barrierekompass (2022) oder bfit-bund (2024).
Userperspektive: Easy Reading
Ein anderer Ansatz wurde bei der Entwicklung des Softwaretools Easy Reading in einem Forschungsprojekt gemeinsam mit Menschen mit Lernschwierigkeiten gewählt. Der Prototyp der Easy-Reading-Toolbox steht als Browser-Add-on für Mozilla Firefox und Google Chrome zur Verfügung und kann kostenfrei über die Projektwebsite heruntergeladen werden. Die Hilfen sind auf jeder beliebigen Internetseite einsetzbar und ermöglichen so eine userzentrierte Steuerung der Anpassungen. Aber was bedeutet das genau?
Nutzerinnen und Nutzer können mit den verschiedenen Funktionen prinzipiell jede beliebige HTML-basierte Webseite an ihre aktuellen Unterstützungsbedürfnisse anpassen. Da die Anpassungen immer nur für die aktuelle Browseransicht gelten, können sie zu jeder Zeit zum ursprünglichen Text und zur Originalansicht zurückkehren. Inhalte gehen durch die Anpassungen nicht verloren, wie das etwa bei der Übersetzung in Leichte Sprache geschieht, die nur für bestimmte Informationen zur Verfügung steht. Die Hilfen in Easy Reading sind in vier Funktionsbereiche unterterteilt: Lesehilfen, Erklärhilfen, Gestaltungshilfen und Übersetzungen (siehe Abbildung 1).
Eine Übersicht über die Funktionen von Easy Reading (Abb. 1).
Screenshot der Desktopversion von Easy Reading. Die Funktionen Leselineal und Symbolsuche sind aktiviert (Abb. 2).
Screenshot der mobilen Version von Easy Reading. Die Funktionen Leselineal, Zeilenabstand sowie Farbe ändern und Übersetzung sind aktiviert (Abb. 3).
Easy Reading setzt grundsätzlich nicht voraus, dass eine Website barrierefrei umgesetzt ist. Das Add-on funktioniert aber am zuverlässigsten, wenn die Webseiten standardkonform in HTML5 implementiert sind.
Das Softwaretool Easy Reading wurde im Rahmen eines bereits abgeschlossenen Forschungsprojekts als Prototyp entwickelt, sodass einige Funktionen aufgrund der Weiterentwicklung technischer Standards nicht mehr korrekt ausführbar sind. Der Code des Easy-Reading-Frameworks wurde mit Ende des Projekts als Open-Source-Repository auf GitHub veröffentlicht. Die Community ist herzlich eingeladen, sich an der Weiterentwicklung zu beteiligen.
Partizipation in der Softwareentwicklung – wie geht das?
Wie ist es möglich, Bedürfnisse und Barrieren über gesetzliche Richtlinien hinaus zu identifizieren und zu beachten – insbesondere, wenn der Kontakt und die Erfahrung mit Menschen mit Behinderungen fehlen? Wie gelingt es zu prüfen, welche Hilfen eine Webseite bieten sollte, um für möglichst viele Menschen zugänglich zu sein?
Die Orientierung an den Erfahrungen und Bedürfnissen der Endnutzerinnen und -nutzer spielt eine entscheidende Rolle. Häufig ist die Beteiligung von Menschen mit Behinderungen bei der Konzeption und Entwicklung von neuen Technologien und technischen Systemen jedoch nur auf einzelne Schritte beschränkt. Sie werden ganz am Anfang eines Projekts befragt oder in Usability-Tests zur Evaluation des Endprodukts [1, 2] eingebunden. Ein erfolgreicher Entwicklungsprozess sollte die Perspektive der betreffenden Usergruppe jedoch fortlaufend einbeziehen, um individuelle Herausforderungen und Bedürfnisse möglichst früh und über den gesamten Prozess aufzudecken und zu berücksichtigen. Sogenannte partizipative Projekte beteiligen die Zielgruppe, das heißt, die unmittelbar von den Forschungs- und Entwicklungsergebnissen beeinflussten Personen, konsequent und bei jedem Forschungs- und Entwicklungsschritt gleichberechtigt [3].
Dass sich partizipative Projekte lohnen, zeigt sich unter anderem an Easy Reading: Durch konsequente gemeinsame Entwicklung und Testung des Easy-Reading-Systems mit Menschen mit Lernschwierigkeiten sind Funktionen entstanden, die den konkreten Bedürfnissen der Zielgruppe gerecht werden und ebenso Vorteile für weitere Personen bieten. So können individuelle Lösungen zur Verbesserung der Zugänglichkeit für bis dahin noch zu wenig berücksichtigte individuelle Bedürfnisse geschaffen werden.
Menschen mit Behinderungen in der Softwareentwicklung
Die stärkere Beteiligung von Menschen mit Behinderungen an Softwareentwicklung ist notwendig, damit gut nutzbare Produkte für eben diese Personengruppe entstehen. Einige Einrichtungen und deren Angebote setzen sich aktiv für die Beteiligung von Menschen mit Behinderungen ein. Wer Fragen zur barrierefreien Umsetzung von Websites hat, seine Website auf Barrierefreiheit prüfen lassen möchte oder Interesse an einer Zusammenarbeit hat, kann diese Einrichtungen kontaktieren.
In Deutschland sind vor allem die PIKSL-Labore als positives Beispiel hervorzuheben. Ihr Ziel ist es, Menschen mit und ohne Behinderungen zusammenzubringen und darüber Inklusion und innovative Ideen zu fördern. Derzeit richten PIKSL-Labore an zwölf Standorten Workshops für Menschen mit und ohne Behinderungen aus, um Medienkompetenzen und digitale Teilhabe zu stärken. Zusätzlich bieten sie Beratungen zur Umsetzung von Barrierefreiheit sowie Prüfungen von Produkten auf ihre Verständlichkeit an. Mehr Informationen zu den Angeboten sind auf der Website zu finden.
Ausblick: Barrierefreiheit für alle
Die Artikelserie „Webentwicklung ohne Grenzen“ hat das Ziel, einen Überblick über die digitale Barrierefreiheit zu schaffen. Die selbstverständliche barrierefreie Umsetzung von Websites stellt dabei nicht nur eine notwendige, sondern auch eine lohnenswerte Herausforderung dar.
Dabei ist es unerlässlich, Barrierefreiheit als fortlaufenden Prozess zu betrachten, in den Menschen mit Behinderungen eingebunden sind. Wie andere Aspekte einer Webseite oder einer digitalen Anwendung sind auch die Werkzeuge zur Umsetzung der Barrierefreiheit kontinuierlich zu überprüfen und zu verbessern – insbesondere, wenn neue Technologien eingesetzt und neue Inhalte hinzugefügt werden. Denn nur so ist der Aufwand, der sich aus der Umsetzung von Barrierefreiheit ergibt, profitabel und kommt jeder Person nachhaltig zugute.
Barrierefreie Websites und zugängliche digitale Anwendungen ermöglichen es allen Menschen, unabhängig von ihren Behinderungen, gleichberechtigt an der digitalen Welt teilzuhaben. Für Entwicklerinnen und Entwickler bedeutet das, dass sie die Gruppe der Personen, die auf digitale Inhalte zugreifen, maßgeblich erweitern können – vorausgesetzt, dass sie potenzielle Bedürfnisse von Nutzerinnen und Nutzern kennen und ihnen mit barrierefreien Lösungen entgegenkommen.
Literatur
- Dirks, S. (2019). Empowering Instead of Hindering – Challenges in Participatory Development of Cognitively Accessible Software. In: Antona, M., Stephanidis, C. (eds) Universal Access in Human-Computer Interaction. Theory, Methods and Tools. HCII 2019. Lecture Notes in Computer Science(), vol 11572. Springer, Cham. https://doi.org/10.1007/978-3-030-23560-4_3
- Heumader, P., Edler, C., Miesenberger, K., & Wolkerstorfer, S. (2018). Requirements Engineering for People with Cognitive Disabilities – Exploring New Ways for Peer-Researchers and Developers to Cooperate. Computers Helping People with Special Needs, 439–445. doi:10.1007/978-3-319-94277-3_68
- Hartung, S., Wihofszky, P. & Wright, M. (2020). Partizipative Forschung. Ein Forschungsansatz für Gesundheit und seine Methoden. Springer: Wiesbaden.
(mai)
Entwicklung & Code
Künstliche Neuronale Netze im Überblick 6: Convolutional Neural Networks
Neuronale Netze sind der Motor vieler Anwendungen in KI und GenAI. Diese Artikelserie gibt einen Einblick in die einzelnen Elemente. Der sechste Teil widmet sich den Convolutional Neural Networks (CNNs).
Prof. Dr. Michael Stal arbeitet seit 1991 bei Siemens Technology. Seine Forschungsschwerpunkte umfassen Softwarearchitekturen für große komplexe Systeme (Verteilte Systeme, Cloud Computing, IIoT), Eingebettte Systeme und Künstliche Intelligenz.
Er berät Geschäftsbereiche in Softwarearchitekturfragen und ist für die Architekturausbildung der Senior-Software-Architekten bei Siemens verantwortlich.
Convolutional Neural Networks, im Deutschen auch faltungsneuronale Netze genannt, sind für die Verarbeitung von Daten mit einer gitterartigen Topologie wie Bildern konzipiert. Anstatt jede Eingabe vollständig mit jeder Ausgabe zu verbinden, verknüpft ein Convolutional Layer jede Ausgabe mit einem lokalisierten Bereich der Eingabe. Diese lokalisierte Verbindung nutzt die räumliche Struktur der Daten, um die Anzahl der Parameter zu reduzieren und Muster zu erfassen, die auch bei einer Verschiebung über die Eingabe hinweg aussagekräftig bleiben.
Das Herzstück einer Faltungsschicht ist die diskrete zweidimensionale Faltungsoperation. Wenn wir das Eingangsbild mit I und einen lernfähigen Filter oder Kernel mit K bezeichnen, dann wird die Faltung an der räumlichen Position (i, j) durch die doppelte Summe definiert:
(I * K)[i, j] = Σ_{m=0}^{k_h−1} Σ_{n=0}^{k_w−1} K[m, n] · I[i + m, j + n]
Hier sind k_h und k_w die Höhe und Breite des Kernels. Das Ergebnis ist eine Merkmalskarte, die alle Stellen im Bild hervorhebt, an denen das vom Kernel kodierte Muster auftritt.
PyTorch stellt eine 2D-Faltungsschicht durch die Klasse torch.nn.Conv2d
bereit. Dieses Modul verwaltet einen Satz von Filtern mit der Form (out_channels, in_channels, k_h, k_w) und wendet sie auf einen gebündelten Eingabetensor der Form (batch_size, in_channels, height, width). Die Faltung verwendet außerdem einen Stride-Parameter, um Positionen zu überspringen, und einen Padding-Parameter, um einen Rand aus Nullen um die Eingabe herum einzufügen. Die Höhe und Breite der Ausgabe werden berechnet durch:
H_out = floor((H_in + 2·padding − dilation·(k_h − 1) − 1) / stride + 1)
W_out = floor((W_in + 2·padding − dilation·(k_w − 1) − 1) / stride + 1)
Nachfolgender Code erstellt eine Faltungsschicht und wendet sie auf einen Stapel von RGB-Bildern mit einer Größe von jeweils 32×32 Pixeln an.
import torch
import torch.nn as nn
# Erstellen Sie einen Stapel von acht RGB-Bildern mit einer Größe von 32×32
batch_size, in_channels, H, W = 8, 3, 32, 32
images = torch.randn(batch_size, in_channels, H, W)
# Definieren Sie eine Faltungsschicht mit 16 Ausgangskanälen, einem 3×3-Kernel, einem Schritt von eins und einer Auffüllung von eins
conv = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, stride=1, padding=1)
# Wende die Faltung auf die Bilder an
features = conv(images)
# features hat die Form (8, 16, 32, 32)
Wenn die Schrittweite eins ist und die Auffüllung gleich (kernel_size−1)/2
für ungerade Kernel-Größen ist, hat die Ausgabe-Feature-Map die gleichen räumlichen Dimensionen wie die Eingabe. Die Beibehaltung der Dimensionen auf diese Weise ist in frühen Phasen der Bildverarbeitungsnetzwerke üblich. Im Gegensatz dazu führt ein Stride größer als eins oder die Verwendung von Pooling-Layern zu einer Verringerung der räumlichen Dimensionen. Ein Zwei-mal-Zwei-Max-Pooling-Layer mit Stride zwei halbiert beispielsweise sowohl die Höhe als auch die Breite seiner Eingabe.
Pooling führt eine Form der lokalen Translationsinvarianz ein und reduziert den Rechenaufwand in tieferen Schichten. Eine Max-Pooling-Operation über ein p×p-Fenster ersetzt jedes Fenster durch seinen Maximalwert, während Average Pooling das Fenster durch seinen Mittelwert ersetzt. Im Code erstellt man eine Pooling-Schicht, indem man torch.nn.MaxPool2d
oder torch.nn.AvgPool2d
instanziiert.
Convolutional Layers lassen sich sequenziell stapeln, um tiefe Merkmalshierarchien aufzubauen. Frühe Schichten lernen, einfache Muster wie Kanten und Texturen zu erkennen, und spätere Schichten kombinieren diese Muster zu abstrakteren Darstellungen wie Formen und Objekten. Nach mehreren Convolutional- und Pooling-Stufen flacht man die resultierenden Merkmalkarten oft zu einem Vektor ab und leitet diesen durch vollständig verbundene Schichten, um eine Klassifizierung oder Regression durchzuführen.
Ein minimales Convolutional Network in PyTorch könnte wie folgt aussehen. Jede Zeile des Codes erfasst einen Aspekt der Architektur.
import torch
import torch.nn as nn
class SimpleCNN(nn.Module):
def __init__(self, num_classes=10):
super(SimpleCNN, self).__init__()
# Erster Faltungsblock: 3→16 Kanäle, Kernel 3×3, Auffüllung zur Beibehaltung der Größe
self.conv1 = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, padding=1)
# Normalisieren Sie jede Merkmalskarte über den Batch auf einen Mittelwert von Null und eine Varianz von Eins
self.bn1 = nn.BatchNorm2d(num_features=16)
# Einführen von Nichtlinearität
self.relu = nn.ReLU()
# Zweiter Faltungsblock: 16→32 Kanäle
self.conv2 = nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, padding=1)
self.bn2 = nn.BatchNorm2d(num_features=32)
# Downsampling um den Faktor zwei
self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
# Vollständig verbundene Schicht, die abgeflachten Merkmale auf Klassenscores abbildet
self.fc = nn.Linear(in_features=32 * 16 * 16, out_features=num_classes)
def forward(self, x):
x = self.conv1(x)
x = self.bn1(x)
x = self.relu(x)
x = self.conv2(x)
x = self.bn2(x)
x = self.relu(x)
x = self.pool(x)
x = x.view(x.size(0), -1)
scores = self.fc(x)
return scores
model = SimpleCNN(num_classes=10)
input_tensor = torch.randn(8, 3, 32, 32)
output_scores = model(input_tensor)
# output_scores hat die Form (8, 10)
Der erste Faltungsblock wandelt die dreikanalige Eingabe in sechzehn Merkmalskarten gleicher räumlicher Größe um. Die Batch-Normalisierung stabilisiert anschließend die Verteilung der Aktivierungen, was häufig das Training beschleunigt. Eine ReLU-Nichtlinearität führt die erforderliche Nichtlinearität ein. Der zweite Block wiederholt dieses Muster und reduziert nach dem Max-Pooling die Höhe und Breite jeder Merkmalskarte von 32 auf 16. Schließlich formen wir alle Merkmalskarten in einen zweidimensionalen Tensor der Form (batch_size, 32×16×16) um und leiten ihn durch eine lineare Schicht, um eine Bewertung pro Klasse zu erzeugen.
Convolutional Neural Networks bilden die Grundlage für modernste Modelle in der Bildverarbeitung und darüber hinaus.
Der nächste Teil der Serie widmet sich rekursiven neuronalen Netzen, die für die Verarbeitung sequenzieller Daten ausgelegt sind.
(rme)
-
Datenschutz & Sicherheitvor 3 Monaten
Geschichten aus dem DSC-Beirat: Einreisebeschränkungen und Zugriffsschranken
-
UX/UI & Webdesignvor 1 Woche
Der ultimative Guide für eine unvergessliche Customer Experience
-
Apps & Mobile Entwicklungvor 3 Monaten
Metal Gear Solid Δ: Snake Eater: Ein Multiplayer-Modus für Fans von Versteckenspielen
-
Online Marketing & SEOvor 3 Monaten
TikTok trackt CO₂ von Ads – und Mitarbeitende intern mit Ratings
-
Digital Business & Startupsvor 2 Monaten
10.000 Euro Tickets? Kann man machen – aber nur mit diesem Trick
-
Entwicklung & Codevor 1 Woche
Posit stellt Positron vor: Neue IDE für Data Science mit Python und R
-
Social Mediavor 1 Woche
Relatable, relevant, viral? Wer heute auf Social Media zum Vorbild wird – und warum das für Marken (k)eine gute Nachricht ist
-
UX/UI & Webdesignvor 3 Monaten
Philip Bürli › PAGE online