1. Architektonisches Grundmodell: A11Y als Maschinenschnittstelle

Technische Definition von A11Y im KI-Zeitalter
- A11Y = AI Parseability Engineering
- Kein primärer Fokus auf human-visuelles Rendering oder Layout-Dekoration
- Deterministische Übersetzung visueller UI-Zustände in strukturierte, symbolische Graphen
- Etabliert eine native API-Schicht für autonome Agenten und LLM-Scraper
DOM-zu-AST Serialisierung
- KI-Crawler (GPTBot, ClaudeBot, Perplexity, Apple Intelligence)
  - Ignorieren clientseitiges CSS und visuelle Rendering-Bäume
  - Transformieren den rohen DOM-Baum in einen linearen Abstract Syntax Tree (AST)
- Thermodynamik der Token-Verarbeitung
  - Generische div– und span-Wüsten erzeugen maximale syntaktische Entropie
    - Transformer-Attention-Heads müssen Kontextgrenzen heuristisch berechnen
    - Erhöht den Desambiguierungs-Overhead und verschwendet Context-Window-Kapazität
  - Semantische Landmarks (main, article, aside, nav, header, footer)
    - Deklarieren deterministische Chunk- und Signal-Grenzen
    - Senken den Rechenaufwand für Vektor-Berechnungen signifikant
    - Reduzieren die Token-Verschwendung im Crawl-Stream um 40–45%

2. Ingestion-Mechanik für Vektor- & Graphdatenbanken (RAG)

Chunking-Topologien für Embedding-Modelle
- Retrieval-Augmented Generation (RAG) erfordert präzise Dokumenten-Segmentierung
  - Vektordatenbanken (FAISS, HNSW, Milvus, Pinecone) speichern semantische Embeddings
- Funktion der h1–h6 Hierarchie
  - Fungiert als harte, deterministische Schnittkante für RAG-Chunker (LangChain, LlamaIndex)
  - Eine fehlerfreie Hierarchie verhindert das Zerschneiden zusammenhängender semantischer Blöcke
  - Falsche oder springende Überschriftenhierarchien korrumpieren das errechnete Vektor-Embedding
  - Vater-Knoten (h2) vererbt seinen Kontext zwingend an alle untergeordneten Kind-Knoten (h3)
Tabellarische Daten-Matrizen
- ` ` vs. `Grid/Flexbox-Divs` – Visuell gestaltete `div`-Grids zerfallen im AST zu unstrukturierten Textzeilen – `table`, `thead`, `tbody`, `tr`, `th`, `td` erhalten die zweidimensionale Relationen-Matrix im DOM
- Maschineller Nutzen
  - LLMs erkennen Tabellenstrukturen nativ und fehlerfrei
  - Spart 50–70 Tokens pro Datensatz durch Wegfall redundanter Key-Value-Erklärungen
  - Ermöglicht direkte Überführung in strukturierte SQL- oder Vektor-Abfragen

3. Multimodale Ground-Truth-Signale & Vision Transformers

Funktion von Alt-Attributen für KI-Modelle
- Multimodale Architekturen (CLIP, Gemini 3, GPT-4o, Vision Transformers)
  - Lernen Bild-Text-Paare durch Abgleich der Pixel-Matrix mit dem alt-Text
- Technischer Vertrag des alt-Attributs
  - Ist das direkte Text-Embedding des visuellen Bildinhalts
  - Muss deterministisch beantworten: WER, WAS, WO, WANN, WARUM
- Konsequenz bei Fehlen
  - Fehlende oder leere Alt-Texte (alt="") erzeugen im Vektorraum reines Rauschen
  - Bild wird vom Crawler als dekorativer Ballast eingestuft und aus dem Index gelöscht
  - Verlust des Information Gain Scores für den visuellen Pfad

4. Autonome KI-Agenten & Actionability-Graphen

Navigation über den Accessibility Tree
- Autonome Web-Agenten (Claude Code, OpenHands, Browser-Use Agenten)
  - Steuern Webseiten nicht über optische OCR oder visuelle Koordinaten
  - Lesen das Accessibility Object Model (AOM) als primären Interaktionsgraphen aus
- ARIA-Topologien als Agenten-API
  - aria-label, aria-describedby, aria-expanded, aria-controls
  - Definieren den genauen Zweck und Zustand jedes interaktiven UI-Elements
- Binäre Logik der Actionability
  - Icon-only Buttons ohne aria-label existieren für den Agenten im Interaktionsbaum nicht
  - role="button" oder role="dialog" signalisieren dem Agenten einen ausführbaren Zustand
  - Ohne ARIA-Spezifikation scheitern automatisierte End-to-End-Workflows und Regressionstests

5. Entity Clarity & Two-Tower Retrieval

Strukturierte Metadaten als Desambiguierungs-Layer
- JSON-LD (Schema.org, Microdata)
  - Überführt unstrukturierten Fließtext in harte, typisierte Graph-Knoten (Person, Organization, BlogPosting, CreativeWork)
  - Eindeutige Identifikation über kanonische @id-URIs verhindert Verwechslungen bei Namensgleichheit
- Two-Tower Retrieval-Modelle
  - Modernste Sucharchitekturen (z.B. X-Algorithmus, Google Vertex AI) trennen Suchanfragen-Netzwerk von Dokumenten-Netzwerk
  - Sub-200ms Latenz-Anforderungen erfordern sofortige, vorverdaute Entity-Klassifizierung
  - Strukturierte Seiten mit hoher Entity Clarity erhalten im Candidate Sourcing asymmetrisch höhere Scoring-Gewichte

6. Information Gain & Anti-Redundanz-Architektur

Algorithmische Auswertung von Redundanz
- Basierend auf Patent US20200349181A1 („Contextual Estimation of Link Information Gain“)
- Suchmaschinen und RAG-Systeme bewerten den inkrementellen Wissenszuwachs (Information Gain)
Anforderungen an den Quellcode
- Strikte Trennung von Inhaltsbereichen und Metadaten
- Fußzeilen-Inhalte zwingend in footer statt generischen div-Blöcken
  - Verhindert das Einfließen von Copyright- und Impressumsdaten in den Inhalts-Vektor
- Skip-Links (#main-content) leiten Parser direkt zum Kern-Content ohne Navigationsrauschen
Empirischer Nachweis (SEMrush-Studie 2025)
- WCAG-konforme und sauber strukturierte Seiten verzeichnen durchschnittlich +23% organischen Traffic
- Indexierung von +27% mehr Keywords durch fehlerfreie Erkennung sekundärer Entitäten im AST
—

7. Zusammenfassende Norm: A11Y-Gate-Anforderungen

  [ Visuelles Web-UI / DOM-Baum ]
                         |
           ( DOM-zu-AST Serialisierung )
                         |
+-----------------------+-----------------------+
  |                                               |
[ Semantisches HTML & H1-H6 ]     [ ARIA & JSON-LD Schemas ]
  |                                               |
( Chunking & Attention-Optimierung )  ( Agenten-Actionability & Entity Clarity )
  |                                               |
  +-----------------------+-----------------------+
                                |
  [ Vektor- & Graphdatenbank-Ingestion (RAG) ]

Verbindlicher Projekt-Standard
- Jede UI-Komponente muss ohne visuelles CSS verlustfrei im AST parsebar sein
- CodeQL-Regelwerke (a11y-rules.ql) prüfen diese Strukturqualität automatisiert
- Verstöße gegen semantische Grenzen blockieren das PM-Gate (pm-validate-board) hart