Headscale aus dem Single Point of Failure holen

Permalink 7 min read Modified: 2026-06-25 (UPDATED)

infrastructure networking #headscale #tailscale #postgresql #cloudnativepg #high-availability #kubernetes #tailnet #failover #talos

Headscale ist die Kontrollebene der ganzen Föderation — und heute bewusst eine Single-Replica auf SQLite. Der geplante Weg zu HA: das Image festnageln, SQLite gegen CloudNativePG tauschen, den öffentlichen Endpunkt failover-fähig machen und das gebündelte tailnet-gateway entflechten.

Table of contents

Stand: Design/Roadmap. Das hier ist der geplante Weg, kein Live-Setup. Heute läuft Headscale im Lab bewusst als Single-Replica; die einzelnen Schritte leben als Issues im Backlog (rad issue list: b404b7a , 5f36156 , 231c25c , 8b9e4e1 , fa3985f ). Ich schreibe das auf, bevor ich es baue — die Reihenfolge ist der eigentliche Inhalt.

Im tailnet-gateway-Beitrag habe ich Headscale zur Kontrollebene des Labs gemacht: ein selbst gehosteter Coordination-Server, über den jeder Cluster ins Tailnet kommt. Die ClusterMesh-Episode hat denselben Strang weitergesponnen. Was beide stillschweigend voraussetzen: Es gibt genau eine Headscale-Instanz, auf hydra, und wenn die wegfällt, hat die Föderation kein Gehirn mehr. Genau diesen Single Point of Failure will ich auflösen — und der Weg dahin ist überraschend gestuft.

Was passiert, wenn Headscale stirbt?#

Die wichtigste Erkenntnis zuerst, weil sie das ganze Vorhaben entdramatisiert: Die Datenebene überlebt den Ausfall der Kontrollebene. Headscale verteilt nur die WireGuard-Schlüssel und die Netzwerk-Map. Sind die Tunnel einmal aufgebaut, laufen sie peer-to-peer weiter — auch wenn Headscale komplett weg ist.

1Kontrollebene (Headscale)         Datenebene (WireGuard, peer-to-peer)
2─────────────────────────         ────────────────────────────────────
3  ✗ neue Registrierungen            ✓ bestehende Tunnel laufen weiter
4  ✗ Route-Approval                  ✓ Subnet-Routen bleiben aktiv
5  ✗ DNS-/ACL-Updates                ✓ MagicDNS-Antworten gecached
6  ✗ Key-Rotation                    ✓ kein Datenverkehr betroffen

Das verschiebt die Messlatte: Ich brauche nicht zero-downtime, sondern Durability und schnelles Reschedule. Ein paar Minuten ohne neue Registrierungen sind verkraftbar — eine verlorene Node-Registry ist es nicht.

Die SPOF-Anatomie#

Drei Dinge machen Headscale heute fragiler, als es sein müsste:

 1# headscale/app/helmrelease.yaml (gekürzt)
 2image:
 3  repository: headscale/headscale
 4  tag: "development"           # FIXME: beweglicher Tag (v29 wegen grants)
 5persistence:
 6  config:
 7    existingClaim: headscale   # die SQLite-DB lebt hier
 8    storageClass: "${BLOCK_STORAGE_CLASS}"   # ceph-block, ReadWriteOnce
 9    accessMode: ReadWriteOnce
10affinity:
11  nodeAffinity:                # ceph-block-CSI ist worker-only → nie auf einem CP-Node
12    requiredDuringSchedulingIgnoredDuringExecution:
13      nodeSelectorTerms:
14        - matchExpressions:
15            - key: node-role.kubernetes.io/control-plane
16              operator: DoesNotExist

SQLite auf einer RWO-PVC. Die gesamte Node-Registry liegt in einer einzigen Datei auf einem ceph-block-Volume.
Worker-pinned. Weil der Rook-CSI-Treiber nur auf Worker-Nodes läuft, kann der Pod nur dorthin, wo seine ReadWriteOnce-PVC gebunden ist. Stirbt dieser Worker, rescheduled der Pod erst nach dem Fencing des Nodes — bei ReadWriteOnce muss Kubernetes sicher sein, dass das Volume nirgends mehr gemountet ist.
Beweglicher Image-Tag. tag: development ist der denkbar schlechteste Unterbau für HA: nicht reproduzierbar, kein Renovate-Pinning, potenzieller Bruch bei jedem Pull.

Akt 1: Erst das Fundament festnageln#

Bevor irgendetwas HA wird, muss der bewegliche Tag weg (b404b7a ). Der Grund für development waren Headscales grants (geplant für 0.29.0). Beim Nachsehen stellte sich heraus: Die policy.jsonc nutzt nur IP-Level-Grants — und die bilden 1:1 auf die klassischen ACLs ab, die seit 0.26 stabil sind. Der instabile Tag wird also gar nicht gebraucht. Drei Optionen, von risikoarm nach abwartend:

a) policy.jsonc → ACLs konvertieren und auf v0.28.0 pinnen (voll reproduzierbar).
b) Einen konkreten main-Digest pinnen (grants-Syntax behalten, Reproduzierbarkeit + Renovate-Digest-Tracking zurückgewinnen).
c) Auf stabiles 0.29.0 warten, dann pinnen.

Direkt daneben liegt ein zäher Bug (5f36156 ): Das Chart legt selbst dann eine (leere) ACL-ConfigMap an, wenn data leer ist — und der Kustomize-configMapGenerator überschreibt sie. Ergebnis: HelmRelease-Drift, weshalb driftDetection derzeit auskommentiert ist. Sauber wird das erst, wenn Kustomize die ACL-ConfigMap allein besitzt; dann lässt sich driftDetection: mode: warn wieder aktivieren, damit manuelle Edits an der Föderations-Policy auffallen.

Akt 2: SQLite raus, Postgres rein#

Das ist der eigentliche Verfügbarkeitshebel (231c25c ), kein bloßes Refactoring. Headscale auf CloudNativePG umziehen — der Operator ist ohnehin cluster-weit ausgerollt (common/applications/cnpg-system), es kommt kein neuer Operator dazu.

Was der Umzug bringt:

Headscale wird quasi stateless. Keine RWO-Bindung, keine Worker-Affinität mehr → der Pod rescheduled in ~30–60 s auf irgendeinen Node, ohne aufs Node-Fencing zu warten.
HA-Postgres. CNPG fährt drei Instanzen mit kontinuierlichem WAL-Backup.
Voraussetzung für alles Weitere. Ein cluster-übergreifendes active/standby-Headscale ist ohne externe DB gar nicht denkbar.

Postgres ist in Headscale ein Backend zweiter Reihe — auf Lab-Maßstab (Dutzende Geräte) völlig unkritisch, aber kein Hochlast-Pfad. Der Gewinn ist Verfügbarkeit, nicht Durchsatz. Das VolSync-Backup der DB bleibt zusätzlich bestehen, auch wenn CNPG die WALs sichert.

Akt 3: Der öffentliche Endpunkt muss mitwandern#

Hier wird es subtil — eine schöne zirkuläre Abhängigkeit (8b9e4e1 ). Der Registrierungs- und DERP-Endpunkt ts.${EXTERNAL_DOMAIN} wird nur vom externen Gateway auf hydra ausgeliefert. Ein Standby-Headscale auf cosmos wäre damit genau dann unerreichbar, wenn hydras Ingress ausfällt — also exakt im Fehlerfall, für den man den Standby gebaut hat.

flowchart TB DNS["ts.EXTERNAL_DOMAIN — external-dns, health-checked"] subgraph H["hydra"] HGW["external gateway"] --> HHS["Headscale (active)"] end subgraph C["cosmos"] CGW["external gateway"] --> CHS["Headscale (standby)"] end DNS -->|"healthy"| HGW DNS -. "failover" .-> CGW HHS <-->|"PG-Streaming-Replikation (cross-cluster L4)"| CHS

Der öffentliche Endpunkt muss also dem aktiven Headscale folgen: health-checked DNS-Failover / GSLB für ts.${EXTERNAL_DOMAIN}, sodass Registrierung und DERP-Proxy immer den Cluster treffen, der die Kontrollebene gerade fährt. Das hängt an Akt 2 (replizierbares Headscale) und an einem cluster-übergreifenden L4-Pfad für die Postgres-Streaming-Replikation — demselben Gateway-zu-Gateway-Pfad, den auch künftige Föderations-Dienste brauchen.

Akt 4: Das gebündelte Gateway entflechten#

Das tailnet-gateway bündelt heute vier Rollen in einem Single-Replica-Pod: den Tailscale-Subnet-Router, drei socat-Proxies (:6443, :50000, :2379) und CoreDNS.

1                tailnet-gateway (replicas: 1)
2   ┌───────────────┬───────────────┬─────────────────┬───────────┐
3   │ tailscale     │ socat-k8s     │ socat-talos     │ coredns   │
4   │ subnet-router │ :6443 -> VIP  │ :50000 -> Talos │ :53       │
5   └───────────────┴───────────────┴─────────────────┴───────────┘
6        ^ advertised CIDRs            ^ alles an EINER, pro-Replica vergebenen Tailnet-IP

Tailscale könnte Subnet-Router nativ HA fahren (N Nodes annoncieren dieselben Routen, primary + failover). Aber das Bündeln koppelt DNS und Proxies an die pro-Replica von Headscale vergebene Tailnet-IP des Pods — und genau darauf zeigt heute alles:

1# config-extra.yaml — split-DNS zeigt auf FESTE Gateway-Tailnet-IPs
2nameservers:
3  split:
4    "hydra.tn.${INTERNAL_DOMAIN}":  ["100.64.0.4"]
5    "cosmos.tn.${INTERNAL_DOMAIN}": ["100.64.0.7"]

Mehr Replicas würden neue Tailnet-Nodes mit neuen IPs erzeugen — die einwertigen Referenzen (split-DNS, kubeconfig-tailnet, ClusterMesh-Peer) brächen. Der geplante Schnitt trennt zwei Schichten:

Subnet-Router-Layer — minimale tailscale-only-Pods, N Replicas mit Node-Anti-Affinity, die nur die CIDRs annoncieren. Hier entsteht die echte Route-HA.
Gateway-Services — CoreDNS (und ggf. die Proxies) als normales Deployment hinter einer stabilen Tailnet-LB-Service-IP (io.cilium/lb-pool: tailnet). Split-DNS zeigt dann auf diese feste IP statt auf eine pro-Replica-MagicDNS.

Per-Cluster-Realität: HA lohnt nur auf Multi-Node-Clustern (hydra). Single-Node-cosmos bleibt bei einer Replica — dort ist der ganze Node ohnehin der SPOF. Die Replica-Zahl wird also pro Cluster gated.

Die Reihenfolge ist der Plan#

flowchart LR A["Akt 1<br/>Image pinnen + ACL-Drift"] --> B["Akt 2<br/>SQLite → CNPG (stateless)"] B --> C["Akt 3<br/>Endpoint-Failover (GSLB)"] B --> D["Akt 4<br/>Gateway splitten (stabile DNS-IP)"]

Nichts davon ist dringend — die Datenebene überlebt ja. Aber der Teil, der mir wirklich Sorgen macht, ist nicht das Reschedule-Tempo, sondern die Durability: die ganze Föderation in einer SQLite-Datei auf einer einzigen PVC. Akt 2 ist deshalb der Schritt, der zuerst kommt, sobald Akt 1 das Fundament festgenagelt hat. Der Rest ist Kür — aber eine, die ohne die ersten beiden Akte gar nicht baubar wäre.

Nachtrag (25. Juni 2026): Akt 1, 2 und 4 stehen#

Der Plan war eine Reihenfolge — und die ersten Akte sind inzwischen umgesetzt.

Akt 1 (Image festnageln). Headscale läuft auf stabilem v0.29.1. Den Tailscale-grants-Zweig, für den ich vorher an einem benannten Pre-Release plus Digest hing (v0.29.0-beta.3@sha256:…), gibt es endlich als echtes Release. Der reine Tag genügt, Renovate hält ihn nach — der Digest-Pin ist Geschichte.

Akt 2 (SQLite → CNPG). Das war der Schritt, der mir wegen der Durability am meisten unter den Nägeln brannte, und er sitzt: Headscale spricht jetzt Postgres gegen einen CloudNativePG -Cluster headscale-db.

1HEADSCALE_DATABASE_TYPE: "postgres"
2HEADSCALE_DATABASE_POSTGRES_HOST: "headscale-db-rw.tailscale-system.svc.cluster.local"

Die Konsequenz ist die wichtige: Der Pod trägt keinen State mehr. Die einzige PVC ist weg, die Datenbank lebt im CNPG-Cluster (auf ceph-block, dort von CNPG selbst gesichert), und der Noise-Private-Key kommt aus einem Secret statt von der Platte. Damit fiel auch die Node-Affinität weg — Headscale rescheduled jetzt auf jeden Knoten, nicht mehr nur auf den einen Worker mit der PVC. Und weil die SQLite-Datei, die VolSync vorher sicherte, schlicht nicht mehr existiert, ist auch der VolSync-Pfad für Headscale entfallen; die Durability liegt nun komplett bei CNPG.

Akt 4 (Gateway entflechten). Die im Plan versprochene stabile Tailnet-LB-Service-IP (io.cilium/lb-pool: tailnet) steht — Details im Nachtrag zum tailnet-gateway . Die einwertigen Referenzen (Split-DNS, kubeconfig-tailnet) zeigen jetzt auf eine feste, aus der CLUSTER_ID abgeleitete IP.

Offen bleibt bewusst Akt 3 — das Endpoint-Failover via GSLB für den öffentlichen Headscale-Endpunkt — und der Subnet-Router-Split in N anti-affine Replicas. Die Kontrollebene ist damit noch keine echte Multi-Replica-HA, aber sie ist zustandslos, frei verschiebbar und durabel. Genau die drei Eigenschaften, die im Ernstfall zählen — und genau die, deren Fehlen mich beim Schreiben dieses Artikels nervös gemacht hat.