10.10Fortgeschritten8 min

Agentur-Tech-Stack 2026: HubSpot, Clay, n8n und LangGraph kombiniert

Blck Alpaca·9. Juni 2026

Definition

Ein Agentur-Tech-Stack für AI Agents kombiniert vier Schichten: CRM/Marketing (HubSpot), Daten und Enrichment (Clay), Orchestrierung und Workflows (n8n, LangGraph) sowie Modelle und Observability. Daten fließen von der Erfassung über die Orchestrierung zur Aktion und werden durchgängig überwacht. Der Aufbau folgt der Logik Buy für Standardschichten, Build nur auf Agenten- und Workflow-Ebene.

Auf einen Blick

✓Ein belastbarer AI-Agent-Stack hat vier Schichten: Daten/CRM, Orchestrierung, Aktion und Observability. Die teuersten Fehler entstehen nicht in der Modellwahl, sondern in der Datenqualität (L1) und der Prozessintegration (L6).
✓HubSpot (Breeze-Agenten, laut Research rund 38 % Marketing-Automation-Marktanteil) deckt CRM und Marketing-Aktion ab; Clay liefert Daten-Enrichment; n8n und LangGraph orchestrieren Workflows beziehungsweise mehrstufige Agenten-Graphen.
✓Build vs. Buy: Auf Modell- und Framework-Ebene fast nie selbst bauen (Signal: Aleph-Alpha-Pivot September 2024, Cohere-Aleph-Alpha-Deal vereinbart November 2025). Differenzierung entsteht auf der Agenten- und Workflow-Schicht.
✓Multi-Provider-Modellstrategie mit Model-Gateway ist Standard; Einzelanbieter-Lock-in ist ein strategisches Risiko. Für souveränitätspflichtige Workloads kommen EU-Optionen wie Mistral oder Aleph Alpha/Cohere infrage.
✓DSGVO und EU-Hosting workloadweise entscheiden, nicht pauschal: Souveränitäts-Aufschlag liegt typisch bei 30-50 % auf die Infrastrukturkosten. AVV nach DSGVO Art. 28 und No-Training-Klauseln sind Pflicht bei jedem externen LLM-Zugriff.
✓AI Act beachten: Transparenzpflicht (Art. 50) und High-Risk-Pflichten greifen ab 2. August 2026, die Literacy-Pflicht (Art. 4) gilt bereits seit 2. Februar 2025.

Ein Agentur-Tech-Stack für AI Agents kombiniert vier Schichten: CRM/Marketing (HubSpot), Daten und Enrichment (Clay), Orchestrierung und Workflows (n8n, LangGraph) sowie Modelle und Observability. Daten fließen von der Erfassung über die Orchestrierung zur Aktion und werden durchgängig überwacht. Der Aufbau folgt der Logik: Standardschichten einkaufen, nur auf Agenten- und Workflow-Ebene selbst bauen.

Dieser Artikel beschreibt einen Referenz-Stack 2026 für eine AI-Agent-getriebene Marketing-Agentur im DACH-Raum. Er ist bewusst nüchtern gehalten: Die Tool-Namen sind austauschbar, die Schicht-Logik ist es nicht.

Vier Schichten, eine Flussrichtung: Daten/CRM (HubSpot, Clay) → Orchestrierung (n8n, LangGraph) → Aktion (HubSpot Breeze, ausgehende Kanäle) → Observability (Eval-Harness, Logging). Wer eine Schicht überspringt, baut keinen Stack, sondern eine Demo.
Build vs. Buy ist pro Schicht zu entscheiden: Modell- und Framework-Ebene fast immer kaufen, Agenten- und Workflow-Logik gezielt selbst bauen. Realistischer DACH-Schnitt: rund 70 % zugekauft, 30 % intern.
EU-Hosting workloadweise entscheiden: Souveränität dort, wo personenbezogene Daten oder AI-Act-High-Risk-Workloads es erzwingen, sonst zahlt man einen Aufschlag von typisch 30-50 % für Governance-Theater statt Risikoreduktion.

Die vier Schichten und ihr Zusammenspiel

Ein Agenten-Stack ist kein Werkzeugkasten, sondern eine Pipeline. Der Wert entsteht entlang der Kette Daten → Orchestrierung → Aktion → Monitoring. Jede Schicht hat eine klare Aufgabe und eine strategische Entscheidung, die daran hängt.

1. Daten- und CRM-Schicht. Hier liegt die Quelle der Wahrheit. HubSpot ist für DACH-B2B-Mittelstand-Agenturen die naheliegende CRM- und Marketing-Plattform; HubSpot hält laut Research rund 38 % Marktanteil bei Marketing-Automation und liefert mit den Breeze-Agenten (Customer Agent, Prospecting Agent, Data Agent in GA) sowohl Datenhaltung als auch ausführende Agenten. Für das Anreichern von Datensätzen, also Firmen-, Kontakt- und Signaldaten, ist Clay in der Research als „Workflow-AI-Champion" benannt: Clay verkettet Enrichment-Quellen und LLM-Schritte zu Anreicherungs-Pipelines. Die strategisch wichtigste Erkenntnis aus der Research: Die meisten Stack-Fehler im DACH-Mittelstand entstehen genau hier, auf der Datenebene (Layer L1), nicht bei der Modellwahl.

2. Orchestrierungs- und Workflow-Schicht. Diese Schicht verbindet alles und entscheidet, wann welcher Schritt läuft. n8n (Open-Source-Workflow-Engine, Vendor in Berlin) ist die deterministische Workflow- und Integrations-Ebene: Trigger, Knoten, Verzweigungen, robuste Verdrahtung von HubSpot, Clay, LLM-APIs und internen Systemen. LangGraph (aus dem LangChain-Ökosystem) adressiert die nicht-deterministische Agenten-Logik: mehrstufige Agenten mit Zustand, Speicher, Tool-Nutzung und bedingten Pfaden. Die Faustregel: n8n für planbare, regelbasierte Abläufe; LangGraph dort, wo echtes Mehrschritt-Reasoning mit Speicher nötig ist. Beide Frameworks orchestrieren, die Wahl hängt davon ab, wie viel Autonomie ein Schritt braucht.

3. Modell-Schicht. Die Research ist hier eindeutig: Multi-Provider als Default, Einzelanbieter-Lock-in als strategisches Risiko. Das übliche Muster ist ein primärer Anbieter (häufig über Microsoft Azure OpenAI oder Anthropic via Cloud-Partner) plus mindestens ein Fallback, angebunden über ein Model-Gateway. Für souveränitätsrelevante Workloads, wo wirklich erforderlich, nennt die Research EU-Optionen wie Mistral oder Aleph Alpha/Cohere.

4. Observability-Schicht. Ohne sie ist der Stack blind. Sie umfasst Eval-Harness, Logging, Monitoring und die Versions- und Drift-Überwachung der Modelle. Long-running Agents scheitern nicht-deterministisch, anders als klassische Software, die Überwachung ist deshalb keine Kür, sondern Voraussetzung für jeden produktiven Betrieb.

Referenz-Tabelle: Schicht, Tool-Optionen, Zweck

Schicht	Tool-Optionen (Stand 2026)	Zweck	Build vs. Buy
L1: Daten & CRM	HubSpot (Breeze-Agenten), Clay (Enrichment)	Quelle der Wahrheit, Kontakt-/Firmendaten, Anreicherung	Buy. Eigenbau selten gerechtfertigt; Datenqualität ist Budget-Priorität
L2: Orchestrierung/Workflows	n8n (deterministisch), LangGraph (Agenten-Graphen)	Verdrahtung, Trigger, mehrstufige Agenten-Logik, Tool-Nutzung	Buy Framework, Build Logik. Die Workflows selbst sind die Differenzierung
L3: Modelle	Multi-Provider via Model-Gateway; EU-Optionen (Mistral, Aleph Alpha/Cohere) für Souveränität	Reasoning, Generierung, Fallback-Kette	Buy. Foundation-Model-Eigenbau fast nie sinnvoll
L4: Aktion	HubSpot Breeze, ausgehende Kanäle, Tool-Aufrufe	Ausführung: senden, schreiben, aktualisieren, eskalieren	Buy + Build. UX und HITL-Design entscheiden über Adoption
L5: Observability	Eval-Harness, Logging, Monitoring, Model-Gateway-Telemetrie	Pass-Raten, Drift, Kosten, Eskalationen, Audit-Trail	Buy + Build. Meist unterinvestiert, value-kritisch
L6: Prozessintegration	Workflow-Redesign, HITL-Pfade, Metriken	Einbettung in den realen Geschäftsprozess	Build. Im DACH-Mittelstand 2026 die am stärksten unterinvestierte Schicht

Der entscheidende Punkt aus der Research: Boards und Teams überinvestieren in L3 und L4 (die Schichten, über die in der Presse berichtet wird) und unterinvestieren in L1 und L6, also genau in die beiden Schichten, die den Wert tatsächlich bestimmen und gleichzeitig die unspektakulärsten sind.

Build vs. Buy je Schicht

Die Build-vs-Buy-Frage ist keine globale Haltung, sondern eine Entscheidung pro Schicht.

Nicht bauen (Buy): Foundation-Modelle und Frameworks. Das klarste Marktsignal liefert Aleph Alpha, der am besten finanzierte europäische GenAI-Anbieter, der im September 2024 die Foundation-Model-Entwicklung aufgab (CEO Jonas Andrulis sinngemäß: „nur ein europäisches LLM zu haben ist als Geschäftsmodell nicht ausreichend") und dessen Übernahme durch Cohere im November 2025 vereinbart wurde. Wenn die Modell-Build-Ökonomie für Europas bestfinanzierten Anbieter nicht aufgeht, gilt das für eine Agentur erst recht. Ebenso einzukaufen sind CRM (HubSpot), Enrichment (Clay), Workflow-Engine (n8n) und Agenten-Framework (LangGraph), alles Standardschichten ohne Differenzierungswert.

Gezielt bauen (Build): die Agenten- und Workflow-Schicht (L2/L4) und die Prozessintegration (L6). Hier liegt die eigentliche Wertschöpfung einer Agentur: die konkreten Workflows, das Human-in-the-Loop-Design, die Eskalationspfade, die Metriken. Der realistische DACH-Mittelstand-Schnitt laut Research: rund 70 % zugekauft (Modelle, Plattformen, SaaS-Agenten, Integrations-Dienstleistung) und 30 % intern (die Menschen, die Use Cases und Ergebnisse verantworten). Die Logik dahinter: Einkaufen, was linear mit Aufwand skaliert; intern halten, was institutionelles Wissen aufbaut.

Konkretes Beispiel: ein Lead-Enrichment-Agent

Ein typischer Workflow durch alle Schichten, als Pseudo-Ablauf:

```

Trigger (n8n): Neuer Kontakt in HubSpot (Webhook)
Enrichment (Clay): Firmen-/Signaldaten anreichern → zurück an n8n
Reasoning (LangGraph): mehrstufiger Agent bewertet Fit, recherchiert,
entwirft personalisierte Ansprache (Model-Gateway: Primärmodell,
Fallback bei Timeout)
Human Gate (HITL): Entwurf zur Freigabe an Account Manager
Aktion (HubSpot Breeze): nach Freigabe Sequenz starten, CRM-Felder schreiben
Observability: Eval-Pass-Rate, Eskalationsrate, Kosten je Lauf loggen
```

Zur Kostenseite liefert die Research belastbare Größenordnungen aus dem Customer-Service-Umfeld, die als Orientierung dienen: LLM-Compute pro Konversation liegt bei etwa 0,10-1,00 € je nach Modell, Länge und Tool-Nutzung, also die billige Position. Die teuren Posten sind Engineering/Integration, Human-in-the-Loop-Review (oft 30-60 % der Brutto-Einsparung) und Change Management. Übertragen auf den Agentur-Stack heißt das: Die Modell-Schicht (L3) ist nicht dort, wo das Geld liegt, es liegt in L1, L4 und L6.

DSGVO- und EU-Hosting-Hinweis

Die Entscheidung über Datensouveränität gehört workloadweise getroffen, nicht als Pauschalpolitik. Für DSGVO-pflichtige personenbezogene Daten und AI-Act-High-Risk-Workloads sind EU-Hosting und Souveränitätsoptionen bindend; die Research nennt konkret STACKIT, Plusserver, OVHcloud, IONOS, AWS European Sovereign Cloud und Microsoft EU Data Boundary. Der Souveränitäts-Aufschlag ist real und liegt typisch bei 30-50 % auf die Infrastrukturkosten, oft verbunden mit einem Capability-Rückstand gegenüber führenden US-Anbietern. Für interne Produktivität, Wissenssuche, Content-Erstellung und Sales-Support ist Souveränität dagegen häufig nicht zwingend: Dann zahlt der Aufschlag eher für Theater als für Risikoreduktion.

Bei jedem externen LLM-Zugriff gehören ein Auftragsverarbeitungsvertrag nach DSGVO Art. 28 und No-Training-Klauseln in den Vertrag. Regulatorisch ist relevant: Die AI-Act-Transparenzpflicht (Art. 50) für Systeme, die mit natürlichen Personen interagieren, sowie die High-Risk-Pflichten greifen ab 2. August 2026; die Literacy-Pflicht (Art. 4) gilt bereits seit 2. Februar 2025. Diese Angaben stammen aus der Research und ersetzen keine Rechtsberatung, die konkrete Einordnung eines Stacks gehört in die Hand der eigenen Rechts- und Datenschutzfunktion.

Für Agenturen und B2B-Teams

Der Wettbewerbsvorteil 2026 liegt nicht im glänzendsten Tool, sondern in der disziplinierten Verdrahtung der Schichten und einer ehrlichen Observability, die den P&L-Beitrag von Finance validieren lässt, nicht bloße Adoptionszahlen. Blck Alpaca (Wien) baut genau diese Stacks für DACH-Agenturen und B2B-Teams: HubSpot/Clay/n8n/LangGraph integriert, Multi-Provider-Modellstrategie mit Model-Gateway, EU-Hosting workloadweise begründet, Eval- und Monitoring-Schicht von Tag eins. Wer einen Referenz-Stack 2026 aufsetzen oder einen bestehenden konsolidieren will (statt für 3-4 überlappende Tools zu zahlen), bekommt von uns eine nüchterne Architektur statt Vendor-Narrativ, inklusive klarer Build-vs-Buy-Linie pro Schicht und Kill-Kriterien für Use Cases, die nicht liefern.

Häufig gestellte Fragen

Was gehört 2026 in den Tech-Stack einer AI-Agent-getriebenen Marketing-Agentur?

Vier Schichten: eine Daten- und CRM-Schicht (HubSpot für CRM/Marketing, Clay für Enrichment), eine Orchestrierungs-Schicht (n8n für deterministische Workflows, LangGraph für mehrstufige Agenten-Logik), eine Modell-Schicht (Multi-Provider mit Model-Gateway) und eine Observability-Schicht (Eval-Harness, Logging, Monitoring). Entscheidend ist das Zusammenspiel Daten zu Orchestrierung zu Aktion zu Monitoring, nicht die Einzelauswahl der Tools.

Sollte eine Agentur Tools selbst bauen oder einkaufen (Build vs. Buy)?

Auf Modell- und Framework-Ebene praktisch nie selbst bauen: Selbst Aleph Alpha, der am besten finanzierte europäische GenAI-Anbieter, hat im September 2024 die Foundation-Model-Entwicklung aufgegeben; im November 2025 wurde die Übernahme durch Cohere vereinbart. CRM, Enrichment und Orchestrierung kauft man ein (HubSpot, Clay, n8n). Selbst gebaut wird nur auf der Agenten- und Workflow-Schicht, weil dort die Differenzierung liegt. Realistischer DACH-Mittelstand-Schnitt: rund 70 % zugekauft, 30 % intern.

Welche Rolle spielen n8n und LangGraph im Stack?

n8n ist die deterministische Workflow- und Integrations-Schicht: Es verbindet HubSpot, Clay, LLM-APIs und interne Systeme über Trigger und Knoten und eignet sich für planbare, regelbasierte Abläufe. LangGraph dient der Orchestrierung mehrstufiger Agenten mit Zustand, Speicher, Tool-Nutzung und Verzweigungen. In der Praxis übernimmt n8n die robuste Verdrahtung, LangGraph die nicht-deterministische Agenten-Logik dort, wo echtes Mehrschritt-Reasoning nötig ist.

Was ist beim Thema DSGVO und EU-Hosting im AI-Stack zu beachten?

Die Entscheidung sollte workloadweise fallen, nicht pauschal. Für DSGVO-pflichtige personenbezogene Daten und AI-Act-High-Risk-Workloads sind EU-Hosting und Souveränitätsoptionen (etwa STACKIT, Plusserver, IONOS, OVHcloud, AWS European Sovereign Cloud, Microsoft EU Data Boundary) bindend; der Aufschlag liegt typisch bei 30-50 %. Für interne Produktivität, Wissenssuche und Content-Erstellung ist Souveränität oft nicht zwingend. Bei jedem externen LLM-Zugriff gehören AVV nach DSGVO Art. 28 und No-Training-Klauseln in den Vertrag. Dies ist keine Rechtsberatung.

Wie misst man, ob der AI-Agent-Stack tatsächlich Wert liefert?

Über die Observability-Schicht und vorab definierte Outcome-Metriken statt reiner Adoptionszahlen. Sinnvoll sind Eval-Pass-Raten, HITL-Eskalationsrate, Zykluszeit-Reduktion und am Ende ein von Finance validierter P&L-Beitrag. Reine Nutzungsmetriken (Anzahl Workflows, aktive Nutzer) sind notwendig, aber nicht hinreichend. Selbstberichtete Produktivitätsgewinne sind unzuverlässig; verlassen Sie sich auf Telemetrie und Ergebnisdaten.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach, oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.

Newsletter abonnieren →Unsere Services

Vorheriger← Pricing-Modelle für Agent-Infrastruktur: Retainer, Project, Outcome NächsterProof of Concept mit Blck Alpaca: Das 14-Tage-Sprint-Modell →