1.8Einsteiger6 min

Tool Calling: Wie AI Agents Werkzeuge nutzen

Blck Alpaca·8. Juni 2026

Definition

Tool Calling (auch Function Calling) ist die Kernfähigkeit, mit der ein AI Agent über das reine Textgenerieren hinausgeht: Das LLM erhält maschinenlesbare Beschreibungen von Werkzeugen (Tools, APIs, Datenquellen) und erzeugt bei Bedarf einen strukturierten Aufruf mit Parametern, den die Anwendung ausführt. Das Ergebnis fließt zurück ins Modell, das daraufhin den nächsten Schritt plant. So wird das LLM vom Text-Generator zum handelnden Akteur, der wahrnimmt, entscheidet und Aktionen in echten Systemen auslöst.

Auf einen Blick

✓Tool Calling ist die Brücke zwischen LLM und Außenwelt: Das Modell gibt einen strukturierten Aufruf (Function-Name plus Parameter im JSON-Schema) zurück, die Anwendung führt ihn aus und liefert das Ergebnis als Beobachtung in den Reasoning-Loop (Perceive-Reason-Act-Observe) zurück.
✓Das LLM ruft Tools nicht selbst auf - es schlägt den Aufruf vor. Ausführung, Validierung und Rechte liegen beim umgebenden Code. Genau dort gehören Tool-Permissions, Input-Validierung und Human-in-the-Loop bei irreversiblen Aktionen hin.
✓Die häufigste Fehlerquelle sind nicht die Modelle, sondern unklare oder überlappende Tool-Definitionen. Präzise Namen, eindeutige Beschreibungen und eine Wann-nicht-nutzen-Klausel wirken stärker als jeder Prompt-Trick.
✓3-7 aktiv geladene Tools sind 2026 Best Practice; ab etwa 10 Tools beginnt messbare Degradation der Tool-Wahl. Dynamische Tool-Discovery statt statischer Vollbestückung hält die Auswahl scharf.
✓Das Model Context Protocol (MCP) ist der offene Standard für die Tool-Anbindung: ein Agent kann über MCP-Server standardisiert auf Tools und Datenquellen zugreifen, ohne für jede Integration eigenen Glue-Code zu schreiben.
✓Sicherheit ist kein Add-on: Least-Privilege-Scopes pro Tool, Allowlists, Bestätigungsschritte bei schreibenden oder irreversiblen Aktionen und Observability über alle Tool-Calls sind Pflicht, sobald ein Agent echte Systeme berührt.

Was ist Tool Calling?

Tool Calling (auch Function Calling oder Tool-Use) ist die Kernfähigkeit, mit der ein AI Agent über das reine Textgenerieren hinausgeht. Das LLM erhält maschinenlesbare Beschreibungen von Werkzeugen, Funktionen, APIs, Datenquellen, und erzeugt bei Bedarf einen strukturierten Aufruf mit Parametern, den die umgebende Anwendung ausführt. Das Ergebnis fließt als Beobachtung zurück ins Modell, das daraufhin den nächsten Schritt plant. So wird das LLM vom Text-Generator zum handelnden Akteur.

Die drei Kernantworten vorab:

Was passiert technisch? Das Modell gibt nicht Fließtext, sondern einen strukturierten Aufruf zurück: einen Function-Namen plus Argumente im JSON-Format. Die Anwendung führt diesen Aufruf aus und reicht das Ergebnis ins Modell zurück.
Wer ruft eigentlich auf? Nicht das LLM selbst. Das Modell schlägt einen Aufruf vor; die tatsächliche Ausführung, inklusive Rechteprüfung und Validierung, liegt im umgebenden Code. Diese Trennung ist die Grundlage jeder Sicherheitsarchitektur.
Warum ist das die Kernfähigkeit von Agenten? Ohne Tool-Use bleibt ein LLM ein Berater, der nur reden kann. Erst Tool Calling macht aus der Reasoning-Engine einen Agenten, der wahrnimmt, plant, handelt und beobachtet, den vollen Loop Perceive → Reason → Act → Observe.

Ein konkretes Beispiel: Verfügbarkeit prüfen und Termin buchen

Angenommen, ein Agent soll einem Kunden einen Beratungstermin buchen. Dem Modell werden zwei Tools bereitgestellt, jeweils mit Name, Beschreibung und einem Parameter-Schema:

get_availability(date: string): gibt freie Slots für ein Datum zurück.
book_appointment(slot_id: string, customer_email: string): bucht einen Slot.

Der Ablauf:

Reason: Der Nutzer schreibt „Hätten Sie nächsten Dienstag vormittags Zeit?“. Das Modell erkennt, dass es zunächst die Verfügbarkeit braucht.
Act: Statt einer Textantwort gibt das Modell einen strukturierten Aufruf zurück: get_availability(date: "2026-06-16").
Execute: Die Anwendung, nicht das Modell, ruft die echte Kalender-API auf und erhält zwei freie Slots.
Observe: Das Ergebnis (["09:00", "10:30"]) wird als Beobachtung zurück ins Modell gegeben.
Loop: Das Modell formuliert eine Rückfrage oder ruft, nach Bestätigung, book_appointment(...) auf.

Wichtig: Der schreibende Schritt (book_appointment) ist irreversibel im Wirkungssinn. Genau hier gehört ein Human-in-the-Loop- oder Bestätigungsschritt hin, bevor der Agent die Aktion ausführt.

Die Mechanik des Function Calling

Function Calling folgt in allen gängigen LLM-APIs demselben Grundmuster, unabhängig vom Anbieter:

Tool-Definition: Jedes Tool wird über ein JSON-Schema beschrieben, Name, eine natürlichsprachliche Beschreibung des Zwecks und die typisierten Parameter. Diese Beschreibung ist die einzige Information, anhand derer das Modell entscheidet, ob und wie es das Tool nutzt.
Tool-Selection: Das Modell wählt im Reasoning-Schritt das passende Tool und füllt die Parameter. Es nutzt dafür ausschließlich die mitgelieferten Beschreibungen plus den Konversationskontext.
Strukturierter Output: Statt Prosa liefert das Modell ein maschinenlesbares Objekt. Constrained Decoding bzw. schema-gebundene Generierung stellt sicher, dass der Output dem erwarteten Format entspricht.
Execution & Observation: Der Aufruf wird ausgeführt, das Ergebnis zurückgegeben, der Loop läuft weiter, bis das Ziel erreicht oder ein Abbruchkriterium (Loop-Limit, Fehler, Guardrail) greift.

Der wichtigste Praxisbefund: Wenn ein Agent falsch handelt, liegt die Ursache meist nicht beim Modell, sondern bei der Tool-Definition. Anthropic formuliert die Leitlinie scharf: wenn ein menschlicher Engineer nicht eindeutig sagen kann, welches Tool in einer Situation zu nutzen ist, kann ein Agent es auch nicht.

Daraus folgen drei Designregeln:

Tool-Count begrenzen: 3-7 aktiv geladene Tools sind 2026 Best Practice; ab etwa 10 Tools beginnt messbare Degradation der Tool-Wahl. In Anthropics internen MCP-Evals stieg die Tool-Selection-Accuracy mit dynamischer Tool-Suche von 49 % auf 74 % (Opus 4) bzw. von 79,5 % auf 88,1 % (Opus 4.5).
Überlappung vermeiden: Zwei Tools, die plausibel dieselbe Anfrage beantworten könnten, sind das Problem, das kein Prompt löst. Eine klare „Wann-nicht-nutzen“-Klausel in der Beschreibung ist die wirkungsvollste, oft vergessene Komponente.
Eindeutige Namen und Parameter: Sprechende Namen und eng typisierte Parameter reduzieren Fehlinterpretationen, bevor sie entstehen.

Der Bezug zu MCP: ein Standard für die Tool-Anbindung

Ohne Standard muss jede Tool-Integration einzeln verdrahtet werden, pro Agent, pro API, pro Datenquelle eigener Glue-Code. Das Model Context Protocol (MCP) löst dieses M-zu-N-Problem: Es definiert ein einheitliches Protokoll, über das ein Agent (MCP-Client) standardisiert mit Werkzeugen und Datenquellen (MCP-Server) spricht.

MCP ist damit das „Wie“ hinter dem Tool Calling, sobald Tools nicht mehr im eigenen Code liegen, sondern als wiederverwendbare Server bereitgestellt werden. Ein MCP-Server stellt Tools, Ressourcen und Prompts bereit; der Agent entdeckt sie zur Laufzeit und ruft sie über dasselbe Function-Calling-Muster auf. Der Reifegrad ist hoch: Die MCP-Spezifikation liegt in der Version 2025-11-25 vor; das Projekt wurde im Dezember 2025 an die Linux Foundation (Agentic AI Foundation) übergeben, und es existieren bereits über 10.000 MCP-Server.

Während MCP die Verbindung Agent ↔ Tool standardisiert, regelt das komplementäre Protokoll A2A (Agent-to-Agent) die Kommunikation Agent ↔ Agent in Multi-Agent-Systemen. A2A liegt seit Juni 2025 ebenfalls bei der Linux Foundation und wird von über 150 Organisationen getragen. Für reines Tool Calling ist MCP der relevante Standard; A2A wird erst auf Ebene L5 (Multi-Agent) wichtig.

Sicherheit: Tool-Permissions als Pflicht, nicht als Option

Sobald ein Agent echte Systeme berührt, Datenbanken schreibt, E-Mails versendet, Code ausführt, wird Tool-Sicherheit zur zentralen Anforderung. Die gute Nachricht: Weil das LLM Aufrufe nur vorschlägt und der umgebende Code sie ausführt, liegt der Kontrollpunkt genau dort, wo er hingehört.

Aspekt	Risiko ohne Schutz	Maßnahme
Rechte (Scopes)	Agent erhält Vollzugriff über ein API-Token	Least Privilege: pro Tool nur die minimal nötigen Scopes, getrennte Credentials je Tool
Aufruf-Validierung	Modell erzeugt unzulässige oder schädliche Parameter	Allowlists, Schema- und Wertebereichs-Validierung im Executor, nicht im Modell
Irreversible Aktionen	Agent löscht, bucht oder versendet ohne Kontrolle	Human-in-the-Loop / Bestätigungsschritt für schreibende und nicht umkehrbare Calls
Prompt-/Tool-Injection	Manipulierte Tool-Antwort steuert den Agenten	Untrusted Output kapseln, Quarantäne, keine ungeprüfte Tool-Ausgabe als Befehl behandeln
Nachvollziehbarkeit	Fehlverhalten lässt sich nicht rekonstruieren	Observability: jeden Tool-Call mit Parametern, Ergebnis und Entscheidungskontext loggen

Drei Pitfalls aus der Praxis sind besonders häufig: Agenten deterministisch zu behandeln, obwohl Tool-Wahl probabilistisch ist; keine Observability zu betreiben, sodass Fehler im Loop unsichtbar bleiben; und kein Human-in-the-Loop bei irreversiblen Aktionen vorzusehen. In compliance-sensiblen DACH-Kontexten kommt hinzu: Schreibende Aktionen auf Personendaten berühren DSGVO-Pflichten, und automatisierte Entscheidungen mit Rechtswirkung können unter Art. 22 DSGVO fallen (informational, keine Rechtsberatung).

Fazit

Tool Calling ist der Mechanismus, der ein LLM in einen Agenten verwandelt: Das Modell schlägt strukturierte Aufrufe vor, der Code führt sie aus, das Ergebnis treibt den nächsten Schritt. Die Qualität entscheidet sich an drei Stellen: an präzisen, überschneidungsfreien Tool-Definitionen, an einem schlanken aktiven Tool-Set (3-7) mit dynamischer Discovery, und an einer Sicherheitsarchitektur aus Least Privilege, Validierung, Bestätigungsschritten und Observability. MCP liefert dafür den offenen Standard, der die Tool-Anbindung von Einzelintegrationen zu wiederverwendbaren Servern hebt. Wer diese Grundlagen beherrscht, baut Agenten, die in Produktion zuverlässig und kontrolliert handeln.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Tool Calling und Function Calling?

Die Begriffe werden weitgehend synonym verwendet. Function Calling betont die technische Mechanik (das Modell erzeugt einen Funktionsaufruf im JSON-Schema), Tool-Use beschreibt dasselbe aus Agenten-Sicht (das Modell nutzt ein Werkzeug). In der Praxis meinen beide denselben Vorgang: Das LLM gibt einen strukturierten Aufruf zurück, den die Anwendung ausführt.

Ruft das LLM die Tools selbst auf?

Nein. Das LLM schlägt einen Aufruf nur vor - es erzeugt Function-Name und Parameter. Die tatsächliche Ausführung übernimmt der umgebende Code (der Executor), der auch Rechte prüft, Parameter validiert und das Ergebnis zurückgibt. Diese Trennung ist die Grundlage jeder Sicherheitsarchitektur für Agenten.

Was hat MCP mit Tool Calling zu tun?

MCP (Model Context Protocol) ist der offene Standard, der die Verbindung zwischen Agent und Tool vereinheitlicht. Statt jede Integration einzeln zu programmieren, stellt ein MCP-Server Tools standardisiert bereit, die der Agent zur Laufzeit entdeckt und über das übliche Function-Calling-Muster aufruft. MCP ist das Wie hinter dem Tool Calling, sobald Tools als wiederverwendbare Server bereitstehen.

Wie viele Tools sollte ein Agent gleichzeitig haben?

3-7 aktiv geladene Tools sind 2026 Best Practice. Ab etwa 10 Tools beginnt messbare Degradation der Tool-Wahl, weil das Modell zunehmend Schwierigkeiten hat, das richtige Werkzeug auszuwählen. Besser als ein grosses statisches Set ist dynamische Tool-Discovery: Es werden nur die für den aktuellen Schritt relevanten Tools geladen.

Wie sichert man Tool-Aufrufe ab?

Über mehrere Ebenen: Least-Privilege-Scopes pro Tool und getrennte Credentials, Input-Validierung und Allowlists im Executor, ein Human-in-the-Loop- oder Bestätigungsschritt bei schreibenden und irreversiblen Aktionen, Kapselung nicht vertrauenswürdiger Tool-Ausgaben (gegen Tool-Injection) sowie Observability, die jeden Aufruf mit Parametern und Ergebnis protokolliert.

Was ist die häufigste Fehlerquelle beim Tool Calling?

Nicht das Modell, sondern die Tool-Definition. Unklare oder überlappende Beschreibungen führen dazu, dass der Agent das falsche Werkzeug wählt. Abhilfe schaffen sprechende Namen, eng typisierte Parameter und vor allem eine eindeutige Wann-nicht-nutzen-Klausel je Tool - das wirkt stärker als jeder Prompt-Trick.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach, oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.

Newsletter abonnieren →Unsere Services

Vorheriger← Reaktive vs. deliberative Agenten NächsterDie Geschichte der AI Agents →