Hallo zusammen, hier ist Emma von agent101.net!
Es ist also 2026, und wenn du wie ich bist, ist dein Posteingang wahrscheinlich überquellend mit „KI dies“ und „KI das.“ Jede zweite Woche gibt es ein neues Framework, ein neues Modell und ein neues Versprechen von einer KI, die deine Steuern macht, deinen Hund ausführt und vielleicht sogar deinen nächsten Roman schreibt. Es ist aufregend, das will ich nicht bestreiten, aber es kann sich auch ein wenig… überwältigend anfühlen. Besonders, wenn man gerade erst anfängt und versucht herauszufinden, was ein „KI-Agent“ überhaupt *ist*, abgesehen vom Marketing-Hype.
Vor ein paar Monaten hatte ich einen richtigen „Aha!“-Moment. Ich versuchte, eine äußerst lästige Aufgabe für meine persönlichen Finanzen zu automatisieren – im Grunde genommen, spezifische Ausgabenarten über mehrere Bankkonten zu verfolgen und sie dann in einer Tabelle zu kategorisieren. Ich hatte alle gängigen Lösungen ausprobiert, aber nichts passte zu meinen skurrilen Kategorien. Da dachte ich: „Ein KI-Agent könnte bestimmt dabei helfen, oder?“
Das Problem war, jedes Tutorial, das ich fand, schien für jemanden mit einem Doktortitel in Informatik geschrieben zu sein. Sie sprangen direkt in Multi-Agent-Systeme, komplexe Orchestrierung und Begriffe wie „Ontologien“, die mir schwindelig machten. Ich wollte einfach nur einen einfachen Agenten erstellen, der eine bestimmte Aufgabe erledigt! Ich wollte die absolut grundlegenden Elemente verstehen, das „Hello World“ der KI-Agenten. Und das, meine Freunde, ist genau das, was wir heute angehen werden.
Wir werden einen super einfachen, spezialisierten KI-Agenten bauen, der mit einem großen Sprachmodell (LLM) interagiert, um eine spezifische, fokussierte Aufgabe zu erfüllen. Sieh es als deinen ersten Schritt, deinen eigenen digitalen Assistenten zu erstellen, der genau auf deine Bedürfnisse zugeschnitten ist. Keine fancy Frameworks, keine Multi-Agent-Komplexität. Nur ein praktischer, praxisnaher Leitfaden, um deinen ersten Agenten zum Laufen zu bringen.
Das „Warum“: Jenseits von Chatbots
Bevor wir zum Wie übergehen, lassen Sie uns schnell auf das „Warum“ eingehen. Vielleicht denkst du: „Emma, ich kann schon mit ChatGPT reden. Ist das nicht ein Agent?“ Und du liegst in gewisser Hinsicht nicht falsch! ChatGPT ist unglaublich leistungsstark. Aber ein eigenständiger Chatbot ist reaktiv – du fragst ihn etwas, er antwortet. Ein KI Agent ist in seiner einfachsten Form proaktiv und zielorientiert. Er hat ein spezifisches Ziel, kann Entscheidungen treffen und kann oft mit seiner Umgebung interagieren (auch wenn diese Umgebung nur eine API oder ein Dateisystem ist), um dieses Ziel zu erreichen.
Mein Problem mit der Finanzverfolgung ist ein perfektes Beispiel. Ich wollte nicht manuell Transaktionsbeschreibungen eingeben und ChatGPT bitten, sie einzeln zu kategorisieren. Ich wollte etwas, das die Transaktionen *entgegennehmen*, *herausfinden*, was sie waren, und sie dann *in die* richtigen Kategorien einsortieren konnte, alles mit minimalem Eingreifen von meiner Seite. Das ist der entscheidende Unterschied: Agentur. Es geht darum, die KI zu befähigen, im eigenen Namen zu handeln, innerhalb definierter Grenzen, um ein Ziel zu erreichen.
Unser erster Agent: Der „Zusammenfassen & Taggen“-Bot
Für unser praktisches Beispiel werden wir einen super einfachen Agenten erstellen, den ich „Zusammenfassen & Taggen“-Bot nenne. Stell dir vor, du erhältst oft lange E-Mails, Artikel oder Sitzungsnotizen, und du möchtest schnell zwei Dinge: eine prägnante Zusammenfassung und ein paar relevante Tags (Schlüsselwörter) für späteres einfaches Suchen. Das ist ein perfektes, abgegrenztes Problem für unseren ersten Agenten.
Hier ist, was unser Agent tun wird:
- Ein Stück Text empfangen (z.B. einen Artikel, den Text einer E-Mail).
- Ein LLM verwenden, um eine kurze Zusammenfassung des Textes zu generieren.
- Dasselbe LLM verwenden, um 3-5 relevante Tags für den Text zu generieren.
- Beide – die Zusammenfassung und die Tags – präsentieren.
Wir halten es einfach, indem wir Python verwenden, weil es so anfängerfreundlich und weit verbreitet für KI-Aufgaben ist. Wir werden auch eine der populären LLM-APIs verwenden – ich zeige dir, wie das mit OpenAI funktioniert, aber die Prinzipien gelten auch für andere wie Anthropics Claude oder Googles Gemini.
Was du brauchen wirst (Das Minimum)
- Python auf deinem Rechner installiert (Version 3.8 oder höher ist gut).
- Ein API-Schlüssel für einen LLM-Anbieter (z.B. OpenAI API-Schlüssel). Du musst dich auf deren Website anmelden und etwas Guthaben hinzufügen. Keine Sorge, für einfache Aufgaben sind die Kosten in der Regel gering.
- Ein Texteditor (VS Code, Sublime Text oder sogar Notepad++ funktioniert).
Schritt 1: Einrichtung deiner Umgebung
Zuerst lass uns unsere Python-Umgebung vorbereiten. Öffne dein Terminal oder die Eingabeaufforderung.
# Erstelle ein neues Verzeichnis für dein Projekt
mkdir my_first_agent
cd my_first_agent
# Erstelle eine virtuelle Umgebung (gute Praxis!)
python3 -m venv venv
source venv/bin/activate # Auf Windows: .\venv\Scripts\activate
# Installiere die OpenAI-Bibliothek
pip install openai python-dotenv
Die `python-dotenv`-Bibliothek ist super nützlich, um deinen API-Schlüssel nicht direkt in deinen Code zu schreiben, was eine große Sicherheitsbestimmung ist. Niemals deine API-Schlüssel hartkodieren!
Als nächstes erstelle eine Datei mit dem Namen `.env` in deinem `my_first_agent`-Verzeichnis. Füge in diese Datei deinen OpenAI API-Schlüssel wie folgt ein:
OPENAI_API_KEY="sk-your_actual_openai_api_key_here"
Ersetze `”sk-your_actual_openai_api_key_here”` durch deinen echten Schlüssel. Speichere und schließe diese Datei.
Schritt 2: Gestaltung des „Gehirns“ unseres Agenten (Der Prompt)
Der Kern eines jeden LLM-gestützten Agenten ist sein Prompt. So weisen wir das LLM an, was wir möchten, dass es tut. Für unseren Zusammenfassen & Taggen-Bot benötigen wir einen klaren, spezifischen Prompt.
Denke daran, es wie die Anweisungen für einen sehr intelligenten, aber wörtlichen Praktikanten zu geben. Du musst explizit sein.
# In deiner Haupt-Python-Datei (z.B. agent.py)
SYSTEM_PROMPT = """
Du bist ein hilfreicher Textanalyse-Assistent. Dein Ziel ist es, eine prägnante Zusammenfassung und relevante Tags für jeden gegebenen Text bereitzustellen.
Wenn ich einen Text bereitstelle, wirst du:
1. Eine Zusammenfassung erstellen, die nicht länger als 3 Sätze ist.
2. 3 bis 5 Schlagwörter generieren, die die Hauptthemen oder Schlüsselwörter des Textes darstellen.
Formatiere deine Ausgabe strikt wie folgt:
Zusammenfassung: [Deine Zusammenfassung hier]
Tags: [tag1, tag2, tag3, tag4, tag5] (oder weniger, falls angebracht, durch Kommas getrennt)
Stelle sicher, dass deine Zusammenfassung objektiv ist und deine Tags hochrelevant sind.
"""
Dieser `SYSTEM_PROMPT` ist entscheidend. Er definiert die Rolle der KI und skizziert das erwartete Ausgabeformat. Das hilft dem LLM, auf Kurs zu bleiben und gibt uns konsistente Ergebnisse, was für einen Agenten, der eine wiederholbare Aufgabe erledigen muss, super wichtig ist.
Schritt 3: Aufbau des „Körpers“ des Agenten (Der Python-Code)
Jetzt lass uns alles in einem Python-Skript zusammenfügen. Erstelle eine Datei mit dem Namen `agent.py` in deinem `my_first_agent`-Verzeichnis.
import os
from openai import OpenAI
from dotenv import load_dotenv
# Lade Umgebungsvariablen aus der .env-Datei
load_dotenv()
# Initialisiere den OpenAI-Client
# Er wird automatisch den OPENAI_API_KEY aus os.environ übernehmen
client = OpenAI()
SYSTEM_PROMPT = """
Sie sind ein hilfreicher Textanalyseassistent. Ihr Ziel ist es, eine prägnante Zusammenfassung und relevante Tags für jeden gegebenen Text bereitzustellen.
Wenn ich Ihnen einen Text zur Verfügung stelle, werden Sie:
1. Eine Zusammenfassung erstellen, die nicht länger als 3 Sätze ist.
2. 3 bis 5 Schlagwörter generieren, die die Hauptthemen oder Schlüsselwörter des Textes darstellen.
Formatieren Sie Ihre Ausgabe strikt wie folgt:
Zusammenfassung: [Ihre 3-Sätze-Zusammenfassung hier]
Tags: [tag1, tag2, tag3, tag4, tag5] (oder weniger, wenn passend, durch Kommas getrennt)
Stellen Sie sicher, dass Ihre Zusammenfassung objektiv ist und Ihre Tags hochrelevant sind.
"""
def summarize_and_tag_agent(text_to_process: str):
"""
Unser einfacher AI-Agent und Tag-Text mit einem LLM.
"""
try:
response = client.chat.completions.create(
model="gpt-3.5-turbo", # Oder "gpt-4", wenn Sie Zugriff haben und eine bessere Qualität wünschen
messages=[
{"role": "system", "content": SYSTEM_PROMPT},
{"role": "user", "content": text_to_process}
],
temperature=0.7, # Steuert die Zufälligkeit: 0.0 ist deterministisch, 1.0 ist sehr kreativ
max_tokens=250 # Begrenzen Sie die Ausgabelänge, um übermäßig lange Antworten zu vermeiden
)
agent_output = response.choices[0].message.content
return agent_output
except Exception as e:
print(f"Ein Fehler ist aufgetreten: {e}")
return None
if __name__ == "__main__":
# Beispiel für die Verwendung unseres Agents
article_text = """
In einer bahnbrechenden Studie, die letzte Woche veröffentlicht wurde, haben Forscher am Institut für Fortgeschrittene Robotik eine neue Methode vorgestellt, um autonomen Drohnen das Navigieren in komplexen städtischen Umgebungen mit beispielloser Genauigkeit beizubringen. Die Technik, genannt "Neuro-Spatial Mapping", umfasst eine neuartige Kombination aus Deep Reinforcement Learning und der Verarbeitung von Echtzeit-Lidar-Daten. Dies ermöglicht es den Drohnen, hochdetaillierte 3D-Karten ihrer Umgebung zu erstellen, die Bewegungen von Fußgängern vorherzusagen und potenzielle Gefahren mit einer viel geringeren Fehlerquote als frühere Systeme zu identifizieren. Experten glauben, dass diese Entwicklung erhebliche Auswirkungen auf die Paketlieferung, Such- und Rettungsoperationen sowie die Infrastrukturinspektion haben könnte, und somit den Weg für eine breitere Akzeptanz der Drohnentechnologie in dicht besiedelten Gebieten ebnen könnte. Allerdings bestehen Bedenken hinsichtlich des Datenschutzes und der Integration in die Luftverkehrskontrolle, was die Notwendigkeit robuster regulatorischer Rahmenbedingungen unterstreicht, um diese technologischen Fortschritte zu begleiten.
"""
print("--- Ausführen des Zusammenfassen & Tag-Agents ---")
result = summarize_and_tag_agent(article_text)
if result:
print("\nAgenten-Ausgabe:")
print(result)
# Grundlegende Analyse (kann für Robustheit verbessert werden)
summary_line = [line for line in result.split('\n') if line.startswith("Zusammenfassung:")][0]
tags_line = [line for line in result.split('\n') if line.startswith("Tags:")][0]
summary = summary_line.replace("Zusammenfassung: ", "").strip()
tags_str = tags_line.replace("Tags: ", "").strip()
tags = [tag.strip() for tag in tags_str.split(',')]
print("\n--- Analysierte Ausgabe ---")
print(f"Zusammenfassung: {summary}")
print(f"Tags: {tags}")
else:
print("Agent konnte kein Ergebnis liefern.")
print("\n--- Ein weiteres Beispiel ---")
email_text = """
Betreff: Q1 Projektbesprechung neu geplant
Hallo Team,
Nur eine kurze Mitteilung, um allen mitzuteilen, dass die für nächsten Dienstag, den 2. April, geplante Q1 Projektbesprechung verschoben wurde. Es gab einen Konflikt mit der Verfügbarkeit des VP of Engineering, der anwesend sein muss. Das neue Datum ist jetzt Donnerstag, der 11. April, um 10:00 Uhr im Konferenzraum 3. Bitte aktualisieren Sie entsprechend Ihre Kalender. Eine aktualisierte Einladung wird in Kürze verschickt. Entschuldigen Sie bitte die Unannehmlichkeiten, die dies verursachen könnte.
Mit freundlichen Grüßen,
Sarah
Projektkoordinatorin
"""
result_email = summarize_and_tag_agent(email_text)
if result_email:
print("\nAgenten-Ausgabe (E-Mail):")
print(result_email)
else:
print("Agent ist für das E-Mail-Beispiel gescheitert.")
Lassen Sie uns aufschlüsseln, was in `agent.py` passiert:
- `import os`, `openai`, `dotenv`: Wir bringen die notwendigen Bibliotheken ein.
- `load_dotenv()`: Diese Zeile lädt Ihren `OPENAI_API_KEY` von der `.env`-Datei in die Umgebungsvariablen Ihres Skripts.
- `client = OpenAI()`: Dies initialisiert den OpenAI-Client. Er sucht automatisch nach `OPENAI_API_KEY` in Ihrer Umgebung.
- `SYSTEM_PROMPT`: Unsere sorgfältig formulierten Anweisungen für das LLM.
- `summarize_and_tag_agent(text_to_process: str)`: Das ist das Herzstück unseres Agents.
- Es erfolgt ein Aufruf an `client.chat.completions.create`. So interagieren Sie mit den Chat-Modellen von OpenAI.
- `model=”gpt-3.5-turbo”`: Wir verwenden ein gutes, kosteneffizientes Modell. Sie könnten auf `gpt-4` für bessere Qualität upgraden, wenn nötig.
- `messages`: Dies ist eine Liste von Wörterbüchern, die das Gespräch darstellen. Die `system`-Rolle etabliert die Persona und Anweisungen des Agents, und die `user`-Rolle liefert den tatsächlichen zu verarbeitenden Text.
- `temperature=0.7`: Dieser Parameter steuert, wie “kreativ” oder “zufällig” die Antwort des LLM ist. Niedrigere Werte (z.B. 0.2) machen es fokussierter und deterministisch, höhere Werte (z.B. 0.9) variieren mehr. Für die Zusammenfassung wollen wir es ziemlich konsistent, also ist 0.7 ein guter Kompromiss.
- `max_tokens=250`: Dies setzt ein oberes Limit für die Länge der Antwort des LLM. Hilfreich zur Kostenkontrolle und um Kürze zu gewährleisten.
- `if __name__ == “__main__”:`: Dieser Block wird ausgeführt, wenn Sie das Skript direkt ausführen. Er stellt Beispieltexte bereit und gibt die Ergebnisse aus. Ich habe sogar ein einfaches Beispiel für das Parsen eingeschlossen, um zu zeigen, wie Sie die Zusammenfassung und Tags programmatisch extrahieren können.
Schritt 4: Führen Sie Ihren ersten Agenten aus!
Nun kommt der spannende Teil! Speichern Sie Ihre `agent.py`-Datei und gehen Sie zurück zu Ihrem Terminal (stellen Sie sicher, dass Ihre virtuelle Umgebung weiterhin aktiviert ist: `source venv/bin/activate`).
python agent.py
Sie sollten eine Ausgabe sehen, die dieser ähnelt (die genaue Formulierung kann aufgrund der Natur des LLM leicht variieren, aber das Format sollte konsistent sein):
--- Ausführen des Zusammenfassen & Tag-Agents ---
Agenten-Ausgabe:
Zusammenfassung: Forscher am Institut für Fortgeschrittene Robotik haben "Neuro-Spatial Mapping" entwickelt, eine neue Methode für autonome Drohnen, um in komplexen städtischen Umgebungen zu navigieren. Diese Technik kombiniert Deep Reinforcement Learning und Echtzeit-Lidar-Daten, wodurch Drohnen detaillierte 3D-Karten erstellen und Bewegungen mit hoher Genauigkeit vorhersagen können. Dieser Fortschritt könnte die Paketlieferung und Such- und Rettungsoperationen revolutionieren, obwohl Bedenken hinsichtlich Datenschutz und Regulierung bestehen.
Tags: Drohnen, Robotik, Navigation, KI, Urban
--- Analysierte Ausgabe ---
Zusammenfassung: Forscher am Institut für Fortgeschrittene Robotik haben "Neuro-Spatial Mapping" entwickelt, eine neue Methode für autonome Drohnen, um in komplexen städtischen Umgebungen zu navigieren. Diese Technik kombiniert Deep Reinforcement Learning und Echtzeit-Lidar-Daten, wodurch Drohnen detaillierte 3D-Karten erstellen und Bewegungen mit hoher Genauigkeit vorhersagen können. Dieser Fortschritt könnte die Paketlieferung und Such- und Rettungsoperationen revolutionieren, obwohl Bedenken hinsichtlich Datenschutz und Regulierung bestehen.
Tags: ['Drohnen', 'Robotik', 'Navigation', 'KI', 'Urban']
--- Ein weiteres Beispiel ---
Agenten-Ausgabe (E-Mail):
Zusammenfassung: Die Q1 Projektbesprechung, die ursprünglich für den 2. April festgelegt war, wurde auf Donnerstag, den 11. April, um 10:00 Uhr im Konferenzraum 3 neu angesetzt. Diese Änderung ist auf einen Konflikt mit der Verfügbarkeit des VP of Engineering zurückzuführen. Eine aktualisierte Einladung wird bald versendet.
Tags: Besprechung, Neuplanung, Projekt, Q1, Überprüfung
Herzlichen Glückwunsch! Sie haben gerade Ihren allerersten KI-Agenten erstellt und ausgeführt! Es mag einfach sein, aber es demonstriert das Kernkonzept: Ein zielgerichteter KI-Agent, der mit einem LLM interagiert, um eine spezifische Aufgabe basierend auf Ihren Anweisungen auszuführen.
Was kommt als Nächstes? Machen Sie es sich zu eigen
Das ist natürlich nur der Ausgangspunkt. Hier sind einige Ideen, wie Sie Ihren neuen Agenten erweitern und experimentieren können:
- Andere Modelle: Versuchen Sie, `gpt-3.5-turbo` in `gpt-4` (wenn Sie Zugriff haben) zu ändern und beobachten Sie den Qualitätsunterschied. Oder probieren Sie ein Modell eines anderen Anbieters.
- Komplexere Eingabeaufforderungen: Experimentieren Sie mit dem `SYSTEM_PROMPT`. Können Sie es dazu bringen, bestimmte Entitäten (Namen, Daten, Orte) zu extrahieren? Kann es die Zusammenfassung in eine andere Sprache übersetzen?
- Eingabemethoden: Anstatt `article_text` fest einzucodieren, könnten Sie den Agenten dazu bringen, aus einer Datei zu lesen? Oder Eingaben direkt von der Kommandozeile entgegenzunehmen?
- Ausgabemethoden: Anstatt nur auszugeben, könnte der Agent die Zusammenfassung und Tags in eine neue Datei schreiben? Oder sie sogar in eine Datenbank hochladen?
- Fehlerbehandlung: Der `try-except`-Block ist ein Anfang, aber Sie könnten weitere sophisticated Fehlerprüfungen hinzufügen, insbesondere beim Parsen der Ausgabe, falls das LLM das Format nicht jedes Mal perfekt einhält.
- Werkzeugnutzung (Ein Blick in die Zukunft): Dieser Agent ist rein sprachlich. Der nächste Schritt in der Entwicklung von Agenten umfasst häufig die “Werkzeugnutzung”, bei der der Agent externe Funktionen aufrufen kann (z.B. das Web durchsuchen, eine E-Mail senden oder Berechnungen durchführen) basierend auf seinem Verständnis der Aufgabe. Das ist ein Thema für einen anderen Tag, aber es baut direkt auf diesem Fundament auf!
Praktische Erkenntnisse
- Einfach anfangen: Versuche nicht, am ersten Tag einen Super-Agenten zu erstellen. Wähle eine spezifische, erreichbare Aufgabe.
- Prompt Engineering ist entscheidend: Dein Agent ist nur so gut wie seine Anweisungen. Sei klar, präzise und gib das gewünschte Ausgabeformat an.
- Umgebungsvariablen verwenden: Schütze deine API-Schlüssel!
- Iterieren und experimentieren: Passe deine Eingabeaufforderungen an, probiere verschiedene Modelle aus und beobachte, wie sich der Agent verhält. So lernst du, was funktioniert.
- Das “Warum” verstehen: Ein Agent ist nicht nur ein Chatbot; es ist ein zielorientiertes System, das darauf ausgelegt ist, zu handeln und Ziele zu erreichen.
Deinen ersten KI-Agenten zu erstellen kann sich anfühlen wie das Knacken eines Geheimcodes, aber ich hoffe, dieses Tutorial hat es ein wenig entmystifiziert. Es ist ein kraftvolles Konzept, und sobald du diese Grundlagen verstehst, eröffnet sich eine ganz neue Welt der Automatisierung und intelligenten Systeme. Geh voran und baue!
Viel Spaß beim Coden, und wir sehen uns beim nächsten Mal!
Emma
agent101.net
🕒 Published: