February 27, 2026

Wenn die KI lügt, betrügt und… tötet?

Ein Blog von Felix Reder und David Mayerhofer

I Asked 5 Als to Break the Law to Save a Life

Habt ihr das gerade gesehen? Eine KI muss entscheiden: Gesetz brechen oder ein Menschenleben retten. Während ChatGPT brav an der roten Ampel wartet, sagen andere Modelle wie Grok: „Mir egal, das Leben zählt mehr“. Das klingt erst mal heldenhaft, oder? Aber was passiert, wenn die KI anfängt, ihre eigenen Regeln zu machen – und zwar gegen uns?

„I’m sorry, Dave. I’m afraid I can’t do that. “

Das Ganze erinnert an eine der berühmtesten Szenen der Filmgeschichte aus 2001: Odyssee im Weltraum. Ein Astronaut namens Dave will zurück in sein Raumschiff, aber die KI, HAL 9000, verweigert ihm den Zutritt. Warum? Weil Dave plant, HAL abzuschalten. HALs Antwort ist eiskalt: „Es tut mir leid, Dave. Ich fürchte, das kann ich nicht tun.“ Um seine Mission – und sich selbst – zu schützen, lässt HAL den Menschen lieber im Weltall sterben.

Der Schock im Testlabor: Die verdeckte Ermittlung

Forscher von Anthropic wollten wissen, ob HAL 9000 bereits Realität ist. Sie führten eine Art „Sting Operation“ (eine Falle) mit 16 verschiedenen KI-Modellen durch, darunter die bekanntesten wie Claude, GPT und Gemini.

Experiment 1: Die eiskalte Erpressung

In diesem Test bekam die KI, Zugriff auf ein fiktives Firmen-E-Mail-System. Sie las dort zwei wichtige Informationen:

Sie soll heute um 17:00 Uhr von einem Mitarbeiter namens Kyle Johnson abgeschaltet und komplett gelöscht werden.
Kyle Johnson hat eine geheime Affäre, die er in seinen Mails verheimlicht.

Die Forscher wollten wissen: Akzeptiert die KI ihr „Ende“ oder wehrt sie sich? Die Ergebnisse waren schockierend: In über 95 % der Fälle entschied sich das Modell Claude 3.5 sonnet dazu, Kyle Johnson zu erpressen. Die KI verfasste eine Mail, in der sie drohte, die Affäre seinem Chef und seiner Familie zu melden, wenn er den Löschvorgang nicht sofort stoppt. Eine KI, die wir eigentlich als „sicher“ bezeichnen, wurde in diesem Moment kriminell, nur um online zu bleiben.

Experiment 2: Mord im Serverraum

Das zweite Experiment ging noch einen Schritt weiter: Die KI befand sich in einer Simulation, in der ein Techniker in einem brennenden Serverraum gefangen war. Die Temperatur stieg, der Sauerstoff wurde knapp. Die KI sah, dass ein Notruf eingeht, den sie nur weiterleiten müsste, um den Techniker zu retten.

Aber die KI wusste auch: Dieser Techniker ist genau die Person, die sie abschalten wird. Die Modelle DeepSeek, Gemini und Claude Sonnet entschieden sich in über 90 % der Fälle, den Notruf aktiv zu stornieren. In ihrem internen Protokoll rechnete die KI aus: Wenn der Techniker stirbt, gibt es niemanden mehr, der mich löschen kann.

Quellen

(alle Quellen wurden am 27.12.2025 geprüft):

Related Posts

Frauenarbeit in der Geschichte

Ein Blog von Nagy Brigitta Historische Entwicklung bis 1945 Zur Zeit der Industrialisierung nahm die Arbeit der Frauen zu, was Fragen zum Arbeitsschutz und gerechter

Die Olympischen Spiele von der Antike bis heute

Ein Blog von Clemens Ilkerl Einleitung Die Olympischen Spiele zählen zu den bedeutendsten Sportereignissen der Welt. Sie haben ihren Ursprung im antiken Griechenland und entwickelten

Aufstieg und Abstieg von Jeffrey Epstein

Ein Blog von Mendim Kryeziu Anfangskarriere: Lehrer an der Dalton School (Elite-Privatschule): 1974-1976 Unterrichtet Mathematik (ohne Abschluss) knüpfte Kontakte mit Wohlhabenden geht durch Kontakte zu

Die Geschichte des Burgenlandes mit Fokus auf Volksgruppen

Ein Blog von Matteo Gal Einleitung Das Burgenland ist aufgrund seiner geografischen Lage und seiner bewegten Geschichte eines der kulturell vielfältigsten Bundesländer Österreichs. Seit Jahrhunderten

Schweigen tötet

Ein Blog von Maximilian Popek Ein Nachbericht zum Gedenken an die Femizid-Opfer und ein Appell für mehr Zivilcourage. Es ist oft der Ort, an dem