Gemini Thinking Tokens. Kostenrisiko bei KI

Viele Unternehmen, Entwickler und Agenturen schauen bei Google Gemini zuerst auf den Modellnamen. Sie sehen Gemini 2.5 Flash, Gemini 3.5 Flash oder ein Pro Modell und denken, damit sei die wichtigste technische Entscheidung bereits getroffen. In der Praxis ist das aber nur ein Teil der Wahrheit. Entscheidend ist nicht nur, welches Modell verwendet wird, sondern auch, welche Einstellungen im Hintergrund aktiv sind.

Genau hier entsteht ein Kostenrisiko, das in vielen KI Projekten unterschätzt wird. Denn moderne KI Modelle erzeugen nicht nur sichtbaren Text. Bei sogenannten Thinking Modellen können zusätzlich interne Denk Tokens entstehen. Diese Tokens erscheinen nicht direkt als fertiger Text in der Antwort, können aber trotzdem in die Abrechnung einfliessen. Google beschreibt in der eigenen Dokumentation zu Gemini Thinking, dass Thinking Modelle interne Denkprozesse verwenden, um bessere Ergebnisse bei komplexen Aufgaben zu liefern.

Das klingt zunächst positiv. Und in vielen Fällen ist es das auch. Bei Code Analyse, technischer Fehlersuche, mehrstufiger Recherche, Datenanalyse oder komplexen Agenten Workflows kann Thinking wertvoll sein. Das Problem beginnt aber dort, wo Thinking bei einfachen Aufgaben mitläuft, obwohl es kaum sichtbaren Mehrwert bringt.

Der eigentliche Kostenhebel liegt oft nicht im Modellnamen

In vielen Projekten wird ein API Key erstellt, ein Modell ausgewählt und der Beispielcode aus Google AI Studio übernommen. Danach funktioniert die Integration scheinbar. Der Text wird generiert, die Antwort sieht gut aus und der erste Test kostet nur Bruchteile eines Cents. Genau deshalb fällt das Problem am Anfang oft nicht auf.

Der entscheidende Punkt ist aber: Bei Gemini 3.5 Flash ist Thinking laut Google nicht automatisch vollständig ausgeschaltet. Wenn kein Thinking Level gesetzt wird, nutzt das Modell eine Standard Einstellung. In der Google Dokumentation steht, dass Gemini 3.5 Flash standardmässig mit dem Thinking Level medium arbeitet. Wer diese Einstellung nicht bewusst ändert, verwendet also nicht automatisch die günstigste Variante.

Für einfache Textaufgaben kann das unnötig teuer sein. Ein kurzer Social Media Text, eine Produktbeschreibung oder eine einfache Zusammenfassung braucht in der Regel kein tiefes Reasoning. Trotzdem können zusätzliche Thinking Tokens entstehen, wenn das Modell im Hintergrund erst über die Aufgabe nachdenkt, bevor es den sichtbaren Text ausgibt.

Google weist in der Dokumentation zur Token Zählung darauf hin, dass man nach einem API Aufruf über die Usage Metadata unter anderem Prompt Tokens, Antwort Tokens, Thinking Tokens und Total Tokens auslesen kann. Genau diese Werte müssen in produktiven Systemen protokolliert werden. Nur so sieht man, ob ein Request wirklich günstig war oder ob im Hintergrund unnötig viele Tokens verbraucht wurden.

Thinking ist nicht falsch, aber es muss bewusst eingesetzt werden

Man darf Thinking nicht grundsätzlich negativ sehen. Es ist ein Werkzeug. Bei schwierigen Aufgaben kann Thinking die Qualität verbessern. Wenn ein Modell zum Beispiel Logs analysieren, mehrere Fehlerquellen vergleichen, Code bewerten oder ein komplexes Konzept strukturieren soll, kann ein höheres Thinking Level sinnvoll sein.

Bei einfachen Texten sieht die Sache anders aus. Wenn ein Autohaus nur einen kurzen Facebook Beitrag für ein Fahrzeug erstellen möchte, zählt vor allem ein sauberer, verkaufsstarker und verständlicher Text. Dafür braucht das Modell meistens keine tiefe Analyse. Genau solche Aufgaben kommen in Marketing Workflows sehr häufig vor.

Ein Beispiel wäre ein Content Studio innerhalb einer Fahrzeugplattform. Ein System wie der ADP Car Market Hub kann Fahrzeugdaten strukturiert in WordPress bereitstellen und daraus Marketinginhalte erzeugen. Wenn für jedes Fahrzeug automatisch ein Social Media Text, eine Fahrzeugbeschreibung oder ein kurzer Werbetext generiert wird, können aus kleinen Token Unterschieden schnell relevante Kosten entstehen.

Bei einem einzelnen Fahrzeug ist der Unterschied kaum sichtbar. Bei mehreren tausend Fahrzeugen, mehreren Sprachen und mehreren Plattformvarianten wird er aber wirtschaftlich wichtig.

Beispiel mit Gemini 3.5 Flash und Standard Thinking

Nehmen wir eine einfache Aufgabe aus der Praxis. Ein Händler möchte einen kurzen Facebook Beitrag für ein Fahrzeug erstellen.

Schreibe einen kurzen Facebook Beitrag für ein Autohaus.
Fahrzeug: BMW 320d Touring
Baujahr: 2021
Kilometerstand: 58.000 km
Preis: 29.900 Euro
Ton: professionell, freundlich, verkaufsstark

Wenn dieser Prompt mit Gemini 3.5 Flash ohne eigene Thinking Konfiguration ausgeführt wird, kann das Modell mit der Standard Thinking Einstellung arbeiten. Für Gemini 3.5 Flash ist laut Google medium die Standardstufe, wenn kein Thinking Level angegeben wird.

Ein Beispiel in JavaScript kann so aussehen:

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({
  apiKey: process.env.GEMINI_API_KEY,
});

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: `
Schreibe einen kurzen Facebook Beitrag für ein Autohaus.
Fahrzeug: BMW 320d Touring
Baujahr: 2021
Kilometerstand: 58.000 km
Preis: 29.900 Euro
Ton: professionell, freundlich, verkaufsstark
`,
  config: {
    thinkingConfig: {
      thinkingLevel: "medium"
    }
  }
});

console.log(response.text);
console.log(response.usageMetadata);

Ein möglicher Text könnte so aussehen:

Der BMW 320d Touring aus dem Jahr 2021 verbindet sportliches Fahrgefühl mit viel Platz für Alltag, Familie und Beruf. Mit 58.000 km, gepflegtem Zustand und moderner Ausstattung ist er eine starke Wahl für alle, die Effizienz und Komfort kombinieren möchten.

Jetzt für 29.900 Euro verfügbar. Vereinbaren Sie gerne eine Besichtigung oder Probefahrt direkt bei uns im Autohaus.

Der Text ist gut. Er ist professionell, verständlich und für einen Fahrzeugpost brauchbar. Die entscheidende Frage ist aber nicht nur, ob der Text gut ist. Die entscheidende Frage lautet: Wie teuer wurde dieser Text erzeugt?

Beispiel mit Gemini 3.5 Flash und minimalem Thinking

Für dieselbe Aufgabe kann man das Thinking Level reduzieren. Bei Gemini 3.5 Flash bedeutet das nicht, dass Thinking technisch vollständig deaktiviert wird. Google beschreibt, dass Gemini 3 Flash Modelle kein vollständiges Thinking Off unterstützen. Die niedrigste sinnvolle Einstellung ist minimal. Diese Einstellung bedeutet laut Google, dass das Modell wahrscheinlich nicht denkt, auch wenn es theoretisch weiterhin kann.

Für einfache Textaufgaben ist das häufig die bessere Einstellung.

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({
  apiKey: process.env.GEMINI_API_KEY,
});

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: `
Schreibe einen kurzen Facebook Beitrag für ein Autohaus.
Fahrzeug: BMW 320d Touring
Baujahr: 2021
Kilometerstand: 58.000 km
Preis: 29.900 Euro
Ton: professionell, freundlich, verkaufsstark
`,
  config: {
    thinkingConfig: {
      thinkingLevel: "minimal"
    }
  }
});

console.log(response.text);
console.log(response.usageMetadata);

Ein möglicher Text könnte so aussehen:

BMW 320d Touring, Baujahr 2021, mit 58.000 km und einem Preis von 29.900 Euro. Dieses Fahrzeug bietet eine starke Kombination aus Komfort, Effizienz und Alltagstauglichkeit.

Jetzt bei uns verfügbar. Kontaktieren Sie uns gerne für weitere Informationen oder eine Probefahrt.

Auch dieser Text ist brauchbar. Er ist etwas direkter, aber inhaltlich erfüllt er dieselbe Aufgabe. Für den normalen Nutzer oder Händler ist der Unterschied oft kaum relevant. Für die Kostenrechnung kann er aber entscheidend sein.

Die Vergleichsrechnung zeigt das eigentliche Problem

Die folgende Tabelle ist eine vereinfachte Modellrechnung. Sie basiert auf den offiziellen Preisangaben für Gemini 3.5 Flash im Paid Tier. Laut Google kostet Gemini 3.5 Flash 1,50 US Dollar pro eine Million Input Tokens und 9,00 US Dollar pro eine Million Output Tokens. Wichtig ist dabei, dass Output Tokens laut Google auch Thinking Tokens einschliessen.

Gemini 3.5 Flash mit mittlerem Thinking Level:

Prompt Tokens: 120
Antwort Tokens: 196
Thinking Tokens: ca. 1’500
Abgerechnete Tokens: ca. 1’816
Kosten pro Anfrage: ca. 0,0154 US Dollar

Gemini 3.5 Flash mit minimalem Thinking Level:

Prompt Tokens: 120
Antwort Tokens: 196
Thinking Tokens: 0 bis sehr gering
Abgerechnete Tokens: ca. 316
Kosten pro Anfrage: ca. 0,0019 US Dollar

Bei einer einzelnen Anfrage wirkt dieser Unterschied klein. Aber KI Kosten entstehen selten durch einen einzelnen Request. Sie entstehen durch Wiederholung.

Geschätzte Kosten bei 10’000 Anfragen:

Gemini 3.5 Flash mit mittlerem Thinking Level: ca. 154,40 US Dollar
Gemini 3.5 Flash mit minimalem Thinking Level: ca. 19,40 US Dollar
Differenz: ca. 135,00 US Dollar

Diese Rechnung zeigt sehr klar, warum Thinking Einstellungen nicht ignoriert werden dürfen. Der sichtbare Text kann fast gleich wirken, während der Preis ein Vielfaches höher ist.

Warum Google AI Studio allein keine Kostenstrategie ersetzt

Google AI Studio ist gut für Tests, Prompts und schnelle Prototypen. Es ist aber keine vollständige Kostenstrategie für produktive Anwendungen. Wer nur Code generiert und diesen direkt in eine Kundenplattform einbaut, übersieht schnell die wirklich wichtigen Fragen.

Welche Modellversion wird verwendet?
Welche Thinking Einstellung ist aktiv?
Wie viele Thinking Tokens entstehen pro Anfrage?
Wie hoch ist der durchschnittliche Token Verbrauch pro Funktion?
Wird bei einfachen Texten ein zu starkes Modell verwendet?
Welche Kosten entstehen bei 1.000, 10.000 oder 100.000 Anfragen?

Diese Fragen müssen vor dem produktiven Einsatz beantwortet werden. Ansonsten kann eine KI Funktion technisch funktionieren und trotzdem wirtschaftlich schlecht gebaut sein.

Gemini 2.5 Flash kann anders gesteuert werden

Wichtig ist auch die Unterscheidung zwischen Gemini 2.5 Flash und Gemini 3.5 Flash. Bei Gemini 2.5 Flash verwendet Google laut Dokumentation nicht thinking Level, sondern thinking Budget. Dort kann Thinking mit thinking Budget: 0 deaktiviert werden.

Ein Beispiel:

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({
  apiKey: process.env.GEMINI_API_KEY,
});

const response = await ai.models.generateContent({
  model: "gemini-2.5-flash",
  contents: "Schreibe einen kurzen professionellen Fahrzeugtext für einen BMW 320d Touring.",
  config: {
    thinkingConfig: {
      thinkingBudget: 0
    }
  }
});

console.log(response.text);
console.log(response.usageMetadata);

Bei Gemini 3.5 Flash ist diese Denkweise anders. Dort wird Thinking über ein Level reduziert. Für einfache Aufgaben sollte daher bewusst geprüft werden, ob minimal ausreicht.

thinkingConfig: {
  thinkingLevel: "minimal"
}

Das ist keine Kleinigkeit. Es ist ein zentraler Unterschied zwischen Modellgenerationen. Wer alte Einstellungen falsch auf neue Modelle überträgt, kann entweder falsche Erwartungen haben oder unnötige Kosten erzeugen.

Professionelle KI Integration braucht Token Logging

Eine professionelle KI Integration sollte niemals nur prüfen, ob der Text schön aussieht. Sie muss messen, wie teuer der Text erzeugt wurde.

Mindestens diese Werte sollten nach jedem API Aufruf gespeichert werden:

console.log({
  promptTokens: response.usageMetadata?.promptTokenCount,
  outputTokens: response.usageMetadata?.candidatesTokenCount,
  thinkingTokens: response.usageMetadata?.thoughtsTokenCount,
  totalTokens: response.usageMetadata?.totalTokenCount,
});

Diese Werte machen sichtbar, ob ein einfacher Text wirklich nur wenige hundert Tokens kostet oder ob im Hintergrund tausende Thinking Tokens verbraucht werden.

Für Plattformen, die viele Inhalte erzeugen, ist das besonders wichtig. Ein Content Tool, ein SEO Assistent, ein Fahrzeugmarketing System oder ein automatischer Report Generator muss nicht nur gute Ergebnisse liefern. Es muss auch wirtschaftlich skalierbar bleiben.

Genau hier trennt sich eine einfache KI Spielerei von einer echten produktiven KI Funktion. Gute Systeme haben Modellrouting, Token Logging, Kostenlimits und unterschiedliche Einstellungen je nach Aufgabe. Ein einfacher Text bekommt ein günstiges Setup. Eine komplexe Analyse bekommt ein stärkeres Setup. Alles andere ist blindes Bezahlen.

Was Unternehmen daraus lernen sollten

Die wichtigste Erkenntnis lautet: Nicht jedes gute KI Ergebnis ist auch wirtschaftlich gut erzeugt worden. Wenn ein Text mit 300 Tokens und ein fast gleicher Text mit 1.800 Tokens erstellt werden kann, muss man die günstigere Variante ernsthaft prüfen.

Thinking sollte nicht pauschal aktiviert oder pauschal verteufelt werden. Es sollte bewusst eingesetzt werden. Für einfache Texte, kurze Produktbeschreibungen, Social Media Captions und Standardantworten reicht oft ein reduziertes Thinking Level. Für technische Analysen, komplexe Planung oder mehrstufige Agenten Aufgaben kann ein höheres Thinking Level sinnvoll sein.

Unternehmen sollten daher für jede KI Funktion eigene Regeln definieren. Ein Content Modul braucht andere Einstellungen als ein technischer Diagnose Assistent. Ein Chatbot braucht andere Regeln als ein interner Code Reviewer. Ein Fahrzeugtext braucht nicht dieselbe Denkintensität wie eine tiefgehende Marktanalyse.

Fazit

Gemini Modelle sind leistungsfähig, aber ihre Kosten hängen nicht nur vom Modellnamen ab. Der eigentliche Kostenhebel liegt oft in den Einstellungen im Hintergrund. Besonders Thinking kann bei einfachen Aufgaben unnötig viele Tokens erzeugen, ohne dass der sichtbare Text entsprechend besser wird.

Wer Gemini produktiv nutzt, sollte deshalb nicht einfach den Beispielcode aus Google AI Studio übernehmen. Er sollte das Modell bewusst konfigurieren, Thinking Einstellungen testen, Token Verbrauch messen und Kosten pro Use Case berechnen.

Bei Gemini 3.5 Flash ist medium die Standard Thinking Einstellung, wenn nichts anderes gesetzt wird. Für einfache Textaufgaben kann minimal oft wirtschaftlicher sein. Bei Gemini 2.5 Flash kann Thinking über thinking Budget: 0 deaktiviert werden. Diese Unterschiede muss man kennen, bevor man eine KI Funktion in ein echtes Kundensystem einbaut.

Das Ziel ist nicht, immer das billigste Modell zu verwenden. Das Ziel ist, für jede Aufgabe das passende Modell mit der passenden Einstellung zu nutzen. Nur so wird KI nicht nur beeindruckend, sondern auch wirtschaftlich kontrollierbar.