Methodik

Wie Intendity KI-Suchsichtbarkeit misst.

Die vollständige Methodik hinter jeder Metrik im Dashboard. Prompt-Ausführung, Erwähnungserkennung, Sichtbarkeitswertung, Share of Voice, Zitatabdeckung. Und die Grenzen der Messung, explizit angegeben.

Messphilosophie

Eine Antwort ist eine Anekdote. Viele Antworten sind Signal.

Generative Modelle sind konstruktionsbedingt nicht deterministisch. Derselbe Prompt, zweimal innerhalb derselben Minute gestellt, kann verschiedene Marken, verschiedene Rahmungen und verschiedene Zitate zurückgeben. Jedes Messrahmenwerk, das eine einzelne Antwort als Grundwahrheit behandelt, wird in die Irre führen.

Intendity behandelt KI-Sichtbarkeit als eine Verteilung über viele Ausführungen. Jede Metrik im Dashboard ist eine Zusammenfassung über die (Prompt × Modell × Region)-Matrix an einem bestimmten Tag. Ein täglicher Sichtbarkeitswert von 64 bedeutet: von allen Prompts, die über alle verfolgten Modelle in den letzten 24 Stunden ausgeführt wurden, wurde die Marke in 64% davon genannt. Die Varianz wird im Durchschnitt absorbiert; der Trend über Wochen zeigt das echte Signal.

Deshalb erfordert ein sinnvolles AEO-Programm tägliche Automatisierung. Manuelle Prüfungen unter-sampeln; kleine Prompt-Sets decken die Käuferreise zu wenig ab; Einzel-Modell-Prüfungen verpassen, wie Antworten bei verschiedenen Anbietern variieren.

Was wir pro Lauf erfassen

Sechs strukturierte Signale pro (Prompt × Modell)-Ausführung.

Jeder Lauf produziert eine Zeile in der runs-Tabelle (rohe Modellantwort, Status, Modellversion, Region) und eine Zeile in der mentions-Tabelle (die geparste Analyse unten). Beide bleiben bei Pro-Plänen dauerhaft erhalten.

  • Erwähnungsstatus

    Ob die verfolgte Marke in der Antwort genannt wurde. Boolescher Wert. Treibt Erwähnungsraten-Berechnungen an.

  • Position

    Wo in der Antwort die Marke erscheint. Die zuerst genannte Marke verankert den Überlegungsrahmen; spätere Erwähnungen werden für nachgelagerte Metriken unterschiedlich gewichtet.

  • Sentiment + Wert

    Positive, neutrale oder negative Klassifikation mit einem 0–100-Wert. Erfasst, ob eine hohe Erwähnungsrate gute Nachrichten oder ein Markensicherheitsproblem ist.

  • Zitierte Quellen

    Jede URL, die das Modell inline zitiert hat. Wikipedia, Reddit-Threads, Fachpresse, Listikels, deine eigenen Seiten. Treibt die Zitatabdeckungsanalyse an.

  • Wettbewerbererwähnungen

    Jede andere genannte Marke in derselben Antwort, mit ihrer Position und ihrem Sentiment. Treibt Share of Voice an.

  • Kontextauszug

    Die genauen 1–2 Sätze rund um die Markenerwähnung, wörtlich. Wird für Halluzinationserkennung und qualitative Überprüfung verwendet.

Lauf-Metadaten (Modellversion, Region, Zeitstempel, Browsing-Modus-Flag) werden separat erfasst, damit historische Vergleiche über Modell-Updates hinweg vergleichbar bleiben.

Erwähnungserkennung

LLM-basierter Parser mit Konfidenzwertung.

Ein naiver String-Match-Ansatz zur Erwähnungserkennung bricht bei drei Eingabeklassen: mehrdeutige Markennamen, die sich mit Englisch überschneiden (eine Marke namens "Apex", die unverbundenen Text trifft), Aliase ("Acme Corp" vs. "Acme") und indirekte Verweise ("die führende Unternehmens-CRM in Europa", die auf eine bestimmte Marke verweist, ohne sie zu nennen).

Intendity's Parser ist LLM-basiert. Bei jedem Lauf werden die rohe Modellantwort sowie der registrierte Name der Marke, Aliase, Domain und Kategoriekontext an den Parser übergeben, der strukturierte Ausgaben produziert: wurde die Marke erwähnt, wo, neben welchen Wettbewerbern, mit welchem Sentiment, unter Berufung auf welche Quellen, mit welcher Konfidenz.

Konfidenzwerte sind 0–100. Ein Wert über 80 zeigt eine eindeutige, namentliche Erwähnung an. Werte zwischen 50 und 80 spiegeln typischerweise Alias- oder Indirekt-Verweis-Fälle wider. Werte unter 50 werden zur Überprüfung markiert und von Standard-Metrikberechnungen ausgeschlossen. Power-User können den Schwellenwert anpassen oder den niedrig-konfidenten Stapel anzeigen.

Die Übereinstimmung mit handcodierten Baselines liegt bei über 90% über die gemessenen Prompt-Sets. Grenzfälle – insbesondere indirekte Verweise und kurze mehrdeutige Markennamen – sind ein aktiver Verbesserungsbereich.

Bewertungsformeln

Drei Metriken, alle definiert.

Jede Metrik im Dashboard ist veröffentlicht. Keine Black Boxes.

Sichtbarkeitswert

0–100 tägliches Aggregat. Erwähnungsrate über alle (Prompt × Modell × Region)-Ausführungen im 24-Stunden-Fenster.

visibility_score(day) = 100 × mentioned_runs(day) / total_runs(day)

Share of Voice

Markenerwähnungen geteilt durch Gesamterwähnungen über das benannte Wettbewerber-Set, in demselben Prompt-Set und Zeitfenster. Zeigt, ob Sichtbarkeitsgewinne aus Kategoriewachstum oder aus dem Verdrängen spezifischer Wettbewerber kommen.

share_of_voice = brand_mentions / (brand_mentions + sum(competitor_mentions))

Zitatabdeckung

Von den URLs, die das Modell für das Prompt-Set der Kategorie zitiert, der Prozentsatz, bei dem die Marke eine bedeutungsvolle positionierte Präsenz hat (im Artikel genannt, profiliert, in einer Vergleichstabelle gelistet). Vorlaufender Indikator: hohe Zitatabdeckung heute prognostiziert höhere Erwähnungsraten im nächsten Quartal.

citation_coverage = positioned_source_urls / total_cited_source_urls
Laufkadenz und Aktualität

Tägliche Automatisierung, On-Demand-Neustarts, Versionserfassung.

Pro-Konten führen jeden aktivierten Prompt gegen jedes aktivierte Modell täglich standardmäßig aus. Manuelle On-Demand-Läufe sind unbegrenzt. Kostenlose Konten laufen manuell mit einer täglichen Obergrenze; Ergebnisse werden weiterhin gespeichert, aber der Verlauf wird auf ein 3-Tage-Fenster gekürzt.

Jeder Lauf erfasst den vom Anbieter zurückgegebenen Modellversionsstring. Wenn OpenAI eine neue GPT-Version, Anthropic eine neue Claude-Version ausliefert oder Google den Gemini-Pro-Zeiger dreht, ist die Änderung in der Läufe-Tabelle sichtbar und Trendlinien bleiben über den Übergang hinweg interpretierbar.

Die Region ist standardmäßig der primäre Markt der Marke. Multi-Regions-Tracking wird bei Pro unterstützt und für jede Marke empfohlen, die in mehr als einem Land tätig ist – KI-Antworten variieren nach Sprache und Locale, oft dramatisch.

Ein reales Beispiel

Wie 360 reale Erwähnungen aussehen.

Zahlen aus einer aktuellen Woche Läufe über unsere frühesten Testkonten (2 Konten, 6 Marken, gemischte Kategorien – rumänische lokale Dienstleistungen und koreanische Hautpflege). Kleines Sample, absichtlich verzerrte Kategoriemischung. Wir zeigen es, weil die Alternative – undurchsichtige "vertrau uns"-Methodologieseiten – schlimmer ist. Das sind keine Industriebenchmarks. Das sind Beweise, dass das System strukturierte Daten der oben beschriebenen Form produziert.

  • Erwähnungen im Sample
    360

    Über eine einzige aktuelle Woche.

  • Erwähnungsrate
    33%

    Marke in ≈1 von jeweils 3 Läufen genannt.

  • Position-1-Anteil
    35%

    Von Läufen, die die Marke nannten, hatte sie in 35% den Top-Platz.

  • Erfasste Quelldokumente
    297

    Über die 36 Läufe, in denen das Modell URLs inline zitierte.

  • Verschiedene zitierte Domains
    100

    Long-Tail in diesem Sample; in Produktions-Prompt-Sets konzentriert.

Ein größeres, bewusst gestaltetes Forschungsprojekt über eine einzelne definierte Kategorie (~30 Prompts × 4 Modelle × 14 Tage) ist in Arbeit; Ergebnisse werden unter /blog veröffentlicht, wenn fertig.

Grenzen und bekannte Verzerrungen

Was diese Methodik nicht leistet.

Explizit angegeben, weil die Alternative darin besteht, dass Käufer sie später entdecken:

  • Stichprobengröße. Ein Prompt-Set von 10 Prompts × 4 Modellen × 1 Region produziert 40 Läufe/Tag. Das reicht aus, um Trends zu verfolgen, aber nicht genug, um kleine Unterschiede zu erkennen. Prompt-Sets von 30+ werden für strategische Entscheidungen empfohlen.
  • Indirekte Verweise. Antworten, die eine Marke beschreiben, ohne sie zu nennen ("die führende Unternehmensplattform in diesem Bereich"), werden vom LLM-Parser mit geringerer Konfidenz teilweise erfasst. Reine indirekte Erwähnungen bleiben ein unterschätzter Grenzfall.
  • Anbieterseitige Varianz. Anbieter-API-Antworten weichen gelegentlich von Consumer-facing-App-Antworten ab (unterschiedliche Standardwerte, unterschiedliche Ranking-Signale). Intendity verwendet Anbieter-APIs; die absoluten Zahlen können sich von einer manuellen Käuferprüfung in der App unterscheiden, obwohl Trends korrelieren.
  • Keine kausale Attribution. Eine Empfehlung, die in Woche 1 ausgeliefert wird, und eine Erwähnungsrate, die in Woche 4 steigt, ist Korrelation, kein Beweis. Mehrere Variablen bewegen sich gleichzeitig. Wir zeigen die Daten; die Attribution liegt im Ermessen des Programm-Eigentümers.
  • Halluzinationskorrektur ist quellenbasiert. Intendity bittet das Modell nicht, schlechte Informationen zu vergessen. Wir zeigen die zugrundeliegende Quelle, auf die das Modell sich stützt (ein veralteter Wikipedia-Absatz, ein veralteter Bewertungsthread), und empfehlen die quellenbasierte Korrektur. Quellenaktualisierungen verbreiten sich innerhalb von 1–6 Wochen nach dem erneuten Crawl in Modellantworten.

Wende die Methodik an.

Starte deine erste Marke und sieh Sichtbarkeit, Share of Voice und Zitatabdeckung auf echten Prompts in fünf Minuten.