Bayes-Theorem

Das Bayes-Theorem (auch: Satz von Bayes) behandelt ein eigentlich sehr logisches, im Alltag aber allzu oft vernachlässigtes Phänomen der Statistik. In der Medizin ist das Bayes-Theorem von großer Bedeutung, wenn es um die Wertung von Testergebnissen geht. Nehmen wir als Beispiel den Test mittels Pulsuhr oder Smartwatch, ob Vorhofflimmern vorliegt. Bei einem positiven Testergebnis (=die Pulsuhr meldet Vorhofflimmern) stellt sich für den Anwender naturgemäß die Frage, wie sicher diese Aussage ist. Anders formuliert: wie hoch ist die Wahrscheinlichkeit, dass ich Vorhofflimmern habe? Die richtige Antwort lautet …

Viele Menschen, auch Ärzte, neigen spontan zu der Annahme, dass die Antwort auf diese Frage recht einfach sei, wenn man sich mit dem Test nur gut genug auskennt. Außerdem glauben viele, dass die Antwort für jeden Besitzer dieser Pulsuhr gleich ist. So einfach ist es aber nicht. Um das zu verstehen, bedarf es eines kurzen Ausflugs in die Wahrscheinlichkeitsrechnung.

Entscheidungsbaum zum Bayes-Theorem

Positiver Vorhersagewert

Was uns interessiert, ist der sog. positive Vorhersagewert oder positive prädiktive Wert (PPV), also die Wahrscheinlichkeit, dass Vorhofflimmern tatsächlich vorhanden ist, wenn die Pulsuhr dies meldet. In unserem Beispiel ist diese Wahrscheinlichkeit mit 8.7 % fast erschreckend gering. Anders ausgedrückt: bei 91.3 % der Meldungen handelt es sich um falsch positive Ergebnisse oder falschen Alarm. Woran liegt das?

Ein Blick auf den sog. Entscheidungsbaum macht deutlich, dass sich unter den 54.500 abnormalen Testergebnissen (=Warnmeldungen der Pulsuhr) 4.750 richtig positive (=tatsächlich Vorhofflimmern) und 49.750 falsch positive Ergebnisse (=tatsächlich kein Vorhofflimmern) tummeln.

Der erste Gedanke, es könnte sich einfach um einen schlechten Test handeln, entpuppt sich als falsch. Dessen Sensitivität (= Empfindlichkeit oder Trefferquote: Anteil korrekter Meldungen bei Anwendern mit Vorhofflimmern) und Spezifität (=Richtig-negativ-Rate: Anteil korrekter Tests bei Anwendern ohne Vorhofflimmern) wurden hier mit jeweils 95 % angenommen, beides im Bereich qualitativ eher hochwertiger Tests in der Medizin. Diese Zahlen entsprechen in etwa den Werten aus diversen Studien zur FDA-Zulassung von Pulsuhren.

Prävalenz

Das Problem in unserem Beispiel ist nicht die Güte des Testverfahrens, sondern die hohe Anzahl falsch positiver Testergebnisse. Diese wiederum ergibt sich zwangsläufig aus der sehr hohen Zahl gesunder Menschen ohne Vorhofflimmern unter den Testpersonen. Der Test hat zwar 95 % von ihnen korrekt als gesund klassifiziert, wegen der hohen Zahl verbleiben trotzdem 49.750 fälschlich als Vorhofflimmern klassifizierte. Oder anders: die Prävalenz (=Krankheitshäufigkeit) von Vorhofflimmern unter den Studienteilnehmern war mit 0.5 % (nur 5.000 von 1 Mio.) so niedrig, dass der positive Vorhersagewert trotz eines eigentlich guten Tests ausgesprochen niedrig ist.

Das dem tatsächlich so ist, lässt sich am gleichen Entscheidungsbaum mit jetzt aber viel höherer Prävalenz (nämlich 50 %) unschwer erkennen: wenn das untersuchte Merkmal Vorhofflimmern bei jedem zweiten Studienteilnehmer auftritt, beträgt der positive Vorhersagewert des gleichen Tests bemerkenswerte 95 %.

Entscheidungsbaum zum Bayes-Theorem

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.