top of page

Studie zeigt, dass Humanmediziner zuverlässiger sind als Werkzeuge der künstlichen Intelligenz

Neue Forschungsergebnisse im American Journal of Preventive Medicine stellen die Genauigkeit der Ratschläge großer Sprachmodelle auf die Probe.

Bei der Suche nach medizinischen Informationen können Menschen Websuchmaschinen oder große Sprachmodelle (LLMs) wie verwenden ChatGPT-4 oder Google Bard. Allerdings haben diese Tools der künstlichen Intelligenz (KI) ihre Grenzen und können manchmal falsche Ratschläge oder Anweisungen generieren. Eine neue Studie im American Journal of Preventive Medicine , veröffentlicht von Elsevier, bewertet die Genauigkeit und Zuverlässigkeit von KI-generierten Ratschlägen anhand etablierter medizinischer Standards und kommt zu dem Schluss, dass LLMs noch nicht vertrauenswürdig genug sind, um menschliche medizinische Fachkräfte zu ersetzen.

Andrei Brateanu, MD, Abteilung für Innere Medizin, Cleveland Clinic Foundation, sagt: „Websuchmaschinen können Zugang zu seriösen Informationsquellen bieten und genaue Details zu einer Vielzahl von Themen wie Präventivmaßnahmen und allgemeinen medizinischen Fragen bieten. Das Gleiche gilt für LLMs.“ bieten medizinische Informationen an, die möglicherweise sehr genau und überzeugend aussehen, obwohl sie gelegentlich ungenau sein können. Daher hielten wir es für wichtig, die Antworten von LLMs mit Daten von anerkannten medizinischen Organisationen zu vergleichen. Dieser Vergleich hilft, die Zuverlässigkeit der Informationen zu überprüfen medizinische Informationen durch Querverweise mit vertrauenswürdigen Gesundheitsdaten.

In der Studie wurden 56 Fragen an ChatGPT-4 und Bard gestellt und ihre Antworten wurden von zwei Ärzten auf Richtigkeit überprüft, wobei ein dritter etwaige Meinungsverschiedenheiten klärte. Die abschließenden Bewertungen ergaben, dass 28,6 % der Antworten von ChatGPT-4 richtig, 28,6 % ungenau und 42,8 % teilweise richtig, aber unvollständig waren. Bard schnitt besser ab: 53,6 % der Antworten waren richtig, 17,8 % waren ungenau und 28,6 % waren teilweise richtig.

Dr. Brateanu erklärt: „ Alle LLMs, einschließlich ChatGPT-4 und Bard, arbeiten mit komplexen mathematischen Algorithmen. Die Tatsache, dass beide Modelle ungenaue Antworten lieferten oder wichtige Informationen ausließen, verdeutlicht die anhaltende Herausforderung bei der Entwicklung von KI-Tools, die zuverlässige medizinische Beratung bieten können.“ Dies könnte angesichts der fortschrittlichen Technologie hinter diesen Modellen und ihrer voraussichtlichen Rolle im Gesundheitswesen überraschend sein.

Dr. Brateanu kommt zu dem Schluss:„KI-Tools sollten nicht als Ersatz für medizinisches Fachpersonal betrachtet werden. Stattdessen können sie als zusätzliche Ressourcen betrachtet werden, die in Kombination mit menschlichem Fachwissen die Gesamtqualität der bereitgestellten Informationen verbessern können. Da wir KI-Technologie in das Gesundheitswesen integrieren, ist es von entscheidender Bedeutung Stellen Sie sicher, dass das Wesen der Gesundheitsversorgung weiterhin grundsätzlich menschlich ist.“

Aktuelle Beiträge

Alle ansehen

Comments


bottom of page