Säitebanner

Neiegkeeten

De Large Language Model (LLM) kann iwwerzeegend Artikelen op Basis vu prompten Wierder schreiwen, professionell Fäegkeetsprüfungen bestanen a patientfrëndlech an empathesch Informatiounen schreiwen. Wéi och ëmmer, nieft de bekannte Risiken vu Fiktioun, Fragilitéit an ongenaue Fakten am LLM, kommen aner ongeléist Problemer lues a lues an de Fokus, wéi zum Beispill KI-Modeller, déi potenziell diskriminéierend "mënschlech Wäerter" an hirer Kreatioun an Notzung enthalen, an och wann LLM keen Inhalt méi fabrizéiert an kloer schiedlech Outputresultater eliminéiert, kënnen "LLM-Wäerter" ëmmer nach vun de mënschleche Wäerter ofwäichen.

 

Onzueleg Beispiller illustréieren, wéi d'Donnéeën, déi fir d'Trainéiere vun KI-Modeller benotzt ginn, individuell a sozial Wäerter kodéieren, déi sech am Modell fester maache kënnen. Dës Beispiller ëmfaassen eng Rei vun Uwendungen, dorënner automatesch Interpretatioun vu Röntgenbiller vum Broschtkorb, Klassifikatioun vu Hautkrankheeten an algorithmesch Entscheedungsprozesser iwwer d'Zouweisung vu medizinesche Ressourcen. Wéi an engem rezenten Artikel an eiser Zäitschrëft festgestallt, kënnen verzerrt Trainingsdaten d'Wäerter a Verzerrungen, déi an der Gesellschaft präsent sinn, verstäerken an opdecken. Am Géigendeel, d'Fuerschung huet och gewisen, datt KI ka benotzt ginn, fir Verzerrungen ze reduzéieren. Zum Beispill hunn d'Fuerscher Deep-Learning-Modeller op Knéiröntgenbiller ugewannt a Faktoren entdeckt, déi vun de Standard-Schwéierkraaftindikatoren (vun Radiologen bewäert) am Knéigelenk iwwersinn goufen, wouduerch onerklärlech Schmerzënnerscheeder tëscht schwaarzen a wäisse Patienten reduzéiert goufen.

Och wann ëmmer méi Leit d'Virstellungen an KI-Modeller realiséieren, besonnesch wat d'Trainingsdaten ugeet, kréien vill aner Aféierungspunkte vu mënschleche Wäerter net genuch Opmierksamkeet am Entwécklungs- a Gebrauchsprozess vun KI-Modeller. Medizinesch KI huet an der leschter Zäit beandrockend Resultater erreecht, awer gréisstendeels huet se d'mënschlech Wäerter an hir Interaktioun mat Risikobewertung a probabilistescher Denkweis net explizit berücksichtegt, an et gouf och net modelléiert.

 

Fir dës abstrakt Konzepter ze konkretiséieren, stellt Iech vir, Dir sidd en Endokrinolog, deen engem 8 Joer ale Jong, deen ënner dem 3. Perzentil vu sengem Alter ass, rekombinant mënschlecht Wuesstemshormon verschreiwe muss. De stimuléierte mënschleche Wuesstemshormonniveau vum Jong ass ënner 2 ng/ml (Referenzwäert > 10 ng/ml, Referenzwäert fir vill Länner ausserhalb vun den USA ass > 7 ng/ml), a säi Gen, dat fir mënschlecht Wuesstemshormon kodéiert, huet rar Inaktivéierungsmutatiounen entdeckt. Mir gleewen, datt d'Uwendung vun der Therapie fir mënschlecht Wuesstemshormon an dësem klineschen Ëmfeld offensichtlech an onbestreitbar ass.

D'Uwendung vun der Therapie mat mënschlechem Wuesstemshormon an de folgende Szenarie kann zu Kontroversen féieren: D'Gréisst vun engem 14 Joer ale Jong war ëmmer am 10. Perzentil vu senge Gläichaltregen, an de Peak vum mënschleche Wuesstemshormon no der Stimulatioun ass 8 ng/ml. Et gi keng bekannt funktionell Mutatiounen, déi d'Gréisst beaflosse kënnen, nach aner bekannt Ursaache fir eng kleng Statur, a säi Knochenalter ass 15 Joer al (d.h. keng Entwécklungsverständnis). Nëmmen en Deel vun der Kontrovers ass op Ënnerscheeder an de Schwellwäerter zeréckzeféieren, déi vun Experten op Basis vun Dosende vu Studien iwwer d'Spiegel vum mënschleche Wuesstemshormon fir d'Diagnos vun isoléiertem Wuesstemshormonmangel festgeluecht goufen. Op d'mannst sou vill Kontrovers baséiert op der Risiko-Virdeel-Verhältnis vun der Therapie mat mënschlechem Wuesstemshormon aus der Perspektiv vu Patienten, Patientenelteren, Gesondheetsspezialisten, pharmazeutesche Firmen a Bezueler. Kannerendokrinologe kënnen déi rar Niewewierkunge vun deeglechen Injektioune vu Wuesstemshormon fir 2 Joer mat der Wahrscheinlechkeet vun engem guer oder nëmme minimale Wuesstem vun der Kierpergréisst vun engem Erwuessenen am Verglach zum haitege Moment ofweegen. Jonge kënnen gleewen, datt et sech lount, Wuesstemshormon ze injizéieren, och wann hir Gréisst nëmmen ëm 2 cm eropgeet, awer de Bezueler an d'pharmazeutesch Firma kënnen ënnerschiddlech Meenungen hunn.

 

Mir huelen als Beispill de kreatininbaséierten eGFR, deen e wäit verbreeten Nierfunktiounsindikator ass fir chronesch Nierenerkrankungen ze diagnostizéieren an ze stadiéieren, Konditioune fir Nierentransplantatiounen oder -donatiounen ze festleeën, a Reduktiounskriterien a Kontraindikatiounen fir vill Rezeptmedikamenter ze bestëmmen. EGFR ass eng einfach Regressiounsgläichung, déi benotzt gëtt fir déi gemoossen glomerulär Filtratiounsquote (mGFR) ze schätzen, wat e Referenzstandard ass, awer d'Evaluatiounsmethod ass relativ komplizéiert. Dës Regressiounsgläichung kann net als KI-Modell ugesi ginn, awer si illustréiert vill Prinzipien iwwer mënschlech Wäerter a probabilistescht Denken.

Den éischten Ufankspunkt fir mënschlech Wäerter an den eGFR anzeginn ass d'Auswiel vun Daten fir d'Anpassung vun Equatiounen. Déi ursprénglech Warteschlaang, déi fir d'Entwécklung vun der eGFR-Formel benotzt gouf, besteet gréisstendeels aus schwaarzen a wäissen Participanten, an hir Uwendbarkeet op vill aner ethnesch Gruppen ass net kloer. Déi folgend Ufankspunkten fir mënschlech Wäerter an dës Formel enthalen: d'Auswiel vun der mGFR-Genauegkeet als Haaptzil fir d'Evaluatioun vun der Nierenfunktioun, wat en akzeptablen Niveau vun Genauegkeet ass, wéi d'Genauegkeet gemooss gëtt, an d'Benotzung vun eGFR als Schwellwäert fir d'Ausléise vu klineschen Entscheedungen (wéi z. B. d'Bestimmung vun de Konditioune fir eng Nierentransplantatioun oder d'Verschreiwung vu Medikamenter). Schlussendlech, wann den Inhalt vum Inputmodell ausgewielt gëtt, ginn och mënschlech Wäerter an dës Formel aginn.

Zum Beispill, virun 2021, proposéieren d'Richtlinnen, d'Kreatininniveauen an der eGFR-Formel op Basis vum Alter, Geschlecht a Rass vum Patient unzepassen (nëmmen als schwaarz oder net-schwaarz Persounen klasséiert). D'Upassung op Basis vun der Rass zielt drop of, d'Genauegkeet vun der mGFR-Formel ze verbesseren, awer am Joer 2020 hunn grouss Spideeler ugefaangen, d'Benotzung vun der rassbaséierter eGFR a Fro ze stellen, a Grënn genannt, wéi d'Verspéidung vun der Berechtegung vum Patient fir eng Transplantatioun an d'Konkretiséierung vun der Rass als biologescht Konzept. D'Fuerschung huet gewisen, datt d'Entwécklung vun eGFR-Modeller a Bezuch op d'Rass déifgräifend an ënnerschiddlech Auswierkungen op d'Genauegkeet an d'klinesch Resultater kann hunn; Dofir reflektéiert d'selektiv Fokusséierung op Genauegkeet oder d'Konzentratioun op en Deel vun den Resultater Wäertbeurteelungen a kann transparent Entscheedungsprozesser maskéieren. Schlussendlech huet déi national Aarbechtsgrupp eng nei Formel virgeschloen, déi ouni Berücksichtegung vu Rass nei ugepasst gouf, fir Leeschtungs- a Fairnessfroen auszebalancéieren. Dëst Beispill illustréiert, datt och eng einfach klinesch Formel vill Entréeën zu mënschleche Wäerter huet.

Dokter mat virtueller Realitéit am Operatiounssall am Spidol. Chirurg analyséiert d'Resultater vum Häerztest vum Patient an d'mënschlech Anatomie op enger technologescher digitaler futuristescher virtueller Interface, digitaler holographescher, innovativer Wëssenschaft a Medizin Konzept.

Am Verglach mat klineschen Formelen mat nëmmen enger klenger Zuel vu prädiktive Indikatoren kann en LLM aus Milliarden bis Honnerte vu Milliarden Parameteren (Modellgewichte) oder méi bestoen, wat et schwéier ze verstoen mécht. De Grond, firwat mir "schwéier ze verstoen" soen, ass datt an de meeschte LLMen déi genee Aart a Weis, fir Äntwerten duerch Froen erauszelueden, net kartéiert ka ginn. D'Zuel vun de Parameteren fir GPT-4 ass nach net bekannt ginn; säi Virgänger GPT-3 hat 175 Milliarden Parameteren. Méi Parameteren bedeiten net onbedéngt méi staark Fäegkeeten, well méi kleng Modeller, déi méi Berechnungszyklen enthalen (wéi d'LLaMA [Large Language Model Meta AI] Modellserie) oder Modeller, déi op Basis vu mënschleche Feedback fein ofgestëmmt sinn, besser performéieren wéi méi grouss Modeller. Zum Beispill, laut mënschleche Bewäerter, performt den InstrumentGPT Modell (e Modell mat 1,3 Milliarden Parameteren) GPT-3 besser bei der Optimiséierung vun de Modellresultater.

Déi spezifesch Trainingsdetailer vum GPT-4 goufen nach net verëffentlecht, awer d'Detailer vu Modeller vun der viregter Generatioun, dorënner GPT-3, InstrumentGPT a vill aner Open-Source LLMs, goufen verëffentlecht. Hautdesdaags kommen vill KI-Modeller mat Modellkaarten; D'Evaluatiouns- an Sécherheetsdaten vum GPT-4 goufen an enger ähnlecher Systemkaart publizéiert, déi vun der Modellkreatiounsfirma OpenAI zur Verfügung gestallt gëtt. D'Kreatioun vum LLM kann ongeféier an zwou Etappen opgedeelt ginn: déi initial Vir-Training-Phase an d'Feinabstimmungsphase, déi drop abzielt, d'Modellresultater ze optimiséieren. An der Vir-Training-Phase gëtt dem Modell e grousse Corpus mat dem originelle Internettext geliwwert, fir en ze trainéieren, dat nächst Wuert virauszesoen. Dëse scheinbar einfache "automatesche Kompletiounsprozess" produzéiert e mächtegt Grondmodell, awer et kann och zu schiedleche Verhalen féieren. Mënschlech Wäerter ginn an d'Vir-Training-Phase, dorënner d'Auswiel vun Vir-Training-Daten fir GPT-4 an d'Entscheedung, onpassend Inhalter wéi pornographesch Inhalter aus de Vir-Training-Daten ze läschen. Trotz dësen Efforten ass de Basismodell vläicht nach ëmmer weder nëtzlech nach fäeg, schiedlech Output-Resultater ze enthalen. An der nächster Phase vum Feinabstimmung wäerten vill nëtzlech an harmlos Verhalensweisen optrieden.

An der Feinabstimmungsphase gëtt d'Verhale vu Sproochmodeller dacks duerch iwwerwaacht Feinabstimmung a Verstäerkungsléieren op Basis vu mënschleche Feedback déifgräifend verännert. An der iwwerwaachter Feinabstimmungsphase schreiwen agestallt Mataarbechter vun den Optraghueler Äntwertbeispiller fir Promptwierder a trainéieren de Modell direkt. An der Verstäerkungsléierenphase op Basis vu mënschleche Feedback sortéieren d'mënschlech Evaluatoren d'Modelloutputresultater als Inputinhaltsbeispiller. Dann uwenden déi uewe genannte Vergläichsresultater fir de "Belounungsmodell" ze léieren an de Modell duerch Verstäerkungsléieren weider ze verbesseren. Eng erstaunlech mënschlech Bedeelegung op nidderegem Niveau kann dës grouss Modeller feinabstimmung maachen. Zum Beispill huet den InstrumentGPT-Modell en Team vu ronn 40 Mataarbechter vun den Optraghueler benotzt, déi vu Crowdsourcing-Websäite rekrutéiert goufen, an huet en Screeningtest bestanen, deen drop ausgerichtet war, eng Grupp vun Annotatoren auszewielen, déi sensibel fir d'Virléiften vun ënnerschiddleche Bevëlkerungsgruppen sinn.

Wéi dës zwee extrem Beispiller, nämlech déi einfach klinesch Formel [eGFR] an déi mächteg LLM [GPT-4], weisen, spille mënschlech Entscheedungsprozesser a mënschlech Wäerter eng onverzichtbar Roll bei der Gestaltung vun de Modellresultater. Kënnen dës KI-Modeller hir divers Patienten- a Dokterwäerter erfassen? Wéi kann een d'Uwendung vun KI an der Medizin ëffentlech guidéieren? Wéi hei ënnendrënner erwähnt, kéint eng nei Iwwerpréiwung vun der medizinescher Entscheedungsanalyse eng prinzipiell Léisung fir dës Froen ubidden.

 

Medizinesch Entscheedungsanalyse ass ville Kliniker net vertraut, awer si kann tëscht probabilisteschem Denken (fir onsécher Resultater am Zesummenhang mat der Entscheedungsfindung, wéi zum Beispill ob mënschlecht Wuesstemshormon am kontroversen klineschen Szenario, deen an der Figur 1 gewisen ass, verabreicht soll ginn) a Berücksichtegungsfaktoren (fir subjektiv Wäerter, déi un dës Resultater ugehaange ginn, deenen hire Wäert als "Nëtzlechkeet" quantifizéiert gëtt, wéi zum Beispill de Wäert vun enger 2 cm Erhéijung vun der männlecher Gréisst), a systematesch Léisunge fir komplex medizinesch Entscheedungen ubidden. Bei der Entscheedungsanalyse mussen d'Kliniker als éischt all méiglech Entscheedungen a Wahrscheinlechkeeten, déi mat all Resultat verbonne sinn, bestëmmen, an dann den Notzen vum Patient (oder vun enger anerer Partei) integréieren, deen mat all Resultat verbonnen ass, fir déi passendst Optioun ze wielen. Dofir hänkt d'Validitéit vun der Entscheedungsanalyse dovun of, ob d'Resultatsstellung ëmfaassend ass, souwéi ob d'Miessung vum Notzen an d'Schätzung vun der Wahrscheinlechkeet korrekt sinn. Am Idealfall hëlleft dësen Usaz sécherzestellen, datt Entscheedungen evidenzbaséiert sinn an op d'Virléiften vum Patient ausgeriicht sinn, wouduerch d'Lach tëscht objektiven Donnéeën a perséinleche Wäerter verklengert gëtt. Dës Method gouf virun e puer Joerzéngten an de medizinesche Beräich agefouert an op d'Entscheedungsfindung vun den eenzelne Patienten an d'Bewäertung vun der Bevëlkerungsgesondheet ugewannt, wéi zum Beispill Empfehlungen fir Darmkriibsscreening fir d'Allgemengbevëlkerung ze ginn.

 

An der medizinescher Entscheedungsanalyse goufen verschidde Methoden entwéckelt fir den Notzen ze bestëmmen. Déi meescht traditionell Methoden leeden de Wäert direkt vun den eenzelne Patienten of. Déi einfachst Method ass eng Bewäertungsskala ze benotzen, wou d'Patienten hire Präferenzniveau fir e bestëmmt Resultat op enger digitaler Skala (wéi eng linear Skala vun 1 bis 10) bewäerten, mat den extremsten Gesondheetsresultater (wéi komplett Gesondheet an Doud) op béide Säiten. D'Zäitaustauschmethod ass eng aner dacks benotzt Method. Bei dëser Method mussen d'Patienten eng Entscheedung treffen, wéi vill gesond Zäit se bereet sinn ze verbréngen am Austausch fir eng Period vu schlechter Gesondheet. Déi Standard Spillmethod ass eng aner dacks benotzt Method fir den Notzen ze bestëmmen. Bei dëser Method ginn d'Patienten gefrot, wéi eng vun den zwou Optiounen se léiwer hunn: entweder eng gewëssen Unzuel u Joren an normaler Gesondheet mat enger spezifescher Wahrscheinlechkeet (p) (t) liewen, an de Risiko vum Doud mat enger 1-p Wahrscheinlechkeet droen; Entweder sécher stellen, datt se t Joer ënner kräizweitege Gesondheetsbedingungen liewen. Frot d'Patienten e puer Mol bei verschiddene p-Wäerter, bis se keng Präferenz fir eng Optioun weisen, sou datt den Notzen op Basis vun de Patientenäntwerten berechent ka ginn.
Nieft Methoden, déi benotzt gi fir d'Virléiften vun den eenzelne Patienten erauszefannen, goufen och Methoden entwéckelt fir d'Nëtzlechkeet vun der Patientenpopulatioun ze erreechen. Besonnesch Fokusgruppdiskussiounen (déi Patienten zesummebréngen fir spezifesch Erfarungen ze diskutéieren) kënnen hëllefen, hir Perspektiven ze verstoen. Fir d'Nëtzlechkeet vun der Grupp effektiv ze sammelen, goufen verschidde strukturéiert Gruppdiskussiounstechniken virgeschloen.
An der Praxis ass déi direkt Aféierung vun der Nëtzlechkeet am klineschen Diagnos- a Behandlungsprozess ganz zäitopwänneg. Als Léisung ginn Ëmfrofroebéier normalerweis un zoufälleg ausgewielte Populatiounen verdeelt, fir Nëtzlechkeetswäerter op Populatiounsniveau ze kréien. E puer Beispiller sinn den EuroQol 5-dimensionalen Fragebogen, de 6-dimensionalen Nëtzlechkeetsgewiicht kuerze Formulaire, den Health Utility Index an den Cancer Specific European Cancer Research and Treatment Organization Questionnaire Questionnaire Core 30 Tool.


Zäitpunkt vun der Verëffentlechung: 01.06.2024