ChatGPT bombs test on diagnosing kids’ medical cases with 83% error rate (UPDATED)

83% di errori.

Vedendola positivamente, c’è ampio spazio di miglioramento!

Forse il problema e’ che cofondiamo correlazioni con inferenze ?

Questo tipo di test dovrebbero fare molto scalpore, più delle affermazioni dell’esistenza di presunti “comportamenti emergenti” che sono autodichiarati dalle aziende, senza trasparenza dei dati di addestramento.

Se vi dico “adesso posso morire; dove ho passato capodanno ?” vi viene in mente il capoluogo partenopeo. Ho provato a fare la stessa domanda più volte ai più popolari LLM ed ho avuto risposte bizzarre a dir poco, tutte che mancavano il collegamento. Come le diagnosi pediatriche.

Don’t get me wrong! sono strumenti meravigliosi che possono aiutare tantissimo nel lavoro di ufficio, come uno stagista digitale. Non ci possiamo fidare nè della correttezza nè della completezza. Ci possono aiutare, basta che controlliamo e correggiamo…

UPDATE:

una persona mi fa notare “perchè non hanno usato qualcosa di più specifico, addestrato specificamente su temi medici ?

Tre commenti:

  1. non è detto che sarebbe straordinariamente migliore. meglio (anche molto) è assai probabile, ma andrebbe verificato
  2. il grande problema è l’effetto wikisciente all’ennesima potenza con il pubblico che legge lì e prende per oro colato
  3. questa osservazione vale per qualunque disciplina: perchè per la pediatria un LLM generalista non va bene, ne serve uno specializzato, e invece per il diritto dovrebbe andare bene ? ne consegue che gli LLM generalisti non sono attendibili, punto. sono solo SALAMI.

Source: Ars Technica

…a study out this week in JAMA Pediatrics suggests the fourth version of the large language model is especially bad with kids. It had an accuracy rate of just 17 percent when diagnosing pediatric medical cases.

Overall, ChatGPT got the right answer in just 17 of the 100 cases. It was plainly wrong in 72 cases, and did not fully capture the diagnosis of the remaining 11 cases. Among the 83 wrong diagnoses, 47 (57 percent) were in the same organ system.

Among the failures, researchers noted that ChatGPT appeared to struggle with spotting known relationships between conditions that an experienced physician would hopefully pick up on

Continua qui: ChatGPT bombs test on diagnosing kids’ medical cases with 83% error rate | Ars Technica

If you like this post, please consider sharing it.

1 thought on “ChatGPT bombs test on diagnosing kids’ medical cases with 83% error rate (UPDATED)”

  1. Il problema è che siamo tutti così gelosi dei nostri dati medici, che non ce ne sono abbastanza di buona qualità da dare in pasto a questi modelli per insegnar loro qualcosa. E’ una critica molto diffusa nell’ambito universitario.

Leave a Comment

Your email address will not be published. Required fields are marked *