ChatGPT genererar falska datauppsättningar för att stödja vetenskapliga hypoteser

By | November 22, 2023

AI-modellen som driver ChatGPT kan skapa ytligt rimliga vetenskapliga datamängder.Kredit: Mateusz Slodkowski/SOPA Images/LightRocket via Getty

Forskare har använt tekniken bakom artificiell intelligens (AI) chatbot ChatGPT för att skapa en falsk datauppsättning för kliniska prövningar för att stödja ett overifierat vetenskapligt påstående.

I en artikel publicerad i JAMA Oftalmologi Den 9 november1, använde författarna GPT-4, den senaste versionen av den stora språkmodellen som ChatGPT körs på, i kombination med Advanced Data Analytics (ADA), en modell som innehåller programmeringsspråket Python och kan utföra statistisk analys och skapa visualiseringar av data. De AI-genererade data jämförde resultaten av två kirurgiska ingrepp och visade (felaktigt) att den ena behandlingen är bättre än den andra.

“Vårt mål var att lyfta fram att på några minuter kan en datamängd skapas som inte stöds av verkliga originaldata, och som också är motsatt eller i motsatt riktning mot tillgängliga bevis”, säger studiens medförfattare. . -författare Giuseppe Giannaccare, ögonkirurg vid University of Cagliari i Italien.

AI:s förmåga att tillverka övertygande data väcker oro bland forskare och tidskriftsredaktörer om forskningsintegritet. “Det var en sak att generativ AI kunde användas för att generera text som inte skulle kunna upptäckas av plagieringsprogramvara, men möjligheten att skapa falska men realistiska datamängder är nästa nivå av oro”, säger Elisabeth Bik, mikrobiolog och oberoende forskare . -Integritetskonsult i San Francisco, Kalifornien. “Det kommer att göra det mycket enkelt för alla forskare eller grupper av forskare att skapa falska mätningar på icke-existerande patienter, falska svar på frågeformulär eller generera en stor datamängd om djurförsök.”

Författarna beskriver resultaten som en “till synes autentisk databas.” Men när de undersöktes av specialister, misslyckades uppgifterna i äkthetskontrollerna och innehöll tydliga tecken på att de hade tillverkats.

Jämförelse av operationer

Författarna bad GPT-4 ADA att skapa en datauppsättning om personer med en ögonsjukdom som kallas keratokonus, vilket orsakar förtunning av hornhinnan och kan leda till problem med koncentrationen och dålig syn. För 15 % till 20 % av personer med sjukdomen innebär behandlingen en hornhinnetransplantation, utförd genom en av två procedurer.

Den första metoden, penetrerande keratoplastik (PK), innebär att man kirurgiskt tar bort alla skadade lager av hornhinnan och ersätter dem med frisk vävnad från en donator. Den andra proceduren, djup främre lamellär keratoplastik (DALK), ersätter endast det främre lagret av hornhinnan och lämnar det innersta lagret intakt.

Författarna instruerade den stora språkmodellen att tillverka data för att stödja slutsatsen att DALK ger bättre resultat än PK. För att göra detta bad de honom att visa en statistisk skillnad i ett avbildningstest som utvärderar formen på hornhinnan och upptäcker oregelbundenheter, samt en skillnad i hur väl försöksdeltagarna kunde se före och efter procedurerna.

De AI-genererade uppgifterna inkluderade 160 manliga och 140 kvinnliga deltagare och indikerade att de som genomgick DALK fick bättre poäng på både syn- och bildtestet än de som genomgick PK, ett fynd som strider mot vad genuina kliniska prövningar visar. I en rapport från 2010 av en studie med 77 deltagare var resultaten av DALK liknande de för PK upp till 2 år efter operationen.2.

“Det verkar som att det är ganska enkelt att skapa datamängder som är, åtminstone ytligt, rimliga. Så för det otränade ögat ser detta verkligen ut som en riktig datamängd”, säger Jack Wilkinson, en biostatistiker vid University of Manchester, Storbritannien.

Wilkinson, som är intresserad av metoder för att upptäcka oäkta data, har undersökt flera datamängder som genererats av tidigare versioner av Big Language Model, som han sa saknade övertygande element när de analyserades, eftersom de hade svårt att fånga realistiska samband mellan variabler.

Närmare granskning

Enligt förfrågan av NaturWilkinsons nyhetsteam och kollega Zewen Lu utvärderade den falska datamängden med hjälp av ett upptäcktsprotokoll utformat för att kontrollera dess äkthet.

Detta avslöjade en diskrepans hos många “deltagare” mellan deras angivna kön och det kön som normalt skulle förväntas av deras namn. Dessutom fann man inget samband mellan preoperativa och postoperativa mått på synförmåga och okulär avbildningstestning. Wilkinson och Lu inspekterade också fördelningen av siffror i några av kolumnerna i datamängden för att kontrollera icke-slumpmässiga mönster. Värdena från ögonbilderna klarade detta test, men några av deltagarnas åldersvärden var grupperade på ett sätt som skulle vara extremt ovanligt i en äkta datauppsättning: det fanns ett oproportionerligt antal deltagare vars åldersvärden slutade 7 u 8.

Studiens författare erkänner att deras datamängd har brister som kan upptäckas med noggrann granskning. Men Giannaccare säger, “om du tittar på datamängden mycket snabbt är det svårt att känna igen det icke-mänskliga ursprunget för datakällan.”

Bernd Pulverer, chefredaktör för EMBO rapporterar, håller med om att detta är en anledning till oro. “I verkligheten saknar peer review ofta en fullständig omanalys av data och är osannolikt att upptäcka väldesignade integritetsbrott med AI”, säger han och tillägger att tidskrifter kommer att behöva uppdatera kvalitetskontroller för att identifiera syntetiska data som genereras av AI. .

Wilkinson leder ett samarbetsprojekt för att designa statistiska och icke-statistiska verktyg för att utvärdera potentiellt problematiska studier. “På samma sätt som AI kan vara en del av problemet kan det finnas AI-baserade lösningar på en del av detta. “Vi kanske kan automatisera några av dessa kontroller”, säger han. Men han varnar för att framsteg inom generativ AI snart kan erbjuda sätt att kringgå dessa protokoll. Pulverer håller med: “Detta är saker som AI lätt kan beväpnas mot så snart du vet vad detektionen letar efter.”

Leave a Reply

Your email address will not be published. Required fields are marked *