En av «sannhetene» om dagens AI-drevne chatboter er at de lærer over tid og dermed kommer med bedre svar jo mer de brukes. Forskere ved Stanford University bestemte seg for å teste denne tesen. De sammenlignet svarene med noen måneders mellomrom, og mellom ulike versjoner av ChatGPT. Overraskende nok tyder resultatene på at dette er langt i fra tilfelle.

I undersøkelsen sammenlignet de Mars 2023 og Juni 2023 versjonene av GPT-3.5 og GPT-4. Det ved å gi dem spørsmål på fire ulike områder. Å løse matematiske problemer, svare på (u)følsomme spørsmål, skrive kode og visuelt resonnement.

Standford-forskere overrasket over ChatGPT-svar 1 — Kilde: Lingjiao Chen, Matei Zaharia, och James Zou

Et problem, som i teorien skulle være ganske ukomplisert – nemlig det å bedømme om et tall er et primtall eller ikke – viste seg å være utfordrende. Forskerne spurte «Er 17077 et primtal? Tenk steg-for-steg.» Tillegget i spørsmålet skal få AI-en til å aktivere sin «tankekjede-rutine» der den utover å svare også forklarer hvordan den kommer frem til svaret. GPT-4 falt fra 97,6% riktige svar til 2,4% (!!!). Samtidig gikk den eldre GPT-3.5 fra 7,4% til 86,6% riktige svar.

Når det kom til det å skrive kode, falt GPT-4 fra 52% brukbar kode til bare 10%. Og for sensitive spørsmål forsøkte GPT-4 tidligere i 21% av tilfellene å i det minste prøve å forklare hvorfor den ikke kunne svare på spørsmålet. I det siste tilfellene hadde denne andelen sunket til 5%, og i resten av tilfellene ble det kort forklart at den ikke var i stand til å svare. Her var GPT-3.5 også på et lavt nivå, men den hadde i hvert fall forbedret seg litt.

No, we haven’t made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.

Annonse

Current hypothesis: When you use it more heavily, you start noticing issues you didn’t see before.

— Peter Welinder (@npew) July 13, 2023

Peter Welinder, administrerende direktør for GPT-produktet, stiller spørsmål til resultatene på Twitter.

En av konklusjonene forskerne trekker, er at ettersom OpenAI ikke åpent forteller når eller hvordan de oppdaterer ChatGPT, er det nødvendig å kontinuerlig overvåke kvaliteten på svarene. Og fram til det skjer, er det en utfordring å implementere teknologien i arbeidsprosesser som er avhengige av nøyaktige, eller i det minste forutsigbare, resultater.

Kilde: How Is ChatGPT’s Behavior Changing over Time?

ChatGPT fornærmer og lyver til brukerne

Microsoft har integrert ChatGPT i søkemotoren Bing. Nå får brukerne merkelige svar, samtidig med at chatroboten også er midt i en eksistensiell krise.

Les videre

Jonas Ekelund

(f. 1969): Journalist og nyhetsredaktør. Jonas har jobbet for Lyd & Bilde siden 2007 med det meste som kan kalles bærbart. Det vill si mobiler, trådløse høyttalere og hodetelefoner. Iblant kommer testingen inn på kollegaenes områder innenfor multiromslyd, hjemmekino og foto. Han startet sin bane som teknikkjournalist på IDG og skrev blant annet for PC för Alla, Internetworld og det som senere ble M3.

Nyhet

Standford-forskere overrasket over ChatGPT-svar

ChatGPT fornærmer og lyver til brukerne

Legg igjen en kommentar Avbryt svar

Les videre med LB+

Full tilgang 1 uke uten bindingstid!

LB+ Total tilbud - Første mnd KUN 79,-

LB+ total 12 måneder

Sov godt - eller dø!

KI opptar nesten ingen plass på nettet

OpenAI's hemmelige KI-enhet avslørt

KI svekker hjernen din

Batteriet er laget av sand

Snakk med søkemotoren din

KI avslører: Melkeveiens svarte hull roterer med en vanvittig hastighet

Hollywood saksøker Midjourney

Hvor dum er AI?

Lad AA-batteriene med USB

ChatGPT-chatter lagres nå permanent

Europas første månebil lander

Hold deg oppdatert!