Bil & El-kjøretøy Data Sport & Trening Gaming Mobil Smart Home Teknologi

Nyhet

Standford-forskere overrasket over ChatGPT-svar

Forskere som har sammenlignet svar fra ChatGPT over tid konkluderer - overraskende nok - at de har blitt dårligere.

Skrevet av / 25.07.23 - 13:09
Standford-forskere overrasket over ChatGPT-svar

En av “sannhetene” om dagens AI-drevne chatboter er at de lærer over tid og dermed kommer med bedre svar jo mer de brukes. Forskere ved Stanford University bestemte seg for å teste denne tesen. De sammenlignet svarene med noen måneders mellomrom, og mellom ulike versjoner av ChatGPT. Overraskende nok tyder resultatene på at dette er langt i fra tilfelle.

I undersøkelsen sammenlignet de Mars 2023 og Juni 2023 versjonene av GPT-3.5 og GPT-4. Det ved å gi dem spørsmål på fire ulike områder. Å løse matematiske problemer, svare på (u)følsomme spørsmål, skrive kode og visuelt resonnement.

Kilde: Lingjiao Chen, Matei Zaharia, och James Zou

Et problem, som i teorien skulle være ganske ukomplisert – nemlig det å bedømme om et tall er et primtall eller ikke – viste seg å være utfordrende. Forskerne spurte “Er 17077 et primtal? Tenk steg-for-steg.” Tillegget i spørsmålet skal få AI-en til å aktivere sin “tankekjede-rutine” der den utover å svare også forklarer hvordan den kommer frem til svaret. GPT-4 falt fra 97,6% riktige svar til 2,4% (!!!). Samtidig gikk den eldre GPT-3.5 fra 7,4% til 86,6% riktige svar.

Når det kom til det å skrive kode, falt GPT-4 fra 52% brukbar kode til bare 10%. Og for sensitive spørsmål forsøkte GPT-4 tidligere i 21% av tilfellene å i det minste prøve å forklare hvorfor den ikke kunne svare på spørsmålet. I det siste tilfellene hadde denne andelen sunket til 5%, og i resten av tilfellene ble det kort forklart at den ikke var i stand til å svare. Her var GPT-3.5 også på et lavt nivå, men den hadde i hvert fall forbedret seg litt.

Peter Welinder, administrerende direktør for GPT-produktet, stiller spørsmål til resultatene på Twitter.

En av konklusjonene forskerne trekker, er at ettersom OpenAI ikke åpent forteller når eller hvordan de oppdaterer ChatGPT, er det nødvendig å kontinuerlig overvåke kvaliteten på svarene. Og fram til det skjer, er det en utfordring å implementere teknologien i arbeidsprosesser som er avhengige av nøyaktige, eller i det minste forutsigbare, resultater.

Kilde: How Is ChatGPT’s Behavior Changing over Time?

ChatGPT fornærmer og lyver til brukerne

Microsoft har integrert ChatGPT i søkemotoren Bing. Nå får brukerne merkelige svar, samtidig med at chatroboten også er midt i en eksistensiell krise.

Les videre
Jonas Ekelund
(f. 1969): Journalist og nyhetsredaktør. Jonas har jobbet for Lyd & Bilde siden 2007 med det meste som kan kalles bærbart. Det vill si mobiler, trådløse høyttalere og hodetelefoner. Iblant kommer testingen inn på kollegaenes områder innenfor multiromslyd, hjemmekino og foto. Han startet sin bane som teknikkjournalist på IDG og skrev blant annet for PC för Alla, Internetworld og det som senere ble M3.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Les videre med LB+

Tilbud

LB+ Total

Tilgang til ALT innhold på Lyd & Bilde og L&B Home

LB+

Tilgang til ALT innhold på Lyd & Bilde

LB+ Home

Tilgang til ALT innhold på L&B Home

49,- / for 30 dager
119,- / mnd
65,- / mnd
Med et abonnement får du også:
  • Tilgang til mer enn 7500 produkttester!
  • Store rabatter hos våre samarbeidspartnere i LB+ Fordelsklubb
  • Ukentlige nyhetsbrev med siste nytt
  • L&B TechCast – en podcast av L&B
  • Deaktiver annonser
Vi har ingen bindingstid, si opp når du selv vil.
Annonsørinnhold: Huawei Watch Fit 3

Den riktige smartklokken er den perfekte treningskameraten

Les mer

Lær blindeskrift med LEGO

Kryptert meldingstjeneste truer med å forlate EU

Google: Dårlig humor er skyld i svar om lim i pizzaost

- Google lyver

Googles nye KI-funksjon anbefalte brukere å ha lim på pizzaen

Den første KI-loven er vedtatt

Smartere KI-funksjoner i Googles tjenester

Nå kan du snakke med ChatGPT

NASAs robottog på månen

Google Gemini blir mer allmektig

Skjermen gjør alt, bortsett fra å lese tankene dine!

KI planlegger ferien vår

Scroll to Top