Datasett – Byggeklossene til AI-modeller

Hei, den siste tiden har flere besøkt sidene på som omhandler AI/KI på digitalpedagogen.no. Sidene ble skrevet før jeg ble ferdig med masteren. Perspektivene, kunnskapen og alt annet har utviklet seg betydelig. Jeg lar sidene alikevel være oppe en stund til, men KIskolen.no er nok mer givende.

For å forstå kunstig intelligens er det viktig å ha kunnskap om hva den er bygget av og hvordan den trenes. Et sentralt begrep i denne sammenhengen er datasett.

Innenfor AI refererer datasett til en strukturert samling av data som brukes til å trene maskinlæringsmodeller og muliggjøre læring gjennom eksempler. Et datasett består av merkede eller ikke-merkede datapunkter, også kjent som prøver eller observasjoner, sammen med tilhørende egenskaper eller funksjoner som beskriver hver prøve. For å illustrere dette kan man tenke seg datasettet som oppskrifter på kaker, hvor hver oppskrift har merkelapper som søt, mektig, stor, liten, hvit eller rosa osv.

Datasett gir nødvendige treningsdata for å lære AI-modeller hvordan de skal utføre spesifikke oppgaver. Gjennom å eksponere modellene for et mangfold av prøver og deres tilhørende etiketter, kan modellene lære mønstrene og relasjonene innenfor dataene.

Disse dataene utgjør grunnlaget for maskinlæringsalgoritmer, og muliggjør generalisering av tidligere erfaringer for å ta intelligente beslutninger. Kvaliteten og relevansen til egenskapene som hentes fra datasettet, påvirker i stor grad ytelsen til AI-systemene. Datasett er også avgjørende for kontinuerlig læring, slik at AI-modeller kan tilpasse seg og forbedre seg over tid.

Selv om datasett er avgjørende for AI, bringer de også med seg visse utfordringer. Det er viktig å sikre kvalitet og pålitelighet i dataene som inngår i datasettet. Ukorrekte, skjeve eller ufullstendige data kan føre til skjeve resultater og påvirke ytelsen til AI-modellene.

En annen utfordring er risikoen for forutinntatthet i dataene. Datasett kan utilsiktet gjenspeile forutinntatte holdninger til stede i datainnsamlingen, som sosiale, kulturelle eller historiske fordommer. Det er derfor nødvendig å være oppmerksom på og redusere forutinntattheter for å unngå diskriminering i AI-systemer.

Dessuten er det viktig å sikre diversitet i datasettene. Datasett bør inneholde et bredt spekter av prøver som representerer hele spekteret av det problemområdet man ønsker å trene modellene på. Mangelen på diversitet kan begrense AI-modellenes evne til å generalisere og resultere i skjeve eller begrensede prediksjoner.

Datasettets størrelse har også betydning for ytelsen til AI-modeller. Utilstrekkelige data kan føre til overtilpasning, hvor modellene har problemer med å generalisere godt utenfor treningsdataene.

Datasett utgjør grunnlaget for AI og gir mulighet for maskinlæringsmodeller å lære, tilpasse seg og ta informerte beslutninger. Ved å tilby nødvendige treningsdata, hente ut relevante funksjoner og forenkle vurderingen av modeller, påvirker datasettene mulighetene og ytelsen til AI-systemer.