Förstå och hantera dataläckage

Sustainability Circle's "lilla AI skola" om dataläckage

Dataläckage inträffar när en maskininlärningsmodell får tillgång till information under träning som den inte borde ha. Detta kan leda till att modellen presterar bra i tester, men misslyckas i verkliga situationer. Modellen "lär sig" från läckta data, vilket skapar en falsk känsla av noggrannhet.

Dataläckage är ett relativt vanligt problem. En studie från National Library of Medicine visade att inom 17 vetenskapliga fält påverkades minst 294 vetenskapliga artiklar av dataläckage, vilket resulterade i överoptimistiska prestanda. Genom att involvera domänexperter och använda rätt strategier kan vi undvika detta, vilket leder till mer pålitliga modeller som fungerar i verkligheten.

Möjliga orsaker till dataläckage:

1. Inkludering av framtida data

Exempel: Använda "betalad faktura" för att förutspå "betalning".

Detta skapar en felaktig modell eftersom framtida information inte är tillgänglig vid prediktionstillfället.

2. Dubbla features[1]

Exempel: Använda "Månadslön" för att förutspå "Årslön".

Här finns en korrelation mellan variablerna men ingen kausalitet. Att förstå skillnaden mellan dessa två begrepp är avgörande för att undvika läckage.

3. Felaktig preprocessing

Att normalisera data innan datasetet delas upp i tränings- och testdata kan orsaka läckage. (Läs mer om preprocessing i avsnittet om detta i lilla AI skolan.)

4. Extern datakontaminering

När externa dataset kombineras utan korrekt validering kan det skapa bias. (Läs mer om datakontaminering i avsnittet om detta i lilla AI skolan.)

Strategier för att undvika dataläckage:

1. Dela upp data korrekt: Säkerställ att träningsdata inte innehåller information från testdata. För tidsseriedata är det viktigt att separera datan baserat på tid så att framtida händelser inte påverkar träningen.

2. Låt domänexperter granska features [1] : Undvik att använda features som inte är tillgängliga vid prediktionstillfället. Domänexperter kan identifiera subtila samband mellan features och målvariabler som kan orsaka läckage.

3. Kontinuerliga granskningar: Regelbundna genomgångar av datapipelines kan identifiera risker tidigt. Utvärdering för dataläckage bör vara en del av den löpande driften av maskininlärningsmodeller.

Exempel på negativt dataläckage:

Om du tränar en modell för att förutspå kundavhopp och inkluderar data som visar att kunden redan sagt upp sitt abonnemang, kan modellen prestera bra under testning men misslyckas i verkligheten. Detta beror på att modellen fått tillgång till information som inte finns tillgänglig när modellen används.

Balans mellan insats och nytta

Allt dataläckage påverkar inte modellen negativt, vilket gör det svårt att avgöra hur mycket resurser som ska läggas på att undvika det. En del av vinsten med maskininlärning är att hitta nya samband, vilket kräver att vi inkluderar många olika datakällor.

Som domänexperter har vi en viktig roll i att kontinuerligt granska modeller för att säkerställa att de inte använder orealistiska eller otillgängliga data.

Vidare läsning:

”Leakage (machine learning)” Wikipedia-sammanfattning -> Länk

“What is data leakage in machine learning” En komplett guide från IBM: ->Länk

”Data ‘leaks’ can sink machine learning models” Yale news: -> Länk

[1] Features är de variabler eller egenskaper som används av en maskininlärningsmodell för att göra förutsägelser. Det är alltså de dataelement som "förklarar" eller är relaterade till den utfallsvariabel (målvariabel) som modellen försöker förutsäga.

Exempel:

Om du försöker förutspå kundavhopp kan exempel på features vara:

Ålder: Kundens ålder.
Användningstid: Hur länge kunden har varit kund.
Supportärenden: Antal gånger kunden har kontaktat supporten.

Features är alltså de delar av datasetet som modellen "lär sig" från under träningen. Valet av rätt features är avgörande för modellens prestanda, eftersom irrelevanta eller felaktiga features (t.ex. framtida data) kan leda till dåliga eller missvisande resultat.

Förstå och hantera dataläckage

Sustainability Circle's "lilla AI skola" om dataläckage

Senaste inlägg

Comentarios