Šta je predprocesiranje umjetne inteligencije?

Kratak odgovor: AI predprocesiranje je skup ponovljivih koraka koji pretvaraju sirove podatke s visokom varijansom u konzistentne ulazne podatke modela, uključujući čišćenje, kodiranje, skaliranje, tokenizaciju i transformacije slika. To je važno jer ako se ulazi za obuku i ulazi za produkciju razlikuju, modeli mogu tiho propasti. Ako korak "uči" parametre, prilagodite ga samo podacima za obuku kako biste izbjegli curenje.

Predobrada umjetne inteligencije je sve što radite sa sirovim podacima prije (a ponekad i tokom) obuke ili zaključivanja kako bi model zapravo mogao učiti iz njih. Ne samo "čišćenje". To je čišćenje, oblikovanje, skaliranje, kodiranje, proširivanje i pakovanje podataka u konzistentnu reprezentaciju koja kasnije neće tiho saplesti vaš model. [1]

Ključne zaključke:

Definicija : Predobrada pretvara sirove tabele, tekst, slike i logove u funkcije spremne za model.

Konzistentnost : Primjenjujte iste transformacije tokom obuke i zaključivanja kako biste spriječili greške zbog neusklađenosti.

Curenje : Prilagodite skalere, enkodere i tokenizatore samo podacima za obuku.

Reproducibilnost : Izgradite cjevovode sa statistikama koje se mogu provjeravati, a ne ad-hoc sekvencama ćelija bilježnica.

Praćenje proizvodnje : Pratite nakrivljenost i pomak kako unosi ne bi postepeno smanjivali performanse.

Članci koje biste možda željeli pročitati nakon ovog:

🔗 Kako testirati AI modele za performanse u stvarnom svijetu
Praktične metode za brzu procjenu tačnosti, robusnosti i pristranosti.

🔗 Da li je pretvaranje teksta u govor umjetna inteligencija i kako funkcioniše
Objašnjava osnove TTS-a, ključne upotrebe i uobičajena ograničenja danas.

🔗 Može li vještačka inteligencija danas tačno čitati kurzivni rukopis?
Obuhvata izazove prepoznavanja, najbolje alate i savjete za tačnost.

🔗 Koliko je tačna vještačka inteligencija u uobičajenim zadacima
Analizira faktore tačnosti, referentne vrijednosti i pouzdanost u stvarnom svijetu.

AI predprocesiranje jednostavnim jezikom (i šta to nije) 🤝

AI predobrada je transformacija sirovih ulaznih podataka (tabela, teksta, slika, logova) u funkcije spremne za model. Ako su sirovi podaci neuredna garaža, predobrada je označavanje kutija, bacanje polomljenog smeća i slaganje stvari tako da zapravo možete proći kroz njih bez povreda.

Nije stvar u samom modelu. To su stvari koje omogućavaju postojanje modela:

pretvaranje kategorija u brojeve (jednobrojne, ordinalne, itd.) [1]
skaliranje velikih numeričkih raspona u razumne raspone (standardizacija, min-max, itd.) [1]
tokenizacija teksta u ulazne ID-ove (i obično masku pažnje) [3]
promjena veličine/izrezivanje slika i odgovarajuća primjena determinističkih naspram slučajnih transformacija [4]
izgradnja ponovljivih cjevovoda kako se obuka i unosi iz „stvarnog života“ ne bi suptilno razlikovali [2]

Jedna mala praktična napomena: "predobrada" uključuje sve što se dešava konzistentno prije nego što model vidi ulaz . Neki timovi ovo dijele na "inženjering karakteristika" naspram "čišćenja podataka", ali u stvarnom životu te granice se zamagljuju.

Zašto je predprocesiranje umjetnom inteligencijom važnije nego što ljudi priznaju 😬

Model je uređaj za uspoređivanje obrazaca, a ne za čitanje misli. Ako su vaši unosi nekonzistentni, model uči nekonzistentna pravila. To nije filozofsko, to je bolno doslovno.

Predobrada vam pomaže:

Poboljšajte stabilnost učenja uključivanjem karakteristika u reprezentacije koje estimatori mogu pouzdano koristiti (posebno kada je u pitanju skaliranje/kodiranje). [1]
Smanjite šum tako što ćete neurednu stvarnost učiniti da izgleda kao nešto iz čega se model može generalizirati (umjesto pamćenja čudnih artefakata).
Spriječite tihe načine kvara poput curenja i neusklađenosti između treniranja i usluživanja (onih koji izgledaju „nevjerovatno“ tokom validacije, a zatim i prilikom frontplantinga u produkciji). [2]
Ubrzajte iteraciju jer ponovljive transformacije pobjeđuju špagete iz bilježnica svaki dan u sedmici.

Također, odatle zapravo dolazi veliki dio "modelskih performansi". Kao... iznenađujuće mnogo. Ponekad se čini nepravedno, ali to je realnost 🙃

Šta čini dobar AI cjevovod za predprocesiranje ✅

„Dobra verzija“ predprocesiranja obično ima ove kvalitete:

Reproducibilno : isti ulaz → isti izlaz (nema misteriozne slučajnosti osim ako se ne radi o namjernom proširenju).
Konzistentnost u obuci : sve što radite tokom obuke, primjenjuje se na isti način i tokom zaključivanja (isti prilagođeni parametri, iste mape kategorija, ista konfiguracija tokenizatora, itd.). [2]
Sigurno od curenja : ništa u evaluaciji/testiranju ne utiče na bilo koji prilagođavanja . (Više o ovoj zamci uskoro.) [2]
Uočljivo : možete pregledati šta se promijenilo (statistike funkcija, nedostajuće informacije, broj kategorija) tako da debuggiranje nije inženjering zasnovan na vibracijama.

Ako je vaša predprocesna obrada gomila ćelija bilježnice pod nazivom final_v7_really_final_ok ... znate kako je. Radi dok ne prestane 😬

Osnovni gradivni blokovi AI predprocesiranja 🧱

Zamislite predobradu kao skup gradivnih blokova koje kombinujete u cjevovod.

1) Čišćenje i validacija 🧼

Tipični zadaci:

ukloni duplikate
rukovanje nedostajućim vrijednostima (isključivanje, imputiranje ili eksplicitno predstavljanje nedostajućih vrijednosti)
nametnuti tipove, jedinice i raspone
otkrivanje neispravnih ulaza
standardizirati tekstualne formate (prazni prostori, pravila o velikim i malim slovima, Unicode karakteristike)

Ovaj dio nije glamurozan, ali sprječava izuzetno glupe greške. To kažem s ljubavlju.

2) Kodiranje kategoričkih podataka 🔤

Većina modela ne može direktno koristiti sirove stringove poput "red" ili "premium_user" .

Uobičajeni pristupi:

Jednokratno kodiranje (kategorija → binarne kolone) [1]
Ordinalno kodiranje (kategorija → cijeli broj ID) [1]

Ključna stvar nije koji enkoder odaberete - ključna je da mapiranje ostane konzistentno i da ne "mijenja oblik" između treninga i zaključivanja. Tako ćete dobiti model koji izgleda dobro offline, a online se ponaša kao da je uklet. [2]

3) Skaliranje i normalizacija karakteristika 📏

Skaliranje je važno kada se objekti nalaze na potpuno različitim rasponima.

Dva klasika:

Standardizacija : uklanjanje srednje vrijednosti i skaliranje na jediničnu varijansu [1]
Min-max skaliranje : skaliranje svake karakteristike u određeni raspon [1]

Čak i kada koristite modele koji se „uglavnom nose sa situacijom“, skaliranje često olakšava rasuđivanje o cjevovodima - i otežava slučajno prekidanje.

4) Inženjering karakteristika (tj. korisno varanje) 🧪

Ovdje olakšavate posao modelu kreiranjem boljih signala:

omjeri (klikovi / prikazi)
pokretni prozori (zadnjih N dana)
broj događaja (događaji po korisniku)
logaritamske transformacije za distribucije s teškim repovima

Ovdje postoji umjetnost. Ponekad stvoriš neki članak, osjećaš se ponosno... a to ne radi ništa. Ili još gore, boli. To je normalno. Nemoj se emocionalno vezati za članke - oni te ne vole 😅

5) Pravilno dijeljenje podataka ✂️

Ovo zvuči očigledno dok nije:

slučajna dijeljenja za IID podatke
vremenski zasnovane podjele za vremenske serije
grupisane podjele kada se entiteti ponavljaju (korisnici, uređaji, pacijenti)

I ključno: razdvojite prije prilagođavanja predprocesiranjem koje uči iz podataka . Ako vaš korak predprocesiranja "uči" parametre (kao što su srednje vrijednosti, vokabulari, mape kategorija), mora ih naučiti samo iz obuke. [2]

AI predobrada po tipu podataka: tabelarni, tekstualni, slikovni 🎛️

Predobrada mijenja oblik ovisno o tome što unesete u model.

Tabelarni podaci (tablice, logovi, baze podataka) 📊

Uobičajeni koraci:

strategija nedostajuće vrijednosti
kategoričko kodiranje [1]
skaliranje numeričkih kolona [1]
rukovanje outlierima (pravila domene većinu vremena pobjeđuju "slučajno izrezivanje")
izvedene karakteristike (agregacije, kašnjenja, pomične statistike)

Praktični savjet: eksplicitno definirajte grupe kolona (numeričke vs. kategoričke vs. identifikatore). Vaše buduće ja će vam biti zahvalno.

Tekstualni podaci (NLP) 📝

Predobrada teksta često uključuje:

tokenizacija u tokene/podriječi
konverzija u ulazne ID-ove
popunjavanje/skraćivanje
izrada maski pažnje za grupiranje [3]

Malo pravilo koje štedi muke: za postavke zasnovane na transformatorima, slijedite očekivane postavke tokenizatora modela i nemojte se igrati freestyleom osim ako nemate razlog. Freestyle je način na koji završite sa "trenira, ali je čudno"

Slike (računarski vid) 🖼️

Tipična predobrada:

promijeni veličinu / izreži do konzistentnih oblika
determinističke transformacije za evaluaciju
slučajne transformacije za proširenje obuke (npr. slučajno izrezivanje) [4]

Jedan detalj koji ljudi propuštaju: "slučajne transformacije" nisu samo vibracija - one doslovno uzorkuju parametre svaki put kada se pozovu. Odlično za raznolikost u obuci, užasno za evaluaciju ako zaboravite isključiti slučajnost. [4]

Zamka u koju svi upadaju: curenje podataka 🕳️🐍

Curenje je kada se informacije iz podataka evaluacije provuku u proces obuke - često kroz prethodnu obradu. To može učiniti da vaš model izgleda magično tokom validacije, a zatim vas razočarati u stvarnom svijetu.

Uobičajeni obrasci curenja:

skaliranje korištenjem statistike cijelog skupa podataka (umjesto samo obuke) [2]
izgradnja mapa kategorija korištenjem sistema za obuku i testiranje zajedno [2]
bilo koji fit() ili fit_transform() koji "vidi" testni skup [2]

Pravilo (jednostavno, brutalno, efikasno):

Sve što ima fit korak trebalo bi biti fit samo na treningu.
Zatim vršite validaciju/testiranje transformatora koristeći taj prilagođeni transformator. [2]

A ako želite provjeru "koliko loše može biti?": scikit-learn-ova dokumentacija pokazuje primjer curenja gdje pogrešan redoslijed predobrade daje tačnost od oko 0,76 na nasumičnim ciljevima, a zatim pada nazad na ~ 0,5 kada se curenje popravi. Tako uvjerljivo pogrešno curenje može izgledati. [2]

Uvođenje predprocesiranja u proizvodnju bez haosa 🏗️

Mnogi modeli ne uspijevaju u produkciji ne zato što je model „loš“, već zato što se ulazna stvarnost mijenja - ili se vaš cjevovod mijenja.

Predobrada usmjerena na proizvodnju obično uključuje:

Sačuvani artefakti (mapiranje enkodera, parametri skalera, konfiguracija tokenizatora) tako da inferencija koristi potpuno iste naučene transformacije [2]
Strogi ulazni ugovori (očekivane kolone/tipovi/rasponi)
Praćenje nagiba i pomaka , jer će lutati [5]

Ako želite konkretne definicije: Googleov Vertex AI Model Monitoring razlikuje odstupanje između obučavanja i posluživanja (distribucija proizvodnje odstupa od obuke) i odstupanje od zaključivanja (distribucija proizvodnje se mijenja tokom vremena), te podržava praćenje i kategoričkih i numeričkih karakteristika. [5]

Jer iznenađenja su skupa. I nisu ona zabavna.

Tabela za poređenje: uobičajeni alati za prethodnu obradu + praćenje (i za koga su namijenjeni) 🧰

Alat / biblioteka	Najbolje za	Cijena	Zašto funkcioniše (i malo iskrenosti)
scikit-learn predprocesiranje	Cjevovodi tabelarnog strojnog učenja	Besplatno	Čvrsti enkoderi + skaleri (OneHotEncoder, StandardScaler, itd.) i predvidljivo ponašanje [1]
Tokenizatori zagrljajnih lica	Priprema za NLP ulaz	Besplatno	Proizvodi ulazne ID-ove + maske pažnje dosljedno u svim izvedbama/modelima [3]
transformacije bakljovida	Transformacija + povećanje vida	Besplatno	Čist način kombinovanja determinističkih i slučajnih transformacija u jednom protočnom procesu [4]
Praćenje Vertex AI modela	Detekcija pomicanja/iskošenja u proizvodu	Plaćeno (oblak)	Monitori imaju funkciju detekcije nagiba/pomaka i upozorenja kada se prekorače pragovi [5]

(Da, za stolom još uvijek ima mišljenja. Ali barem su to iskrena mišljenja 😅)

Praktična kontrolna lista za prethodnu obradu koju zapravo možete koristiti 📌

Prije treninga

Definišite ulaznu shemu (tipove, jedinice, dozvoljene raspone)
Revizija nedostajućih vrijednosti i duplikata
Pravilna podjele podataka (nasumično / vremenski zasnovano / grupisano)
Predobrada prilagođavanja samo prilikom obuke ( fit / fit_transform ostaje na obuci) [2]
Sačuvaj artefakte predprocesiranja kako bi ih inferencija mogla ponovo koristiti [2]

Tokom obuke

Primjenjujte nasumičnu augmentaciju samo gdje je to prikladno (obično samo podjela na trening) [4]
Održavajte determinističkim predobrađivanje evaluacije [4]
Pratite promjene predobrade poput promjena modela (jer one to i jesu)

Prije raspoređivanja

Osigurajte da inferencija koristi identičan put predprocesiranja i artefakte [2]
Postavite praćenje pomjeranja/iskošenja (čak i osnovne provjere distribucije karakteristika su dovoljne) [5]

Detaljna analiza: uobičajene greške u predprocesiranju (i kako ih izbjeći) 🧯

Greška 1: „Samo ću brzo sve normalizovati“ 😵

Ako izračunate parametre skaliranja na cijelom skupu podataka, propuštate informacije o evaluaciji. Prilagodite se treniranju, a ostatak transformirajte. [2]

Greška 2: kategorije tonu u haos 🧩

Ako se vaše mapiranje kategorija mijenja između obuke i zaključivanja, vaš model može tiho pogrešno tumačiti svijet. Održavajte mapiranja fiksnim putem sačuvanih artefakata. [2]

Greška 3: nasumično proširenje koje se uvlači u evaluaciju 🎲

Slučajne transformacije su odlične u obuci, ali ne bi trebale biti "tajno uključene" kada pokušavate mjeriti performanse. (Slučajno znači nasumično.) [4]

Završne napomene 🧠✨

Predobrada pomoću umjetne inteligencije je disciplinirana umjetnost pretvaranja neuredne stvarnosti u konzistentne ulazne podatke modela. Obuhvata čišćenje, kodiranje, skaliranje, tokenizaciju, transformacije slika i - što je najvažnije - ponovljive protočne procese i artefakte.

Prethodnu obradu vršite namjerno, a ne usputno. [2]
Prvo podijelite, prilagođavanje se mijenja samo tokom treninga, izbjegavajte curenje. [2]
Koristite predprocesiranje odgovarajuće modalitetu (tokenizatori za tekst, transformacije za slike). [3][4]
Pratite odstupanja/pomak u proizvodnji kako vaš model ne bi polako skrenuo u besmislene tokove. [5]

A ako se ikada zaglavite, zapitajte se:
„Da li bi ovaj korak predobrade i dalje imao smisla da ga pokrenem sutra na potpuno novim podacima?“
Ako je odgovor „hm… možda?“, to je vaš trag 😬

Često postavljana pitanja

Šta je, jednostavnim riječima, predprocesiranje umjetne inteligencije?

Predobrada umjetne inteligencije je ponovljivi skup koraka koji pretvaraju sirove podatke s velikom varijansom u konzistentne ulaze iz kojih model može učiti. Može uključivati čišćenje, validaciju, kodiranje kategorija, skaliranje numeričkih vrijednosti, tokenizaciju teksta i primjenu transformacija slika. Cilj je osigurati da se prilikom obuke i produkcijskog zaključivanja koristi "ista vrsta" ulaza, kako model kasnije ne bi skrenuo u nepredvidivo ponašanje.

Zašto je predprocesiranje umjetne inteligencije toliko važno u produkciji?

Predobrada je važna jer su modeli osjetljivi na reprezentaciju ulaza. Ako se podaci za obuku skaliraju, kodiraju, tokeniziraju ili transformiraju drugačije od produkcijskih podataka, možete dobiti greške neusklađenosti treninga/serviranja koje izgledaju dobro offline, ali tiho ne uspijevaju online. Snažni cjevovodi predobrade također smanjuju šum, poboljšavaju stabilnost učenja i ubrzavaju iteraciju jer ne raspetljavate špagete bilježnice.

Kako da izbjegnem curenje podataka tokom predobrade?

Jednostavno pravilo funkcioniše: sve što ima prilagođavanja mora se prilagođavati samo podacima za obuku. To uključuje skalere, enkodere i tokenizatore koji uče parametre poput srednjih vrijednosti, mapa kategorija ili vokabulara. Prvo se izvrši razdvajanje, prilagođavanje na podjeli za obuku, a zatim se transformiše validacija/testiranje pomoću prilagođenog transformatora. Curenje može učiniti da validacija izgleda „magično“ dobro, a zatim se uruši u produkcijskoj upotrebi.

Koji su najčešći koraci predobrade za tabelarne podatke?

Za tabelarne podatke, uobičajeni cjevovod uključuje čišćenje i validaciju (tipovi, rasponi, nedostajuće vrijednosti), kategoričko kodiranje (jednokratno ili ordinalno) i numeričko skaliranje (standardizacija ili min-max). Mnogi cjevovodi dodaju inženjering karakteristika vođen domenom kao što su omjeri, pomični prozori ili brojevi. Praktična navika je eksplicitno definiranje grupa kolona (numeričke vs. kategoričke vs. identifikatori) kako bi vaše transformacije ostale konzistentne.

Kako funkcioniše predobrada tekstualnih modela?

Prethodna obrada teksta obično znači tokenizaciju u tokene/podriječi, njihovo pretvaranje u ulazne ID-ove i rukovanje popunjavanjem/skraćivanjem za grupiranje. Mnogi transformatorski tokovi rada također kreiraju masku pažnje pored ID-ova. Uobičajeni pristup je korištenje očekivane konfiguracije tokenizatora modela umjesto improvizacije, jer male razlike u postavkama tokenizatora mogu dovesti do ishoda "obučava se, ali se ponaša nepredvidivo".

Po čemu se razlikuje prethodna obrada slika za mašinsko učenje?

Prethodna obrada slike obično osigurava konzistentne oblike i rukovanje pikselima: promjena veličine/izrezivanje, normalizacija i jasna podjela između determinističkih i slučajnih transformacija. Za evaluaciju, transformacije trebaju biti determinističke kako bi metrike bile uporedive. Za obuku, slučajno proširenje (poput slučajnih izrezivanja) može poboljšati robusnost, ali slučajnost mora biti namjerno ograničena na podjelu za obuku, a ne slučajno ostavljena tokom evaluacije.

Šta čini cjevovod predprocesiranja „dobrim“ umjesto krhkim?

Dobar cjevovod za predprocesiranje umjetne inteligencije je reproducibilan, siguran od curenja i vidljiv. Reproducibilan znači da isti ulaz proizvodi isti izlaz, osim ako slučajnost nije namjerno povećanje. Sigurno od curenja znači da koraci prilagođavanja nikada ne dodiruju validaciju/testiranje. Vidljiv znači da možete pregledati statistike poput nedostataka, broja kategorija i distribucije značajki, tako da se otklanjanje grešaka zasniva na dokazima, a ne na intuiciji. Cjevovodi uvijek pobjeđuju ad-hoc sekvence bilježnica.

Kako da održim konzistentnost u obuci i predobradi zaključivanja?

Ključno je ponovo koristiti potpuno iste naučene artefakte u vrijeme zaključivanja: parametre skalera, mapiranja enkodera i konfiguracije tokenizatora. Također vam je potreban ulazni ugovor (očekivane kolone, tipovi i rasponi) kako produkcijski podaci ne bi mogli tiho preći u nevažeće oblike. Konzistentnost nije samo "uraditi iste korake" - to je "uraditi iste korake s istim prilagođenim parametrima i mapiranjima"

Kako mogu pratiti probleme predobrade poput pomjeranja i naginjanja tokom vremena?

Čak i uz solidan cjevovod, podaci o produkciji se mijenjaju. Uobičajeni pristup je praćenje promjena u distribuciji karakteristika i upozoravanje na odstupanje u obuci (produkcija odstupa od obuke) i pomak u zaključivanju (produkcija se mijenja tokom vremena). Praćenje može biti lagano (osnovne provjere distribucije) ili upravljano (kao što je Vertex AI Model Monitoring). Cilj je rano uočiti promjene ulaznih podataka - prije nego što polako naruše performanse modela.

Reference

[1] scikit-learn API:
sklearn.preprocessing (enkoderi, skaleri, normalizacija) [2] scikit-learn: Uobičajene zamke - Curenje podataka i kako ih izbjeći
[3] Dokumentacija za Hugging Face Transformers: Tokenizatori (ulazni ID-ovi, maske pažnje)
[4] Dokumentacija za PyTorch Torchvision: Transformacije (Promjena veličine/Normalizacija + nasumične transformacije)
[5] Dokumentacija za Google Cloud Vertex AI: Pregled praćenja modela (izkrivljenje i pomicanje funkcija)

Pronađite najnoviju umjetnu inteligenciju u službenoj trgovini AI Assistant

O nama

Nazad na blog

Zemlja/regija