Jeste li ikada sjedili tu i češkali se po glavi, kao... odakle ovo zapravo dolazi ? Mislim, vještačka inteligencija ne pretražuje prašnjave police biblioteka niti gleda kratke YouTube snimke krišom. Pa ipak, nekako izvlači odgovore na sve - od trikova za lazanje do fizike crnih rupa - kao da ima neki beskrajni ormar za spise unutra. Stvarnost je čudnija i možda intrigantnija nego što biste pretpostavili. Hajde da je malo razjasnimo (i da, možda usput razbijemo nekoliko mitova).
Je li to Čarobnjaštvo? 🌐
Nije to magija, iako se ponekad tako čini. Ono što se dešava "ispod haube" je u osnovi predviđanje obrazaca . Veliki jezički modeli (LLM) ne pohranjuju činjenice na način na koji se vaš mozak drži recepta za kolačiće vaše bake; umjesto toga, oni su obučeni da pogode sljedeću riječ (token) na osnovu onoga što je bilo prije [2]. U praksi, to znači da se vežu za odnose: koje riječi se slažu, kako rečenice obično poprimaju oblik, kako se cijele ideje grade poput skele. Zato izlaz zvuči ispravno, iako - potpuno iskreno - to je statistička mimikrija, a ne razumijevanje [4].
Šta zapravo čini informacije generirane umjetnom inteligencijom korisnim ? Nekoliko stvari:
-
Raznolikost podataka - prikupljanje podataka iz bezbroj izvora, a ne iz jednog uskog toka.
-
Ažuriranja - bez ciklusa osvježavanja, brzo zastarijeva.
-
Filtriranje - idealno hvatanje smeća prije nego što prodre unutra (iako, budimo realni, ta mreža ima rupe).
-
Unakrsna provjera - oslanjanje na autoritativne izvore (npr. NASA, WHO, veliki univerziteti), što je neophodno u većini priručnika za upravljanje umjetnom inteligencijom [3].
Ipak, ponekad izmišlja - sa samopouzdanjem. Te takozvane halucinacije ? U osnovi, uglađene gluposti izrečene ozbiljnog lica [2][3].
Članci koje biste možda željeli pročitati nakon ovog:
🔗 Može li vještačka inteligencija predvidjeti brojeve lutrije
Istraživanje mitova i činjenica o predviđanjima lutrije pomoću umjetne inteligencije.
🔗 Šta znači imati holistički pristup umjetnoj inteligenciji
Razumijevanje umjetne inteligencije s uravnoteženim perspektivama o etici i utjecaju.
🔗 Šta Biblija kaže o vještačkoj inteligenciji
Ispitivanje biblijskih perspektiva o tehnologiji i stvaranju čovjeka.
Brza usporedba: Odakle umjetna inteligencija crpi 📊
Nije svaki izvor jednak, ali svaki igra svoju ulogu. Evo kratkog pregleda.
Vrsta izvora | Ko ga koristi (AI) | Cijena/vrijednost | Zašto funkcioniše (ili ne...) |
---|---|---|---|
Knjige i članci | Veliki jezički modeli | Neprocjenjivo (otprilike) | Gusto, strukturirano znanje - jednostavno brzo stari. |
Web stranice i blogovi | Gotovo sve umjetne inteligencije | Besplatno (sa bukom) | Divlja sorta; mješavina briljantnosti i apsolutnog smeća. |
Akademski radovi | Vještačke inteligencije s puno istraživanja | Ponekad uz paywall | Rigoroznost + kredibilitet, ali umotano u teški žargon. |
Korisnički podaci | Personalizirane umjetne inteligencije | Veoma osjetljivo ⚠️ | Oštro krojenje, ali i brojne glavobolje s privatnošću. |
Web u stvarnom vremenu | VI povezane s pretraživanjem | Besplatno (ako ste online) | Održava informacije svježima; mana je rizik od širenja glasina. |
Univerzum podataka za obuku 🌌
Ovo je faza „učenja u djetinjstvu“. Zamislite da djetetu dajete milione slikovnica, isječaka iz vijesti i Wikipedijinih rupa odjednom. Tako izgleda predtrening. U stvarnom svijetu, pružatelji usluga spajaju javno dostupne podatke, licencirane izvore i tekst koji generiraju treneri [2].
Slojevito na vrhu: odabrani ljudski primjeri - dobri odgovori, loši odgovori, podsticaji u pravom smjeru - prije nego što potkrepljenje uopće počne [1].
Upozorenje o transparentnosti: kompanije ne otkrivaju svaki detalj. Neke zaštitne mjere su tajnost (intelektualno vlasništvo, sigurnosni problemi), tako da dobijate samo djelimičan uvid u stvarni proces [2].
Pretraga u stvarnom vremenu: Dodatni preljev 🍒
Neki modeli sada mogu zaviriti izvan svog "mjehura za obuku". To je generiranje prošireno pronalaženjem (RAG) - u osnovi izvlačenje dijelova iz aktivnog indeksa ili skladišta dokumenata, a zatim njihovo upletanje u odgovor [5]. Savršeno za brzo promjenjive stvari poput naslova vijesti ili cijena dionica.
U čemu je problem? Internet je podjednako genijalan i vreo. Ako su filteri ili provjere porijekla slabi, rizikujete da se neželjeni podaci ponovo provuku - upravo na ono na šta upozoravaju okviri za provjeru rizika [3].
Uobičajeno rješenje: kompanije povezuju modele sa vlastitim internim bazama podataka, tako da odgovori navode trenutnu HR politiku ili ažuriranu dokumentaciju o proizvodu umjesto da se prejudiciraju. Razmislite: manje "uh-oh" trenutaka, više pouzdanih odgovora.
Fino podešavanje: Korak poliranja umjetne inteligencije 🧪
Sirovi, prethodno obučeni modeli su nezgrapni. Zato se oni fino :
-
Učenje da budu korisni, bezopasni, iskreni (putem učenja s potkrepljenjem iz ljudskih povratnih informacija, RLHF) [1].
-
Brušenje nesigurnih ili toksičnih rubova (poravnavanje) [1].
-
Prilagođavanje tona - bilo da je on prijateljski, formalan ili razigrano sarkastičan.
Nije toliko poliranje dijamanta koliko nagovaranje statističke lavine da se ponaša više kao sagovornik.
Neuspjesi i neuspjesi 🚧
Nemojmo se pretvarati da je besprijekorno:
-
Halucinacije - jasni odgovori koji su potpuno pogrešni [2][3].
-
Pristrasnost - odražava obrasce ugrađene u podatke; može ih čak i pojačati ako se ne kontrolira [3][4].
-
Nema iskustva iz prve ruke - može pričati o receptima za supu, ali nikad nijednu nije probao [4].
-
Prevelika samouvjerenost - tekst teče kao da zna, čak i kada ne zna. Okviri rizika naglašavaju označavanje pretpostavki [3].
Zašto se osjeća kao da znaš 🧠
Nema vjerovanja, nema pamćenje u ljudskom smislu, a svakako nema ni sebe. Pa ipak, budući da glatko povezuje rečenice, vaš mozak to čita kao da razumije . Ono što se dešava je samo masovno predviđanje sljedećeg žetona : obrada triliona vjerovatnoća u djelićima sekunde [2].
Vibracija „inteligencije“ je emergentno ponašanje - istraživači ga, pomalo ironično, nazivaju „stohastičkog papagaja“ [4].
Analogija za djecu 🎨
Zamislite papagaja koji je pročitao svaku knjigu u biblioteci. Ne razumije priče , ali može remiksirati riječi u nešto što se čini mudrim. Ponekad je to savršeno; ponekad je to besmisleno - ali s dovoljno talenta, ne možete uvijek uočiti razliku.
Zaključak: Odakle dolaze informacije o vještačkoj inteligenciji 📌
Jednostavno rečeno:
-
Masovni podaci o obuci (javni + licencirani + generirani od strane trenera) [2].
-
Fino podešavanje uz pomoć ljudskih povratnih informacija za oblikovanje tona/ponašanja [1].
-
Sistemi za pronalaženje podataka kada su povezani na tokove podataka uživo [5].
Vještačka inteligencija ne "zna" stvari - ona predviđa tekst . To je i njena supermoć i Ahilova peta. Zaključak? Uvijek provjerite važne stvari u odnosu na pouzdan izvor [3].
Reference
-
Ouyang, L. i dr. (2022). Obučavanje jezičkih modela za praćenje instrukcija uz ljudske povratne informacije (InstructGPT) . arXiv .
-
OpenAI (2023). Tehnički izvještaj GPT-4 - mješavina licenciranih, javnih i podataka koje je kreirao čovjek; cilj i ograničenja predviđanja sljedećeg tokena. arXiv .
-
NIST (2023). Okvir za upravljanje rizicima umjetne inteligencije (AI RMF 1.0) - porijeklo, pouzdanost i kontrole rizika. PDF .
-
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). O opasnostima stohastičkih papagaja: Mogu li jezički modeli biti preveliki? PDF .
-
Lewis, P. i dr. (2020). Generisanje prošireno pretraživanjem za NLP koji se zasniva na znanju . arXiv .