Odakle AI dobija informacije

Odakle vještačka inteligencija dobija svoje informacije?

Jeste li ikada sjedili tu i češkali se po glavi, kao... odakle ovo zapravo dolazi ? Mislim, vještačka inteligencija ne pretražuje prašnjave police biblioteka niti gleda kratke YouTube snimke krišom. Pa ipak, nekako izvlači odgovore na sve - od trikova za lazanje do fizike crnih rupa - kao da ima neki beskrajni ormar za spise unutra. Stvarnost je čudnija i možda intrigantnija nego što biste pretpostavili. Hajde da je malo razjasnimo (i da, možda usput razbijemo nekoliko mitova).


Je li to Čarobnjaštvo? 🌐

Nije to magija, iako se ponekad tako čini. Ono što se dešava "ispod haube" je u osnovi predviđanje obrazaca . Veliki jezički modeli (LLM) ne pohranjuju činjenice na način na koji se vaš mozak drži recepta za kolačiće vaše bake; umjesto toga, oni su obučeni da pogode sljedeću riječ (token) na osnovu onoga što je bilo prije [2]. U praksi, to znači da se vežu za odnose: koje riječi se slažu, kako rečenice obično poprimaju oblik, kako se cijele ideje grade poput skele. Zato izlaz zvuči ispravno, iako - potpuno iskreno - to je statistička mimikrija, a ne razumijevanje [4].

Šta zapravo čini informacije generirane umjetnom inteligencijom korisnim ? Nekoliko stvari:

  • Raznolikost podataka - prikupljanje podataka iz bezbroj izvora, a ne iz jednog uskog toka.

  • Ažuriranja - bez ciklusa osvježavanja, brzo zastarijeva.

  • Filtriranje - idealno hvatanje smeća prije nego što prodre unutra (iako, budimo realni, ta mreža ima rupe).

  • Unakrsna provjera - oslanjanje na autoritativne izvore (npr. NASA, WHO, veliki univerziteti), što je neophodno u većini priručnika za upravljanje umjetnom inteligencijom [3].

Ipak, ponekad izmišlja - sa samopouzdanjem. Te takozvane halucinacije ? U osnovi, uglađene gluposti izrečene ozbiljnog lica [2][3].

Članci koje biste možda željeli pročitati nakon ovog:

🔗 Može li vještačka inteligencija predvidjeti brojeve lutrije
Istraživanje mitova i činjenica o predviđanjima lutrije pomoću umjetne inteligencije.

🔗 Šta znači imati holistički pristup umjetnoj inteligenciji
Razumijevanje umjetne inteligencije s uravnoteženim perspektivama o etici i utjecaju.

🔗 Šta Biblija kaže o vještačkoj inteligenciji
Ispitivanje biblijskih perspektiva o tehnologiji i stvaranju čovjeka.


Brza usporedba: Odakle umjetna inteligencija crpi 📊

Nije svaki izvor jednak, ali svaki igra svoju ulogu. Evo kratkog pregleda.

Vrsta izvora Ko ga koristi (AI) Cijena/vrijednost Zašto funkcioniše (ili ne...)
Knjige i članci Veliki jezički modeli Neprocjenjivo (otprilike) Gusto, strukturirano znanje - jednostavno brzo stari.
Web stranice i blogovi Gotovo sve umjetne inteligencije Besplatno (sa bukom) Divlja sorta; mješavina briljantnosti i apsolutnog smeća.
Akademski radovi Vještačke inteligencije s puno istraživanja Ponekad uz paywall Rigoroznost + kredibilitet, ali umotano u teški žargon.
Korisnički podaci Personalizirane umjetne inteligencije Veoma osjetljivo ⚠️ Oštro krojenje, ali i brojne glavobolje s privatnošću.
Web u stvarnom vremenu VI povezane s pretraživanjem Besplatno (ako ste online) Održava informacije svježima; mana je rizik od širenja glasina.

Univerzum podataka za obuku 🌌

Ovo je faza „učenja u djetinjstvu“. Zamislite da djetetu dajete milione slikovnica, isječaka iz vijesti i Wikipedijinih rupa odjednom. Tako izgleda predtrening. U stvarnom svijetu, pružatelji usluga spajaju javno dostupne podatke, licencirane izvore i tekst koji generiraju treneri [2].

Slojevito na vrhu: odabrani ljudski primjeri - dobri odgovori, loši odgovori, podsticaji u pravom smjeru - prije nego što potkrepljenje uopće počne [1].

Upozorenje o transparentnosti: kompanije ne otkrivaju svaki detalj. Neke zaštitne mjere su tajnost (intelektualno vlasništvo, sigurnosni problemi), tako da dobijate samo djelimičan uvid u stvarni proces [2].


Pretraga u stvarnom vremenu: Dodatni preljev 🍒

Neki modeli sada mogu zaviriti izvan svog "mjehura za obuku". To je generiranje prošireno pronalaženjem (RAG) - u osnovi izvlačenje dijelova iz aktivnog indeksa ili skladišta dokumenata, a zatim njihovo upletanje u odgovor [5]. Savršeno za brzo promjenjive stvari poput naslova vijesti ili cijena dionica.

U čemu je problem? Internet je podjednako genijalan i vreo. Ako su filteri ili provjere porijekla slabi, rizikujete da se neželjeni podaci ponovo provuku - upravo na ono na šta upozoravaju okviri za provjeru rizika [3].

Uobičajeno rješenje: kompanije povezuju modele sa vlastitim internim bazama podataka, tako da odgovori navode trenutnu HR politiku ili ažuriranu dokumentaciju o proizvodu umjesto da se prejudiciraju. Razmislite: manje "uh-oh" trenutaka, više pouzdanih odgovora.


Fino podešavanje: Korak poliranja umjetne inteligencije 🧪

Sirovi, prethodno obučeni modeli su nezgrapni. Zato se oni fino :

  • Učenje da budu korisni, bezopasni, iskreni (putem učenja s potkrepljenjem iz ljudskih povratnih informacija, RLHF) [1].

  • Brušenje nesigurnih ili toksičnih rubova (poravnavanje) [1].

  • Prilagođavanje tona - bilo da je on prijateljski, formalan ili razigrano sarkastičan.

Nije toliko poliranje dijamanta koliko nagovaranje statističke lavine da se ponaša više kao sagovornik.


Neuspjesi i neuspjesi 🚧

Nemojmo se pretvarati da je besprijekorno:

  • Halucinacije - jasni odgovori koji su potpuno pogrešni [2][3].

  • Pristrasnost - odražava obrasce ugrađene u podatke; može ih čak i pojačati ako se ne kontrolira [3][4].

  • Nema iskustva iz prve ruke - može pričati o receptima za supu, ali nikad nijednu nije probao [4].

  • Prevelika samouvjerenost - tekst teče kao da zna, čak i kada ne zna. Okviri rizika naglašavaju označavanje pretpostavki [3].


Zašto se osjeća kao da znaš 🧠

Nema vjerovanja, nema pamćenje u ljudskom smislu, a svakako nema ni sebe. Pa ipak, budući da glatko povezuje rečenice, vaš mozak to čita kao da razumije . Ono što se dešava je samo masovno predviđanje sljedećeg žetona : obrada triliona vjerovatnoća u djelićima sekunde [2].

Vibracija „inteligencije“ je emergentno ponašanje - istraživači ga, pomalo ironično, nazivaju „stohastičkog papagaja“ [4].


Analogija za djecu 🎨

Zamislite papagaja koji je pročitao svaku knjigu u biblioteci. Ne razumije priče , ali može remiksirati riječi u nešto što se čini mudrim. Ponekad je to savršeno; ponekad je to besmisleno - ali s dovoljno talenta, ne možete uvijek uočiti razliku.


Zaključak: Odakle dolaze informacije o vještačkoj inteligenciji 📌

Jednostavno rečeno:

  • Masovni podaci o obuci (javni + licencirani + generirani od strane trenera) [2].

  • Fino podešavanje uz pomoć ljudskih povratnih informacija za oblikovanje tona/ponašanja [1].

  • Sistemi za pronalaženje podataka kada su povezani na tokove podataka uživo [5].

Vještačka inteligencija ne "zna" stvari - ona predviđa tekst . To je i njena supermoć i Ahilova peta. Zaključak? Uvijek provjerite važne stvari u odnosu na pouzdan izvor [3].


Reference

  1. Ouyang, L. i dr. (2022). Obučavanje jezičkih modela za praćenje instrukcija uz ljudske povratne informacije (InstructGPT) . arXiv .

  2. OpenAI (2023). Tehnički izvještaj GPT-4 - mješavina licenciranih, javnih i podataka koje je kreirao čovjek; cilj i ograničenja predviđanja sljedećeg tokena. arXiv .

  3. NIST (2023). Okvir za upravljanje rizicima umjetne inteligencije (AI RMF 1.0) - porijeklo, pouzdanost i kontrole rizika. PDF .

  4. Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). O opasnostima stohastičkih papagaja: Mogu li jezički modeli biti preveliki? PDF .

  5. Lewis, P. i dr. (2020). Generisanje prošireno pretraživanjem za NLP koji se zasniva na znanju . arXiv .


Pronađite najnoviju umjetnu inteligenciju u službenoj trgovini AI Assistant

O nama

Nazad na blog