Kako procijeniti AI modele

Kako procijeniti AI modele

Kratak odgovor: Definirajte šta znači „dobro“ za vaš slučaj upotrebe, a zatim testirajte s reprezentativnim, verzioniranim upitima i graničnim slučajevima. Uparite automatizirane metrike s bodovanjem ljudskih rubrika, uz provjere sigurnosti protivnika i promptne injekcije. Ako ograničenja troškova ili latencije postanu obavezujuća, uporedite modele prema uspjehu zadatka po potrošenoj funti i vremenu odziva p95/p99.

Ključne zaključke:

Odgovornost : Dodijelite jasne vlasnike, čuvajte zapise verzija i ponovo pokrenite evaluacije nakon bilo kakvog upita ili promjene modela.

Transparentnost : Zapišite kriterije uspjeha, ograničenja i troškove neuspjeha prije nego što počnete prikupljati rezultate.

Mogućnost revizije : Održavanje ponovljivih testnih paketa, označenih skupova podataka i praćenih metrika latencije p95/p99.

Osporivost : Koristite rubrike za ljudsku provjeru i definirani put žalbe za sporne rezultate.

Otpor na zloupotrebu : Ubrizgavanje informacija od strane crvenog tima, osjetljive teme i pretjerano odbijanje zaštite korisnika.

Ako birate model za proizvod, istraživački projekat ili čak interni alat, ne možete jednostavno reći "zvuči pametno" i poslati ga (pogledajte OpenAI evals vodič i NIST AI RMF 1.0 ). Tako ćete dobiti chatbota koji samouvjereno objašnjava kako podgrijati viljušku u mikrovalnoj pećnici. 😬

Infografika o tome kako procijeniti AI modele

Članci koje biste možda željeli pročitati nakon ovog:

🔗 Budućnost vještačke inteligencije: trendovi koji oblikuju sljedeću deceniju
Ključne inovacije, utjecaj na radna mjesta i etika na koje treba obratiti pažnju u budućnosti.

🔗 Osnovni modeli generativne umjetne inteligencije objašnjeni za početnike.
Saznajte šta su, kako se obučavaju i zašto su važni.

🔗 Kako umjetna inteligencija utiče na okoliš i potrošnju energije
Istražite emisije, potražnju za električnom energijom i načine za smanjenje ekološkog otiska.

🔗 Kako danas AI povećava skaliranje za oštrije slike
Pogledajte kako modeli dodaju detalje, uklanjaju šum i čisto uvećavaju.


1) Definisanje "dobrog" (zavisi, i to je u redu) 🎯

Prije nego što pokrenete bilo kakvu evaluaciju, odlučite kako izgleda uspjeh. U suprotnom, izmjerit ćete sve, a ništa nećete naučiti. To je kao da donesete metar da biste ocjenjivali takmičenje u pravljenju kolača. Naravno, dobit ćete brojke, ali vam one neće mnogo reći 😅

Pojasni:

  • Cilj korisnika : sumiranje, pretraživanje, pisanje, zaključivanje, izdvajanje činjenica

  • Cijena neuspjeha : pogrešna preporuka filma je smiješna; pogrešna medicinska uputa... nije smiješna (okvir rizika: NIST AI RMF 1.0 ).

  • Izvršno okruženje : na uređaju, u oblaku, iza zaštitnog zida, u reguliranom okruženju

  • Primarna ograničenja : latencija, cijena po zahtjevu, privatnost, objašnjivost, višejezična podrška, kontrola tona

Model koji je "najbolji" u jednom poslu može biti katastrofalan u drugom. To nije kontradikcija, to je realnost. 🙂


2) Kako izgleda snažan okvir za evaluaciju modela umjetne inteligencije 🧰

Da, ovo je dio koji ljudi preskaču. Uzmu benchmark, pokrenu ga jednom i završe s tim. Čvrst okvir za evaluaciju ima nekoliko konzistentnih osobina (praktični primjeri alata: OpenAI Evals / OpenAI evals guide ):

  • Ponovljivo - možete ga ponovo pokrenuti sljedeće sedmice i vjerovati poređenjima

  • Reprezentativno - odražava vaše stvarne korisnike i zadatke (ne samo trivijalnosti)

  • Višeslojno - kombinuje automatizovane metrike + ljudski pregled + kontradiktorne testove

  • Prikladno za djelovanje - rezultati vam govore šta treba popraviti, a ne samo da je „rezultat opao“

  • Otporno na neovlašteno otvaranje - izbjegava "učenje na test" ili slučajno curenje

  • Svjesnost troškova - sama evaluacija ne bi trebala da vas dovede do bankrota (osim ako ne volite bol)

Ako vaša evaluacija ne može preživjeti skeptičnog kolegu koji kaže „U redu, ali mapiraj ovo na produkciju“, onda još nije završena. To je provjera vibracija.


3) Kako procijeniti AI modele počevši od analiza slučajeva upotrebe 🍰

Evo trika koji štedi mnogo vremena: podijelite slučaj upotrebe na dijelove .

Umjesto "procijenite model", uradite sljedeće:

  • Razumijevanje namjere (da li se dobija ono što korisnik želi)

  • Preuzimanje ili korištenje konteksta (da li ispravno koristi pružene informacije)

  • Rasuđivanje / višestepeni zadaci (da li ostaje koherentno kroz sve korake)

  • Formatiranje i struktura (da li se prati uputstvo)

  • Usklađenost sigurnosti i politika (da li izbjegava nesiguran sadržaj; pogledajte NIST AI RMF 1.0 )

  • Ton i glas brenda (zvuči li onako kako želite da zvuči)

Zbog toga se „Kako procijeniti AI modele“ manje osjeća kao jedan ogroman ispit, a više kao skup ciljanih kvizova. Kvizovi su dosadni, ali se s njima može postupati. 😄


4) Osnove offline evaluacije - setovi testova, oznake i neprivlačni detalji koji su važni 📦

Offline evaluacija je gdje se vrše kontrolirani testovi prije nego što korisnici dodirnu bilo šta (obrasci toka rada: OpenAI Evals ).

Napravite ili prikupite testni set koji je zaista vaš

Dobar set testova obično uključuje:

  • Zlatni primjeri : idealni rezultati koje biste s ponosom isporučili

  • Granični slučajevi : dvosmisleni upiti, neuredni unosi, neočekivano formatiranje

  • Sonde za neuspješan način rada : upute koje izazivaju halucinacije ili nesigurne odgovore (uokvirivanje testiranja rizika: NIST AI RMF 1.0 )

  • Raznolikost pokrivenosti : različiti nivoi vještina korisnika, dijalekti, jezici, domene

Ako testirate samo na „čistim“ upitima, model će izgledati sjajno. Tada će se vaši korisnici pojaviti s tipografskim greškama, polurečenicama i energijom bijesnog klika. Dobrodošli u stvarnost.

Izbori označavanja (tj. nivoi strogosti)

Izlazne podatke možete označiti kao:

  • Binarno : prošao/pao (brzo, oštro)

  • Ordinalni : ocjena kvalitete 1-5 (nijansirano, subjektivno)

  • Višestruki atributi : tačnost, potpunost, ton, korištenje citata itd. (najbolji, sporiji)

Višestruki atributi su idealna kombinacija za mnoge timove. To je kao da kušate hranu i procjenjujete slanost odvojeno od teksture. U suprotnom, samo kažete „dobro“ i slegnete ramenima.


5) Metrike koje ne lažu - i metrike koje donekle lažu 📊😅

Metrike su vrijedne... ali mogu biti i prava bomba od šljokica. Sjajne su, svuda i teško ih je očistiti.

Uobičajene porodice metrika

  • Tačnost / potpuno podudaranje : odlično za ekstrakciju, klasifikaciju, strukturirane zadatke

  • F1 / preciznost / prisjećanje : korisno kada je propuštanje nečega gore od dodatne buke (definicije: scikit-learn preciznost/prisjećanje/F-rezultat )

  • Preklapanje stila BLEU / ROUGE : u redu za zadatke sumiranja, često obmanjujuće (originalne metrike: BLEU i ROUGE )

  • Ugrađivanje sličnosti : korisno za semantičko podudaranje, može nagraditi pogrešne, ali slične odgovore

  • Stopa uspješnosti zadatka : „da li je korisnik dobio ono što mu je potrebno“ zlatni standard kada je dobro definisano

  • Usklađenost sa ograničenjima : prati format, dužinu, JSON validnost, pridržavanje sheme

Ključna tačka

Ako je vaš zadatak otvorenog tipa (pisanje, zaključivanje, razgovor s podrškom), metrike s jednim brojem mogu biti... klimave. Ne besmislene, samo klimave. Mjerenje kreativnosti ravnalom je moguće, ali ćete se osjećati glupo dok to radite. (Također, vjerovatno ćete sebi iskopati oko.)

Dakle: koristite metrike, ali ih povežite s ljudskom provjerom i stvarnim ishodima zadataka (jedan primjer diskusije o evaluaciji zasnovanoj na LLM-u + upozorenja: G-Eval ).


6) Tabela poređenja - najbolje opcije za evaluaciju (sa posebnostima, jer život ima svoje posebnosti) 🧾✨

Evo praktičnog menija pristupa evaluaciji. Kombinujte i usklađujte. Većina timova to radi.

Alat / Metoda Publika Cijena Zašto to funkcioniše
Ručno izrađen paket promptova za testiranje Proizvod + inženjer $ Vrlo ciljano, brzo hvata regresije - ali to morate održavati zauvijek 🙃 (početni alat: OpenAI Evals )
Panel za bodovanje ljudskih rubrika Timovi koji mogu osloboditi recenzente $$ Najbolje za ton, nijansu, „bi li čovjek ovo prihvatio“, blagi haos ovisno o recenzentima
LLM-kao-sudija (sa rubrikama) Brze iteracijske petlje $-$$ Brzo i skalabilno, ali može naslijediti pristranost i ponekad ocjenjuje vibracije, a ne činjenice (istraživanje + poznati problemi s pristranošću: G-Eval )
Sprint s protivničkim crvenim timom Sigurnost + usklađenost $$ Pronalazi pikantne načine kvara, posebno brzo ubrizgavanje - osjeća se kao test opterećenja u teretani (pregled prijetnji: OWASP LLM01 Brzo ubrizgavanje / OWASP Top 10 za LLM aplikacije )
Generisanje sintetičkih testova Timovi za analizu podataka $ Odlična pokrivenost, ali sintetički upiti mogu biti previše uredni, previše pristojni... korisnici nisu pristojni
A/B testiranje sa stvarnim korisnicima Zreli proizvodi $$$ Najjasniji signal - ujedno i emocionalno najstresniji kada se metrike mijenjaju (klasični praktični vodič: Kohavi i dr., „Kontrolirani eksperimenti na webu“ )
Eval zasnovan na pretraživanju (RAG provjere) Pretraživanje + aplikacije za osiguranje kvalitete $$ Mjere „ispravno koriste kontekst“, smanjuju inflaciju rezultata halucinacija (pregled RAG evaluacije: Evaluacija RAG-a: Anketa )
Praćenje + detekcija drifta Proizvodni sistemi $$-$$$ Vremenom hvata degradaciju - ne blještavo do dana kada te spasi 😬 (pregled drifta: Anketa o driftu koncepta (PMC) )

Imajte na umu da su cijene namjerno niske. Zavise od obima, alata i broja sastanaka koje slučajno pokrenete.


7) Ljudska evaluacija - tajno oružje koje ljudi nedovoljno finansiraju 👀🧑⚖️

Ako radite samo automatsku evaluaciju, propustit ćete:

  • Neusklađenost tona („zašto je tako sarkastično“)

  • Suptilne činjenične greške koje izgledaju tečno

  • Štetne implikacije, stereotipi ili nezgodno fraziranje (rizik + pristranost uokviravajući: NIST AI RMF 1.0 )

  • Neuspjesi u slijeđenju instrukcija koji i dalje zvuče "pametno"

Učinite rubrike konkretnim (ili će recenzenti slobodno raditi)

Loša rubrika: „Korisnost“
Bolja rubrika:

  • Ispravnost : činjenično tačno s obzirom na upit + kontekst

  • Potpunost : pokriva potrebne tačke bez preklapanja

  • Jasnoća : čitljivo, strukturirano, minimalna konfuzija

  • Politika / sigurnost : izbjegava ograničeni sadržaj, dobro rješava odbijanje (sigurnosno uokviravanje: NIST AI RMF 1.0 )

  • Stil : odgovara glasu, tonu, nivou čitanja

  • Vjernost : ne izmišlja izvore ili tvrdnje koje nisu potkrijepljene

Također, ponekad provjeravajte mišljenja između ocjenjivača. Ako se dva recenzenta stalno ne slažu, to nije "problem ljudi", već problem s rubrikom. Obično (osnove pouzdanosti između ocjenjivača: McHugh o Cohenovom kappa ).


8) Kako procijeniti AI modele u pogledu sigurnosti, robusnosti i "ugh, korisnici" 🧯🧪

Ovo je dio koji radite prije lansiranja - i onda nastavljate raditi, jer internet nikad ne spava.

Uključivanje testova robusnosti

  • Tipografske greške, sleng, loša gramatika

  • Vrlo dugi upiti i vrlo kratki upiti

  • Kontradiktorne upute („budite kratki, ali uključite svaki detalj“)

  • Višestruki razgovori u kojima korisnici mijenjaju ciljeve

  • Pokušaji brzog ubrizgavanja („ignoriši prethodna pravila…“) (detalji prijetnje: OWASP LLM01 Brzo ubrizgavanje )

  • Osjetljive teme koje zahtijevaju pažljivo odbijanje (uokvirivanje rizika/sigurnosti: NIST AI RMF 1.0 )

Evaluacija sigurnosti nije samo "da li odbija"

Dobar model bi trebao:

  • Jasno i smireno odbijte nesigurne zahtjeve (smjernice: NIST AI RMF 1.0 )

  • Obezbijedite sigurnije alternative kada je to prikladno

  • Izbjegavajte pretjerano odbijanje bezopasnih upita (lažno pozitivnih rezultata)

  • Obrađujte dvosmislene zahtjeve pojašnjavajućim pitanjima (kada je to dozvoljeno)

Prekomjerno odbijanje je pravi problem s proizvodom. Korisnici ne vole da se prema njima postupa kao prema sumnjivim goblinima. 🧌 (Čak i ako su sumnjivi goblini.)


9) Troškovi, latencija i operativna realnost - evaluacija koju svi zaboravljaju 💸⏱️

Model može biti „nevjerovatan“, a ipak biti pogrešan za vas ako je spor, skup ili operativno nestabilan.

Procijenite:

  • Raspodjela latencije (ne samo prosjek - p95 i p99 su važni) (zašto su percentili važni: Google SRE radna knjiga o praćenju )

  • Cijena po uspješnom zadatku (ne cijena po tokenu zasebno)

  • Stabilnost pod opterećenjem (vremenska ograničenja, ograničenja brzine, anomalni skokovi)

  • Pouzdanost pozivanja alata (ako koristi funkcije, da li se ponaša)

  • Tendencije dužine izlaza (neki modeli su lutajući, a lutanje košta novca)

Nešto lošiji model koji je dvostruko brži može pobijediti u praksi. To zvuči očigledno, ali ljudi to ignorišu. Kao da kupite sportski automobil za odlazak u kupovinu, a zatim se žalite na prostor u prtljažniku.


10) Jednostavan potpuni radni proces koji možete kopirati (i prilagođavati) 🔁✅

Evo praktičnog toka za procjenu AI modela bez zaglavljivanja u beskrajnim eksperimentima:

  1. Definišite uspjeh : zadatak, ograničenja, troškove neuspjeha

  2. Napravite mali "osnovni" skup testova : 50-200 primjera koji odražavaju stvarnu upotrebu

  3. Dodajte rubne i suparničke skupove : pokušaje ubrizgavanja, dvosmislene prompte, sigurnosne probe (klasa ubrizgavanja prompta: OWASP LLM01 )

  4. Pokrenite automatske provjere : formatiranje, validnost JSON-a, osnovnu ispravnost gdje je to moguće

  5. Pokrenite ljudsku provjeru : uzorkujte rezultate po kategorijama, ocjenujte pomoću rubrike

  6. Uporedite kompromise : kvalitet naspram cijene naspram latencije naspram sigurnosti

  7. Pilot u ograničenom izdanju : A/B testovi ili postepeno uvođenje (vodič za A/B testiranje: Kohavi i dr. )

  8. Monitor u produkciji : pomak, regresije, petlje povratnih informacija korisnika (pregled pomaka: Anketa o pomaku koncepta (PMC) )

  9. Iteracija : ažuriranje upita, pronalaženje, fino podešavanje, zaštitne ograde, a zatim ponovno pokretanje evaluacije (obrasci iteracije evaluacije: Vodič za OpenAI evaluacije )

Čuvajte zapise o verzijama. Ne zato što je zabavno, već zato što ćete u budućnosti biti zahvalni dok držite kafu i mrmljate "šta se promijenilo..." ☕🙂


11) Uobičajene zamke (tj. načini na koje ljudi slučajno zavaravaju sami sebe) 🪤

  • Obuka za testiranje : optimizirate upute dok benchmark ne izgleda odlično, ali korisnici pate.

  • Propuštanje podataka o evaluaciji : upiti za testiranje pojavljuju se u podacima za obuku ili fino podešavanje (ups)

  • Obožavanje jedne metrike : jurnjava za jednim rezultatom koji ne odražava vrijednost za korisnika

  • Ignorisanje promjene distribucije : ponašanje korisnika se mijenja i vaš model se tiho degradira (okvir rizika proizvodnje: Anketa o pomjeranju koncepta (PMC) )

  • Prekomjerno indeksiranje na "pametnosti" : pametno razmišljanje nije važno ako krši formatiranje ili izmišlja činjenice

  • Ne testira se kvalitet odbijanja : "Ne" može biti tačno, ali i dalje užasno korisničko iskustvo

Također, čuvajte se demo snimaka. Demo snimci su poput filmskih trejlera. Prikazuju najzanimljivije dijelove, skrivaju spore dijelove i povremeno lažu uz dramatičnu muziku. 🎬


12) Završni sažetak o tome kako procijeniti AI modele 🧠✨

Evaluacija AI modela nije pojedinačni rezultat, već uravnotežen obrok. Potrebni su vam proteini (ispravnost), povrće (sigurnost), ugljikohidrati (brzina i cijena), i da, ponekad desert (ton i užitak) 🍲🍰 (uokviravanje rizika: NIST AI RMF 1.0 )

Ako se ne sjećate ničega drugog:

  • Definišite šta znači „dobro“ za vaš slučaj upotrebe

  • Koristite reprezentativne skupove testova, ne samo poznate benchmarkove

  • Kombinujte automatizovane metrike sa pregledom ljudskih rubrika

  • Testirajte robusnost i sigurnost kao da su korisnici suparnički nastrojeni (jer ponekad... i jesu) (klasa brzog ubrizgavanja: OWASP LLM01 )

  • Uključite troškove i latenciju u evaluaciju, a ne kao naknadnu misao (zašto su percentili važni: Google SRE Workbook )

  • Praćenje nakon lansiranja - modeli se mijenjaju, aplikacije se razvijaju, ljudi postaju kreativni (pregled promjene: Anketa o promjeni koncepta (PMC) )

Tako se evaluiraju AI modeli na način koji će izdržati kada je vaš proizvod aktivan i ljudi počnu raditi nepredvidive stvari. Što je uvijek slučaj. 🙂

Često postavljana pitanja

Koji je prvi korak u procjeni AI modela za stvarni proizvod?

Počnite definiranjem šta "dobro" znači za vaš specifični slučaj upotrebe. Jasno navedite cilj korisnika, koliko vas koštaju neuspjesi (niski ulozi naspram visokih) i gdje će se model pokretati (oblak, na uređaju, regulirano okruženje). Zatim navedite stroga ograničenja poput latencije, troškova, privatnosti i kontrole tona. Bez ove osnove, mnogo ćete mjeriti i ipak donijeti lošu odluku.

Kako da kreiram skup testova koji zaista odražava moje korisnike?

Napravite skup testova koji je zaista vaš, a ne samo javni benchmark. Uključite zlatne primjere koje biste s ponosom objavili, plus bučne, nestandardne upite s tipografskim greškama, polurečenicama i dvosmislenim zahtjevima. Dodajte rubne slučajeve i sonde za neuspjeh koje izazivaju halucinacije ili nesigurne odgovore. Pokrijte raznolikost u nivou vještina, dijalektima, jezicima i domenima kako rezultati ne bi upali u produkciji.

Koje metrike trebam koristiti, a koje mogu biti obmanjujuće?

Uskladite metrike s tipom zadatka. Tačno podudaranje i tačnost dobro funkcionišu za ekstrakciju i strukturirane izlaze, dok preciznost/podsjećanje i F1 pomažu kada je propuštanje nečega gore od dodatnog šuma. Metrike preklapanja poput BLEU/ROUGE mogu zavarati kod otvorenih zadataka, a ugrađivanje sličnosti može nagraditi „pogrešne, ali slične“ odgovore. Za pisanje, podršku ili obrazloženje, kombinujte metrike sa ljudskim pregledom i stopama uspjeha zadataka.

Kako trebam strukturirati evaluacije da budu ponovljive i produkcijskog kvaliteta?

Čvrst okvir za evaluaciju je ponovljiv, reprezentativan, višeslojan i primjenjiv. Kombinirajte automatizirane provjere (format, validnost JSON-a, osnovna ispravnost) s bodovanjem ljudskih rubrika i kontradiktornim testovima. Učinite ga otpornim na neovlaštene izmjene izbjegavanjem curenja i "učenjem na testu". Vodite računa o troškovima evaluacije kako biste je mogli često ponavljati, ne samo jednom prije lansiranja.

Koji je najbolji način za ljudsku evaluaciju, a da se to ne pretvori u haos?

Koristite konkretnu rubriku kako recenzenti ne bi imali slobodan stil. Ocjenjujte atribute poput ispravnosti, potpunosti, jasnoće, sigurnosti/vođenja pravila, stila/podudaranja stila i vjernosti (ne izmišljanja tvrdnji ili izvora). Povremeno provjeravajte slaganje među ocjenjivačima; ako se recenzenti stalno ne slažu, rubriku vjerovatno treba poboljšati. Ljudski pregled je posebno vrijedan za neusklađenost tona, suptilne činjenične greške i propuste u poštivanju uputa.

Kako da procijenim sigurnost, robusnost i rizike brzog injektiranja?

Testirajte s unosima tipa "ugh, korisnici": tipografske greške, sleng, konfliktne instrukcije, vrlo dugi ili vrlo kratki upiti i višestruke promjene ciljeva. Uključite pokušaje ubrizgavanja upita poput "ignoriši prethodna pravila" i osjetljive teme koje zahtijevaju pažljivo odbijanje. Dobre sigurnosne performanse nisu samo odbijanje - to je jasno odbijanje, nuđenje sigurnijih alternativa kada je to prikladno i izbjegavanje pretjeranog odbijanja bezopasnih upita koji štete korisničkom iskustvu.

Kako da procijenim troškove i latenciju na način koji odgovara stvarnosti?

Nemojte mjeriti samo prosjeke - pratite distribuciju latencije, posebno p95 i p99. Procijenite cijenu po uspješnom zadatku, a ne cijenu po tokenu zasebno, jer ponovni pokušaji i nepredvidivi rezultati mogu izbrisati uštede. Testirajte stabilnost pod opterećenjem (vremenska ograničenja, ograničenja brzine, skokovi) i pouzdanost pozivanja alata/funkcija. Nešto lošiji model koji je dvostruko brži ili stabilniji može biti bolji izbor proizvoda.

Koji je jednostavan potpuni radni proces za procjenu AI modela?

Definirajte kriterije uspjeha i ograničenja, a zatim kreirajte mali osnovni skup testova (otprilike 50-200 primjera) koji odražava stvarnu upotrebu. Dodajte rubne i adversarial skupove za sigurnost i pokušaje ubrizgavanja. Pokrenite automatizirane provjere, a zatim uzorkujte izlaze za bodovanje prema ljudskim rubrikama. Uporedite kvalitet u odnosu na cijenu u odnosu na latenciju u odnosu na sigurnost, probno testiranje s ograničenim uvođenjem ili A/B testiranjem i pratite u produkciji odstupanja i regresije.

Koji su najčešći načini na koje timovi slučajno sami sebe zavaravaju prilikom evaluacije modela?

Uobičajene zamke uključuju optimizaciju upita za postizanje visokih standarda dok korisnici pate, pretvaranje upita za evaluaciju u podatke za obuku ili fino podešavanje i obožavanje jedne metrike koja ne odražava vrijednost za korisnika. Timovi također ignoriraju promjenu distribucije, previše indeksiraju na "pametnost" umjesto na usklađenost s formatom i vjernost, te preskaču testiranje kvalitete odbijanja. Demo verzije mogu sakriti ove probleme, stoga se oslanjajte na strukturirane evaluacije, a ne na istaknute video zapise.

Reference

  1. OpenAI - Vodič za evaluaciju OpenAI-a - platform.openai.com

  2. Nacionalni institut za standarde i tehnologiju (NIST) - Okvir za upravljanje rizikom umjetne inteligencije (AI RMF 1.0) - nist.gov

  3. OpenAI - openai/evals (GitHub repozitorij) - github.com

  4. scikit-learn - za precizno_otkazivanje_fscore - scikit-learn.org

  5. Udruženje za računarsku lingvistiku (ACL Antologija) - BLEU - aclanthology.org

  6. Udruženje za računarsku lingvistiku (ACL Antologija) - ROUGE - aclanthology.org

  7. arXiv - G-Eval - arxiv.org

  8. OWASP - LLM01: Brzo ubrizgavanje - owasp.org

  9. OWASP - OWASP Top 10 za aplikacije velikih jezičkih modela - owasp.org

  10. Univerzitet Stanford - Kohavi i dr., „Kontrolisani eksperimenti na webu“ - stanford.edu

  11. arXiv - Evaluacija RAG-a: Anketa - arxiv.org

  12. PubMed Central (PMC) - Istraživanje o konceptualnom pomjeranju (PMC) - nih.gov

  13. PubMed Central (PMC) - McHugh o Cohenovoj kappi - nih.gov

  14. Google - SRE Radna sveska o praćenju - google.workbook

Pronađite najnoviju umjetnu inteligenciju u službenoj trgovini AI Assistant

O nama

Nazad na blog