,

Od promptanja k delegiranju: Zakaj je ChatGPT 5.4 pomembnejši premik, kot se zdi na prvi pogled?

Od promptanja k delegiranju

Prepričan sem, da večina ljudi pri umetni inteligenci še vedno razmišlja v logiki pogovora. Vprašamo, dobimo odgovor, morda povzetek ali osnutek besedila.

Toda zadnje generacije modelov kažejo precej drugačno smer razvoja. Ne gre več predvsem za to, kako dobro model odgovarja, temveč za to, kaj zna dejansko narediti.

Moje opažanje je, da s ChatGPT 5.4 postaja jasno, da se umetna inteligenca premika iz faze pisanja in pogovorov v fazo izvajanja nalog. To pomeni delo z dokumenti, preglednicami, predstavitvami, spletnimi viri in računalniškim okoljem.

V praksi to pomeni precej več kot le boljši model. Gre za začetek dobe, v kateri umetni inteligenci postopno delegiramo vedno več operativnega dela.

In prav zato je ta premik pomemben za podjetja.

Novi modeli ChatGPT

 

OpenAI je v nekaj dneh predstavil tri nove modele:

  • GPT-5.3 Instant – optimiziran za hitrost in rutinsko komunikacijo.
  • GPT-5.4 Thinking – osrednji model za kompleksno reševanje problemov
  • GPT-5.4 Pro – različica za zahtevne raziskovalne naloge raziskave na znanstvenem nivoju (research-grade).

Na prvi pogled gre za novo verzijo modela. V resnici pa gre za pomemben premik v logiki razvoja umetne inteligence.

Modeli se vse bolj delijo na:

  • hitre modele za pogovor
  • “thinking” modele za kompleksno delo

To pomeni, da umetna inteligenca postopno prehaja od pogovora k izvajanju nalog.

Ločitev med “instantnim” in “razmišljajočim” modelom uporabnikom omogoča, da zavestno izbirajo med hitrostjo za trivialne naloge in globino za strateške projekte, kjer je kakovost rezultata pomembnejša od hitrosti.

Premik: od sogovornika k infrastrukturi za agente 

ChatGPT 5.4 ni pomemben premik zato, ker je model spet boljši, ampak zato, ker OpenAI z njim očitno ne gradi več predvsem sogovornika, temveč infrastrukturo za agente.

To je bistvena razlika.

Do zdaj smo umetno inteligenco pogosto uporabljali predvsem za pogovor, pisanje, povzetke in ideje. GPT-5.4 pa je zasnovan precej bolj operativno: za delo z dokumenti, preglednicami, prezentacijami, orodji, spletom in celo računalniškim okoljem. OpenAI ga opisuje kot svoj najzmogljivejši in najučinkovitejši model za profesionalno delo, z do 1 milijonom tokenov konteksta in z vgrajeno podporo za uporabo računalnika.

Nekaj številk je zgovornih.

Na benchmarku GDPval je GPT-5.4 dosegel 83,0 %, GPT-5.2 pa 70,9 %. Na OSWorld-Verified, ki meri uspešnost pri upravljanju računalniškega okolja, je GPT-5.4 dosegel 75,0 % in s tem presegel tudi človeško izhodišče 72,4 %. OpenAI obenem navaja, da je model pri preverjanih dejstvih ustvaril 33 % manj napačnih trditev kot GPT-5.2, celotni odgovori pa so bili 18 % manj pogosto napačni.

Zelo zanimiv je tudi test, ki ga je pripravil Nate B. Jones. Sam ga jemljem resno, ker ni ostal pri marketinških obljubah, ampak je primerjal aktualne modele v praksi. Njegov zelo kratek povzetek je odličen: GPT-5.4 je pri delu v računalniškem okolju presegel človeka, hkrati pa zgrešil vprašanje, na katero bi pravilno odgovoril otrok. To je pravzaprav bistvo trenutne faze razvoja AI. Izjemna operativna moč, a še vedno ne vedno tudi dovolj zdrave presoje.

To pomeni vsaj troje.

  1. Prvič, prihodnost je res v agentih. Ne več samo v tem, da model nekaj lepo napiše, ampak da zna poiskati pravo orodje, odpreti delovno okolje, obdelati datoteke, izvesti več korakov in pripeljati delo do rezultata.
  2. Drugič, to še ne pomeni, da je model najboljši za vse. Tudi zelo zmogljiv sistem lahko v posamezni nalogi odpove presenetljivo banalno. Zato se pomen človeške presoje ne zmanjšuje. Nasprotno, postaja še pomembnejši.
  3. In tretjič, podjetja bodo morala bolj premišljeno izbirati, za kaj točno uporabljajo posamezen model. Za kompleksno analitiko, orodja, dolge delovne tokove in agentne naloge je GPT-5.4 očitno zelo resen kandidat. Za vse, kar zahteva subtilno presojo, poslovni občutek ali natančno razumevanje konteksta, pa slepo zaupanje modelu še vedno ni dobra ideja.

Moja ocena?

GPT-5.4 ni le “nov model”. Je znak, da prehajamo iz dobe promptanja v dobo delegiranja nalog umetni inteligenci.

To pa je precej večja sprememba, kot se zdi na prvi pogled.

Če želite v podjetju bolje razumeti, kaj ta premik pomeni v praksi in kako uporabljati ChatGPT ter druga AI orodja na smiseln in varen način, mi pišite glede delavnice ali predavanja za vašo ekipo.

 

Kateri model izbrati?

Večina ljudi v ChatGPT ne napiše napačen promt.
Izbere napačen model.
In prav tu se v praksi izgubi precej časa, kakovosti in včasih tudi denarja.

V aktualnem ChatGPT-ju so se oznake nekoliko spremenile. Modela GPT-5 Instant in GPT-5 Thinking je ChatGPT umaknil 13. februarja letos. Njuni sedanji praktični ekvivalenti so GPT-5.3 Instant, GPT-5.4 Thinking in GPT-5.4 Pro.

V izbirniku modelov (model picker) je Auto opisan kot vodilni model (flagship model), Instant kot model, ki odgovori takoj, Thinking kot model za bolj temeljite odgovore, Pro pa kot research-grade intelligence. Auto pri izbiri samodejno preklaplja med Instant in Thinking.

Zame je najbolj uporaben zelo preprost filter.

  • Če pišete kratek mail, pripravljate povzetek, preoblikujete besedilo ali želite le hiter odgovor, izberite Instant.
  • Če naloga ni povsem trivialna, a se vam ne ljubi vsakič razmišljati, kaj izbrati, začnite z Auto. To je za večino poslovnih uporabnikov najboljša privzeta izbira.
  • Če so v nalogi številke, primerjave, ROI, kompromisi med možnostmi, več korakov ali pomembnejša odločitev, preklopite na Thinking.
  • Če delate zahtevnejšo raziskavo, primerjate več virov, pripravljate analizo za odločanje ali je cena napake visoka, uporabite Pro. OpenAI ga tudi uradno pozicionira za najzahtevnejše naloge in dolge poteke dela.


Moj hitra odločitevna logika je zato taka:

  • Instant za hitrost.
  • Auto za dober privzeti režim.
  • Thinking za logiko, številke in zahtevnejšo presojo.
  • Pro za resno raziskavo in kompleksno analizo.

 

Največja napaka, ki jo opažam?
Da ljudje za vsako malenkost odprejo Thinking ali Pro. S tem po nepotrebnem upočasnijo delo.
Druga pogosta napaka je obratna. Za naloge s številkami, primerjavami in pomembnejšimi posledicami uporabijo Instant, nato pa dobijo odgovor, ki je lep, a preplitek.

Zato modela ne izbirajte po vprašanju:
Kateri je najmočnejši?

Izbirajte ga po vprašanju:
Koliko me stane napačen odgovor? Kako resne bi bile posledice, če je odgovor napačen ali površinski?
To je v praksi precej boljši kriterij.

Če želite, da vaša ekipa hitreje osvoji takšne praktične AI odločitve in začne modele uporabljati bolj premišljeno, učinkovito in z manj poskusi ter napakami, mi pišite za termin AI delavnice za podjetja. Preverite splošne in ciljno usmerjene delavnice, ki jih izvajamo.

 

Dva najmočnejša signala za izbiro modela sta presenetljivo preprosta. Količina konteksta in cena napake. Če ima naloga malo konteksta in nizke posledice, je hitrost optimalna strategija. Če ima naloga veliko konteksta in visoke posledice, je počasnejše razmišljanje skoraj vedno boljša izbira. V bistvu gre za isti princip kot v inženirstvu. Hitri prototipi za poceni napake. Temeljita analiza za drage napake.

Zaključek

Prepričan sem, da se bo v naslednjih letih največja razlika med podjetji pokazala prav pri tem, kako hitro se bodo naučila delegirati delo umetni inteligenci in ne samo postavljati vprašanj.

Tehnologija se očitno premika v smer agentov, ki znajo odpreti orodja, obdelati podatke, izvesti več korakov in pripeljati nalogo do rezultata. Toda odgovornost za to, kdaj umetni inteligenci zaupati in kdaj jo preveriti, ostaja človeška.

Vodstva podjetij bodo zato morala sprejeti precej praktično odločitev: ali bodo umetno inteligenco uporabljala le kot orodje za pisanje besedil ali pa jo bodo začela sistematično vključevati v delovne procese.

Razlika med obema pristopoma bo čez nekaj let verjetno pomenila razliko med podjetji, ki tehnologijo uporabljajo, in podjetji, ki z njo dejansko ustvarjajo produktivnost.

 

Viri

OpenAI (2026). Introducing GPT-5.4
OpenAI (2026). Model performance benchmarks and evaluation reports
OSWorld Benchmark (2025–2026 reports)

 

0 replies

Leave a Reply

Want to join the discussion?
Feel free to contribute!

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja

This site uses Akismet to reduce spam. Learn how your comment data is processed.