
Hermes 4: Open source-AI der siger ja – ikke undskyld
Hermes 4-familien spænder over tre størrelser – 14, 70 og et flagskib med 405 milliarder parametre – alle trænet på en blanding af syntetiske data og forstærkningslæring, der skærper evnerne inden for logik, kodning og ræsonnement. Resultaterne er svære at overse: hele 96,3 % på den berygtede MATH-500-test og 61,3 % på LiveCodeBench, hvilket placerer modellen side om side med de stærkeste kommercielle alternativer.
Hvor Nous for alvor skiller sig ud, er i filosofien. Hermes 4 undskylder ikke, undviger ikke og nægter ikke at svare. På RefusalBench, en ny test der måler hvor ofte en AI afviser at svare, opnåede 405B-modellen 57,1 %, mens GPT-4o kun nåede 17,7 %. For udviklerne er det bevis på "brugerens suverænitet". Kritikerne kalder det derimod en Pandoras æske.
Teknologien bag matcher ambitionerne. En ny datapipeline, DataForge, genererer alsidige syntetiske træningsdata fra enorme grafstrukturer, mens Atropos-miljøet tvinger modellerne til at løse problemer hundredtusindvis af gange, så kun verificerede løsninger indgår i datasættet. For at undgå uendelige svar blev Hermes bevidst trænet til at afbryde ræsonnementet efter cirka 30.000 tokens, hvilket balancerer gennemsigtighed og anvendelighed.
Gennemsigtigheden ses i det hybride ræsonnementssystem: brugeren kan vælge mellem et hurtigt svar eller en fuldt annoteret trin-for-trin-proces, vist i ...-tags. I teorien betyder det, at man både får svaret og kan følge maskinens tankegang – en idé der både fascinerer og vækker uro.
På fora som Reddit og Hacker News er Hermes 4 blevet kaldt "det mest åbne udspil til dato", og nogle sammenligner de markante systemprompter med noget fra en anime fra 90’erne. Andre ser en risiko i fraværet af indbyggede sikkerhedsforanstaltninger. Uanset holdning har Nous sikret, at Hermes 4 ikke bliver overset.
I en AI-verden præget af sikkerhedsadvarsler og poleret høflighed fremstår Hermes 4 som noget råt, bramfrit og kompromisløst åbent. Om det bliver forløberen for en friere fremtid eller et eksempel på for meget, for tidligt, kan få stor betydning for, hvordan næste generation af kunstig intelligens udvikles – og hvem der får kontrollen.