tuttavia, il modo in cui concepisci il disallineamento sarà in qualche modo stupido e naif in alcuni aspetti, col senno di poi. e poi vedo persone che fanno tutti questi grafici con inganno, sabbiatura e punteggi di hacking delle ricompense e presumibilmente usano quel tipo di cose come obiettivo di ottimizzazione. tipo, ok, capisco che la tua ontologia è limitata in questo momento e devi solo lavorare con ciò che hai. non sono contrario a fare ricerca in quel contesto se ha senso per te. ma per favore non farlo diventare un buonhart, amico. è troppo presto per pensare di sapere come quantificare il bene e il male. usa invece la tua intuizione. è meglio. "ma questo non scala!" sai chi ha anche intuizione e scala? LLMs.