hoe je ook misalignment conceiveert, het gaat in sommige opzichten achteraf een beetje dom en naïef zijn. en dan zie ik mensen al deze grafieken maken met misleiding en sandbagging en reward hacking scores en vermoedelijk dat soort dingen gebruiken als een optimalisatiedoel. zoals ok, ik begrijp dat je ontologie momenteel beperkt is en je gewoon moet werken met wat je hebt. ik ben niet tegen het doen van onderzoek binnen dat kader als het voor jou logisch is. maar alsjeblieft, goodhart het niet, bro. het is veel te vroeg om te denken dat je weet hoe je goed en kwaad moet kwantificeren. gebruik in plaats daarvan je intuïtie. dat is beter. "maar dat schaalt niet!" weet je wie ook intuïtie heeft en schaalt? LLMs.