No entanto, você está concebendo que o desalinhamento vai ser meio estúpido e ingênuo em alguns aspectos em retrospecto. E então eu vejo pessoas fazendo todos esses gráficos com engano e sacos de areia e pontuações de hacking de recompensa e, presumivelmente, usando esse tipo de coisa como um alvo de otimização. Como ok, eu entendo que sua ontologia é limitada rn e você só precisa trabalhar com o que tem. Não sou contra fazer a pesquisa sob esse quadro, se fizer sentido para você. Mas, por favor, não goodhart, mano. É muito cedo para pensar que você sabe quantificar o bem e o mal. em vez disso, use sua intuição. isso é melhor. "Mas isso não escala!" você sabe quem também tem intuição e escalas? LLMs.