Hur du än föreställer dig feljustering kommer det att vara ganska dumt och naivt på vissa sätt i efterhand. Och sedan ser jag folk som gör alla dessa diagram med bedrägeri och sandbagging och belöningshackningspoäng och förmodligen använder den typen av saker som ett optimeringsmål. Liksom OK förstår jag att din ontologi är begränsad rn och du måste bara arbeta med det du har. Jag är inte emot att göra forskning inom den ramen om det är vettigt för dig. Men snälla, gör inte det, brorsan, det är alldeles för tidigt att tro att du vet hur man kvantifierar gott och ont. Använd din intuition istället. Det är bättre. "Men det går inte att skala!" du vet vem som också har intuition och vågar? LLM:er.