新的Anthropic研究:大型語言模型中的內省跡象。 語言模型能否識別自己的內部思維?還是它們只是當被問及時編造出合理的答案?我們發現Claude在內省能力方面有真實的證據——儘管有限。