Новое исследование Anthropic: Признаки интроспекции в LLM. Могут ли языковые модели распознавать свои собственные внутренние мысли? Или они просто придумывают правдоподобные ответы, когда их об этом спрашивают? Мы нашли доказательства подлинных — хотя и ограниченных — интроспективных способностей в Claude.