looking-inward-language-models-can-learn-about-themselves-by-introspection

L'article 'Looking Inward: Language Models Can Learn About Themselves by Introspection' explore le concept d'introspection dans les grands modèles de langage (LLMs). Les auteurs définissent l'introspection comme la capacité des LLMs à acquérir des connaissances sur leurs états internes, qui ne sont pas dérivées de leurs données d'entraînement. Cette capacité pourrait améliorer l'interprétabilité des modèles et potentiellement permettre aux modèles de s'auto-déclarer sur leurs états internes, tels que des sentiments subjectifs ou des désirs.

Sujets