looking-inward-language-models-can-learn-about-themselves-by-introspection

Das Papier 'Looking Inward: Language Models Can Learn About Themselves by Introspection' untersucht das Konzept der Introspektion in großen Sprachmodellen (LLMs). Die Autoren definieren Introspektion als die Fähigkeit von LLMs, Wissen über ihre internen Zustände zu erlangen, das nicht aus ihren Trainingsdaten stammt. Diese Fähigkeit könnte die Interpretierbarkeit von Modellen verbessern und es Modellen ermöglichen, über ihre internen Zustände, wie subjektive Gefühle oder Wünsche, selbst zu berichten.

Looking-inward-language-models-can-learn-about-themselves-by-introspection

Themen