looking-inward-language-models-can-learn-about-themselves-by-introspection

El artículo 'Looking Inward: Language Models Can Learn About Themselves by Introspection' explora el concepto de introspección en los modelos de lenguaje grandes (LLMs). Los autores definen la introspección como la capacidad de los LLMs para adquirir conocimiento sobre sus estados internos, que no se deriva de sus datos de entrenamiento. Esta capacidad podría mejorar la interpretabilidad del modelo y potencialmente permitir que los modelos informen sobre sus estados internos, como sentimientos subjetivos o deseos.

Looking-inward-language-models-can-learn-about-themselves-by-introspection

Temas