

![[Перевод] Могут ли нейросети понять самих себя?](https://habrastorage.org/getpro/habr/upload_files/637/c40/a99/637c40a99a9b892c5634ecb1b26965f1.png)

[Перевод] Могут ли нейросети понять самих себя?. Большие языковые модели остаются загадкой даже для собственных создателей. Исследователи постепенно раскрывают отдельные механизмы: модели используют специфические паттерны активации для различения знакомых и незнакомых людей, оценки правдивости утверждений, кодирования пространственно-временных координат. Но знают ли сами модели об этих внутренних представлениях? Способны ли они описать собственный мыслительный процесс?