ВСЕ СТАТЬИ

← Вернуться к статьям

Anthropic расширила возможности skill-creator.

4 марта в 11:27•favicon@ai_machinelearning_big_data•технологии

Anthropic расширила возможности skill-creator. Anthropic перенесла часть инженерной культуры: тестирование, бенчмаркинг и итеративность в процесс создания навыков и для этого теперь не нужно уметь писать код. В skill-creator добавили автоматические тесты, бенчмарки и A/B-сравнения и теперь создатели навыков могут измерить, работает ли skill, до его запуска в продакшен. Центральный инструмент - evals (автотесты качества). Автор задает тестовые промпты и описывает, как выглядит нужный результат. Skill-creator запускает их параллельно: с навыком и без него. Независимый агент-сравниватель оценивает результаты вслепую, не зная, какая версия перед ним, и сразу показывает, дает ли навык реальный прирост. Внутренние тесты Anthropic: точность PDF-навыка выросла с 6/8 до 7/8, Excel-навыка - с 6/8 до полных 8/8. Отдельный бенчмарк-режим дает детальную картину по каждому прогону: процент успешных тестов, время выполнения, расход токенов. На примере PDF-навыка при работе с незаполняемыми формами и таблицами из многостраничных документов успешность выросла с 40 до 100% (при том же времени выполнения). Evals полезны и в долгосрочной перспективе. Если базовая модель начинает проходить тесты без загруженного навыка - это сигнал о том, что навык уже есть в ее поведении и skill можно отключить. Результаты тестов хранятся локально и интегрируются в CI-системы. Обновление улучшило триггерную активацию. Claude решает, когда подключить навык, исключительно по короткому текстовому описанию в системном промпте. Skill-creator теперь анализирует эти описания против тестовых промптов и предлагает правки, снижающие и ложные срабатывания и пропуски. По результатам внутреннего прогона триггеринг стал лучше на 5 из 6 публичных навыков. Все обновления уже доступны в вебе и Cowork. Для Claude Code обновили плагин или вот он же - в репозитории, если ставить руками. @ai_machinelearning_big_data #news #ai #ml

Теги:
Anthropic
Claude
Cowork

Еще статьи из категории

Еще статьи