ML-матчинг номенклатур¶
Автоматически сопоставляет позиции тендера с позициями прайс-листов поставщиков.
Текущие метрики¶
| Метрика | Значение | Цель |
|---|---|---|
| Recall@1 | 0.28 | 0.70 |
| Размер датасета | 70 пар | 150–175 пар |
Следующий этап
После 200+ operator-пар — запуск полноценного baseline + теневое дообучение из пайплайна.
Пороги матчинга¶
| Similarity | Действие |
|---|---|
| ≥ 0.85 | Авто-матч |
| 0.55 – 0.85 | Запрос оператору |
| < 0.55 | Спросить поставщика |
Разметка (label_batch)¶
# Убедиться что нет запущенных экземпляров
pkill -f label_batch_runner.py
# Запуск
python -u scripts/label_batch_runner.py --conf /opt/tender_agent_claude/agent.conf
Один экземпляр
Только один label_batch одновременно. Агент и разметка не работают параллельно.
После разметки — скилл /агент для рестарта агента.
Лесенка резильентности LLM¶
1. Anthropic (Sonnet в проде — entity_extract)
2. DeepSeek / Qwen / GLM (fallback при недоступности)
3. Локальный Qwen на V100 (last resort)
Датасет¶
- Таблица:
ml_training_candidates - Стратегия: разметка через цену (overlap + price combo)
- TODO: теневое дообучение из пайплайна (после 200+ пар)