Switch wake word from Porcupine to openwakeword + training pipeline

- Add training/ pipeline (step_1..step_5) and own-samples flow - record_wav.py with single-shot and long-record modes, RMS-based silence filter - remove_silent.py to drop silent samples and renumber - modes.py: openwakeword inference with reset() and quiet predictions; commented Lusya block for later - stt.py: drop local faster-whisper fallback, Groq-only - config.py: remove unused STT_PROVIDER/WHISPER_* - llm.py: replace __import__("os") hack with proper import - tts.py: remove debug traceback in play_error_sound - requirements.txt: add openwakeword/sounddevice/scipy, drop faster-whisper - deploy/setup.sh: validate ELEVENLABS_API_KEY and WAKE_WORD_COSMO presence - README.md, CLAUDE.md, project_roadmap memory updated to reflect new architecture
2026-04-13 15:40:44 +03:00
parent 0a89bf5105
commit 780f6f0084
13 changed files with 378 additions and 140 deletions
--- a/CLAUDE.md
+++ b/CLAUDE.md
@@ -157,9 +157,34 @@ sudo journalctl -u cosmo-satellite -f
 - Не создавать новую сессию Conversation на каждую активацию — это было в старой версии, сейчас одна сессия на день
 - Не добавлять temp файлы для WAV/mp3 — всё идёт через `BytesIO` / stdin pipe

+## Тренировка своего wake word
+
+Пайплайн в `training/`:
+- `record_wav.py <model> <positive|negative>` — запись 16kHz mono PCM 16-bit в `training/own_samples/<model>/`
+- `training/step_1.py` … `step_5.py` — установка зависимостей, конвертация датасетов, генерация конфига, обучение, экспорт в `data/models/<name>.onnx`
+- `training/training_config.json` — параметры (`wake_word_list`, `use_own_samples`, штрафы, шаги)
+- `training/openwakeword/` — форк openwakeword, `examples/custom_model.yml` — базовый шаблон конфига
+- Под капотом: openwakeword (НЕ Porcupine, несмотря на легаси-имена в коде). Wake word работает через DNN-модель .onnx.
+
+Реалистичные цифры для своего голоса: 500+ positive и 1000+ negative wav-файлов, иначе recall/FP/hour не сходятся. Negative должны включать фонетически близкие слова.
+
 ## Roadmap

+### Done
+- [x] Модулизация satellite.py (audio/stt/llm/tts/modes/config)
+- [x] ElevenLabs streaming TTS + mpv pipe
+- [x] Keep-alive HTTP сессии, STT через BytesIO, barge-in
+- [x] Сессии диалога (одна на день, MAX_HISTORY, паттерны сброса)
+- [x] Пайплайн тренировки своего wake word на собственных записях
+
+### In progress
+- [ ] Дообучение модели cosmo (на текущем датасете 300 pos / 117 neg метрики плохие — recall 25%, FP/hr 32). Нужно дозаписать данные.
+- [ ] Подключить Люсю в `run_with_wakeword` (сейчас грузится только модель cosmo, lusya wake word не работает)
+
+### Planned
+- [ ] systemd autostart на Raspberry Pi (`deploy/cosmo-satellite.service` есть, но не проверен в проде)
+- [ ] Home Assistant tool в OpenClaw воркспейсе (управление светом/температурой через голос)
+- [ ] Real-time barge-in (прерывание по голосу во время озвучки, не только по новой активации)
+- [ ] Контекст окружения в system prompt (время, погода, состояние устройств)
 - [ ] Speaker identification (определять кто говорит без разных wake words)
 - [ ] Проактивные уведомления (WebSocket от сервера → satellite сам начинает говорить)
- [ ] Контекст окружения в system prompt (время, погода, состояние устройств)
- [ ] Real-time barge-in (прерывание по голосу во время озвучки, не только по новой активации)