Skip to content

Quick Start

Быстрый старт: ДЗ 4 — DVC Pipelines и Pydantic конфигурации

Этот QUICKSTART.md показывает, как запустить ML-пайплайн из ДЗ 4. Он опирается на настройки DVC и данных из docs/homework_2/QUICKSTART.md и конкретизирует для ДЗ 4 то, что описано в общем docs/QUICKSTART.md в разделах про пайплайн (Шаги 6–10 и 13).

Убедитесь, что:

  • данные и DVC настроены (см. docs/homework_2/QUICKSTART.md),
  • конфигурация обучения есть в config/train_params.yaml.

2. Проверка конфигурации (Pydantic)

Pydantic-модели описаны в src/data_science_project/config_models.py и используются во всех скриптах пайплайна.

Быстрая проверка корректности конфигурации:

cat config/train_params.yaml

img.png

При запуске стадий пайплайна ошибки в конфиге (типы, диапазоны) будут отловлены автоматически.

3. Запуск стадий DVC-пайплайна

Полный пайплайн описан в dvc.yaml и включает:

  1. prepare_data
  2. validate_data
  3. train_model
  4. evaluate_model
  5. monitor_pipeline

Запуск всех стадий:

dvc repro

Запуск отдельных стадий:

dvc repro prepare_data
dvc repro validate_data
dvc repro train_model
dvc repro evaluate_model
dvc repro monitor_pipeline

img_1.png

Просмотр графа:

dvc dag

4. Изменение параметров через DVC

Параметры пайплайна хранятся в params.yaml. Можно:

  • отредактировать файл вручную;
  • или использовать утилиту для изменения параметров (если она включена в текущую версию проекта).

После изменения параметров:

dvc repro

DVC автоматически пересчитает только необходимые стадии.

5. Мониторинг выполнения пайплайна

Модуль src/data_science_project/pipeline_monitor.py:

  • логирует статусы стадий,
  • измеряет время,
  • сохраняет отчёт в JSON,
  • печатает краткую сводку.

Отчёты и метрики:

  • reports/metrics/
  • reports/plots/
  • reports/monitoring/ (если используется).

6. Где смотреть детали по ДЗ 4

  • Подробное описание пайплайна и конфигураций: docs/homework_4/REPORT.md
  • Скриншоты: docs/homework_4/screenshots/