Назад к кейсам
2021-2023Продуктовая команда

Устойчивый сбор данных

Инструменты сбора данных для меняющейся веб-среды с постоянным антибот-трением.

Контекст
Сложная веб-среда
Фокус
Устойчивость
Подход
HTTP + JS анализ
Модель устойчивости

Надёжность начинается с понимания потока запросов.

Стабильность выросла благодаря сетевому и JavaScript-анализу, а не бесконечным ретраям.

1Разбор нестабильных цепочек запросов и клиентской логики
2Адаптация логики извлечения под дрейф структуры страниц
3Повышение устойчивости к антибот-изменениям
Роль

Инженер по исследовательскому сбору данных

Стек
PythonWeb scrapingReverse engineeringPlaywrightClickHouse
Задача

Обычные подходы к сбору постоянно ломались из-за дрейфа страниц, клиентской логики и защитных механизмов.

Решение

Работал на стыке Python, HTTP и JavaScript реверс-инжиниринга: разбирал потоки запросов, менял логику извлечения и усиливал пайплайны.

Результат

Стало меньше тушения пожаров и больше предсказуемости в извлечении.

Что я собрал
  • Превратил нестабильные потоки запросов в воспроизводимую схему извлечения.
  • Повысил устойчивость к антибот-изменениям и дрейфу структуры страниц.
  • Удерживал баланс между скоростью поставки и надежностью.
Что это показало
  • Сбор данных — это не только парсинг, но и инженерия надежности.
  • Понимание сетевой модели почти всегда важнее грубой силы.
Другие кейсы

Ещё проекты

2025-2026

Каталог моделей nnzen

Соло

Живой каталог с 500+ карточками моделей, чтобы выбирать LLM без ручного сравнения по куче вкладок.

PythonFastAPILLM APIs
2025

Кастомное агентное ядро с MCP

Соло

LLM-ядро и слой плагинов для ассистента разработчика: горячая перезагрузка, цепочки инструментов и явная передача контекста.

PythonFastAPIMCP