---
title: "Resilient data collection workflows"
url: "https://ramenm.com/zh/projects/resilient-data-collection"
markdown_url: "https://ramenm.com/zh/projects/resilient-data-collection/index.md"
locale: "zh"
content_language: "zh-Hans"
page_kind: "project"
source: "localized_path"
llms_url: "https://ramenm.com/llms.txt"
llms_full_url: "https://ramenm.com/llms-full.txt"
---

# Resilient data collection workflows

- Case study URL: https://ramenm.com/zh/projects/resilient-data-collection
- Markdown URL: https://ramenm.com/zh/projects/resilient-data-collection/index.md
- Role: Python Data / Backend Developer
- Period: 2022-2024
- Team: Commercial data tooling

为 external web systems 构建 collection 和 debugging workflows，目标行为会变化，failures 必须可诊断。

## Problem
External targets 经常变化，仅凭 error message 很难复现 failures。

## Solution
处理 request tracing、browser automation、parsers、diagnostics 和 reusable collection logic。

## Impact
Failures 更容易 classify、reproduce 和 fix，不需要每次从零开始。

## Stack
- Python, Web scraping, Reverse engineering, Playwright, ClickHouse

## Metrics
- Focus: Diagnostics
- Stack: HTTP + browser runtime
- Output: Reusable logic

## Highlights
- 分析外部系统的 HTTP 和 JavaScript behavior。
- 围绕真实 target behavior 构建和调整 collection logic。
- 改进 diagnostics，让 failures 更容易复现。

## Lessons
- 只有 failure path 可见，parser 才真正有用。
- Data collection 工作需要对 edge cases 有耐心。
