返回案例
2022-2024Commercial data tooling
Resilient data collection workflows
为 external web systems 构建 collection 和 debugging workflows,目标行为会变化,failures 必须可诊断。
Diagnostics
HTTP + browser runtime
Reusable logic
Debuggable collection
会变化的目标需要 diagnostics,而不只是 parsers。
目标是让 failures 足够 explainable,才能修复。
1同时检查 request 和 browser behavior
2把 failure cases 变成可复用 checks
3围绕真实 target behavior 设计 parsers
Python Data / Backend Developer
PythonWeb scrapingReverse engineeringPlaywrightClickHouse
问题
External targets 经常变化,仅凭 error message 很难复现 failures。
方案
处理 request tracing、browser automation、parsers、diagnostics 和 reusable collection logic。
结果
Failures 更容易 classify、reproduce 和 fix,不需要每次从零开始。
我做了什么
- 分析外部系统的 HTTP 和 JavaScript behavior。
- 围绕真实 target behavior 构建和调整 collection logic。
- 改进 diagnostics,让 failures 更容易复现。
这说明了什么
- 只有 failure path 可见,parser 才真正有用。
- Data collection 工作需要对 edge cases 有耐心。
相关项目