返回案例
2022-2024Commercial data tooling

Resilient data collection workflows

为 external web systems 构建 collection 和 debugging workflows,目标行为会变化,failures 必须可诊断。

Focus
Diagnostics
Stack
HTTP + browser runtime
Output
Reusable logic
Debuggable collection

会变化的目标需要 diagnostics,而不只是 parsers。

目标是让 failures 足够 explainable,才能修复。

1同时检查 request 和 browser behavior
2把 failure cases 变成可复用 checks
3围绕真实 target behavior 设计 parsers
角色

Python Data / Backend Developer

技术栈
PythonWeb scrapingReverse engineeringPlaywrightClickHouse
问题

External targets 经常变化,仅凭 error message 很难复现 failures。

方案

处理 request tracing、browser automation、parsers、diagnostics 和 reusable collection logic。

结果

Failures 更容易 classify、reproduce 和 fix,不需要每次从零开始。

我做了什么
  • 分析外部系统的 HTTP 和 JavaScript behavior。
  • 围绕真实 target behavior 构建和调整 collection logic。
  • 改进 diagnostics,让 failures 更容易复现。
这说明了什么
  • 只有 failure path 可见,parser 才真正有用。
  • Data collection 工作需要对 edge cases 有耐心。
相关项目

更多项目

2025-2026

nnzen 模型目录

Solo

实时 LLM 模型目录:收集模型数据、统一格式,并让模型比较更快完成。

PythonFastAPILLM APIsRAGVector DB / pgvector
2025

MCP core for an LLM assistant

Solo

LLM assistant 的 backend core,包含 plugin execution、hot reload、tool chains 和 explicit context handoff。

PythonFastAPIMCPTool callingLLM APIs