返回案例
2021-2023产品团队

稳定的数据采集

针对不断变化的网页环境做数据采集工具,长期面对反爬摩擦。

上下文
高摩擦网页环境
重点
韧性
方法
HTTP + JS 分析
韧性模型

稳定性来自对请求流的理解。

稳定性是靠网络和 JavaScript 分析提上来的,不是靠无穷重试。

1梳理请求流与客户端逻辑
2让提取逻辑适应漂移与反爬摩擦
3减少救火并恢复可预测的工作流
角色

研究型数据采集工程师

技术栈
PythonWeb scrapingReverse engineeringPlaywrightClickHouse
问题

常规采集方法总是因为页面漂移、客户端逻辑和防护机制而失效。

方案

在 Python、HTTP 和 JavaScript 逆向分析的交叉处工作:分析请求流、调整提取逻辑、加固流水线。

结果

少了救火,多了可预期的提取过程。

我做了什么
  • 梳理不稳定的请求流,并把它们变成更耐久的提取逻辑。
  • 提升了对反爬变化与页面结构漂移的抵抗力。
  • 在强交付压力下同时改善速度与可靠性。
这说明了什么
  • 数据采集既是提取问题,也是基础设施问题。
  • 稳定性来自对请求模型的理解,而不是蛮力重试。
相关项目

更多项目

2025-2026

nnzen 模型目录

独立完成

一个有 500+ 张模型卡片的在线目录,方便更少依赖人工比较地选模型。

PythonFastAPILLM APIs
2025

带 MCP 的定制代理核心

独立完成

面向开发者助手的 LLM 核心和插件执行层:热重载、工具链和显式上下文传递。

PythonFastAPIMCP