你好，我是

任春晓(Elin).

全栈工程师

新加坡国立大学（NUS）Master of Computing（CS 方向）在读。从数据建模到云端 UI 交付，端到端 ship LLM Agent、应用 ML 流水线与全栈应用。在寻找 SWE / MLE 实习。

在做气候政策证据知识图谱平台, 网络安全风险评估平台
在交付应用 ML 流水线（AVM / 推荐）+ 云端部署
求职 SWE / MLE 实习

01. 关于我

我是新加坡国立大学（NUS）Master of Computing 在读（计算机科学方向），本科在芬兰 LUT 拿了软件与系统工程学士、河北工业大学拿了计算机科学学士（双学位）。我的工作横跨 MLE 与全栈 —— 从数据建模一路打通到云端 UI 部署，一手包完。

气候政策证据知识图谱平台（Neo4j + GraphRAG）· 网络风险多智能体硕士论文（NUS）· Seeyon 垂直代码生成 Agent · 基于 Neo4j 疾病知识图谱的医疗问答系统。

02. 研究

气候政策知识图谱主页 —— Topic → Policy Instrument → Outcome → Evidence Papers 入口卡片，可见 Drivers 四个根类目（Policy and Regulation、Physical Climate Shock、Technology and Market Shifts、Other Drivers）以及每张卡片的论文数。

研究

气候政策证据知识图谱平台

[进行中] · 2026-01 — 至今

Chunxiao Ren

研究助理 @ 新加坡国立大学

一个把气候政策领域 PDF 学术文献批量转成可查询、可溯源证据知识图谱的研究平台——让 LLM Agent 在引用经白名单校验、证据不足主动拒答、并带四层抗幻觉约束的前提下回答研究者问题。后端以 MinerU 解析 PDF、GPT-4 抽取 Finding / Evidence / Driver / Outcome 节点导入 Neo4j Aura 云图数据库，Query Router v2 将问题单次分类为 T1–T4 四类，T3 元数据查询走 26 个确定性 Cypher 模板零 LLM 成本，T1/T2 走五路并行检索（语义 / 混合 / 图扩展 / 社区摘要 / Cypher 精确兜底）后由受约束 Agent 生成结构化 Section 输出；置信度评分由程序化双轨系统独立计算，经用户反馈驱动的 OLS 离线校准，而非 LLM 自报。前端基于 React + Vite，回答以 SSE section 事件逐块渲染，内置力导向图谱可视化与交互式邻居扩展，部署于云端服务器并通过 Caddy + ngrok 对外提供 HTTPS 访问。架构细节、抗幻觉栈与截图详见 Read deep dive。

Python
Neo4j
MinerU (PDF parsing)
Vector + GraphRAG retrieval
GPT-5.4-mini (keyword extraction)
OLS calibration
React + Vite
react-force-graph-2d
SQLite (feedback)

查看深度复盘 →

研究

Domain-Specific Agents：网络安全风险分析多智能体框架

[进行中] · 2026-01 — 至今

Chunxiao Ren

硕士毕业论文 @ 新加坡国立大学计算学院

一个面向网络安全风险分析的、领域结构化、证据驱动的多智能体框架（MSc 毕业论文原型）。系统将风险推理任务分解为五个角色专精的 Agent —— Exposure / Likelihood / Impact / Coordinator / Critic —— 每个 Agent 拥有独立的 Pydantic 类型化 schema 与 prompt，并支持两种执行模式：纯 LLM 流水线和 JELAS 神经符号流水线（在任何 LLM 调用之前注入预计算的知识图谱 + Datalog 风险事实）。框架围绕 5 个可验证假设：(C1) 网络安全风险更应被建模为结构化推理而非单一不透明预测；(C2) 领域对齐角色比通用 planner / reviewer 角色产生更可解释的中间状态；(C3) 证据驱动推理提升一致性与可信度；(C4) 轻量级条件式校验优于无约束多智能体辩论；(C5) 跨案例「分析师经验」可以无需重训复用 —— 通过改编自 LLMTraveler 的 Jaccard × EWMA-recency CaseMemory 实现。Block 化 prompt 让每个组件廉价可消融，每个 claim 有对应 A/B 实验。

Python
Pydantic v2 (typed schemas)
LLM orchestration
JELAS neuro-symbolic engine
Datalog
CaseMemory (Jaccard × EWMA-recency)
Block-ablatable prompts

查看深度复盘 →

CyberAssessment 主页 —— 大标题「Let's start your Cyber Assessment」，右上是三步 Your Workflow 面板（1. 公司画像收集 · 2. 历史事件参照 · 3. 场景建模与损失估算），下面一块 Estimated Duration ~10m 的「从 URL 到风险报告」时长 tile，左侧一个 Get Started CTA 按钮。

研究

网络安全风险评估平台

[已完成] · 2025-09 — 2026-02

Chunxiao Ren

研究助理 / 主力开发 @ 新加坡国立大学计算学院

一个面向保险承保员与中小企业的网络安全风险评估 Web 平台，通过 "引导式录入 → 分析 → 报告" 的工作流交付评估结果。我作为团队产品侧的主力开发，端到端负责整套 Web 栈 —— 前端、后端、数据库、用户登录与基于角色的页面分流、管理员工具、反馈收集与云端部署 —— 将团队底层的风险引擎封装为一个承保员可以从单一公司 URL 起、约十分钟走完全流程的产品。属于团队内部的商业化项目。

Python
Flask
Tailwind CSS
Authlib (Google OAuth)
bcrypt
SQLite
OpenAI API (SSE)
SentenceTransformers
Jina Reader API
PyKEEN / NetworkX
gunicorn
ngrok
Vagrant

查看深度复盘 →

研究

基于大语言模型的医疗问答系统 (RAG)

[已完成] · 2025-01 — 2025-05

Chunxiao Ren

研究助理 @ 拉彭兰塔工业大学

一条医疗问答流水线，用 Neo4j 知识图谱上的结构化 Cypher 检索替代向量库 RAG —— 针对 LLM 在安全关键领域的幻觉问题。底层基于 DiseaseKG（约 4.46 万实体、31.2 万边）；NER 微调 chinese-roberta-wwm-ext + BiLSTM，意图识别用 34B LLM 跑 few-shot prompt，答案在检索到的三元组上由 Qwen / Llama（UI 可切换）合成。Streamlit 前端，带用户 / 管理员登录。知识图谱 schema、数据增强策略与完整检索流程详见 Read deep dive。

Python
Neo4j 5.18
chinese-roberta-wwm-ext
BiLSTM (2-layer) + Linear classifier
BIO tagging
TF-IDF entity alignment
34B LLM (intent, few-shot + CoT)
Qwen / Llama
Streamlit

查看深度复盘 →

03. 工作经历

AI 大模型算法实习生

@ Beijing Seeyon Internet Software

2025-05 — 2025-08 · 中国北京 · CoMi Agent / V5 PaaS

通过结构化评估与 prompt 工程，对 Qwen、GLM、Llama、DeepSeek 在企业工作流代码生成任务上进行 benchmark，为致远自研模型的选型与增强提供依据。
微调致远自研 LLM「CoMi」，使其在 V5 PaaS 平台上生成 Python 业务逻辑脚本，实现 OA 工作流/模板的自动化生成，可执行率达 90% 以上，人工配置工作量减少 20%。
基于真实工作流文档构建高质量微调数据集，引入语义一致性 Loss 与 AST Loss，提升生成脚本的语法正确性和业务逻辑可靠性。

Python
PyTorch
LLM Fine-tuning
SFT/LoRA
Qwen
GLM
DeepSeek
Prompt Engineering

04. 一些项目

精选项目

新加坡公屋自动估值模型

2025-08 — 2025-12 · 协同开发

面向 HDB 公屋转售价格预测的端到端 ML 流水线，主数据来自 Kaggle（训练集 162,691 条 / 测试集 5 万条，2017–2025），并通过新加坡政府开放 API 补充了 5 类地理 POI（约 774 个点：地铁站、小学、中学、商场、熟食中心）。用 sklearn BallTree + Haversine 工程化每样本约 20 个邻近度特征，含双半径密度计数与分级标记（名校、地铁核心线、旗舰商场）。最终模型为 CatBoost + LightGBM + XGBoost 的 stacking（5 折 OOF + 无截距线性元学习器），对建筑面积与剩余租约施加单调性约束；3-seed 平均；面向前 10% 高价房做二阶段精修。验证集 log-RMSE 从 v2 的 0.061 降到 v3 的 0.050，约 18% 提升。

BallTree + Haversine 覆盖约 774 个 POI，每样本约 20 个邻近度特征（双半径密度、最近距离、KNN-3、等级标记）。
Stacking 集成 —— CatBoost + LightGBM + XGBoost + 5 折 OOF + 无截距线性元学习器。
面向前 10% 高价房的二阶段精修；3-seed（42 / 100 / 2025）平均。
验证集 log-RMSE 从 0.061 降到 0.050（约 18% 提升），覆盖 v2 → v3 的演进。

Python
CatBoost
LightGBM
XGBoost
scikit-learn (BallTree, Haversine)
Stacking + linear meta
pandas
NumPy

任务与数据

预测新加坡 HDB 公屋转售价格。主数据集是 Kaggle 上的一份 HDB 转售交易数据，辅助地理空间数据则从新加坡政府开放数据 API 实时拉取。

训练集：162,691 条交易；测试集：50,000 条交易
时间区间：2017 — 2025
目标：RESALE_PRICE（SGD）—— 右偏，中位数约 S$488k，均值约 S$518k，尾部一直拉到 S$1.6M 以上
指标：log 价格空间下的 RMSE

价格分布尾部很重，时间趋势也很强：2017 年中位价 ≈ S$380k vs. 2025 年 ≈ S$620k（+60%）。这两个观察直接驱动了下面的设计选择 —— 时间衰减样本加权，以及面向高价段的二阶段精修。

辅助地理数据

5 类 POI 来自新加坡政府开放 API（data.gov.sg、LTA DataMall、OneMap、MOE、NEA），共约 774 个点：

文件	数量	来源
`sg-mrt-stations.csv`	243	LTA DataMall
`sg-primary-schools.csv`	182	data.gov.sg / MOE
`sg-secondary-schools.csv`	153	data.gov.sg / MOE
`sg-shopping-malls.csv`	89	data.gov.sg / OneMap
`sg-gov-hawkers.csv`	107	data.gov.sg / NEA
`sg-hdb-block-details.csv`	9,660	data.gov.sg HDB Property Information

HDB block 文件不算 POI —— 它是楼栋索引：每个 block 的经纬度、规划区域、MAX_FLOOR，用来给每条交易回填地理坐标（在做了一次合并验证分析之后只按 BLOCK 关联：BLOCK + TOWN 因为重复匹配率 115%、ADDRESS 因格式不统一匹配率 0%；按每个 block 保留 MAX_FLOOR 最大那一行去重就解决了）。

特征工程

时间特征

从 MONTH 字段（YYYY-MM）解析：

year、month_num
month_sin / month_cos —— 周期编码，让 12 月与 1 月成为邻居而不是相反
flat_age = year - lease_commence_data
lease_left = 99 - flat_age（HDB 租约 99 年）
is_new 标记 ≤ 5 年的新房

楼层特征

FLOOR_RANGE 是一个区间字符串，例如 "07 TO 09"。拆解为：

floor_num —— 下界
avg_floor —— 中点
floor_range —— 粗化分桶（Low / Mid-Low / Mid / Mid-High / High / Very High / Top）

地理空间特征 —— BallTree + Haversine

特征工程的核心。对每条交易，给每类 POI 的经纬度构建 BallTree，在 Haversine 度量下（球面大圆距离）跑最近邻查询。

为什么用 BallTree。 暴力对 16.2 万条交易 × 774 个 POI 跑最近邻是 O(N·M)；BallTree 给出 O(N · log M) —— 在这个配置下大约 快 10×。

双半径设计。 单一最近距离区分不出 “800m 之外有一个地铁” 和 “附近有三条线、几个站聚在一起”。所以每类 POI 都用一个内圈半径表示「贴身覆盖」、一个外圈半径表示「广覆盖」：

POI	内圈	外圈	额外特征
地铁 MRT	800 m	1500 m	最近距离 · 最近站名（类别）
小学	600 m	1000 m	最近距离 · 最近校名（类别）
中学	800 m	1500 m	最近距离
商场	1000 m	2000 m	KNN-3 平均距离 · 最近商场名（类别）
熟食中心	500 m	1200 m	最近距离

由此每个样本得到 约 20 个地理特征：5 个最近距离 + 10 个双半径计数 + 2 个 KNN-3 平均 + 3 个最近 POI 类别 ID。

分级标记

第二轮再扫一遍，标记最近那个 POI 是否「精英级」—— 类别密度本身抓不到名校 / 核心线 / 旗舰商场这种声誉信号：

nearest_primary_top —— 最近的小学是否在 Top Primary 名单上？
nearest_mrt_core_line —— 最近的地铁是否在核心线（DTL / TEL / NSL / EWL / CCL / NEL）？
nearest_mall_flagship —— VivoCity / Ion Orchard / 等？

类别编码

CatBoost 通过 Ordered Target Statistics 原生支持类别特征，所以大多数字段直接保留原值：town、flat_model、flat_type、floor_range。额外加了一个工程特征：model_rank，按市场中位价对 flat_model 做排序的序号 —— 给 GBDT 模型一份便宜的、价格感知的编码。

ECO_CATEGORY（100% 是 "uncategorized"）直接丢弃。BLOCK 和 STREET 在合并出地理坐标后也丢弃。

样本加权 —— 时间 × 价格

两个因子相乘组成一个样本权重：

time_weight  = exp(decay_rate × (year − min_year))     # 越近的交易权重越高
price_weight = 1 + α × 1[price > price_90th]           # 高价加权
sample_weight = time_weight × price_weight

时间衰减反映了 EDA 里的发现：2023–2025 的价格行为与 2017–2018 不同。价格加权让模型把额外的容量花在重尾的顶部 10% —— 否则它们会被海量的中端 4 房单位平均掉。

单调性约束

CatBoost 的单调约束施加在：

floor_area_sqm —— 严格递增
lease_left —— 严格递增

防止模型学出像「+10 sqm → 更便宜」这类反直觉预测 —— 这种现象会在面积与其他特征局部相关（比如老楼栋恰好更大）时出现，把边际效应反过来。

Stacking 架构

Level-0 基学习器（5 折 OOF 预测）
  ├── CatBoost      n_estimators=10000, lr=0.033, depth=8, od_wait=350
  ├── LightGBM      n_estimators=5000,  lr=0.035, num_leaves=64
  └── XGBoost       n_estimators=5000,  lr=0.035, max_depth=8

Level-1 元学习器
  └── 线性回归（无截距），作用于基学习器的 OOF 预测

OOF 预测避免元学习器看到同一行自己训练时的预测值（否则会泄露标签）。无截距是有意为之：每个基学习器本身已经能给出校准好的价格估计，元学习器只需要学最优的 近似凸权重，而不是再去平移均值。

高价段二阶段精修

顶部 10%（RESALE_PRICE > 90 分位，约 S$750k+）的误差总是更难控制。所以在这一段上 fine-tune 第二个 CatBoost，再做混合：

y_main = 主 stacking 预测（全数据）
y_seg  = 仅高价段 fine-tune
y_final = w · y_seg + (1 − w) · y_main      # w 在验证集上做 grid search

混合权重 w 用 grid search 选定，而不是端到端学 —— 避免高价段在主 stacker 的梯度里占主导。

多种子平均

最终提交对三个 CatBoost 种子（42、100、2025）做平均，由训练脚本里的 flag 控制。这降低了单次随机初始化的方差，几乎不增加额外算力，因为每个种子的 OOF 折是独立的。

结果

版本	描述	验证集 log-RMSE
v1	基线，无地理特征	—
v2	log 空间训练，单半径地理	0.061
v2.5	价格空间 + stacking	—
v3（最终版）	双半径地理 + 分级标记 + 高价段精修	0.050

相对 v2 大约 18% 的提升。

特征重要性（CatBoost，基础特征集）

特征	重要性
floor_area_sqm	29.36%
town	23.17%
year	18.39%
lease_commence_data	12.84%
flat_model	8.05%
avg_floor	3.17%
flat_type	2.52%
flat_age	1.48%

面积 + 区域 + 年份 + 租约一起占了约 83% 的重要性。地理特征是 叠加在 town 之上的额外信息，区分「武吉知马的房子贴近地铁」和「武吉知马规划区边缘的房子」。

关键设计决策

主学习器选 CatBoost，而不是 XGBoost —— 通过 Ordered Target Statistics 原生支持类别特征，避免对 town（26 类）、flat_model（21 类）、flat_type（去重后 12 类）做手工 one-hot / target encoding 时的噪声。
v3 用价格空间，不是 log 空间 —— log 空间把高价误差压扁，但比赛指标看的是绝对值。用中位价归一化（price / median_price）保持数值稳定，同时让模型直接优化真实误差。
双半径密度，不是单一最近距离 —— 同时捕捉邻近性和周边设施集合的丰富度。
只按 BLOCK 关联 + 按 MAX_FLOOR 去重 —— 在测试了 BLOCK + TOWN（115% 重复匹配）和 ADDRESS（0% 匹配）之后选定的；按 MAX_FLOOR 去重等价于偏向锚定在最高测量楼层的那条坐标（GPS 质量更好）。

接下来想做什么

基于时间的留出验证 —— 当前 5 折是随机切分；按时间切（如 train ≤ 2024、validate 2025）才能测出模型的前向外推能力，这才是生产 AVM 真正需要的。
分位数回归 —— 给出 P10 / P50 / P90 而不是点估计，把 HDB 价格本身的不确定性显式呈现出来。
轻量神经的 POI 检索 —— 用 attention over POI 替换半径计数，按户型条件化，让模型学每户型自己的「邻近」概念。

精选项目

多策略电影推荐系统

2025-01 — 2025-06 · 协同开发

系统性梳理推荐系统的五大方法族 —— 人口统计基线、基于内容召回（TF-IDF + CountVectorizer）、 KNN 协同过滤（item / user）、三种优化器的 SVD 矩阵分解（SGD / SGLD / SGHMC），以及三种混合流水线 —— 在 MovieLens ml-1m 上完成评估。单路最佳召回：User-CF，hit rate 14.54%；最佳评分预测模型： SVD-SGHMC，RMSE 0.84117。

端到端实现九种推荐算法：人口统计基线、2 种内容召回、2 种 KNN-CF、3 种 SVD 优化器、3 种混合流水线。
User-CF 在 15% 测试集上 hit rate 14.54%（878 / 6040），是最强的单路召回。
SVD 配 SGHMC 优于 SGD 与 SGLD：MovieLens ml-1m 上 5 折 CV RMSE 0.84117。
「召回 + 重排」混合以原始命中率换取评分感知的排序。

Python
scikit-learn
TF-IDF / CountVectorizer
KNN (item / user)
SVD
SGD / SGLD / SGHMC
MovieLens ml-1m
TMDB 5000
pandas
NumPy

1. 人口统计基线

非个性化的流行度先验，采用 IMDB 风格的加权评分：

score = (v / (v + m)) · r + (m / (v + m)) · c

其中 r 是电影的平均评分，v 是评分人数，m 是评分人数的 90 分位阈值，c 是全局平均分。用作冷启动兜底，也作为下面所有个性化模型的对照基准。

2. 基于内容的召回 —— 两个变体

两个变体都产出 item–item 最近邻列表，但取自电影的不同视角：

文本变体 —— 在剧情简介上做 TF-IDF + 余弦相似度。当用户已评分的电影在叙事上相似时表现强。
特征变体 —— 用 CountVectorizer 处理由 keywords + genres + top-3 主演 + 导演拼接而成的 “metadata soup”。能捕捉简介文本捕不到的类别口味信号（比如 “Christopher Nolan 的电影”）。

3. KNN 协同过滤 —— 两个变体

作用于 MovieLens ml-1m 的 user × item 评分矩阵（约 100 万条评分，6,040 个用户，约 3,900 部电影）。

Item-based KNN —— 用相似度加权该用户已评分电影的评分，给未观看电影打分。
User-based KNN —— 找出 top-k 相似用户，把他们的高分但目标用户没看过的电影推过来。

User-CF 在 85/15 划分下取得 hit rate 14.54%（878 / 6040） —— 整个研究里最强的单路召回。

4. SVD 矩阵分解

在共享的隐因子模型上做个性化评分预测，对比三种优化器：

优化器	后验处理	5 折 CV RMSE
SGD	单点 MAP 估计	baseline
SGLD	随机梯度 Langevin 动力学	有提升
SGHMC	随机梯度哈密顿蒙特卡洛	0.84117

两种贝叶斯采样器（SGLD、SGHMC）在隐因子的后验上探索，而不是塌陷到单点 MAP。SGHMC 基于动量的 proposal 比 SGLD 的纯噪声动力学混合更快，在 ml-1m 上拿到了最优的 5 折 CV RMSE。

5. 混合多阶段流水线

三种混合都遵循 召回 + 重排 模式：便宜的召回阶段先收窄目录，更贵的重排阶段再排序。

User-KNN → 文本相似度 —— KNN 召回的候选按对用户历史的内容相似度重打分。
User-KNN → Movie-KNN —— 把用户相似度召回切换为物品相似度重排。
User-KNN → SVD —— 先从相似用户里收窄候选，再按预测评分重排。Hit rate 9.97%（602 / 6040）。

混合的原始命中率低于 User-CF 单路，但排序是评分感知的 —— 更接近用户从候选集里实际会选哪些来看，即便落到测试集里的条目少一些。

数据集

TMDB 5000 —— 简介 + 元数据（keywords、genres、cast、director），用于内容召回。
MovieLens ml-1m —— 6,040 个用户对约 3,900 部电影的约 100 万条评分，用于 KNN-CF 与 SVD。

接下来想做什么

隐式反馈信号 —— 当前流水线只吃显式评分；点击 / 浏览 / 观看时长会把候选空间显著扩大。
双塔神经召回 —— 用学习好的 dual-encoder 替换 TF-IDF + KNN 召回，把 SVD 评分作为重排阶段的标签。
多样性感知的重排 —— 在重排阶段惩罚重复候选（同 IP、同导演），把推荐集合拓宽。

精选项目

TeamClaw —— 本地优先的多智能体工作台

2026-01 — 2026-03 · 开源项目贡献

参与共建 TeamClaw —— 一个本地优先的多智能体工作台：对外暴露 OpenAI 兼容的 /v1/chat/completions 端点，内部带可视化编排层 OASIS，支持 sequential / parallel / selector / DAG 四种工作流。在统一的 Team 抽象下整合三类 Agent：Stateless 专家、Stateful 会话型、External-API（含 OpenClaw）。Team Creator 可以把一段任务描述或抓取到的 SOP 页面，自动转成角色、人设与可运行的 DAG。底层是 living GraphRAG 记忆（SQLite + 可选 Zep 镜像），配合多模态 I/O、Telegram / QQ Bot 桥与 Cloudflare Tunnel 一键公开访问。

OpenAI 兼容的本地端点 /v1/chat/completions —— 任意 OpenAI 客户端可直连。
OASIS 编排引擎：sequential / parallel / selector / DAG 四种工作流，统一调度 Stateless / Stateful / External-API 三类 Agent。
Team Creator 把一段任务描述或 SOP 页面自动转成角色、人设与可运行的 DAG。
Living GraphRAG 记忆（SQLite + 可选 Zep 镜像）+ 多模态 I/O + Telegram / QQ Bot 桥 + Cloudflare Tunnel 一键公开访问。

Python
FastAPI / Flask
LangGraph
OASIS engine
MCP toolchain
OpenAI-compatible API
GraphRAG (Zep)
SQLite
Cloudflare Tunnel

TeamClaw 是什么

一个 本地优先的多智能体工作台，把团队式的 AI 协同搬到一台机器上 —— 不强迫使用者上云 SaaS。从外部看，它像一个 OpenAI 兼容的 chat 端点；从内部看，它是一套可视化编排引擎 + 一层 living 记忆 + 一个自动组队生成器，加上对接 bot 和公网的若干网关。

项目要平衡的设计张力：玩家想要一键启动的体验，但真正的多 Agent 工作需要持久化、调度、以及对每个 Agent 干了什么的可见性。TeamClaw 用一个分层架构同时回答这两个需求 —— 你可以按模块逐步启用。

OpenAI 兼容的本地端点

一切从 /v1/chat/completions 进入，按 OpenAI 的请求 / 响应 schema 说话。这一项设计决策解锁了：

现成客户端兼容 —— 任何按 OpenAI REST API 写的 SDK、IDE 插件或第三方工具，原样就能对接本地实例。
模型无关后端 —— 端点会扇出到当前配置的模型（Antigravity-Manager 桥接了 67+ 模型，包括像 MiniMax M2.7 这样支持 1M 上下文的长上下文后端）。
稳定的编排合约 —— OASIS 引擎和自动组队都通过同一个表面调模型，所以换模型供应商时不会波及编排代码。

OASIS 编排引擎

OASIS 是核心调度器。它把 Agent 协同视作一张图，支持四种工作流形态：

形态	适合什么
Sequential	步骤型流水线（research → draft → review）。
Parallel	独立扇出（多个 critic 给同一份产物打分）。
Selector	路由：上游一个节点决定下游哪个 Agent 跑。
DAG	任意有向图 —— 最一般的形态，自动组队走的就是这条。

状态以 living graph 形式持久化：posts、callbacks、timeline 事件本地写到 SQLite，可选地镜像到 Zep 用于跨会话记忆。这意味着你可以在多步任务的中途暂停一个 team，明天重新打开工作台继续，而不是从头跑一遍 prompt 链。

前端的 “swarm graph” 视图把同一份引擎状态可视化，让你看到哪个 Agent 在跑、哪些边触发了、哪些工具调用产生了哪些 post。

三类 Agent，统一在一个 Team 抽象下

TeamClaw 把三种执行模式统一在一个 Team 配置里：

Stateless 专家 —— 内部的轻量 Agent，吃 prompt + context，吐 result。无记忆、无 session，便宜地并行扇出。
Stateful 会话型 —— 跨轮持有上下文的 Agent，由 GraphRAG 记忆层支撑；适合「PM」、「常驻分析师」这类需要记住过往决策的长任务角色。
External-API Agent —— OpenClaw runtime 和任意 HTTP-API Agent 的封装。让 team 可以包含 TeamClaw 进程外的能力，同时编排接口保持统一。

这种统一之所以重要，是因为自动组队（下一节）生成的 DAG 不在乎每个节点是哪一类 —— OASIS 引擎在运行时按 Team 配置解析。

Team Creator —— 从一段任务描述自动组队

这是把引擎与非开发者工作流绑在一起的关键能力。给定：

一段自由文本的任务描述，或
一组 SOP / 组织页面（由 TinyFish Web Agent 抓取发现），

Team Creator 跑一个 LLM 驱动的抽取步骤，产出：

Roles —— 完成这个任务需要哪些类型的 Agent。
Personas —— 每个角色的 prompt 与行为规约（导入前可编辑）。
一个 OASIS DAG —— 把这些角色串起来，可直接执行。

输出的是一份草稿 Team —— 在前端检视并编辑过、再上线运行。这个复核环节是有意保留的：自动生成的 Agent 图作为脚手架很好用，但盲跑往往会得到「自信地错」的结果。

OASIS Town —— 像素风群体可视化

更大的 Team 配置时，同一份 OASIS 状态可以渲染成像素风的「小镇」，每个 Agent 是一位居民。实时活动（节点触发、工具调用、记忆写入）显示为居民动画或 “nudges”。Compact 模式收回到 swarm-graph；Town 多了环境音和「整体在不在前进」的直观感。

它更像 UX 实验，不是核心能力 —— 但它意外地浮现出一个被低估的指标：哪些 Agent 在闲着。手工调试时，DAG 里的死节点常常是自动组队抽错角色的最早信号。

记忆层 —— living GraphRAG

记忆是图形的，不是向量库形的。Posts、callbacks、决策累积成节点；它们之间的关系（caused-by、supersedes、refers-to）累积成边。两个后端：

SQLite —— 本地、零配置默认。
Zep —— 可选镜像，提供跨机器连续性和更丰富的检索原语。

为什么用图而不是向量：TeamClaw 主要的记忆访问模式是 “谁在什么时间对谁说了什么”，本质上是关系型。向量检索叠在上层处理自由文本回忆，但结构化遍历（比如 “这个线程里所有被 Critic 标记过的 post”）才是主导查询，图能用一跳回答。

工具与集成

MCP 工具链负责 Agent ↔ 工具的对接，带有 approval-aware 的策略钩子（一次工具调用可以被暂停以等待人类批准）。当前前端有一个策略面板用于检视和授权调用。

叠加的集成：

OpenClaw 外部 runtime —— 用于 TeamClaw 进程外的能力。
Telegram / QQ Bot 桥 —— chat-as-frontend，对接同一批 Team。
TinyFish Web Agent —— 自动组队用它做 SOP 发现，同时也支撑「竞争对手监控」用例（爬虫 + 价格快照喂给一个常驻 Stateful Agent）。
Cloudflare Tunnel —— 一键公网访问，无需暴露本机 IP。
Antigravity-Manager —— 在一份配置里扇出 67+ 模型供应商。

怎么跑起来

selfskill/scripts/run.sh|ps1 驱动器负责 setup → configure --batch → start，把本地服务拉起来，前端暴露在 http://127.0.0.1:<PORT_FRONTEND>。默认验证路径是 pytest + GitHub Actions，前端走 Playwright 冒烟测试。

这里有一个有意思的设计选择：项目还为 AI 编程 Agent 准备了 SKILL.md，所以一个编程 Agent（比如 Claude Code）能自动化地完成工作台安装，不需要人手动跑脚本。这是一个细节，但很能说明 2026 年这个项目想象的「使用者」长什么样。

接下来想做什么

OASIS DAG diff —— 展示两份自动组队草稿之间的差异，让用户调整任务描述并看到结构上的变化。
记忆层 eviction —— 图记忆会无限增长；eviction 策略（边 LRU、子图汇总折叠）在「使用满一年」的尺度上会变得重要。
失败运行的 replay 模式 —— 给定一次跑完的 OASIS run，让用户用编辑过的 persona 重新执行某个子图来调试局部错误，而不需要重跑整张 DAG。

任春晓(Elin).

全栈工程师

01. 关于我

02. 研究

气候政策证据知识图谱平台

Domain-Specific Agents：网络安全风险分析多智能体框架

网络安全风险评估平台

基于大语言模型的医疗问答系统 (RAG)

03. 工作经历

AI 大模型算法实习生

数据科学实习生

后端开发实习生

04. 一些项目

新加坡公屋自动估值模型

多策略电影推荐系统

TeamClaw —— 本地优先的多智能体工作台