my-auto-annotation
my-auto-annotation 把浏览器自动化和 LLM 结合起来,为网页元素生成结构化的标注数据。
工作流很直接:读入一个包含 URL 的 JSON,逐条用 Playwright 打开页面、抓取 DOM,然后把需要的片段(文本、选择器、截图)喂给 LLM 生成注释,最终输出标准化的标注 JSON。
工程要点
核心在于把页面信息按模板(promplate/Jinja)组织好,再把 LLM 的自然语输出解析回结构化字段;程序也会做并发控制与重试,避免一次性触发大量模型调用。
相关:
- autoAnnoter:图像自动标注工具,思路相近。
- automated-labelme:基于模型的 labelme 自动化工具。
适合把前端界面标注工作自动化,节省大量人工标注成本。
深入洞见¶
这个项目使用 promplate 的 Loop 机制,让 LLM 迭代生成和验证 CSS 选择器,从压缩 DOM 中提取样式和 HTML 片段。支持批量 URL 处理,带 token 限制和重试,避免无效选择器。
参考源码:app/core/prompt.py(Loop 机制) · app/core/api.py(样式提取)