llm-web-reader
llm-web-reader-demo 是一个基于 LLM 的网页信息提取 demo。使用 Svelte 构建。
https://github.com/CNSeniorious000/llm-web-reader-demo
Tip
LLM 驱动的网页内容提取,去除噪音,输出干净 Markdown。
实现¶
Svelte 前端,集成 LLM 进行信息提取。
深入洞见¶
项目把正文抽取和 LLM 提取链路明确分离:先用 @mozilla/readability 做 HTML 清洗(src/lib/utils/reader.ts 的 read 会注入 base 标签确保相对资源正确),再把清洗后的 HTML 交给后端的 extract API(src/routes/api/extract/+server.ts)通过流式 LLM(@xsai/stream-text)生成 Markdown。这样分层设计让提取器在边缘或服务器端都能保持一致性,同时借助 shiki 的高亮缓存(src/lib/utils/highlight.ts)降低热路径的 CPU 开销,适合低延迟的 edge 部署。
参考源码:
src/routes/api/extract/+server.ts(extract API / stream handler)- https://raw.githubusercontent.com/CNSeniorious000/llm-web-reader-demo/main/src/routes/api/extract/+server.ts
src/lib/utils/reader.ts(Readability wrapper)- https://raw.githubusercontent.com/CNSeniorious000/llm-web-reader-demo/main/src/lib/utils/reader.ts
相关项目¶
- m92vyas/llm-reader:类似项目。
- firecrawl/firecrawl:API 版。
- unclecode/crawl4ai:开源爬虫。
RAG 预处理神器。