跳转至

llm-web-reader

llm-web-reader-demo 是一个基于 LLM 的网页信息提取 demo。使用 Svelte 构建。

https://github.com/CNSeniorious000/llm-web-reader-demo

Tip

LLM 驱动的网页内容提取,去除噪音,输出干净 Markdown。

实现

Svelte 前端,集成 LLM 进行信息提取。

深入洞见

项目把正文抽取和 LLM 提取链路明确分离:先用 @mozilla/readability 做 HTML 清洗(src/lib/utils/reader.tsread 会注入 base 标签确保相对资源正确),再把清洗后的 HTML 交给后端的 extract API(src/routes/api/extract/+server.ts)通过流式 LLM(@xsai/stream-text)生成 Markdown。这样分层设计让提取器在边缘或服务器端都能保持一致性,同时借助 shiki 的高亮缓存(src/lib/utils/highlight.ts)降低热路径的 CPU 开销,适合低延迟的 edge 部署。

参考源码:

  • src/routes/api/extract/+server.ts(extract API / stream handler)
  • https://raw.githubusercontent.com/CNSeniorious000/llm-web-reader-demo/main/src/routes/api/extract/+server.ts
  • src/lib/utils/reader.ts(Readability wrapper)
  • https://raw.githubusercontent.com/CNSeniorious000/llm-web-reader-demo/main/src/lib/utils/reader.ts

相关项目

RAG 预处理神器。