Skip to content

Browse 页面读取工具

适用版本:4.0.8.1+

Browse 用于按 URL 拉取页面并提取可读文本。

1) 初始化

python
from agently.builtins.tools import Browse

browse = Browse(
    proxy=None,
    timeout=20,
    headers=None,
)

2) 提取策略(当前版本)

Browse 会优先提取主内容区域,并过滤常见噪音:

  • 主区域优先:main/article/.vp-doc/[role=main]
  • 噪音过滤:nav/aside/header/footersidebar/toc/navbar
  • 保留标签:标题、段落、列表、代码块、表格单元等

这能显著减少文档站侧边栏/导航对结果的污染。

3) 直接调用

python
import asyncio
from agently.builtins.tools import Browse

browse = Browse(timeout=20)

async def main():
    content = await browse.browse("https://agently.tech/docs/en/triggerflow/overview.html")
    print(content)

asyncio.run(main())

4) 与 Agent 组合

python
from agently import Agently
from agently.builtins.tools import Search, Browse

agent = Agently.create_agent()
search = Search(region="us-en")
browse = Browse(timeout=20)

agent.use_tools([search.search, browse.browse])

result = agent.input("什么是 Agently TriggerFlow?请先搜索再浏览来源页面").start()
print(result)

5) 返回值

  • 成功:返回提取后的文本字符串
  • 失败:返回错误字符串(包含 Can not browse ...

建议在上层执行器中把字符串错误包装为结构化错误,便于统一处理。