Browse 页面读取工具
适用版本:4.0.8.1+
Browse 用于按 URL 拉取页面并提取可读文本。
1) 初始化
python
from agently.builtins.tools import Browse
browse = Browse(
proxy=None,
timeout=20,
headers=None,
)2) 提取策略(当前版本)
Browse 会优先提取主内容区域,并过滤常见噪音:
- 主区域优先:
main/article/.vp-doc/[role=main]等 - 噪音过滤:
nav/aside/header/footer、sidebar/toc/navbar等 - 保留标签:标题、段落、列表、代码块、表格单元等
这能显著减少文档站侧边栏/导航对结果的污染。
3) 直接调用
python
import asyncio
from agently.builtins.tools import Browse
browse = Browse(timeout=20)
async def main():
content = await browse.browse("https://agently.tech/docs/en/triggerflow/overview.html")
print(content)
asyncio.run(main())4) 与 Agent 组合
python
from agently import Agently
from agently.builtins.tools import Search, Browse
agent = Agently.create_agent()
search = Search(region="us-en")
browse = Browse(timeout=20)
agent.use_tools([search.search, browse.browse])
result = agent.input("什么是 Agently TriggerFlow?请先搜索再浏览来源页面").start()
print(result)5) 返回值
- 成功:返回提取后的文本字符串
- 失败:返回错误字符串(包含
Can not browse ...)
建议在上层执行器中把字符串错误包装为结构化错误,便于统一处理。