# 爬虫

在 Crawlab 中,爬虫是网络爬虫程序的基本单位。您可以将其看作一个爬虫软件项目,它由代码文件组成,例如 Scrapy 项目。请注意,这里提到的 项目 与 Crawlab 中的基础概念 项目 是不同的。

注意

爬虫 这个概念在 Crawlab 非常重要,因此我们强烈推荐您仔细阅读这一章节。

# 典型流程

以下是用户在 Crawlab 操作爬虫的典型流程。

uml diagram

# 创建爬虫

  1. 导航到 Spiders 页面,再点击左上方的 New Spider 按钮
  2. 输入 NameCommand 等相关信息
  3. 点击 Confirm

# 上传爬虫

有几种上传爬虫文件的方式。

# 上传目录

  1. 导航到爬虫详情页
  2. 点击 文件 标签
  3. 点击导航条上的 上传文件 按钮
  4. 选择 目录
  5. 点击 点击选择目录上传
  6. 选择爬虫文件所在目录
  7. 点击 确认

# 上传文件

  1. 导航到爬虫详情页
  2. 点击 文件 标签
  3. 点击导航条上的 上传文件 按钮
  4. 选择 文件
  5. 拖拽爬虫文件到放置区,或直接点击放置区并选择爬虫文件
  6. 点击 确认

# 上传文件 (拖拽)

  1. 导航到爬虫详情页
  2. 点击 文件 标签
  3. 拖拽爬虫文件或目录到左侧导航栏的目录里

# 运行爬虫

您可以根据以下步骤来运行爬虫

  1. 如果您在爬虫详情页,点击导航条上名为 运行 的播放按钮
  2. 如果您在 爬虫列表 页面,点击右侧名为 运行 的播放按钮
  3. 选择合适的爬虫运行设置
  4. 点击 确认

之类是爬虫运行设置的解释。

  • 执行命令: 将被实际运行的 cmd/bash/shell 基础命令
  • 执行参数: 被传入 执行命令 的参数
  • 模式: 运行模式,默认为 随机节点.
  • 优先级: 任务优先级,默认为 5

# 实体关系

uml diagram