发明专利
专利类型未知
专利状态2020111070821
专利号| 专利号 | 2020111070821 | 专利名称 | 基于MapReduce算法的web数据采集方法、系统和存储介质 |
|---|---|---|---|
| 专利类型 | 发明专利 | 国际分类 | G06F16/22(20190101),G06F16/951(20190101),G06F16/958(20190101) |
| 申请人 | 南京信息职业技术学院 | 申请地址 | 江苏省南京市栖霞区仙林大学城文澜路99号 |
| 发明人 | 董志勇 | 申请日期 | 2020-10-16 |
| 下证状态 | 未知 | 更新时间 | 2025-01-11 08:24:04 |
| 专利摘要 | 本发明公开了一种基于MapReduce算法的web数据采集方法、系统和存储介质,属于互联网数据处理技术领域,该web数据采集方法包括接收爬虫采集节点传送的网页数据经协议封装而成的数据包;解析所述数据包,对解析后的数据包进行Map操作构建哈希表;向文件导出节点发送所述哈希表,以便于文件导出节点对所述哈希表进行Reduce操作获得同一网站的汇总数据集合,并将获得的汇总数据集合导出到文件中。本发明能够借助分布式架构的微服务技术,对数据处理由不同的节点承担,并通过MapReduce算法的Map操作和Reduce操作对采集的数据进行处理,其数据结构灵活性强,数据采集效率高,采集方法部署简单和扩展性强。 | ||

| 买卖双方需提供 | 平台提供 | 转让后买方可获得 | ||
|---|---|---|---|---|
| 企业 | 个人 | 专利代理委托书 专利权转让协议 办理文件副本请求书 发明人变更声明 | 专利证书 手续合格通知书 专利登记簿副本 | |
| 买方 | 企业营业执照 企业组织机构代码证 | 身份证 | ||
| 卖方 | 企业营业执照 专利证书原件 | 身份证 专利证书原件 | ||


专利状态:已下证
专利类型:发明专利
询价
专利状态:已下证
专利类型:发明专利
询价
专利状态:已下证
专利类型:发明专利
询价
专利状态:已下证
专利类型:发明专利
询价您的咨询我们已收到,稍后会有专业顾问与您联系。