找回密码
 立即注册
搜索
查看: 332|回复: 0

DeepSeek新专利公布,可减少数据采集时网络资源消耗

[复制链接]

4

主题

0

回帖

12

积分

新手上路

积分
12
发表于 2025-4-2 10:06:16 来自手机 | 显示全部楼层 |阅读模式
国家知识产权局官网显示,4月1日,DeepSeek关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利公布。
摘要显示,本发明涉及数据采集领域,尤其涉及一种广度数据采集的方法及其系统,包括:建立网页元信息库;确定每日调度单元下载配额及当日下载总额度;从网页元信息库中选取相应数量的链接,分配下载额度;下载过程控制;下载文本进行后处理及数据清洗后进入回灌队列,通过信息回灌实现网页元信息库更新。本发明的有益效果在于:发现尽可能多的网页链接,并减少对网站的流量冲击;对已经下载的内容进行分析,对未下载的连接进行质量推断,通过择优下载分配额度的方式,减少低质量网页下载和重复下载,提高数据质量及下载效率,减少在数据采集过程中网络资源的消耗;采用单独的信息回灌队列,保证网页元信息库修改操作的原子性和稳定性。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|商标论坛 ( 正在备案中|公安备案中 )

GMT+8, 2025-7-12 07:26 , Processed in 0.153360 second(s), 27 queries .

Powered by 商标转让平台

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表