下面是小编为大家整理的互联网信息采集系统设计与实现,供大家参考。
互联网信息采集系统的设计与实现
[摘
要] 互联网信息采集系统实现了在庞大的互联网数据中抓取特定网域的有价值的结构性数据,能够降低对目标数据的获取成本,提高数据分析人员的工作效率。针对问答社区知乎的用户信息抓取,文章首先对互联网信息采集系统的组成,运行原理,关键性技术进行了深入分析,明确了系统的可行性和用户需求;其次,以面向对象的程序设计思想为准则,提出了系统整体的设计思路,给出了系统的功能模块设计、业务流程设计和数据库设计,并对数据分析、数据抓取、数据存储、数据可视化等核心功能的实现进行了详细论述。最后,给出全文的工作总结,并对今后的工作方向进行了展望。
[关键词] Python;Scrapy;Spider;网络爬虫;信息采集
Design and Implementation of the Internet Information Collection System
Abstract: The data acquisition system of internet makes it possible to grab valuable structure data with special domain from extremely large datasets, reduce the cost of collecting target data and improve the work efficiency of data analysts. According to the user information collected from Q&A community----Quaro, the thesis firstly analyzes the constitutions, operational principles and core technologies of internet data acquisition system, makes the feasibility of work and true demand of consumers clear. Secondly, this thesis takes object-oriented program design as the principle, puts forward a systematic and integral design thought, and gives systematic design of functional module, design of business process and design of data base. Besides, this thesis gives a detailed description of the core functions such as data analysis, data crawling, data storage and data visualization. Finally, this thesis draws a conclusion and gives an outlook for further work. Key words:
python; scrapy; spider; web crawler; information collection
目
录
1 绪论 ........................................................................................................................................ 1 1.1
课题概要
.................................................................................................................................... 1 1.1.1 课题背景 .................................................................................................................. 1 1.1.2 爬虫技术 .................................................................................................................. 1 1.2
论文结构
.................................................................................................................................... 2 1.3
本章小结
.................................................................................................................................... 3 2 相关技术和工具介绍 ............................................................................................................ 3 2.1
相关技术简介
........................................................................................................................... 3 2.1.1 网络爬虫概念 .......................................................................................................... 3 2.1.2 网络爬虫的构成及分类 .......................................................................................... 3 2.1.3 网络爬虫的工作原理 .............................................................................................. 4 2.1.4 网络爬虫的搜索策略 .............................................................................................. 4 2.2
本章小结
.................................................................................................................................... 6 3 需求分析 ................................................................................................................................ 6 3.1
功能需求
.................................................................................................................................... 6 3.1.1 功能清单 .................................................................................................................. 6 3.1.2 工作流 ...................................................................................................................... 7 3.2
用例分析
.................................................................................................................................... 7 3.3
性能需求
.................................................................................................................................... 8 3.4
数据分析
.................................................................................................................................... 9 3.4.1 数据字典 .................................................................................................................. 9 3.4.2 数据流图 .................................................................................................................. 9 3.5
可行性分析 .............................................................................................................................. 10 3.5.1 技术可行性分析 .................................................................................................... 10 3.5.2 操作可行性分析 .................................................................................................... 11 3.6
本章小结
.................................................................................................................................. 11 4 系统设计 .............................................................................................................................. 11 4.1
系统架构设计
......................................................................................................................... 11 4.2
功能模块设计
......................................................................................................................... 13 4.3
业务流程设计
......................................................................................................................... 13 4.3.1 网络爬虫 ................................................................................................................ 13
4.3.2 数据存储与展示 .................................................................................................... 15 4.4
数据库设计 .............................................................................................................................. 15 4.4.1 概念结构设计 ........................................................................................................ 15 4.4.2 逻辑结构设计 ........................................................................................................ 17 4.4.3 物理结构设计 ........................................................................................................ 17 4.5
本章小结
.................................................................................................................................. 18 5 系统实现 .............................................................................................................................. 18 5.1
开发平台及环境安装
............................................................................................................ 18 5.2
新建项目
.................................................................................................................................. 19 5.3
明确目标
.................................................................................................................................. 20 5.4
制作爬虫
.................................................................................................................................. 21 5.4.1 爬虫解析页面 ........................................................................................................ 21 5.4.2 爬虫获取数据 ........................................................................................................ 24 5.4.3 存储采集数据 ........................................................................................................ 25 5.4.4 采集数据可视化展示 ............................................................................................ 25 5.5
系统测试
.................................................................................................................................. 26 5.5.1 测试要求 ................................................................................................................ 26 5.5.2 测试方案 ................................................................................................................ 27 5.5.3 测试实例 ................................................................................................................ 27 5.5.4 测试结果 ................................................................................................................ 28 5.6
本章小结
.................................................................................................................................. 28 参考文献 .................................................................................................................................. 30
互联网信息采集系统的设计与实现
1
1
绪论 1.1
课题概要 1.1.1
课题背景 随着科学技术的飞速发展,互联网已经越来越多的融入到我们的工作,生活,娱乐中来。我们在体验着互联网带来的效率,便利的同时,也生产出大量的数据。从淘宝的每一个订单,到知乎的热门答问。这些数据庞大而冗杂,而且每天都在增长。如何在海量的数据中提取有效的信息呢?没错,搜索引擎,搜索引擎可以通过关键字匹配,查找网页中的对应内容并显示在用户面前,使我们可以得到有用的信息。而在搜索引擎中非常关键和基础的技术,那就是网络爬虫技术,它构成了搜索引擎的最基础部分。
俗话说知识就是力量,在这个大数据分析引领潮流的时代,也可以说信息就是力量,效率就是生产力。科学的运用专业知识从各种冗杂的海量信息,提取到对我们有用的结构化信息变得至关重要。作为一种纯面向对象的动态脚本语言,Python 已经在网络应用软件、系统配置及科学研究领域获得了广泛的使用,实现了软件开发效率和执行效率的双赢局面。而当今社会,科技的发达铸成了人们的懒惰性,利用各种机器设备做家务,利用远程监控来遥控远在千里之外的东西,总之一切事务趋于自动化。知乎爬虫系统就是基于 Python 进行开发,提取知乎用户信息,存储在数据库,然后用基于的 EChart,Django web 框架将数据可视化显示。这样对采集到的用户信息分析更加的准确,可用性更高,可视化更强,对数据对抽取和利用变的更为有效。
1.1.2
爬虫技术 网络爬虫(Web Crawler),通常被称为爬虫,是搜索引擎的重要组成部分。随着信息技术的飞速进步,作...
推荐访问:互联网信息采集系统设计与实现 互联网 采集系统 设计