python
爬虫训练营
提供爬虫代码、海量爬虫数据
.10.6-7
大数据时代,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中,网络数据成为各领域学者亟待挖掘的宝库。
对于以经管为代表的人文社科类科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两大问题,即:
(1)从网络世界中高效地采集、整理目标数据。
(2)从纷杂的大数据中获取有价值信息,得到别人所得不到的第一手数据。
为了解决各位学术同仁掌握爬虫技术的需要,皮皮侠经过精心地准备,在中秋佳节之际,推出科研爬虫训练营!让大家节假日也可以在家充电!
课程特色
1)课程内容对新手友好,一定程度上课程内容是自包含的,就算是萌新也能快速上手!
2)掌握自动生成爬虫代码工具(postman)。
3)非结构化数据获取和结构化数据获取。
4)详细介绍多渠道获取数据的方式,以网页端数据和小程序数据为例。
5)详细介绍如何通过数据接口逻辑漏洞获取数据。
6)详细介绍多种反爬技巧,以如何避开网站登录以及selenium半自动爬取为主要内容。
7)以实践案例为引导。在例子中穿插爬虫理论,边用边学,学以致用。
8)详细介绍爬虫应用中的前沿工具,如fiddler。
讲师介绍:
刘航远
python开发大牛-7年从业经验
项目经历:
北京国务院发展研究中心
-大数据平台开发
北京国研网信息股份有限公司
-船讯港口数据库
-工商企业数据库
-全球顶尖智库
宁波三星医疗电气股份有限公司
-新闻资讯数据库-国内外电商数据智能分析系统-国家电网数据库......课程大纲
课程目标
科研数据的顶端也是学术的顶端。
从0到1学会Python爬虫:掌握爬虫基本理论,理解并能够熟练运用Python相关的爬虫库,并且能够用于经管研究的数据采集工作。(对于没接触Python的人,附赠6学时Python基础课)扩展实证研究数据视野:手把手全面的案例教学,以爬虫技术获取Web大数据,让一切Web数据触手可及,扩宽社科实证研究范围,让实证研究在数据、方法和视角上具有突破和创新。多渠道寻找数据的能力:教会如何获取数据的途径和方法,多渠道多工具精准寻找数据接口。掌握如何检测接口的可用性以及如何寻找接口漏洞获取尽可能多的纬度数据。掌握前沿爬虫方法,并学会使用数据库存储爬虫数据。课程基础
?IDE编辑器:pycharm的应用
?爬虫涉及相关Python库介绍
?请求库:request
?解析库:lxml、scrapy.Selector
?数据解析:xpath语法
?调试工具:xpathhelper插件介绍
?数据存储:excel/csv,文档数据库mongodb
?抓包方式介绍:浏览器开发者工具
?抓包工具介绍:fiddler
?爬虫工具的介绍:selenium
实战案例,提供代码和爬取数据
一、糗事百科:以此案例系统讲授python爬虫的理论和具体操作,涉及到文本数据和非结构化数据的处理,网站: