爬取vmgirls美女图片123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960import requestsfrom lxml import etreefrom hashlib import md5import redef get_page(page): data={ "append": "list-archive", "paged": page, "action": "ajax_load_posts", "query": "25", "page": "cat" } headers = { "User- ...
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566import requestsfrom lxml import etreeimport datetimeimport random as rfrom datetime import timedeltaimport jiebafrom wordcloud import WordCloudfrom PIL import Imageimport numpy as npimport matplotlib.pyplot as pltuseragent = [ 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36', 'Mozilla/5 ...
爬取bilibili视频排行榜信息123456789101112131415161718192021222324252627282930313233343536import requestsfrom lxml import etreeimport xlwtres=requests.get("https://www.bilibili.com/ranking/all/0/0/30")html=etree.HTML(res.text)rank=html.xpath('//li[@class="rank-item"]/@data-rank')href=html.xpath('//li[@class="rank-item"]/div[2]/div[2]/a/@href')title=html.xpath('//li[@class="rank-item"]/div[2]/div[2]/a/text()')liulan=html.xpath('//li ...
1234567891011121314151617181920212223242526import requestsimport hashlibimport threadingheaders={ 'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 FS'}def downloadImg(last_id=""): res=requests.get("https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=29&gids=2&" "is_good=false&is_hot=false&page_size=20&sort_type=1&am ...
有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。
多线程介绍多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单的比喻多线程就像火车的每一节车厢,而进程则是火车。车厢离开火车是无法跑动的,同理火车也可以有多节车厢。多线程的出现就是为了提高效率。同时它的出现也带来了一些问题。更多介绍请参考:https://baike.baidu.com/item/多线程/1190404?fr=aladdin
threading模块介绍:threading模块是python中专门提供用来做多线程编程的模块。threading模块中最常用的类是Thread。以下看一个简单的多线程程序:
123456789101112131415161718192021222324252627import threadingimport time def coding(): for x in range(3): print(' ...
第1章 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
Sqoop2的最新版本是1.99.7。请注意,2与1不兼容,且特征不完整,它并不打算用于生产部署。
第2章 Sqoop原理将导入或导出命令翻译成mapreduce程序来实现。
在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。
第3章 Sqoop安装安装Sqoop的前提是已经具备Java和Hadoop的环境。
3.1 下载并解压
下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/
上传安 ...
WordCloud1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253class wordcloud.WordCloud(font_path=None, #(string)字体OTF or TTF路径,需要展现什么字体就把该字体路径+后缀名写上,如:font_path = '黑体.ttf'width=400,#(int)输出画布的宽度,默认400像素height=200,(int) #输出画布的宽度,默认200像素margin=2, #(int)画布边缘留白的空隙,默认留白空间是2像素ranks_only=None, prefer_horizontal=0.9, #(float)词语水平方向排版出现的频率,默认 0.9 ,所以词语垂直方向排版出现频率为 0.1 mask=None, #(nd-array or None) 是否使用mask(蒙板),默认不使用。若使用mask,则需提供一个二值化的mask(即只有0和1的黑白色 ...
jieba分词jieba“结巴”中文分词:做最好的 Python 中文分词组件
“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.
Scroll down for English documentation.
特点
支持四种分词模式:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本 ...
大数据
未读Git&Github1. 什么是Github GitHub 是一个面向开源及私有软件项目的托管平台,因为只支持 Git 作为唯一的版本库格式进行托管,故名 GitHub。
2. 使用Github2.1 目的借助Github托管项目代码
2.2 基本概念
仓库(Repository)仓库用来存放项目代码,每个项目对应一个仓库,多个开源项目则有多个仓库
收藏(Star)收藏项目,方便下次查看
复制克隆项目(Fork)该fork的项目时独立存在的,复制过来自己用
发起请求(Pull Request)你新增了功能,觉得不错,想和原本项目一起
关注(Watch)关注项目,当项目更新可以接收到通知
事务卡片(Issue)发现代码BUG,但是目前没有成型代码,需要讨论时用;
3. Git 安装与使用3.1 目的通过Git管理github托管项目代码
3.2 git工作区域
3.3 配置ssh远程连接1234ssh-keygen -t rsa -C "[email protected]"a、设置用户名:git config -- global u ...
搭建Hadoop高可用集群1. JDK安装12345678tar -zxvf jdk-8u161-linux-x64.tar.gz -C /export/serversmv jdk1.8.0_161/ jdk# 配置jdk系统环境变量export JAVA_HOME=/export/servers/jdkexport PATH=$PATH:$JAVA_HOME/binexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
2. Hadoop安装12345tar -zxvf hadoop2.7.4.tar.gz -C /export/servers# 配置环境变量export HADOOP_HOME=/export/servers/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
3. zookeeper安装1234567tar -zxvf zookeeper-3.4.10.tar.gz -C /export/serverscd /expor ...