Home

腾讯裁员,裁出“财务自由”

2019年3月19早上8点,手机里突然弹出腾讯裁员10%的消息,自从去年年底以来,互联网企业裁员已经不是什么新鲜事了,很多中小企业都经历了裁员风波,但是今天腾讯裁员的消息,还是挺让人惊讶的,作为互联网企业的绝对巨头,手握着QQ和微信两大社交产品,2018年收入即将突破3000亿人民币的互联网巨头,传出裁员消息,确实让人让人惊讶。 根据媒体报道,腾讯这次裁的是中层管理干部,主要包括总经理助理、副总经理和总经理。腾讯大概有将近2千多名管理干部,裁员10%,相当于200多名中层管理干部。 目前腾讯的中层管理干部大多是都有10多年的工龄,年收入在百万左右,按照n+1的补偿,一个中层管理干部在腾讯工作了15年,将获得16个月的补偿,大概100多百万,并且那些中层干部都是04到06年之间加入腾...

Read more

数据分析入门——Pandas类库基础知识

使用python进行数据分析时,经常会用Pandas类库处理数据,将数据转换成我们需要的格式。Pandas中的有两个数据结构和处理数据相关,分别是Series和DataFrame。 Series Series是一种类似于一维数组的对象,它有两个属性,value和index索引。可以像数组那样通过索引访问对应的值,它和数组有点类似也是python中的dict有点类似,数组中的索引只能是数字,而Series的索引既可以是数字类型也可以是字符类型。 创建Series对象 最简单的方式是通过list序列就可以创建Series对象 s1 = Series(['a','b','c','d']) s1 Out[16]: 0 a 1 b 2 c 3 d 没有指定索...

Read more

数据分析入门——numpy类库基础知识

numpy类库是数据分析的利器,用于高性能的科学计算和数据分析。使用python进行数据分析,numpy这个类库是必须掌握的。numpy并没有提供强大的数据分析功能,而是它提供的ndarray数据结构能够让你快速的处理海量的数据。 shape和dtype属性 ndarray是numpy的多维数组对象,是numpy类库中主要的数据结构,它有两个重要的属性,shape和dtype,shape是描述数组维度的元组,dtype用于说明数组数据类型。 data = [1,2,3,4,5] arr1 = np.array(data) arr1 Out[6]: array([1, 2, 3, 4, 5]) arr1.shape Out[7]: (5,) arr1.dtype Out[8]: d...

Read more

Python数据可视化之pyecharts实现各种统计图表

之前的一篇文章介绍了使用Matplotlib实现各种统计图表,Python数据可视化之Matplotlib实现各种图表。这篇文章就介绍使用pyecharts实现各种统计图表。 1、pyecharts介绍 Echarts是一款由百度公司开发的开源数据可视化JS库,pyecharts是一款使用python调用echarts生成数据可视化的类库,可实现柱状图,折线图,饼状图,地图等统计图表。 2、柱状图 适用场合是二维数据集(每个数据点包括两个值x和y),但只有一个维度需要比较,用于显示一段时间内的数据变化或显示各项之间的比较情况。 优点: 利用柱子的高度,反映数据的差异,肉眼对高度差异很敏感。 缺点: 只适用中小规模的数据集。 柱状图最基本用法 from pyecharts i...

Read more

中国社交产品之战

2019年1月15日,中国社交产品出现3英战吕布的局面,三个社交产品的发布时间分别是早上的马桶、中午的多闪,晚上的聊天宝。拥有10亿用户的社交老大微信稳坐钓鱼台,没有一丝慌乱,来一个封杀一个,毫不手软。只见三英在网络上不停的喊话微信,但是微信根本就尿他们,你发布你的,我封杀我的。 首先出场的是原快播的创始人王欣,带来的社交产品是马桶MT,主打熟人匿名社交,在14号晚上,马桶MT开始在微信上造势,当我开始准备下载试用的时候,微信已经屏蔽了马桶MT的下载链接。开始挺看好王欣的社交产品的,毕竟他的快播曾经陪伴了亿万宅男的无数个日日夜夜以及留下满地的纸巾。他入狱后很多人宅男在微博上留言“我们欠王总一个会员”。 遭到微信的屏蔽之后,王欣在微博上发声: 说说马桶吧,界面和功能设计还是...

Read more

Python数据可视化之Matplotlib实现各种图表

数据分析就是将数据以各种图表的形式展现给领导,供领导做决策用,因此熟练掌握饼图、柱状图、线图等图表制作是一个数据分析师必备的技能。Python有两个比较出色的图表制作框架,分别是Matplotlib和Pyechart。本文主要讲述使用Matplotlib制作各种数据图表。 Matplotlib是最流行的用于绘制2D数据图表的Python库,能够在各种平台上使用,可以绘制散点图、柱状图、饼图等。 1、柱状图 是一种以长方形或长方体的高度为变量的表达图形的统计报告图,由一系列高度不等的纵向条纹表示数据分布的情况,用来比较两个或以上的价值(不同时间或者不同条件),只有一个变量,通常利用于较小的数据集分析。柱状图可以用来比较数据之间的多少,可以用来观察某一事件的变化趋势,柱状图亦可横向排...

Read more

抓取某东的TT购买记录之后,我发现...

最近学习了一些爬虫技术,想做个小项目检验下自己的学习成果,在逛某东的时候,突然给我推荐一个TT的产品,点击进去浏览一番之后就产生了抓取TT产品,然后进行数据分析,看下那个品牌的TT卖得最好。 本文通过selenium抓取TT信息,存入到mongodb数据库中。 抓取TT产品信息 TT产品页面的连接是https://list.jd.com/list.html?cat=9192,9196,1502&page=1&sort=sort_totalsales15_desc&trans=1&JL=6_0_0#J_main。 上面有个page参数,表示第几页。改变这个参数就可以爬取到不同页面的TT产品。 通过开发者工具看下如果抓取TT的产品信息,例如名字、品牌...

Read more

pycharm创建scrapy项目教程及遇到的坑

最近学习scrapy爬虫框架,在使用pycharm安装scrapy类库及创建scrapy项目时花费了好长的时间,遇到各种坑,根据网上的各种教程,花费了一晚上的时间,终于成功,其中也踩了一些坑,现在整理下相关教程,希望帮助那些遇到和我一样问题的码农。 1、环境 操作系统:windows10。 python版本:python3.7,必须使用Anaconda,目前是Anaconda5.3.1。下载地址:https://www.anaconda.com/download/。 下载64位的安装包。scrapy依赖的类库比较多,使用Anaconda会将相关的依赖的类库都安装好,并且版本保持一致。 pycharm:pycharm2018。 2、安装Anaconda 安装好Anac...

Read more

一起学爬虫——一步一步打造爬虫代理池

最近在使用爬虫爬取数据时,经常会返回403代码,大致意思是该IP访问过于频繁,被限制访问。限制IP访问网站最常用的反爬手段了,其实破解也很容易,就是在爬取网站是使用代理即可,这个IP被限制了,就使用其他的IP。对于高大上的公司来说,他们基本都使用收费的代理,基本不会有什么问题,比较稳定。像我这样的矮矬穷,肯定是用不起收费的代理。一般都是使用国内免费的代理,网上也有很多提供免费的代理。 很多人都是从网上爬取一批免费的代理IP,存放在存储媒介中,例如excel文件或者数据库。定时维护代理,保证代理可用。这个做法有个缺点,有些机器上并没有装有excel或者mysql、redis等数据库,这就导致了的代理池无法正常使用。 我之前是做java开发的,经常会把一些常用的数据放在ArrayLis...

Read more

一起学爬虫——使用selenium和pyquery爬取京东商品列表

今天一起学起使用selenium和pyquery爬取京东的商品列表。本文的所有代码是在pycharm IDE中完成的,操作系统window 10。 1、准备工作 安装pyquery和selenium类库。依次点击file->settings,会弹出如下的界面: 然后依次点击:project->project Interpreter->”+”,,如上图的红色框所示。然后会弹出下面的界面: 输入selenium,在结果列表中选中“selenium”,点击“install package”按钮安装selenium类库。pyquery也是一样的安装方法。 安装chrome和chrome driver插件。chrome dirver插件下载地址:http://npm...

Read more