知乎核心用户大数据报告
【摘要】最近写了个爬虫,将知乎 3W 核心用户的公开资料爬了下来。虽然知乎声称注册用户有 6500 万,日活跃用户有 1850 万,但其中很大一部分
我的爬虫规则是这样的:从关注量上万的知乎大 V 中随机抽取 10 个作为种子,依次爬取其关注的人,再从其关注的人爬取关注的人的关注的人,如此递归。也就是说爬虫的规则保证了进入数据库的每一个人至少有一个关注者。以下的数据分析均来自于爬虫所得到的资料,所以要是报道上面出了偏差,还请大家见谅。
首先是对知乎用户的职业描述进行词云分析,列出前一百的高频词,结果如下。
在职业描述中进行高频词分析,“互联网”以 4552 次频率完胜,然后是”大学“紧随其后,其频率是 2163 。这和我们平时所看到的互联网从业者和名校学生占领内容输出的主力一致。这一百个高频词也囊括了知乎用户的兴趣,居住地等信息,不过这些我们以后还会仔细分析。
我们先来看看知乎的各种“最”。最高赞同数,最多关注者,写得最多答案,分别是哪些呢?
首先是最高赞同数的排行榜。
在赞同数上面, @张佳玮 老师以一己之力超越了第二名一倍不止,可谓是稳拿的冠军。然后前五名是 @肥肥猫 ,@朱炫 ,@唐缺 ,@马前卒 。轮子哥排在了第六名。
然后我们来看最多关注者排行榜。
在关注者排行榜上, @张佳玮 老师还是遥遥领先于 @李开复 老师。再往后走就是知乎的大佬 @黄继新 和 @周源 ,再往后是 @yolfilm 。
我们再来看写的答案最多排行榜。
@Phil 以极高的产量勇夺答案数最高 Top1,而素有”轮带逛“之称的 @vczh 只能屈居第二。排行前五的有 @王若枫 、@柴健翌 、@zhen-liang 等大 V 。
再来看看提问最多排行榜。
@David Chang 以 2684 个提问排行第一,以未来知识图谱闻名的 @图灵Don 排行第二。排行前五的还有 @歆盐 , @程瀚 、 @张亮 。
然后是 BAT 三厂的员工数量比较,这个比较基于爬取到的的用户职业描述词频进行统计。
可以看到鹅厂员工在知乎比例最高,阿里次之(词频: 0.004554 ),熊厂稍稍落后。
都说知乎是 985 / 211 满天飞的地方,那么清北复交浙到底哪家强呢?
可以看到北京大学和清华大学的词频不相上下,后面那三位还需加把劲啊。
在移动智能时代,Android 、iOS 、WEB 前端工程师在当今软件开发中简直大放异彩。那么知乎哪一种程序员最多呢?
结果是前端词频远高于 Android 和 iOS ,其实差那么一点点就是 Android 和 iOS 的和了。这么说吧,你可能是坚定乔布斯 less is more 信念的果粉,也可能是拥抱开源的 Android 粉,可是所有人都需要浏览网页,不是吗:)
然后我还比较好奇知乎用户的普遍兴趣爱好是什么。
结果发现健身独占鳌头般占领榜首。看来知乎上还是普遍推崇健身提高颜值提高自身吸引力。可是为什么阅读的比例是最底的呢?为此我只能假设知乎上的同学学习效率都比较高,在完成基本的阅读任务后去了另外的领域探索更大的世界。又或者说阅读,相对于旅游健身摄影来说,对于提升自身的价值性价比并不是很高,因而大家更倾向于去健身房,去旅游,去拍照吧。
知乎用户地域分布。
词频集中分布在北上广深杭四川浙江江苏等地方。和个人的主观印象是相似的。毕竟以上颜色较深的都是互联网行业比较发达的省份。
然后就是大家最关心的知乎男女比例问题了。
在爬到的用户数据中,男性比例占了67.8%,女性只占了32.2%。也就是说男女比例比2:1还要大。
看到这里,你可能会反驳我说知乎初始用户的性别就是男性啊,这样子搞个大新闻是不行的。我也觉得挺有道理的,于是进一步筛选了核心中的核心部分用户,筛选条件为粉丝数大于200且赞同数大于400的用户,这下采样应该准确了吧。然后有了下图。
女性的比例降到了30.1%,男性比例相应为69.9%。这个数据比之前的数据更为不平衡。所以说女性用户在知乎更为稀缺,也显得更为珍贵。
所以,与其说知乎是一个高质量的问答社区,还不如说:
上一篇:excel表格基本操作之从零开始学习
下一篇:你需要的不是大数据 而是正确的数据
就业培训申请领取
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群
数据分析师相关文章推荐
|数据分析师最新文章推荐
最新文章
数据分析师各地入口
环球青藤官方微信服务平台
刷题看课 APP下载
免费直播 一键购课
代报名等人工服务
数据分析师热点排行
- 1 传统数据和大数据的区别
- 2 数据分析的8种方法都是哪些?
- 3 数据分析的具体流程是什么?
- 4 3大常用的数据分析工具是什么?
- 5 excel中的运算符
- 6 数据分析的作用有哪些?
- 7 电子商务需要分析哪些数据?
- 8 数据分析包括哪些内容?
- 9 数据分析的基本步骤
- 10 rdd是什么?