各行皆不宜,且行且珍惜 – 知乎问题《有哪些表面光鲜,实际苦逼的职业?》背后的数据

前言

有哪些表面光鲜,实际苦逼的职业?》这个问题在我的知乎 timeline 上面火了几天了,截止该文发出时该问题已经达到 4,100,000 次点击量,7844 人关注,同时共 1307 个回答。作为即将毕业的应届生,家中又有即将高考的妹妹,如何选择职业,如何选择专业,都成了心头萦绕的问题。再将每个答案都细细阅读后,作为码农想对所有答案做一个较为科学的统计,于是对该问题所有答案进行了一次爬取,截止至 8 月 15 日 10:48AM PDT 总共爬取 1058 份答案,以下所有分析数据均来自于该样本。

过程

  1. 因为数据量不大也不需要协调过程需要登录,所以直接用 phantomjs 写了个脚本,数据输出到文本文件。
  2. 写了个 Python 脚本,将每个答案分别分割成句,tokenize,POS Tagging,去掉punctuation,最后去掉 stop words。tokenize 和 POS Tagging 使用了 Jieba 库,stop words 使用了中科院语言所的表
  3. 在此基础上去掉了形容词、状语、动词、以及长度小于等于 1 的词语。
  4. 又写个 Python 脚本 word count 了一下,然后 quick sort 结束。

结果

为了简单直接,我直接采用“如果单词被提及越多次则表示越多人有此答案”的直接原则对数据进行分析,所以以下分析结果的数值均为单词 TF 值。

总体职业抱怨次数饼状图

pie_chart_1024_1024

前20名苦逼职业柱状图

top20_line_1024_102420-50名苦逼职业柱状图

20to50_line_1024_1024

 

总结

冠亚季军的角逐结果倒是很让人吃惊,像银行这种外行人看来“坐着收钱”的,以及老师这种“一年两个假期”的职业能入围前三,看来背后的辛酸估计只有他们自己知道。但是设计师普遍加班熬夜严重早已广为诟病了。排在之后的医护人员、公务员以及警察等作为最广大的与一线老百姓打交道最广的职业,也纷纷表示鸭梨山大,背后的原因值得思考。而学生、皇帝等能排在较高位置估计是灌水比较多吧,而作为程序猿的我看了看程序猿的排名,表示笑而不语,估计各位同行们正熬夜改 Bug 呢,也不会跟轮子哥一样刷知乎。

虽然有些数据结果差强人意,例如一些同职业不同名称的词语应该分为一类,由于需要 NLP 做语意分析或者需要训练模型来分类,所以暂时没有处理;以及点赞数也应该纳入 impact factor 考虑。以上坑后续慢慢再填。总的来说还是能说明一些问题,各行皆不宜,且行且珍惜。总共 3 个小时搞定,撒花!顺便求个美帝地区的码农 full-time job,码农再苦逼也不能阻止我当码农的心!

以上所有工具、数据,若侵犯使用权请予以联系删除。

欢迎转载,转载请注明出处与作者,侵权必纠。

 

 

 

Say Something