几周前,我在博客上写了我如何使用Git的元数据和RapLeaf的API来构建GitHub组织的人口统计资料(请参阅此处的博客文章,请单击此处查看每个组织的数据)。我还尝试过以不同的方式拦截数据,以获得每种编程语言而非组织的人口统计资料。关于开发人员使用不同编程语言的刻板印象比比皆是,我很好奇它们与现实有何关系。从各个编程语言用户群的年龄、收入、性别等基本信息入手,根据我手上已有的数据,不难做到:我用GitHub分析编程语言的构成在每个数据存储库中进行估算。例如,GitHub估计一个项目有75%使用Java语言;把他们的收入加起来;我再过滤掉获得大于100个收入数据点的编程语言。下面是收入统计,按照家庭平均收入从低到高排序:同样的数据用图表的形式展示如下:大部分排名结果大致符合我的预期:Haskell是一个非常学术化的语言,所以在收入方面并不可观;PHP是一门比较容易掌握的语言,方便非专业或初级程序员使用,所以收入相对较低Java和ActionScript算是高级语言,多用于企业软件开发,所以收入相当高富。另一方面,我对低端和高端的一些语言不是很熟悉,比如XSLT、Puppet、CoffeeScript,不知道为什么排名高低。我们也看到了使用这些数据得出结论的局限性:这些项目是开源的,不能应用于封闭程序开发者补偿;Rapleaf数据未参考总收入信息,样本可能存在偏差;我忽略了年龄、性别和其他可能导致数据分布偏斜的因素;我没有分析所有的GitHub数据存储库,用作样本的用户配置文件可能不具有代表性。综上所述,即使绝对值存在偏差,这仍然是比较不同编程语言之间相对收益差异的一个开始。英文原文:bpodgursky.wordpress.com翻译链接:http://www.36kr.com/p/205652.html
