2016机器学习与自然语言处理学术全景图
【摘要】随着 2016 年结束,剑桥大学高级研究员 Marek Rei 对人工智能行业的 11 个主要会议和期刊进行了分析,它们包括 ACL、EACL、NAACL、
以下各图所用到的信息均来自网络,每份文件的机构组织信息都是由论文的 pdf 文件中获取的,并不保证完全准确。
在你看完这份分析,得出自己的结论之前,请注意一个前提:论文的质量远比数量重要,而论文质量并不在本次分析的范围内。我们的分析来源于这样一个动机:我们希望展示深度学习和机器学习领域在过去的一年里发生了什么,大公司和院校正在做什么,希望它能够为你提供一些帮助。
首先是 2016 年最活跃的 25 个机构:
卡耐基梅隆大学仅以一篇论文优势击败谷歌。2016 年,微软和斯坦福也发表 80 多篇论文。IBM、剑桥、华盛顿大学和 MIT 都抵达了 50 篇的界线。谷歌、斯坦福、MIT 以及普林斯顿大学明显关注的是机器学习领域,论文发表几乎都集中在了 NIPS 和 ICML 上。实际上,谷歌论文几乎占了 NIPS 所有论文的 10%。不过,IBM、北大、爱丁堡大学以及达姆施塔特工业大学(TU Darmstadt)显然关注的是自然语言处理应用。
接下来,看看作者个人情况。
Chris Dyer 继续他惊人的论文发表势头,2016 年共发表了 24 篇论文!我很好奇为什么 Chris 不发 NIPS 或 ICML,但他确实在每一个 NLP 会议都有一篇论文(除了 2016 没有开的 EACL)。紧跟之后的是 Yue Zhang (18)、Hinrich Schütze (15)、Timothy Baldwin (14) 和 Trevor Cohn (14)。来自哈尔滨工业大学的 Ting Liu 在 COLING 上就发了 10 篇论文。Anders S?gaard 和 Yang Liu 在 ACL 上都有 6 篇论文。
下面是 2016 年最高产的第一作者:
三位研究者发表了六篇第一作者论文,他们是 Ellie Pavlick(宾夕法尼亚大学)、Gustavo Paetzold(谢菲尔德大学)和 Zeyuan Allen-Zhu(普林斯顿大学高级研究所)。Alan Akbik(IBM)发表了 5 篇第一作者论文,还有七位研究者发表了四篇第一作者论文。
另外有 42 人发表了三篇第一作者论文,231 人发布了两篇第一作者论文。
接下来看看在时间序列上的排布,首先,在不同会议上发表的论文总数:
NIPS 一直以来每年都有一场规模很大的会议,今年看起来更是不得了。另外,COLING 今年的表现超过了预期,甚至超过了 ACL。这是自 2012 年 NAACL 和 COLING 合并以来的第一次。
下面是每个组织机构的历年来的论文数量:
在 2015 年超过微软之后,CMU 继续领跑。但是谷歌也大步跨越,几乎快追上来了。斯坦福的表现也很抢眼,后面跟着 IBM 和剑桥大学。
最后,让我们来看看个人作者:
在图上可以看到,Chris Dyer 有一条非常明显的上升曲线。其他过去五年来一直保持增长的作者:Preslav Nakov、Alessandro Moschitti、Yoshua Bengio 和 Anders S?gaard。
最后,我也决定做一张关于主题建模(topic modeling)的论文的图。首先,我提取了所有论文的纯文本,将其表征化和小写化,并移除了 stopword。接着,我使用 LDA 对其进行了处理以发现 10 个隐主题(latent topic)。然后我使用 t-SNE 可视化了最靠前的作者,并基于它们的隐主题相似度将其做成了一张二维图。最后,我手动为每一个聚类标注了一个词(根据 LDA 找到的排名最高的术语)。下面是前 50 位作者的可视化图:
我也为组织机构做了一张同样的图,但不打算用简单的单词做标记,因为重点大学会在不同的子领域发表研究。你可以自行分析这些内容:
本文经机器之心授权转载
上一篇:excel表格基本操作之从零开始学习
下一篇:美团点评数据分析师
就业培训申请领取
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群
数据分析师相关文章推荐
|数据分析师最新文章推荐
最新文章
数据分析师各地入口
环球青藤官方微信服务平台
刷题看课 APP下载
免费直播 一键购课
代报名等人工服务
数据分析师热点排行
- 1 传统数据和大数据的区别
- 2 数据分析的8种方法都是哪些?
- 3 数据分析的具体流程是什么?
- 4 3大常用的数据分析工具是什么?
- 5 excel中的运算符
- 6 数据分析的作用有哪些?
- 7 电子商务需要分析哪些数据?
- 8 数据分析包括哪些内容?
- 9 数据分析的基本步骤
- 10 rdd是什么?