深入对比数据科学工具箱：Python和R语言的C/C++实现

发表评论
7,782 阅读

A+

概述

几周前，我有幸在 Scipy 大会上发表了 Civis如何使用Python和R语言的演讲。为什么要在一个Python大会上大谈R呢?这是要挑起一个Python和R语言的一场战争吗?不是的!讨论哪个语言比较好简直是浪费时间。在 Civis，我们很愉快地同时使用这两种语言，不仅仅是在我们日常工作中解决数据科学问题，也用它们来写一些其他工具。下面是我在SciPy 大会上的一些讨论。

问题现状

我们 Civis 的同事有着十分不同的学术背景。我效力的研发团队有一个物理学家、一个经济学家、两个统计学家以及一位土木工程师组成。在 Civis，每个人在数据科学上都会做一些不同内容的工作，有的领域是R比较流行，有的领域是Python比较流行，还有的一些是Matlab。在这种场景下只支持一种语言并不是一个明智的选择。迁移到一门新语言上会花费许多时间，抛开在学院或者业界多年的技能回报，允许人们使用它们所熟悉的工具可以确保大家有更高的生成效率。

另外一个我们同时使用两种语言的原因是已有的统计学工具与包。在解决数据科学问题上，我们经常遇到在某些特定管道上需要某一种特定语言。我们的调研管道是一个很好的例子。确保随机样本具有全集代表性是需要一个被称为 raking 的过程的，传统上，Python 在社会科学上并不流行，因此我们只会用R来完成这件事情。当然调查也包括了QA的全文检索，在某种程度上来说R在NLP社区上并不是很流行，因此这个部分将会由Python来完成。而分析调查数据只是我们在Civis解决问题的一个小步骤。

结合许多不同的语言来实现工作流是具有挑战性的。数据科学平台帮助我们可以提交一连串任务节点，然后交由基础设施负责独立调用每个任务节点，且前后不依赖。但是这并不是一个十分理想的情况。原因有二，其一，这样做整个任务就显得破碎化，稍有修改某个任务，往往会导致全局失败，而且任何人在这个分布式系统中所做的工作都只了解局部情况，而不知道全局情况。第二，这样做并不高效。在两个语言中切换通常需要将数据以特定格式加载到磁盘上(通常最坏的情况是csv格式)。这样不仅仅是解析成本比较高，而且还会丢失一些类型信息。

解决方案

我概述了在Civis遇到的种种问题，但是到底什么是理想的状态呢?最完美的解决方案是我们可以无缝切换工具和语言。许多熟悉Python的人喜欢用Python做数据分析，R也是类似的。事实证明这是完全有可能实现,有相当数量的项目已经开始作为跨语言工具：TensorFlow, XGBoost, 和 Stan 都在Civis被广泛运用。移植或安利一个已有的工具也是可能的，我们已经成功地完成了glmnetR包的安利。

对另一些为读者写数据科学工具的人来说,他们从一开始就考虑了这些跨语言。有一些方法可以做到这一点,但我个人最喜欢的是用C语言来写底层，然后使用各自的Python和R C api做一些绑定/封装。Python和R实际上是用C实现的,这是条阻力最小的路径。C是一门古老语言，C语言社区已经演进出了一些强大的工具链。晦涩的编译器错误消息已经成为了过去时,GCC和Clang(最流行的编译器)给友善的消息反馈(Clang网站可以看到栗子)。现在还有各种各样的“消毒液”来辅助捕获内存泄漏等常见错误或未定义的行为(llvm文档)。

案例

下面我们通过一个小例子,用C编写一个函数,使这可调用的Python和R语言。代码以及幻灯片从我的GitHub上可以找到。

Python

我们将下面的Python函数转换为C: