大数据需要学Python吗-Python常见问题-Python学习网

我很喜欢用python，用python处理数据是家常便饭，从事的工作涉及nlp，算法，推荐，数据挖掘，数据清洗，数据量级从几十k到几T

不等，我来说说吧

百万级别数据是小数据，python处理起来不成问题，python处理数据还是有些问题的

Python处理大数据的劣势：

1.python线程有gil，通俗说就是多线程的时候只能在一个核上跑，浪费了多核服务器。在一种常见的场景下是要命的：并发单元之间有巨

大的数据共享或者共用（例如大dict），多进程会导致内存吃紧，多线程则解决不了数据共享的问题，单独的写一个进程之间负责维护读

写这个数据不仅效率不高而且麻烦

2.python执行效率不高，在处理大数据的时候，效率不高，这是真的，pypy（一个jit的python解释器，可以理解成脚本语言加速执行的

东西）能够提高很大的速度，但是pypy不支持很多python经典的包，例如numpy（顺便给pypy做做广告，土豪可以捐赠一下PyPy -

Call for donations）

3.绝大部分的大公司，用java处理大数据不管是环境也好，积累也好，都会好很多。

推荐学习《python教程》

Python处理数据的优势（不是处理大数据）：

1. 异常快捷的开发速度，代码量巨少
2. 丰富的数据处理包，不管正则也好，html解析啦，xml解析啦，用起来非常方便
3. 内部类型使用成本巨低，不需要额外怎么操作（java，c++用个map都很费劲）
4. 公司中，很大量的数据处理工作工作是不需要面对非常大的数据的
5. 巨大的数据不是语言所能解决的，需要处理数据的框架（hadoop， mpi。。。。）虽然小众，但是python还是有处理大数据的框
架的，或者一些框架也支持python
6. 编码问题处理起来太太太方便了

综上所述：
1. python可以处理大数据
2. python处理大数据不一定是最优的选择
3. python和其他语言（公司主推的方式）并行使用是非常不错的选择
4. 因为开发速度，你如果经常处理数据，而且喜欢linux终端，而且经常处理不大的数据（100m一下），最好还是学一下python

大数据需要学Python吗

相关文章推荐

相关课程推荐

Python 基础入门教程

Python入门与进阶教学视频（极客学院）

python基础语法全讲解视频（马哥教育2014版）

中谷教育Python视频教程

全部评论我要评论

Python学习网