35个好用的数据科学 Python 库

  • 帮助数据科学爱好者找到需要的东西

Python是一种解释型的通用编程语言,它被广泛用于网络开发、桌面应用开发、系统脚本和自动化。它是一种高级语言,由 Guido van Rossum 于1991年初创建,并由 Python 软件基金会维护。

该语言很容易学习,这使得它非常适合初学者。它还可以在不同的平台和操作系统上工作,如 Windows、Linux、macOS 和 Raspberry Pi。

Python 可以用函数式、面向对象或程序式的方式来处理。

目前最活跃的 Python 版本是 Python 3。然而,一些应用程序和框架仍在使用 Python 2.7。

近年来,由于其可用性和丰富的生态系统,它在数据科学家和数据工程师中得到了普及。

python 生态系统包含许多简化数据科学任务的软件包、库和框架。

📌 在我们的图书推介页面上搜索 “Python” ,或点击此链接,可以找到很多书籍和资料。完全免费,无需登录。

适用于数据科学的 Python

本文整理了一些用于刮取、数据操纵、机器学习、深度学习、统计和数据可视化的库。首要目标是创建一个列表,以帮助数据科学爱好者找到需要的东西。

1、Data-tools

Data-tools 是一个用 Python 编写的命令行工具,用于数据提取、数据操作和文件格式转换。

它具有日期转换、多种文件格式、加入数据、数据修剪、支持 utf-8、数据排序等功能。

—— 安装 data-tools.

2、Pandas

Pandas 是流行的 Python 库,用于数据分析和数据处理。大多数数据科学家和工程师都使用它。Pandas 的学习曲线平坦,对于初学者来说会很容易。

-—— 下载和学习 Pandas.

3、Scrapy

Scrapy 是一个基于 Python 编写的Web抓取框架。它可以帮助开发人员和数据工程师从网页中提取结构性数据。

—— 获得 Scrapy

4、BeautifulSoup

BeautifulSoup 是一个Python库,用于从HTML和XML文件提取数据。它支持多个解析器,例如 lxml,html5lib,Python 的HTML解析器。

—— 下载和安装 BeautifulSoup.

5、NumPy

NumPy 是Python的一个科学计算库。NumPy 有几十个有用的数学计算函数,并提供 C/C++和 Fortran 代码集成。

NumPy 拥有丰富的子库生态系统和庞大的开发者社区。它已被广泛用于数据科学、机器学习、数据可视化和数据操作。

—— 下载和安装 NumPy

6、SciPy

SciPy 是一个建立在 NumPy 之上的数学、统计和科学Python库。SciPy 提供N维数组的无缝操作。

—— 获取 SciPy

7、Keras

Keras 是一个Python的深度学习库。它易于学习,有一个庞大的开发者和数据科学家社区,为它提供教程和代码样本。

—— 获得 Keras

8、PyTorch

PyTorch 是一个用于张量计算和深度神经网络的重要Python库。PyTorch 可以在需要的时候用其他Python库进行扩展,比如 NumPy、SciPy 等。

PyTorch 提供了无缝的GPU支持,它可以在 Linux、Windows 和 macOS 上运行。

—— 获得 PyTorch.

9、TensorFlow

TensorFlow 是一个机器学习的开源平台。它有一个庞大的生态系统,由大量的数据科学家和工程师社区支持。TensorFlow 支持启用 CUDA 的 GPU,它还提供了一个只支持CPU的包 tensorflow-cpu.

 pip install tensorflow

—— 安装 TensorFlow

10、statsmodels

statsmodels 是一个Python模块,包含了多个统计模型,用于统计数据分析或探索。它是一个开源库,以BSD (3-clause) 许可发布。

statsmodels 可以和其他库如 NumPy、SciPy 和 pandas 一起工作。它还支持R式公式和pandas数据框架。

—— 获得 statsmodels

11、Seaborn

Seaborn 是一个基于 Matplotlib 的丰富的数据可视化库。它没有 matplotlib 那么难学,并且为所有 matplotlib 函数提供了一个高端接口,并提供了额外的工具。

—— 下载 Seaborn

12、Matplotlib

Matplotlib 是Python的一个流行的可视化库。它提供了不同的分布和测试数据集。Matplotlib 很容易安装在 Linux上(Debian,Fedora,Red Hat 和 Arch)。它也可以安装在 PyPi,ActiveState 和 Anaconda 上。

该库依赖于几个Python库,如 NumPy、Cycler、pyparsing,并且需要 Python >=3.6 才能工作。

—— 安装 Matplotlib

13、Bokeh

Bokeh 是一个专门针对Web浏览器呈现功能的交互式可视化Python库。这是 Bokeh 与其它可视化库最核心的区别。Bokeh 提供了强大而灵活的功能,使其操作简单并高度定制化。

Bokeh 提供了开箱即用的Geo数据和地图可视化、交互式注释、命令行界面和完整的 Jupyter 集成。

Bokeh 内置了WebGL加速和 JavaScript 开发支持。

—— 下载 Bokeh

14、Pingouin

Pingouin 是一个Python 3的开源统计包。它是 Pandas 和 NumPy 的一个接口。它很容易学习,并且包含了许多统计测试和绘图函数。

—— 获得 Pingouin

15、tick

tick 是一个轻量级的Python机器学习库,它由多个模块组成,专注于时间相关系统的统计学习。

该库有几个内置的工具和助手,用于模拟、线性计算、参数和非参数估计的 Hawkes 处理、一个绘图助手、一个数据集和R集成支持。

—— 获得 Python tick

16、GrasPy / graspologic

该软件包由约翰霍普金斯大学的 NeuroData 实验室和 Microsoft Research 的 Project Essex 编写。它是用于图形或网络分析的开源项目。

—— 安装 GrasPy

17、Scikit-Learn

Scikit-Learn 是一个基于Python的数据分析框架。它建立在 NumPy matplotlib 和 SciPy 之上。

Scikit-Learn 包含了数十种算法和工具,使预测性数据分析变得更加容易。

—— 获得 Scikit-learn

18、Plotly’s Python

Plotly’s 是一个数据可视化库,可以轻松构建交互式图表。它作为一个开源项目可以免费使用,并且可以流畅地离线工作。它还可以和 Plotly’s dash 一起使用,后者同样是在MIT许可下授权的。

—— 获得 Plotly for Python

19、TinyDB

有时需要一个本地平文件数据库来保存数据。 TinyDB 是一个轻量级的平文件本地数据库。它可以作为一个面向文档的数据库来处理大型数据集。

—— 下载和安装 TinyDB

20、Theano

Theano 是一个用于数据处理和分析的轻量级Python库,它提供了动态C代码生成和全GPU支持。它有一个类似于 NumPy 的接口。

Theano 项目在GitHub上受到数据科学家和学生的欢迎。

—— 获得 Theano

21、PyBrain

PyBrain 是一个用 Python 编写的模块化机器学习库。

—— 安装 PyBrain

22、Gensim

Gensim 是一个免费的Python库,用于数据处理、训练大型规模的NLP模型、数据流和文本分析。它依赖于 NumPy 和 smart_open 库。

Gensim 需要 Python 3.6 或更高版本。

—— 获得 Gensim

23、Shogun

Shogun 是一个古老的机器学习开源库。它支持多种编程语言,主要有 Python, R, Java, Scala, Ruby 和 Lua.

它是基于 GPL v3.0 的开源项目。

—— 获得 Shogun

24、ArcGIS

ArcGIS 是一组Python库,用于处理、操作和可视化地理数据,自动化空间工作流,执行高级空间分析,并为空间机器学习和深度学习建立模型。

—— 安装 ArcGIS

25、PyCaret

PyCaret 是一个用Python编写的低代码机器学习库。它的目标是通过其易用性促进生产力。它有完善的文档,并有多个教程和代码样本。

—— PyCaret

26、Open Mining

OpenMining 是由Python编写的商务智能应用服务器,为商务智能中大数据的处理提供了便捷的操作,以此来提高用户挖掘商业情报的效率。

它不是一个简单的库,而是一个完整的数据挖掘应用开发套件。

它需要 Python 2.7、Lua5.2、MongoDB、Redis 和 NodeJS(NPM)。

—— Open Mining

27、jsonschema

jsonschema 是一个Python的JSON实现,它支持 Draft7、6、4和 Draft3。它提供了懒惰验证和程序化查询。

—— 安装 jsonschema

28、Volupuous

Volupuous 是一个Python的数据验证库,可以帮助验证 JSON,Yaml,CSV 和 TSV 文件的数据。它的建立是为了支持复杂的数据结构。

—— 下载 Volupuous

29、pickleDB

pickleDB 是一个轻量级且简单的键值存储。 它基于 Python 的 simplejson 模块,受 redis 启发。它可能会在保存或记录数据的过程中派上用场。

—— 获得 pickleDB

30、Caffe Deep Learning

Caffe 是一个用Python 3编写的深度学习框架。它提供了速度和模块化。Caffe 有定制的发行版:Intel Caffe;针对英特尔和Xeon处理器的CPU优化版本,针对AMD或英特尔处理器的 OpenCL Caffe 和针对Windows机器的 Windows Caffe。

它是由伯克利人工智能研究中心(BAIR)/伯克利视觉与学习中心(BVLC)和社区贡献者开发的。

—— 获得 Caffe

31、Toolz

Toolz 是 Python 中的一个功能库,它带有一组用于函数、字典和迭代器的实用程序。

—— 下载 Toolz

32、fn.py

fn.py 是一个小小的函数式编程Python库。它包含了几十个工具,可以加快项目的开发速度,尤其是数据科学方面的开发。

—— 获得 fn.py

33、Graph-tool

Graph-tool 是Python的一个高级可视化模块。它包含了几十个函数和算法来构建多功能的交互式图表。

—— 获得 Graph-tool

34、Pydot

Pydot 是一个Python可视化库,作为 Graphviz 的接口,它的依赖性有限,完全用Python编写。

—— 获得 Pydot

35、pytablewriter

pytablewriter 是一个开源的Python库,用于编写多种不同格式的数据表。它支持 CSV、TSV、JSON、LTSV、LaTeX、markdown、MediaWiki、TOML 和 YAML。

它还支持二进制文件格式,如 Microsoft Excel(xlsx,xls),SQLite 数据库和 pandas.DataFrame。

—— 获得 pytablewriter

总是会有新的东西出现。如果您发现或创建一个新的数据科学相关的库,欢迎留言。⚪️

35 Data Science Python Libraries for Scientists

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据