如何在Ubuntu上安装Anaconda:数据科学家的逐步指南
Anaconda是一个用于机器学习、数据科学和集成开发环境的Python发行版。然而,它的功能不仅限于Python。
它支持开源库,如TensorFlow、PyTorch、SciPy、scikit-learn等,这些库用于数据科学和machine learning。
让我们来看看由Anaconda支持并用于科学计算的一些开源工具:
- OpenCV – 它是一个用于C++、Java和Python的计算机视觉和机器学习库,支持所有主要操作系统。
- Tensorflow – 一种端到端的机器学习平台,用于训练Java、C++、Javascript和Python的ML models。
- Bokeh – 它是一个用于Web浏览器的数据可视化库,提供工具和小部件来更好地可视化数据的细节。
- Spyder – 这是一个与Anaconda捆绑在一起的IDE,为数据科学家和机器学习人员提供了一个完整的开发生态系统。
- Conda – 它还提供了一个名为conda的软件包管理器,用于管理和安装各种编程语言的软件包,如Python、R和Julia。Python如果独立安装,则包含一个名为pip的软件包管理器,它是conda的替代品。pip软件包管理器从Python软件包索引下载软件包 —— 这类似于npm,但用于Python。
Anaconda的用途
使Anaconda强大的是它对各种可以用于以下领域的软件包的支持:
图像处理
借助对OpenCV和scikit-image等库的支持,Anaconda证明是一个用于image processing和计算机视觉项目的高效软件包。可以使用这些开源库进行图像操作、分析、处理、清理、恢复等等。
数据分析
Anaconda的强大库和工具生态系统可用于数据操作、预处理,并为数据提供有用的洞察。
类似Pandas和Numpy的库使得数据科学家能够以结构化和可控的方式分析、清理和操作数据。
数据可视化
Anaconda项目Holoviz是一个基于Python的数据可视化工具,包括Panel、hvPlot、Datashader等大量Python包,使数据可视化更加强大和准确。
数据可视化在通过数据直观传达思想和概念方面非常有帮助。有效的可视化通过传达数据中的模式,有助于改进决策。
机器学习
Tensorflow、Pytorch和scikit-learn是Anaconda提供的用于机器学习相关项目的库。
自然语言处理
对于自然语言处理学者和开发人员,Anaconda提供了一个适合尝试各种算法和策略的环境。Anaconda支持的NLP库有NTLK、gensim和spaCy。
因此,总结一下,Anaconda是一个包含在数据科学和机器学习中有用的工具和库的捆绑软件或发行版。
说到这里,让我们来看一下Anaconda的安装过程。
安装Anaconda
先决条件
至少5GB的磁盘空间
Anaconda可以通过下载一个安装器(实际上是一个bash脚本)、验证哈希值并运行它来进行安装。
#1. 下载脚本
您可以从Anaconda的官方网站下载并执行它。但是,如果您想下载旧版本,可以使用'curl'来完成。您可以在此处找到所有Anaconda版本的bash脚本。
curl https://repo.anaconda.com/archive/Anaconda3-2023.03-1-Linux-x86_64.sh
#2. 验证sha256哈希值
完成后,您必须根据链接上列出的哈希值验证文件的哈希值。验证哈希值非常重要,以确保文件没有被篡改,并防止恶意脚本在您的系统上执行。
为此,您需要bash脚本的文件名。您可以使用'ls'命令获取脚本的文件名。
使用以下命令获取哈希值:
sha256sum your_bash_script_filename
将您收到的哈希值与链接上为特定安装类型列出的哈希值进行验证。如果相匹配,您就可以继续了!
#3. 执行bash脚本
接下来,使用以下命令运行bash脚本:
bash bash_script_name.sh
然后,您将被提示同意许可和协议。输入“yes”继续。之后,它将询问您验证安装位置。
安装现在将开始。安装成功后,您将收到一条消息,初始化conda使用conda init。如果要进行初始化,请输入“yes”。
#4. 激活Anaconda
如果您希望以后激活Anaconda,可以使用以下命令:
source /bin/activate
然后运行conda init。之后,您需要重新启动终端。
#5. 将路径添加到Anaconda安装
此外,如果您选择在安装时不初始化conda,则可以手动添加Anaconda安装路径。您可以通过在您的~/.bashrc
文件中添加以下行来实现这一点。只需将替换为实际的安装路径。
export PATH=/bin:$PATH
就这样;您已成功在Ubuntu上安装了Anaconda!您可以使用以下步骤验证安装。
#6. 验证安装
重新启动终端并键入conda list
。此命令将列出当前在您的系统上安装的所有软件包。
conda list
或者,您可以验证由Anaconda安装的Python版本。
python --version
设置环境
Anaconda中的环境是一种隔离不同Python和其他特定项目所需软件包安装的好方法。每个环境就像一个独立的盒子,有自己的Python版本和一组相关的软件包。
创建环境
当您首次激活Anaconda时,您位于base
环境中,可以通过终端路径前的(base)
关键字进行识别。
要创建一个新的环境,请使用以下命令,并将<>
替换为您想要识别此环境的名称:
conda create --name <>
在环境创建过程中,您将看到以下输出。
要使用特定环境,您需要运行conda activate <>
,其中<
为环境的名称。
您应该在终端路径之前看到环境的名称。
使用软件包创建环境
在创建环境的同时,您还可以指定在该环境中使用的Python版本。
conda create --name <> python=<>
如果您想使用最新版本的Python,只需执行以下操作:
conda create --name <> python
列出所有环境
要列出所有环境,请在终端中指定以下命令:
conda env list
最后的话
Anaconda已被证明对于科学计算非常有益,因为它提供了环境管理、预安装的软件包和完整的开发人员友好的生态系统。
数据科学家和研究人员可以受益于它,只需专注于数据分析和研究,而无需担心软件的技术细节。
想要进入数据科学和机器学习领域吗?这里有一些resources for Data Science and Machine Learning,这些资源将帮助您开始您的学习之旅。