Google Colab:你需要了解的一切
Google Colab使得无法承担昂贵计算基础设施的个人研究人员能够接触数据科学、深度学习、神经网络和机器学习。
机器学习和数据科学是所有新一代计算机科学家都想精通的两项新技术。有许多在线学习课程、免费讲座和在线指南,可以在ML and data science上找到。
然而,在项目上进行实践成为一个限制,因为您需要高端PC来完成这样的工作负载。解决这个问题的答案是Google Colaboratory或Colab。继续阅读以获取Google Colab的终极评价。
什么是Google Colab?
Colab是来自Google Research的类似Jupyter Notebook的产品。Python程序开发人员可以使用此笔记本在Web浏览器中编写和执行随机的Python程序代码。
简而言之,Colab是Jupyter Notebook的云托管版本。要使用Colab,您无需安装和运行时环境,也无需升级计算机硬件以满足Python的CPU/GPU密集工作负载要求。此外,Colab还为您提供免费访问计算基础设施,如存储、内存、处理能力、图形处理单元(GPUs)和张量处理单元(TPUs)。
谷歌专门为这个基于云的Python编码工具设计,考虑了机器学习程序员、大数据分析师、数据科学家、人工智能研究人员和Python学习者的需求。
最好的部分是,一个代码笔记本包含了向程序主管或赞助商展示完整的机器学习或data science项目所需的所有组件。例如,您的Colab笔记本可以包含可执行代码、实时Python代码、富文本、HTML、LaTeX、图像、数据可视化、图表、表格等等。
Google Colab能做什么?
Google Colab只是Jupyter Notebook的在线表示。虽然Jupyter Notebook需要在计算机上安装,并且只能使用本地机器资源,但Colab是一个完整的云应用程序,用于Python编码。
您可以在Google Chrome或Mozilla Firefox的Web浏览器上使用Colab编写Python代码。您还可以在浏览器上执行这些代码,而无需任何运行时环境或命令行界面。
此外,您还可以通过添加数学方程式、图形、表格、图像和其他图形,使您的Python project笔记本具有专业外观。此外,您还可以使用Python编码数据可视化,Colab将以可视化资产渲染代码。
此外,Colab还可以从GitHub重新使用Jupyter Notebook文件。除此之外,您还可以从其他来源导入兼容的机器学习和数据科学项目。Colab高效地处理导入的资源,以显示干净且无错误的Python代码。
Google Colab的最佳特点
GPU和TPU
免费的Colab用户可以免费使用GPU和TPU运行时长达12小时。其GPU运行时配有Intel Xeon CPU @2.20 GHz、13 GB RAM、Tesla K80加速器和12 GB GDDR5 VRAM。
TPU运行时由一个Intel Xeon CPU @2.30 GHz、13 GB RAM和一个拥有180万亿次计算能力的云TPU组成。
通过Colab Pro或Pro+,您可以委托更多的CPU、TPU和GPU使用超过12小时。
笔记本共享
以前,Colab之前从未有过可访问的Python代码笔记本。现在,您可以为保存在Google驱动器上的Colab文件创建可共享的链接。现在,将链接共享给希望与您合作的协作者。此外,您还可以使用谷歌电子邮件邀请程序员与您合作。
特殊库安装
Colab允许您安装Code snippets中不可用的非Colaboratory库(AWS S3、GCP、SQL、MySQL等)。您只需添加一个一行代码,其中包含以下代码前缀:
!pip install(例如:!pip install matplotlib-venn)
!apt-get install(例如:!apt-get -qq install -y libfluidsynth1)
预安装库
Google Colab提供了多个预安装的链接,以便您可以从代码片段中导入所需的库。这些库包括NumPy,Pandas,等等。
协作编码
对于团队项目来说,编码是不可或缺的。它可以帮助你的团队在预期时间范围内更早地完成里程碑。如果您的团队需要在ML和数据科学项目上进行实时协作,Google Collaborative就是一个不错的工具。
只需向协作者发送一个可编辑的链接或邀请协作者进行团队编码。整个Python笔记本会随着团队的编码而自动更新,您会感觉自己正在使用共享的Google Sheets或Docs工作。
云存储
Google Colab使用您的Google Drive存储配额用于文件保存。因此,您可以从任何可以访问您的Google Drive帐户的计算机上恢复工作。
云存储还可以作为您的数据的备份,以防任何灾难发生。
GitHub集成
您可以将您的GitHub帐户与Google Colab链接,以便无缝地导入和导出代码文件。对于导入,您可以按Ctrl+O并单击GitHub选项卡以获取代码文件。相反,只需单击文件菜单中的“保存副本到GitHub”即可将文件发送到GitHub。
多个数据源
Google Colaboratory支持各种数据源,用于您的ML和AI训练项目。例如,您可以从本地机器导入数据,将Google Drive挂载到Colab实例,获取远程数据,并将GitHub存储库克隆到Colab中。
自动版本控制
与Google Sheets和Docs一样,Google Colab也有一个详尽的历史记录跟踪器。该模块跟踪自文件创建以来所做的所有更改。您可以从文件菜单中访问日志,并单击“修订历史记录”选项。
为什么选择Google Colab?
- Google Colaboratory是一款基于云的工具。您可以使用Chrome浏览器开始编写出色的ML和数据科学模型。
- Colab是免费的,但资源有限。但是,您不应指望您可以无限期地将人工智能或机器学习模型存储在Colab的免费基础设施上。
- 如果您熟悉在Jupyter上工作,您无需在Google Colaboratory上经历任何学习曲线。
- 免费访问GPU和TPU,用于大规模数据科学和机器学习模型。
- 它配有预安装的流行数据科学库。
- 编码人员可以轻松与合作者分享代码笔记本以进行实时编码。
- 由于Google将笔记本托管在Google Cloud上,您不需要担心代码文档的版本控制和存储。
- 与GitHub轻松集成。
- 您可以使用图像进行AI训练。
- 您还可以对音频和文本进行模型训练。
- 研究人员也可以在Colab上运行TensorFlow程序。
如何使用Google Colab
如果满足以下最低要求,您可以使用Google Colaboratory:
- 一个Google帐户,以体验Colab的所有便利。
- 一台可以运行最新版Google Chrome或Mozilla Firefox浏览器的计算机
- Google推荐使用Chrome进行Colab。
- 接受Google数据使用条款和条件。
您可以从其官方网站访问Colab。Colab是免费的,但并不总是保证有限的资源分配。如果您需要更快的速度和处理能力以及有保证的资源,您可以选择付费版或Pro+。
对于适用于Colab的一些数据科学和机器学习模型,您可以查看Google Seedbank。
Google Colab和Jupyter Notebook之间的区别
代码文档特性 | Google Colaboratory | Jupyter Notebook |
即时代码文件查看 | 是 | 否 |
代码文档共享 | 是 | 否 |
已安装的库 | 是 | 否 |
云托管 | 是 | 否 |
文件同步 | 是 | 否 |
#1. Colab不需要在本地机器上进行软件安装。相反,Jupyter Notebook需要进行软件安装和本地机器资源进行计算。
#2.由于Colab是基于云的,您可以获得自动版本控制。另外,Google Drive会自动保存Python笔记本。相比之下,在Jupyter Notebook上,您需要定期保存笔记本并管理版本控制。
#3. Colab文件可以在Google Drive上备份。另一方面,Jupyter Notebook文件不会自动备份。
#4.您可以将Colab文件发送给任何人,即使对方不是数据科学家。他们可以轻松打开Google Colab上的文档并查看内容。接收方无需安装任何软件。
相反,接收方需要安装和运行Jupyter Notebook以阅读您的项目。因此,与非数据科学客户共享此文件变得具有挑战性。
#5. Google Colaboratory带有用于数据科学和机器学习项目的所需库。它还在云上提供一定数量的CPU、RAM、GPU和TPU。因此,您可以节省时间和金钱。
相反,如果在Jupyter Notebook应用程序上工作,您需要获取并安装项目所需的所有库。安装这么多库还会消耗本地机器的CPU、RAM和GPU资源。
在Google Colab上执行常见任务
创建笔记本
- 转到Google Colab门户网站,看到“欢迎使用Colab!”
- 在顶部菜单中,点击文件。
- 从文件上下文菜单中选择新的笔记本。
- 您的新Python笔记本已准备好。您可以重新命名笔记本文件。
上传和下载文件
您可以按照以下步骤将本地Python代码上传到Colab:
- 在顶部菜单中,点击文件。
- 将打开一个带有许多选项的上下文菜单。
- 找到上传笔记本并点击它。
- 现在您将看到一个覆盖的控制台,其中包含示例、Google Drive、GitHub和上传等选项。
- 单击任何选项卡并选择要上传的代码内容。
下载正在进行或已完成的项目也非常容易。以下是步骤:
- 点击位于顶部菜单栏上的文件菜单。
- 将鼠标悬停在下载上。
- 一个上下文菜单将打开,其中包含两个下载文件格式选项:.ipynb和.py。
- 您可以选择首选格式并下载文件。
访问GitHub
在Colab中访问GitHub非常简单。以下是您可以执行的操作:
- 点击顶部菜单栏上的文件。
- 从上下文菜单中选择上传笔记本。
- 将打开一个带有GitHub选项卡的控制台。
- 或者,您可以按Ctrl+O访问相同的控制台。
- GitHub搜索选项包括GitHub URL、用户名和组织名称。
访问本地文件
- 在您的新Colab笔记本上按下Ctrl+O。
- 选择出现的控制台上的上传选项卡。
- 点击选择文件以定位您想在Colab上打开的本地文件。
访问Google Drive
- 在上方菜单中点击文件。
- 您可以选择打开笔记本或上传笔记本。
- 一个控制台将出现,其中包含一个用于Google Drive的选项卡。
- 点击该选项卡以访问来自Google Drive的文件。
如果您想将Google Drive挂载到Colab实例,请按照以下步骤操作:
- 点击左侧导航窗格上的文件。
- 选择挂载驱动器命令。
- 在出现的通知中,选择连接到Google Drive。
- 谷歌将要求您选择一个授权帐户。
保存到和导入自Google Sheets
您可以轻松将笔记本数据保存到Google Sheets文件中以便进行进一步处理。要这样做,请尝试以下步骤:
- 点击左下角的代码段按钮。
- 将会在右侧打开一个导航窗格。
- 在过滤器中键入Sheets,您将找到保存数据和导入数据的代码段。
- 双击标题以在笔记本中包含代码。
访问AWS S3
您可以使用云存储桶从AWS S3和Azure Blob等云存储平台访问文件和编码资产。
为此,您必须安装ByteHub,该软件具有将数据加载和保存到云存储中的功能。您可以运行以下代码:
!pip install -q bytehub[aws]
访问Kaggle数据集
- 转到Kaggle帐户,并点击API部分的过期API令牌以删除旧令牌。
- 创建新的API令牌以在本地计算机上获取kaggle.json文件。
- 现在使用以下代码安装Kaggle:
!pip install -q kaggle
- 现在,按照标准的编码实践,将Kaggle.json文件上传到Python代码库中。
最后一句话
现在您已经深入讨论了Google Collaboratory应用程序,您应该能够快速启动学习、训练或机器学习项目的实践。Google Colab是一个对Jupyter Notebooks感兴趣的人来说非常方便的云应用程序。
您可能还对一些流行的open datasets for data science项目感兴趣。