可能是CSV存储的最佳替代方案：Parquet数据

By姚伟斌 November 14, 2023September 11, 2023

Apache Parquet提供了与传统方法（如CSV）相比，在数据存储和检索方面的几个优势。

Parquet格式设计用于处理复杂类型的更快数据处理。在本文中，我们将讨论Parquet格式如何适用于当今不断增长的数据需求。

在深入了解Parquet格式的细节之前，让我们了解一下CSV数据是什么以及它对数据存储的挑战。

什么是CSV存储？

我们都听说过CSV（逗号分隔值）- 这是一种组织和格式化数据的最常见方法之一。CSV数据存储是基于行的。CSV文件以 .csv 扩展名存储。我们可以使用Excel，Google Sheets或任何文本编辑器存储和打开CSV数据。一旦打开文件，数据就可以立即查看。

嗯，这不好 – 绝对不适合数据库格式。

此外，随着数据量的增长，查询、管理和检索变得困难。

下面是存储在 .CSV 文件中的数据示例：

EmpId,First name,Last name, Division
2012011,Sam,Butcher,IT
2013031,Mike,Johnson,Human Resource
2010052,Bill,Matthew,Architect
2010079,Jose,Brian,IT
2012120,Adam,James,Solutions

如果在Excel中查看，可以看到行-列结构如下：

CSV存储的挑战

像CSV这样的基于行的存储适用于创建、更新和删除操作。

那么，CRUD中的读操作呢？

想象一下在上述 .csv 文件中有一百万行。打开文件并搜索您要查找的数据将需要相当长的时间。并不好。大多数云提供商（如AWS）根据扫描或存储的数据量收费 – 再次提醒，CSV文件占用很多空间。

CSV存储没有独占的选项来存储元数据，使得数据扫描变得繁琐。

那么，执行所有CRUD操作的成本效益和最佳解决方案是什么？让我们来探讨一下。

什么是Parquet数据存储？

Parquet 是一种用于存储数据的开源格式。它在Hadoop和Spark生态系统中被广泛使用。Parquet文件以 .parquet 扩展名存储。

Parquet是一种高度结构化的格式。它还可以用于优化数据湖中大量存在的复杂原始数据。这可以显着减少查询时间。

Parquet使数据存储高效，检索速度更快，因为它采用了行和列的混合存储格式（混合格式）。在这种格式中，数据在水平和垂直方向上被分区。Parquet格式还在很大程度上消除了解析开销。

该格式限制了总的I/O操作次数，从而降低了成本。

Parquet还存储元数据，其中存储有关数据的信息，例如数据模式、值的数量、列的位置、最小值、最大值、行组的数量、编码类型等。元数据存储在文件的不同级别，使得数据访问更快。

在像CSV这样的基于行的访问中，数据检索需要时间，因为查询必须在每一行中进行导航并获取特定的列值。使用Parquet存储，可以一次访问所有所需的列。

总之，

Parquet基于列式结构进行数据存储
它是一种优化的数据格式，用于在存储系统中批量存储复杂数据
Parquet格式包括多种数据压缩和编码方法
与其他存储格式（如CSV）相比，它显著减少了数据扫描时间和查询时间，并且占用更少的磁盘空间
最小化IO操作的数量，降低存储和查询执行的成本
包含元数据，使查找数据更容易
提供开源支持

Parquet数据格式

在进入示例之前，让我们更详细地了解Parquet格式中的数据存储方式：

一个文件中可以有多个水平分区，也称为行组。在每个行组内，应用垂直分区。列被分成多个列块。数据存储为列块内的页。每个页包含编码的数据值和元数据。正如我们之前提到的，整个文件的元数据也存储在文件的页组级别的页脚中。

由于数据被分割为列块，通过将新值编码到新块和文件中添加新数据也很容易。然后，更新受影响文件和行组的元数据。因此，我们可以说Parquet是一种灵活的格式。

Parquet原生支持使用页面压缩和字典编码技术对数据进行压缩。让我们看一个字典压缩的简单示例：

请注意，在上面的示例中，我们看到IT部门出现了4次。因此，在存储在字典中时，格式使用另一个易于存储的值（0,1,2…）对数据进行编码，同时还记录连续重复的次数 – IT, IT被改为0,2以节省更多的空间。查询压缩数据所需的时间更少。

面对面的比较

现在我们对CSV和Parquet格式的外观有了一个公正的了解，是时候进行一些统计数据来比较这两种格式了：

CSV	Parquet
基于行的存储格式。	行列混合的存储格式。
由于没有默认压缩选项，所以占用了大量空间。例如，将1TB文件存储在Amazon S3或任何其他云上，都将占用相同的空间。	在存储时对数据进行压缩，从而占用更少的空间。以Parquet格式存储的1TB文件只占用130GB的空间。
由于基于行的搜索，查询运行时间较慢。对于每一列，需要检索每一行的数据。	由于基于列的存储和元数据的存在，查询时间大约快34倍。
每次查询需要扫描更多的数据。	执行查询时只需扫描约99％的数据，因此optimizing performance。
大多数存储设备根据存储空间收费，所以CSV格式意味着较高的存储成本。	由于数据以压缩的编码格式存储，所以存储成本较低。
文件模式必须要么推断（导致错误），要么提供（繁琐）。	文件模式存储在元数据中。
该格式适用于简单的数据类型。	Parquet格式适用于复杂类型，如嵌套模式、数组、字典。

结论 👩‍💻

通过示例我们可以看到，就成本、灵活性和性能而言，Parquet比CSV更高效。它是一种有效的存储和检索数据的机制，特别是当整个世界都朝着cloud storage和空间优化的方向发展时。所有主要平台如Azure、AWS和BigQuery都支持Parquet格式。

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

特权升级攻击，预防技术和工具

By姚伟斌 December 1, 2023September 12, 2023

特权升级攻击发生在恶意行为者利用错误配置、漏洞、弱密码和其他漏洞来访问受保护资产时。典型的攻击可能从攻击者先获得对低级特权帐户的访问开始。一旦登录，攻击者将研究系统以识别他们可以进一步利用的其他漏洞。然后他们使用这些特权冒充实际用户，获得对目标资源的访问权，并进行各种不可检测的任务。特权升级攻击是垂直的或水平的。在垂直类型中，攻击者获得访问权限后，将以该用户的身份执行任务。对于水平类型，攻击者将首先获得对一个或多个带有有限特权的帐户的访问权限，然后通过破坏系统获得更多权限以执行管理员角色。这些权限使攻击者能够执行管理员任务、部署恶意软件或进行其他不良活动。例如，他们可以破坏运营、修改安全设置、窃取数据或以后留下未发现的后门来利用系统中的漏洞。一般来说，就像网络攻击一样，特权升级利用网络、服务和应用程序中的系统和流程漏洞。因此，通过部署一系列良好的安全实践和工具，可以预防这些漏洞被利用。组织应该理想地部署能够扫描、检测和防止各种潜在和现有的安全漏洞和威胁的解决方案。防止特权升级攻击的最佳实践组织必须保护所有关键系统和数据，以及可能对攻击者具有吸引力的其他领域。攻击者所需的只是渗透一个系统。一旦内部，他们可以寻找漏洞，进一步利用以获得额外的权限。除了保护资产免受外部威胁的影响，同样重要的是采取足够的措施防止内部攻击。虽然实际措施可能根据系统、网络、环境和其他因素而有所不同，但以下是组织可以用来保护其基础设施的一些技术。保护和扫描您的网络、系统和应用程序除了部署实时安全解决方案外，还必须定期扫描it基础设施的所有组件，以查找可能允许新威胁渗透的漏洞。为此，您可以使用有效的漏洞扫描器来查找未打补丁和不安全的操作系统和应用程序、配置错误、弱密码和其他攻击者可能利用的缺陷。虽然您可以使用各种漏洞扫描器来识别过时软件中的弱点，但通常更新或打补丁所有系统是困难或不切实际的。特别是在处理传统组件或大规模生产系统时，这是一个挑战。对于这种情况，您可以部署其他安全层，例如网络应用程序防火墙(waf)，它可以在网络层次上检测和阻止恶意流量。通常，即使底层系统未打补丁或过时，waf也能保护底层系统。适当的特权账户管理管理特权账户并确保它们安全，按照最佳实践使用，并且不被暴露是非常重要的。安全团队需要清楚所有账户的清单，它们存在的位置以及用途。其他措施包括：…

工具

如何扫描和清除Android和iOS手机中的恶意软件

By姚伟斌 November 25, 2023September 12, 2023

如果你曾经看过《行尸走肉系列》或者你看过医疗恐怖故事《我的内心怪物》，那么你可能会了解恶意软件。没关系，你说？频繁崩溃、错误消息、病毒、蠕虫！是的，它们就是怪物，它们对你的系统——电脑和手机——所做的事情与寄生虫有些相似。可怕的东西！这是信息时代，你的数据是黑客的金矿，他们总是在寻找机会窃取它。此外，手机是人们使用最多的设备。几乎每个人都用它进行购物、银行业务、游戏、约会等等，除了打电话。它包含大量的数据，包括个人和工作生活的文件。随着手机的普及，网络安全问题激增，其中包括各种网络攻击，如恶意软件、病毒、间谍软件、勒索软件、木马等等。你不能够将数据丢给潜在的黑客，他们可能会利用它或用它来破坏你的在线形象。这就是为什么你需要高效的软件来保护你的手机和数据。它不仅可以防止这些攻击进入你的手机，还可以让你知道它的状态，是否安全。这些软件类型还具有许多其他安全功能和功能，如警报、病毒扫描等，这将使你能够保护设备时走在前面。什么是恶意软件？如果这两个词不在恶意软件的定义中，那么它的定义就不完整：故意的，以及破坏性的恶意软件是一个包罗万象的术语，用于指代任何有意构建的破坏性/寄生性软件，旨在对你的服务器、计算机、网络或手机造成破坏。不同的名字称之，但意图是相同的。有勒索软件，它实际上是一种用来劫持你的信息并索要赎金的软件。威胁要发布一些数据和秘密，受害者别无选择，只能支付“赎金”。还有间谍软件，像詹姆斯·邦德那样，恶意软件，旨在从受害者那里收集和窃取信息。其他的有：…

工具

7种使用OCR将图像转换为文本的方法

By姚伟斌 November 10, 2023September 11, 2023

在这个数字时代，从图像中提取文本以便进行编辑的需求并不罕见。这尤其是由于我们对只能通过OCR软件帮助来进行数字编辑的纸质文件的依赖。 Optical character recognition（OCR）是一种基于模式识别的人工智能技术，用于识别图像中的文本并将其转换为可编辑的数字文档。如果您需要将像发票、账单或银行对账单这样的数字数据转换为可编辑的图像格式，那么OCR软件可以帮助您。幸运的是，有许多工具可以使用OCR技术从图像中提取文本。无论您想在PC、手机还是在线上将图像转换为文本，都有相应的工具。本文将列出多个OCR工具，可帮助您在不同设备上从图像中提取文本。根据您的需求，其中一个工具应该适合您。 #1. 在线将图像转换为文本有许多在线OCR工具可让您从任何设备上的图像中提取文本。您只需要一个浏览器和互联网连接即可开始使用此工具（在PC和移动设备上均可）。我尝试过许多在线OCR工具，其中的 New OCR 为我使用的所有图像提供了最好的结果。该服务完全免费且非常易于使用。只需点击选择文件并上传您的图像。之后，点击预览，然后点击OCR以处理图像。提取的文本将显示在可编辑的文本框下方，您可以复制它或将其下载为TXT、Doc或PDF文件。根据我的经验，该工具在提取文本时没有错误，并完美地复制了格式和间距。但是，它不识别字体和文本大小，所以所有文本都是纯文本。…

工具

13 最佳的Node.js应用程序托管平台

By姚伟斌 November 12, 2023September 13, 2023

发现为Node.js寻找最佳托管平台很困难吗？我们为您提供保障。 Node.js是世界各地数百万开发人员使用的最受欢迎的JavaScript运行环境之一。从2009年开始，它已经广受欢迎，现在许多企业都在使用它。业务和行业部门主要使用Node.js。为什么不呢？它可以用于端到端应用程序开发和应用程序的某个方面。让我们看看Node.js在哪里使用。如果您拥有一个围绕快速环境运转并且希望高效工作的企业，那么Node.js是一个很好的选择。它具有很高的可扩展性，非常适合构建现代化应用程序。这也意味着它在不投入太多硬件的情况下也能很好地扩展。更不用说，它还支持备受喜爱的Node Package Manager（NPM）。这个包含有大量模块的软件包让您能够轻松构建应用程序。与Node.js相比，hosting providers for WordPress或其他PHP应用程序更多。要找到一个可靠和安全的平台总是很具挑战性。从技术上讲，托管Node.js应用程序有两种最受欢迎的方式。托管式…

工具

如何防止恶意搜索广告的威胁 Malicious search advertisements pose a significant threat to internet users. These deceptive ads often show up in search engine results and can lead to harmful consequences if clicked on. To stay safe from these types of advertisements, follow these tips: 1. Use a reputable search engine: Stick to well-known and trusted search engines, such as Google or Bing. These search engines have robust security measures in place to detect and block malicious ads. 2. Be cautious of sponsored results: Sponsored search results are paid advertisements and may not always be trustworthy. Look for organic search results, which are based on relevance rather than advertising. 3. Hover before clicking: Before clicking on any search result, hover your cursor over the link to reveal the full URL. Malicious ads often use deceptive URLs that mimic legitimate websites. If the URL looks suspicious or unfamiliar, it’s best to avoid clicking on it. 4. Install an ad blocker: Ad blockers can help prevent malicious ads from appearing on your screen. There are several ad-blocking browser extensions available that can effectively block unwanted advertisements. 5. Keep your software up to date: Regularly update your operating system, web browser, and security software to ensure you have the latest security patches. This helps protect against known vulnerabilities that malicious ads may exploit. 6. Enable safe browsing: Most modern web browsers offer a safe browsing feature that can detect and block malicious websites and advertisements. Make sure this feature is enabled in your browser settings. 7. Use antivirus software: Install reputable antivirus software on your device and keep it updated. Antivirus programs can detect and block malicious ads, as well as provide overall protection against various online threats. By following these precautions, you can minimize the risk of encountering and falling victim to malicious search advertisements. Stay vigilant and prioritize your online safety.

By姚伟斌 December 15, 2023August 30, 2023

one way or another to find information or websites. However, it is important to be cautious and ensure that the search engine you are using is safe and secure.

工具

11 最佳代码和文本编辑器，适用于Web开发者

By姚伟斌 December 17, 2023August 31, 2023

你是一名网页开发者，正在寻找最好的代码和文本编辑器以提高效率、生产力和性能吗？有很多选项可供选择。