谨防了,一个新的开源数据分析数据库系统出现了,它叫作念Apache Pinot——何况速率很快。
译自 Apache Pinot Brings Real Time Analysis to Columnar Data,作家 Joab Jackson。
Apache Pinot 神色始于 2013 年的 LinkedIn,旨在对数百万用户在其所有职业中拿获的单个方向进行分析。
该公司还是建设了 Apache Kafka 来料理其系统每天产生的数百万条音书。然则,这项任务不单是是音书传递问题,而是分析单个数据列的问题,举例“谁稽查了每个用户的个东说念主贵府?”,需要饱胀快的速率技艺及时为用户提供灵验的信息。
该功能当先是在 Elasticsearch 和在线事务处理 (OLTP) 数据库的组合上建设的,但这需要同期初始数千台职业器技艺得回谜底,这是一个隆盛的决议。
借助 Pinot,该公司的工程师巧合将所需的职业器数目减少到简短 75 台。
Pinot 的出生是为了处分“以低资本花样大限制初始数亿用户的分析查询”的问题,StarTree 居品认真东说念主诠释说,StarTree 提供了 Pinot 的实足托管的云原生版块。
Soman 在给与 TNS 采访时示意,Pinot 带来了“数据堆栈的简化”。“这个问题并不簇新。好多传统技艺还是处分了这个问题。Pinot 带来的则是对这些问题的简化和限制化。”
实期间析
这项技艺很快被其他汇集限制的公司领受,举例 Uber、Google、DoorDash 和 Stripe。简短 1000 个组织正在使用该软件的开源版块。
Stripe 每天处理数十亿笔交游,它使用 Pinot 向其商家提供支付分析数据:现款流分析、过期付款、每用户收入等等。
不错将Apache Pinot 视为分析型数据库和传统事务型数据库的组合。“它构建了一个分析型数据库,但不错处理 OLTP 数据库的限制。”它不错在Google BigQuery 或Snowflake 上进行大限制分析,但时代却只是其中的一小部分。
Soman 示意,Pinot 每秒不错处理数十万个基于 SQL 的 查询,延长小于 99 毫秒,即使是扩张到数千个节点的 MySQL 也无法与之匹敌。一些最大的 Pinot 部署每秒最多可索引一百万个事件。
Pinot 于 2015 年开源,并于 2018 岁首度被 Apache 给与。Pinot 1.0 版块于 2023 年 9 月发布,并加多了扩充两个表的查询时斡旋 的智商,以及扩充“upserts”的智商,这是一种 UPDATE 和 INSERT 的组合,它确保 将最新数据添加到数据库或更新数据库。
数据职业层
不错将 Pinot 视为数据职业层。数据不错存储在对象存储中,举例Amazon Web Services 的 Simple Storage Service (S3),并可能使用Apache Iceberg 进行步调化。
Soman 诠释说:“Kafka 是半有现象的,它会存储一周的数据,但它并非忖度打算用于存储有现象的数据。使用 Pinot,您不错将数据存储在职何您思要的地点并查询单个神色。”
Kafka 也不是分析引擎。即使是常常与 Kafka 一皆使用的Apache Flink,也更侧重于处理和过滤。事实上,这三种用具不错一皆在一个被称为 KFP 堆栈的堆栈中使用。
在 GitHub 上,StarTree 提供了一系列对于 Pinot 合适哪些任务的示例:
批数据摄取流式摄取Upserts地舆空间处理变换函数同样性搜索 (AI)
11 月,StarTree 更新了其StarTree Cloud 职业,以包括基于变装的造访扬弃 (RBAC)、无暂停摄取、模式演变和数据回填。