Iceberg 是一种适用于大型分析表的高性能格式。Iceberg将SQL表的可靠性和简单性带到了大数据中,同时使Spark,Trino,Flink,Presto,Hive和Impala等引擎能够安全地同时使用相同的表。
最近更新: 6个月前Arctic 是由网易开源的流式湖仓系统,Arctic 在 Iceberg 和 Hive 之上添加了更多实时场景的能力,并且面向 DataOps 提供流批统一,开箱即用的元数据服务,让数据湖更加好用和实用。
最近更新: 6个月前构建高性能的云原生数据 机器学习,大数据分析,海量存储的基础架构; MinIO支持各种应用程序数据工作负载; 在中国:阿里巴巴、腾讯、百度、中国联通、华为、中国移动等等9000多家企业也都在使用MinIO产品。 https://min.io/
最近更新: 6个月前JuiceFS 是一款面向云原生设计的高性能共享文件系统,在 Apache 2.0 开源协议下发布。提供完备的 POSIX 兼容性,可将几乎所有对象存储接入本地作为海量本地磁盘使用,亦可同时在跨平台、跨地区的不同主机上挂载读写。
最近更新: 6个月前Fluid, 在云上为大数据以及AI应用的弹性数据提供抽象和加速服务。提供面向底层多源异构数据源的云原生数据集抽象和多维度管理。基于分布式缓存的云上数据集预热加速,并支持可观察性、可移植性和可扩展性。兼顾应用特性和数据特性的云上应用/数据集协同调度,以进一步提升性能。
最近更新: 6个月前Curve 是一款高性能、轻量级操作的云原生开源分布式存储系统。曲线可应用于: 1)主流云原生基础设施平台OpenStack和Kubernetes; 2)云原生数据库的高性能存储; 3)云存储中间件使用S3兼容对象存储作为数据存储引擎,提供经济高效的共享文件存储。
最近更新: 6个月前Alluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。在大数据生态系统中,Alluxio 位于数据驱动框架或应用(如 Apache Spark、Pres...
最近更新: 6个月前LakeSoul 是由数元灵科技研发的云原生湖仓一体框架,具备高可扩展的元数据管理、ACID 事务、高效灵活的 upsert 操作、Schema 演进和批流一体化处理等特性。
最近更新: 2年前Delta Lake是一个开源项目,可以在数据湖之上构建Lakehouse架构。Delta Lake 提供 ACID 事务、可扩展的元数据处理,并在现有数据湖(如 S3、ADLS、GCS 和 HDFS)之上统一流和批处理数据处理。 具体而言,Delta Lake提供: Spark ...
最近更新: 2年前数据湖上的 Serverless SQL Apache Kyuubi (Incubating),一个分布式和多租户网关,用于在 Lakehouse 上提供 Serverless SQL。
最近更新: 2年前Apache Kylin是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。Kylin 是一个开源的的分布式的,针对大数据场景下的高性能分析型...
最近更新: 2年前Apache Hudi(发音为“hoodie”)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi 提供表、事务、高效的更新插入/删除、高级索引、流式引入服务、数据聚类/压缩优化和并发性,同时以开源文件格式保留数据。 Apache Hudi不仅非常...
最近更新: 2年多前StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。StarRocks 兼容 MySQL 协议。同时具备...
最近更新: 2年多前