Iceberg 是一种适用于大型分析表的高性能格式。Iceberg将SQL表的可靠性和简单性带到了大数据中,同时使Spark,Trino,Flink,Presto,Hive和Impala等引擎能够安全地同时使用相同的表。
最近更新: 6个月前JuiceFS 是一款面向云原生设计的高性能共享文件系统,在 Apache 2.0 开源协议下发布。提供完备的 POSIX 兼容性,可将几乎所有对象存储接入本地作为海量本地磁盘使用,亦可同时在跨平台、跨地区的不同主机上挂载读写。
最近更新: 6个月前Fluid, 在云上为大数据以及AI应用的弹性数据提供抽象和加速服务。提供面向底层多源异构数据源的云原生数据集抽象和多维度管理。基于分布式缓存的云上数据集预热加速,并支持可观察性、可移植性和可扩展性。兼顾应用特性和数据特性的云上应用/数据集协同调度,以进一步提升性能。
最近更新: 6个月前Curve 是一款高性能、轻量级操作的云原生开源分布式存储系统。曲线可应用于: 1)主流云原生基础设施平台OpenStack和Kubernetes; 2)云原生数据库的高性能存储; 3)云存储中间件使用S3兼容对象存储作为数据存储引擎,提供经济高效的共享文件存储。
最近更新: 6个月前LakeSoul 是由数元灵科技研发的云原生湖仓一体框架,具备高可扩展的元数据管理、ACID 事务、高效灵活的 upsert 操作、Schema 演进和批流一体化处理等特性。
最近更新: 2年前Delta Lake是一个开源项目,可以在数据湖之上构建Lakehouse架构。Delta Lake 提供 ACID 事务、可扩展的元数据处理,并在现有数据湖(如 S3、ADLS、GCS 和 HDFS)之上统一流和批处理数据处理。 具体而言,Delta Lake提供: Spark ...
最近更新: 2年前Apache Hudi(发音为“hoodie”)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi 提供表、事务、高效的更新插入/删除、高级索引、流式引入服务、数据聚类/压缩优化和并发性,同时以开源文件格式保留数据。 Apache Hudi不仅非常...
最近更新: 2年多前StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。StarRocks 兼容 MySQL 协议。同时具备...
最近更新: 2年多前