开源项目是我们所有人的巨大灵感来源,开源项目在构建解决方案以验证和解决客户需求有很大的帮助,而无需重新发明轮子。
随着大数据生态系统、分布式文件系统、map-reduce、NoSQL、机器学习、深度学习、人工智能以及最近的大语言模型的兴起,数据得到了广泛的关注。
下面我们来看一下这8个开源数据项目。
单词Fluvio来自拉丁语fluvius,意为“河流”,河流由连续的“溪流”组成。它是一个数据流平台的恰当名称。
Fluvio是一个用Rust和Web Assembly编写的轻量级高性能分布式数据流系统,在云原生架构上提供低延迟、高性能的可编程流。
由WebAssembly编写的智能模块为用户提供了在不离开集群的情况下对流数据执行内联计算的能力。
github地址:https://github.com/infinyon/fluvio
Arroyo是一个用Rust编写的分布式流处理引擎,旨在有效地对数据流执行有状态计算。与传统的批处理不同,流引擎可以在有界和无界源上操作,并在可用时立即发出结果。
简而言之:Arroyo允许您以亚秒级的结果询问大容量实时数据的复杂问题。
最重要的是,Arroyo与Fluvio集成了一个基于rust的引擎,这使它们成为一个伟大的组合。
github地址:https://github.com/ArroyoSystems/arroyo
Qdrant是一个用rust编写的矢量数据库和相似度搜索引擎,是下一代人工智能的高性能,大规模向量数据库。它正在为Twitter、GitBook等知名产品提供更好的搜索功能。
Qdrant提供了一个方便的API来存储、搜索和管理点向量,并提供了一个额外的有效负载。Qdrant是专门为扩展过滤支持而定制的,这使得它对各种神经网络或基于语义的匹配、面搜索和其他应用程序都很有用。
github地址:https://github.com/qdrant/qdrant
LanceDB calls是一个用于矢量搜索的数据库。看起来Lancedb是Python和Rust之间的桥梁。Lancedb core是用rust编写的,它支持原生Python和Javascript/Typescript。
它是对开发人员友好,无服务器矢量数据库的人工智能应用程序,可以轻松添加长期记忆到你的LLM应用程序中!
github地址:https://github.com/lancedb/lancedb
Linfa一个Rust机器学习框架,该项目“旨在提供一个全面的工具包,用Rust构建机器学习应用程序。与Python的scikit-learn类似,它专注于常见的预处理任务和日常ML任务的经典ML算法。
Linfa目前支持以下算法:
github地址:https://github.com/rust-ml/linfa
Polars是用Rust编写的,基于OLAP查询引擎的DataFrame接口,使用Apache Arrow Columnar Format作为内存模型。
特性如下:
github地址:https://github.com/pola-rs/polars
Lance是一种柱状数据格式,Lance是Lancedb矢量数据库使用的格式。
Lance的主要特点包括:
Lance适合的场景:
github地址:https://github.com/lancedb/lance
就社区参与度而言,Surreal是这个榜单上最受欢迎的项目。
SurrealDB是一个端到端的云原生数据库,专为现代应用而设计,包括web、移动、无服务器、Jamstack、后端和传统应用。使用SurrealDB,你可以简化数据库和API基础设施,缩短开发时间,并快速且经济高效地构建安全,高性能的应用程序。
SurrealDB的主要特性包括:
github地址:https://github.com/surrealdb/surrealdb
Copyright© 2013-2020
All Rights Reserved 京ICP备2023019179号-8