大数据处理涉及处理和分析大型复杂数据集的技术和技术。
“大数据”通常指的是传统数据库和处理工具无法处理的数据集。 例如:应用程序日志、用户交互日志:这些大数据用于分析用户互动、偏好和行为,以改进内容推荐算法并提升用户参与度。
各种组件共同工作以处理、存储和分析这些大型数据集。这些组件共同形成一个大数据处理生态系统。
批处理和流处理:数据可以分批摄取,也可以以实时流模式处理。 批处理涉及按预定义的块收集和处理数据,而流摄取处理连续生成并以准实时方式处理的数据。
Apache Kafka: 用于构建实时数据管道和流应用的广泛使用平台。
为什么选择Kafka?
这些系统将大数据分布在多台机器上,以提高可伸缩性和容错性。
数据湖: 组织用来管理其PB级数据的大数据存储系统。
什么是数据湖?(AWS S3、Azure Data、Apache Hadoop/HDFS)
Hadoop是什么? Apache Hadoop是一个用于分布式存储和处理大型数据集的开源框架。
**Hadoop的核心概念:
Hadoop的优势:
批处理工作负载:
可接受较高的延迟:
想要成本效益:Hadoop的替代方案?
Apache Spark: 它是一个为大数据处理提供快速集群计算框架的开源分布式计算系统。 它是为解决MapReduce编程模型的局限性而开发的。
Spark的亮点:流处理:Spark支持批处理和流处理。速度和性能:Spark执行内存处理,相比于依赖磁盘存储中间数据的Hadoop,性能显著提高。
索引是什么?
索引是有关日志的附加元数据,旨在实现对整个日志体积的更快查询。
大数据中的索引是指创建允许从大型数据集中高效快速检索信息的数据结构的过程。在数据量庞大的情况下,索引对于优化查询性能和加速数据访问至关重要 。
倒排索引 工具:
Apache Pig脚本:Pig Latin是一种具有简单可读语法的数据流脚本语言。它由一系列语句组成,定义要应用于数据集的数据转换。
NoSQL数据库: 专为处理大量非结构化和半结构化数据而设计。
示例包括MongoDB、Cassandra和Apache HBase。
数据仓库: 针对大型数据集上的分析查询进行优化的专业数据库。
什么是数据仓库?(例如:Amazon Redshift、Snowflake)
用例:
示例: Hive是构建在Hadoop之上的数据仓库基础设施。
Presto是由Facebook创建的面向大数据的开源分布式SQL查询引擎。
Tableau、Power BI、AWS QuickSight:用于创建交互式和可视化仪表板,以探索和传达来自大数据的见解的流行工具。
Jupyter Notebooks:一种开源的Web应用程序,允许用户创建和共享包含实时代码、可视化和叙述文本的文档。
Copyright© 2013-2020
All Rights Reserved 京ICP备2023019179号-8