对大数据的透彻理解.docx


立即下载 ࿏自ོ༾由ོ༽人͙⃡⌇
2025-11-13
数据        科学 数据集 算法 规模 能力 抽取 存储
366.1 KB

对大数据的透彻理解
 一、 大数据基本概念
      大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。
大数据的预处理
      主要完成对已接收数据的辨析、抽取、清洗等操作。
      (1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。
      (2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。
大数据带来的数学问题
      在数学上来看,计算机中存在不断变大的数据集,不存在绝对的大数据,计算机中的所有数据集都是有限集合。
      大数据采样——把大数据变小、找到与算法相适应的极小样本集、采样对算法误差的影响
      大数据表示——表示决定存储、表示影响算法效率
      大数据不一致问题——导致算法失效和无解、如何消解不一致
      大数据中的超高维问题——超高维导致数据稀疏、算法复杂度增加
      大数据中的不确定维问题——多维度数据并存、按任务定维难
      大数据中的不适定性问题——高维导致问题的解太多难以抉择
大数据的特征
稠密与稀疏共存:局部稠密与全局稀疏
冗余与缺失并在:大量冗余与局部缺失
显式与隐式均有:大量显式与丰富隐式
静态与动态忽现:动态演进与静态关联
多元与异质共处:多元多变与异质异性
量大与可用矛盾:量大低值与可用稀少
目前大数据的外延
      大数据规模大小是一个不断演化的指标:
      当前任务处理的单一的数据集,从数十TB到十几PB级的数据规模(TB«PB«EB«ZB)
      处理大数据的可等待的合理时间依赖任务的目标:
      地震数据预测要求在几分钟内才有效、气象数据应该在小时级别、失联飞机数据处理要在7天之内、数据挖掘一般要求在12小时内
二、 大数据悖论
      大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算 科学之后,当今的数据爆炸孕育了数据密集型科学,将理论、实验


数据/   /  /科学/数据集/算法/规模/能力/抽取/存储/ 数据/   /  /科学/数据集/算法/规模/能力/抽取/存储/
-1 条回复
登录 后才能参与评论
-->