【科普】什么是大数据-k8凯发游戏


【科普】什么是大数据-大数据的分类
作者:安华金和 发布时间:2020-12-13


  大数据又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。
  大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种海量数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,海量数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。
  【什么是大数据】
  大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。海量数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(tb)至数十兆亿字节(pb)不等。
  在一份2001年的研究与相关的演讲中,麦塔集团分析员道格·莱尼指出数据长的挑战和机遇有三个方向:量(volume,数据大小)、速(velocity,数据输入输出的速度)与多变(variety,多样性),合称“3v”或“3vs”。高德纳与现在大部分海量数据产业中的公司,都继续使用3v来描述大数据。高德纳于2012年修改对海量数据的定义:大量数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。”另外,有机构在3v之外定义第4个v:真实性(veracity)为第四特点。
  大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手海量数据,奥巴马更在同年投入2亿美金在海量数据的开发中,更强调海量数据会是之后的未来石油。
  数据挖掘则是在探讨用以解析海量数据的方法。
  大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于特殊大数据的技术,包括大规模并行处理(mpp)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
  【大数据的分类】
  大数据获取之来源影响其应用之效益与质量,依照获取的直接程度一般可分为三种:
  第一方数据:为己方单位自己和消费者、用户、目标客群交互产生的数据,具有高质量、高价值的特性,但易局限于既有顾客数据,如企业搜集的顾客交易数据、追踪用户在app上的浏览行为等,拥有者可弹性地使用于分析研究、营销推广等。
  第二方数据:取自第一方的数据,通常与第一方具有合作、联盟或契约关系,因此可共享或采购第一方数据。如:订房品牌与飞机品牌共享数据,当客人购买某一方的商品后,另一单位即可推荐他相关的旅游产品;或是已知某单位具有己方想要的数据,透过议定采购,直接从第一方获取数据。
  第三方数据:提供数据的来源单位,并非产出该数据的原始者,该数据即为第三方数据。通常提供第三方数据的单位为数据供应商,其广泛搜集各式数据,并贩售给数据需求者,其数据可来自第一方、第二方与其他第三方数据,如爬取网络公开数据、市调公司所发布的研究调查、经去识别化的交易信息等。
  什么是大数据


网站地图