【大数据入门核心技术-Hadoop】(一)Hadoop简介
创始人
2024-04-20 00:36:08
0

目录

一、Hadoop简要概述

1.Hadoop简要概述

2. Hadoop发展历史


一、Hadoop简要概述

1.Hadoop简要概述


        我们生活在这个数据大爆炸的时代 ,很难估算全球电子设备中存储的数据总共有多少 。当前一个中小型公司的数据量也达到数十TB,甚至更多。

        有句话说得好 :“ 大数据胜于好算法 。” 意思是说对于某些应用 (譬如根据以往的偏好来推荐电影和音乐),不论算法有多牛 ,基于小数据的推荐效果往往都不如基于大量可用数据的 一般算法的推荐效果 。

        我们遇到的问题很简单:在硬盘存储容量多年来不断提升的同时,访问速 度(硬盘数据读取速度)却没有与时俱进 。
        第二个问题是大多数分析任务需要以某种方式结合大部分数据来共同完成分析 ,即从一个硬盘读取的数据可能需要与从另外 99 个硬盘中读取的数据结合使用 。各种分布式系统允许结合不同来源的数据进行分析,但保证其正确性是一个非常大的挑战 。

        MapReduce 提出一个编程模型 ,该模型抽象出这些硬盘读写问题井将其转换为对一个数据集(由键值对组成)的计算 。后文将详细讨论这个模型 ,这样的计算由 map 和 reduce 两部分组成 ,而且只有这两部分提供对外的接口 。与HDFS 类似,MapReduce自身也有很高的可靠性 。

        MapReduce 看似采用了一种蛮力方法 。每个查询需要处理整个数据集或至少一个数据集的绝大部分 。但反过来想,这也正是它的能力 。MapReduce 是一个批量查询处理器 ,能够在合理的时间范围内处理针对整个数据集的动态查询 。它改变了我们对数据的传统看法 ,解放了以前只是保存在磁带和硬盘上的数据 。它让我们有机会对数据进行创新 。以前需要很长时间处理才能获得结果的问题 ,到现在变得顷刻之间就迎刃而解 ,同时还可以引发新的问题和新的见解 。

2. Hadoop发展历史

        Hadoop 是 Apache Lucene 创始人Doug Cutting 创建的 ,Lucene 是一个应用 广 泛 的文本搜索系统库Hadoop起源于开 源的网络搜索引擎Apache Nutch,它本身也是 Lucene 项目的一部分 。

相关内容

热门资讯

365夜故事好词? 365夜故事好词?好词:动如脱兔 待兔守株 得兔忘蹄 东兔西乌 龟毛兔角 狐死兔泣 获兔烹狗 狐兔之...
魏忠贤是好人还是坏人? 魏忠贤是好人还是坏人? 魏忠贤是坏人。在我们的印象中,魏忠贤就是一个十恶不赦,谄媚逢迎,艰险阴狠的小...
柯南最新的一集对应的是漫画第几... 柯南最新的一集对应的是漫画第几话2,6,78话841-843香甜冰冷的快递香甜冰冷的快递对应漫画:F...
闽浙两地开展跨界流域突发环境事... 转自:中国环境网7月10日,福建省南平市生态环境局、浙江省丽水市生态环境局共同开展跨省应急联动演练。...
专访丨巴西看穿美国政治讹诈本质... 新华社里约热内卢7月11日电 题:巴西看穿美国政治讹诈本质 因而坚定“说不”——巴西法学教授卡瓦略谈...
拳脚生风展英姿!“英派斯杯”青... 7月10日-12日,“英派斯杯”青岛市第六届运动会青少年组跆拳道比赛在青岛市即墨区岘山小学举行。本次...
血液病学专家周淑芸逝世,享年9... 转自:京报网_北京日报官方网站 【#血液病学专家周淑芸逝...
守望:红色保密往事丨隐秘而伟大 转自:央视新闻客户端  百余年前中国,风雨飘摇。有一群人改名换姓,隐藏行踪,秘密集结,以独创暗语交换...
湖南汨罗一少年在游泳馆内触电身... 近日,有市民反映,湖南岳阳汨罗市一游泳馆内疑似发生因漏电致人死亡的事故。7月12日下午,澎湃新闻从汨...
中国煤炭大市:从“黑”到“绿”... 中新网鄂尔多斯7月12日电 题:中国煤炭大市:从“黑”到“绿”蜕变记中新网记者 李爱平“以前干活,摘...