freeR语言
freeR语言
关注数: 0
粉丝数: 3
发帖数: 50
关注贴吧数: 3
[Hadoop+R专题:HDFS高可用性解决方案 ] Hadoop+R专题:HDFS高可用性解决方案 在上一节中我们详细的介绍了元数据,我们知道元数据是数据的数据,如果元数据发生破坏,整个HDFS就失去了意义。元数据的备份是HDFS高可用性的重要保证之一。下面我们将一起来探讨HDFS的高可用性。 HA(High Available), 高可用性群集是通过系统的可靠性(reliability)和可维护性(maintainability)来度量的。工程上,通常用平均无故障时间(MTTF)来度量系统的可靠性,用平均维修时间(MTTR)来度量系统的可维护性。于是可用性被定义为:HA=MTTF/(MTTF+MTTR)*100% 具体HA衡量标准: 99%一年宕机时间不超过4天 99.9%一年宕机时间不超过10小时 99.99%一年宕机时间不超过1小时 99.999%一年宕机时间不超过6分钟 目前来说,HDFS的高可用性主要靠下面几种方式来解决。 1、元数据备份方案当NameNode节点发生故障,不能正常提供服务时,往往需要重启NameNode。而NameNode在启动时,需要读取镜像文件和日志文件到内存,组织成内存元数据,构造树形的文件系统。因此,当元数据文件损坏时,HDFS中的NameNode将无法正常启动,可用性就会减低。 元数据的可靠性影响了HDFS的可维护时间,从而影响了HDFS的HA。当DataNode无法启动时,HDFS会自动启动该DataNode上所有数据的复制任务,将丢失的数据恢复到其他的DataNode节点上,因此DataNode不影响HDFS的HA。 终上所述,可见DataNode的重要性,也就是元数据的重要性,如何保证元数据可靠性是十分关键的。目前,对元数据进行备份是提高数据可靠性的主要措施。 Hadoop的元数据备份方案是通过Hadoop本身的Failover实现的。NameNode将元数据信息保存到多个目录。通常有2个副本,一个保存在本地目录,一个保存在远程目录。当NameNode发生故障时,启动备用机器上的NameNode,加载远程目录里的元数据信息,恢复服务。 2、Secondary Node方案我们已经知道,在NameNode启动时,首先从一个镜像文件中读取HDFS的状态,接着应用日志文件的edits操作。然后它将新的HDFS状态写入镜像文件中,并使用一个空的edits开始正常操作。因为NameNode只有在启动阶段才能合并镜像文件和日志文件,所以久而久之日志文件会变得非常大,特别是对大型的集群。日志文件太大的话,下次启动会花费很长的时间。 SecondaryNameNode定期合并镜像文件和日志文件,将edits日志文件大小控制在合理的范围内。因为内存需求和NameNode在一个数量级上,所以通常SecondaryNameNode和NameNode运行在不同的机器上。它通过bin/start-dfs.sh 在conf/masters中指定的节点上启动。 这个节点的检查点进程启动时由两个配置文件的配置项控制的。 Fs.checkpoint.period,指定连续两次的检查点的最大间隔,默认值是1小时。 Fs.checkpoint.size定义了edits日志文件的最大值,一旦超过这个值就会导致强制执行检查点。默认值是64MB。 3、 CheckPoint Node方案如果NameNode上除了最新的检查点以外,所有的其他的历史镜像和edits文件都丢了,NameNode可以引入这个最新的检查点。 在配置参数dfs.name.dir指定的位置建立一个空文件夹。把检查点目录的位置赋值给配置参数fs.checkpoint.dir。启动NameNode,并加上– importCheckpoint,NameNode会从fs.checkpoint.dir目录读取检查点,并把它保存在dfs.name.dir目录下,如果dfs.name.dir目录下有合法的镜像文件,NameNode会启动失败。NameNode会检查fs.checkpoint.dir目录下镜像文件的一致性,但是不会去改动它。 4、Backup Node方案Hadoop的Backup Node方案的最终目标是为了HDFS提供NameNode的热备节点,减少服务恢复时间。其主要的实现原理是,通过同步更新机制,在BackupNode节点中保存一份与NameNode完全一致的内存镜像,并且当NameNode无法提供服务时,能够自动接替,对外提供服务。 5、其他解决方案 除了上述的解决方案,还有AvatarNode解决方案以及最新的HA解决方案CloudreaHA Name Node等。这些解决方案读者在深入了解hadoop以后可以自行分析。大家也可以参考《高可用性的HDFS》 总结 在实际应用中,往往采用两种以上方式的组合。例如如果NameNode与SecondaryNameNode、BackuoNode或CheckPointNode配合使用,那么,一定间隔内会进行Checkpoint操作,checkpoint操作会形成当前某一时刻的元数据镜像文件fsimage,以该文件替换NameNode上所有的fsimage,并以最新fsimage对应时刻之后的日志记录文件edits替换NameNode上所有的edits。该机制可以有限限制日志文件的大小,放在其无限制增长,同时也降低了HDFS合并时的合并时间。 关注我们——官方网站—— R语言中文网 http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.r-china.net&urlrefer=f2c0dcc852931f694315af40c39af9ac ——官方QQ群—— R语言中文论坛-2(1000人群):427060123 R语言中文论坛(2000人群,已满):74076289 Biostatistician(500):186701945 ——官方微博—— 新浪微博:@R语言中文网官网 ——官方微信—— 微信名:R语言中文网 微信号:rchinanet微信扫一扫 获得更多内容
转贴:【新提醒】2014年十大编程语言:R上升迅猛 - R语言讨论 - R... 近日,IEEE Spectrum推出 了一个最流行的编程语言排行榜.排行榜筛选了 12 项指标,综合了 10 个来源(含 IEEE Xplore,Google,GitHub)的数据,最终评选出了下面这个排行榜(满分 100,得分越高排名越靠前),其中的十大编程语言分别是 来自:http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.r-china.net%2Fforum.php%3Fmod%3Dviewthread%26tid%3D1043%26extra%3Dpage%253D1&urlrefer=48dbeec48c89c3db6e3cdadbcb8341ef
转贴:【新提醒】生物统计专题:常见分布应用及正态性检验 - R语言... 这期继续介绍常见分布在R中的应用,由于实际工作学习工程当中,正态分布的应用十分广泛,这里将重点以正态分布为例,对其在R中的应用以举例的方式进行介绍,并在最后介绍正态性检验. 来自:http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.r-china.net%2Fforum.php%3Fmod%3Dviewthread%26tid%3D1044%26extra%3Dpage%253D1&urlrefer=4ab169fe2e8e436b7c84f66f66c1e403
转贴:【新提醒】生物统计专题:常见分布应用及正态性检验 - R语言... 这期继续介绍常见分布在R中的应用,由于实际工作学习工程当中,正态分布的应用十分广泛,这里将重点以正态分布为例,对其在R中的应用以举例的方式进行介绍,并在最后介绍正态性检验. 提示信息 - R语言中文网 - Powered by Discuz! 来自:http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.r-china.net%2Fforum.php%3Fmod%3Dviewthread%26tid%3D1044%26extra%3Dpage%253D1&urlrefer=4ab169fe2e8e436b7c84f66f66c1e403
转贴:【新提醒】2014年十大编程语言:R上升迅猛 - R语言讨论 - R... 近日,IEEE Spectrum推出 了一个最流行的编程语言排行榜.排行榜筛选了 12 项指标,综合了 10 个来源(含 IEEE Xplore,Google,GitHub)的数据,最终评选出了下面这个排行榜(满分 100,得分越高排名越靠前),其中的十大编程语言分别是: 提示信息 - R语言中文网 - Powered by Discuz! 来自:http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.r-china.net%2Fforum.php%3Fmod%3Dviewthread%26tid%3D1043%26extra%3Dpage%253D1&urlrefer=48dbeec48c89c3db6e3cdadbcb8341ef
转贴:生物统计专题:R语言与常见统计分布函数 - R语言讨论 - R语... 生物统计专题:R语言与常见统计分布函数本期内容导读前几期,我们知道了如何导入数据,选择变量,接下来在介绍统计检验之前,先介绍几种常见分布在R中的应用,作为铺垫. 提示信息 - R语言中文网 - Powered by Discuz! 来自:http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.r-china.net%2Fforum.php%3Fmod%3Dviewthread%26tid%3D1038%26extra%3Dpage%253D1&urlrefer=9ba9659217e4c3cf8d22761f5143031b
转贴:每R一点:层次聚类分析实例实战-dist,hclust,heatmap等 - R... 层次聚类分析实例实战聚类分析:对样品或指标进行分类的一种分析方法,依据样本和指标已知特性进行分类.本节主要介绍层次聚类分析,一共包括3个部分,每个部分包括一个具体实战例子. 提示信息 - R语言中文网 - Powered by Discuz! 来自:http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.r-china.net%2Fforum.php%3Fmod%3Dviewthread%26tid%3D1039&urlrefer=1327a64026c93a03862eba14b38f802c
R语言资源最多 人气最旺盛的地方 看到吧中很多人推送资源帖子,但都限于不能下载,各位同学有一种镜里看花的感觉。 因此本吧搜索相关网站资源,找到一批价值含量比较高的学习地方。 特此分享各位朋友。如有知道其他更好的地方,请顶起接着回复。 1 人大经济论坛:R资源挺多 2 cos论坛:都是难点介绍解答 3 生物统计家园:R版中资源比较丰富 4 R语言中文网:资源多,答疑也多。 5 炼金成数:知识点也不少 上面这些论坛网址,都需要注册,然后才可以下载。 R语言学习 微信方面:目前比较成型的只有少数几个, 比较看好的是 微信号:rchinanet 经常介绍各种知识点,疑难问题。还有一些其他微信号:大多类似论坛和信息发布形式。自行搜索R语言即可。
发点资源帖。看看大家有没有
给大家推荐一个实用的R语言学习地址 r语言中文网 cos论坛 人大经济论坛
想快速学习R语言的 赶紧来 每天学习一点R 快速上手很容易 关注R语言中文网微信号:rchinanet 或者扫描二维码:走过路过不要错过哦 小伙伴们一起学习R语言
在windows中创建R程序包简明指南 找了很久终于找到一个中文介绍R打包的方法。 特此分享大家学习 http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.biostatistic.net%2Fforum.php%3Fmod%3Dviewthread%26tid%3D2756&urlrefer=ad6ea7e463fb8ae34009d0efdbe1a807
网上资料和文献求助的地方 下载文献和一些想要的电子资料真的很麻烦 总是有一些疑难文献无处找寻。 近日发现一个地方可以求助文献。特此分享,记录一下。呵呵呵 求助文献地址 http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.biostatistic.net%2Fportal.php%3Fmod%3Dview%26aid%3D4&urlrefer=79505c1b83e2e05efd2a0ae2400e35c9
讨论R语言做一个.exe软件 偶想起如何用R语言做成一个.exe软件。这样方便特定类型数据的重复使用。研究很久不得其解,在这里将此想法一同分享,请各位朋友一同探索,如何实现。 两种思路:1如何直接用R语言做.exe文件 2 用其他语言做界面,R做后台处理和图形展示。封装成一个.exe文件。 知道的朋友,一同分享吧。
R语言吧开张了 欢迎各位志同道合者 一同学习R语言 共同参与 共同答疑解惑 共同进步
1
下一页