加米谷大数据的个人资料

MongoDB 概念解析不管我们学习什么数据库都应该学习其中的基础概念，在mongodb中基本的概念是文档、集合、数据库，下面我们挨个介绍。下表将帮助您更容易理解Mongo中的一些概念：通过下图实例，我们也可以更直观的了解Mongo中的一些概念：数据库一个mongodb中可以建立多个数据库。 MongoDB的默认数据库为"db"，该数据库存储在data目录中。 MongoDB的单个实例可以容纳多个独立的数据库，每一个都有自己的集合和权限，不同的数据库也放置在不同的文件中。 "show dbs" 命令可以显示所有数据的列表。以上实例命令中，"local" 是你要链接的数据库。在下一个章节我们将详细讲解MongoDB中命令的使用。数据库也通过名字来标识。数据库名可以是满足以下条件的任意UTF-8字符串。不能是空字符串（"")。不得含有' '（空格)、.、$、/、\和\0 (空字符)。应全部小写。最多64字节。有一些数据库名是保留的，可以直接访问这些有特殊作用的数据库。 admin：从权限的角度来看，这是"root"数据库。要是将一个用户添加到这个数据库，这个用户自动继承所有数据库的权限。一些特定的服务器端命令也只能从这个数据库运行，比如列出所有的数据库或者关闭服务器。 local: 这个数据永远不会被复制，可以用来存储限于本地单台服务器的任意集合 config: 当Mongo用于分片设置时，config数据库在内部使用，用于保存分片的相关信息。文档文档是一组键值(key-value)对(即BSON)。MongoDB 的文档不需要设置相同的字段，并且相同的字段不需要相同的数据类型，这与关系型数据库有很大的区别，也是 MongoDB 非常突出的特点。一个简单的文档例子如下：需要注意的是：文档中的键/值对是有序的。文档中的值不仅可以是在双引号里面的字符串，还可以是其他几种数据类型（甚至可以是整个嵌入的文档)。MongoDB区分类型和大小写。MongoDB的文档不能有重复的键。文档的键是字符串。除了少数例外情况，键可以使用任意UTF-8字符。文档键命名规范：键不能含有\0 (空字符)。这个字符用来表示键的结尾。.和$有特别的意义，只有在特定环境下才能使用。以下划线"_"开头的键是保留的(不是严格要求的)。集合集合就是 MongoDB 文档组，类似于 RDBMS （关系数据库管理系统：Relational Database Management System)中的表格。集合存在于数据库中，集合没有固定的结构，这意味着你在对集合可以插入不同格式和类型的数据，但通常情况下我们插入集合的数据都会有一定的关联性。比如，我们可以将以下不同数据结构的文档插入到集合中：当第一个文档插入时，集合就会被创建。合法的集合名集合名不能是空字符串""。集合名不能含有\0字符（空字符)，这个字符表示集合名的结尾。集合名不能以"system."开头，这是为系统集合保留的前缀。用户创建的集合名字不能含有保留字符。有些驱动程序的确支持在集合名里面包含，这是因为某些系统生成的集合中包含该字符。除非你要访问这种系统创建的集合，否则千万不要在名字里出现$。如下实例： db.col.findOne() capped collections Capped collections 就是固定大小的collection。它有很高的性能以及队列过期的特性(过期按照插入的顺序). 有点和 "RRD" 概念类似。 Capped collections是高性能自动的维护对象的插入顺序。它非常适合类似记录日志的功能和标准的collection不同，你必须要显式的创建一个capped collection，指定一个collection的大小，单位是字节。collection的数据存储空间值提前分配的。要注意的是指定的存储大小包含了数据库的头信息。db.createCollection("mycoll",{capped:true, size:100000})在capped collection中，你能添加新的对象。能进行更新，然而，对象不会增加存储空间。如果增加，更新就会失败。数据库不允许进行删除。使用drop()方法删除collection所有的行。注意: 删除之后，你必须显式的重新创建这个collection。在32bit机器中，capped collection最大存储为1e9( 1X109)个字节。元数据数据库的信息是存储在集合中。它们使用了系统的命名空间： dbname.system.* 在MongoDB数据库中名字空间 <dbname>.system.* 是包含多种系统信息的特殊集合(Collection)，如下:对于修改系统集合中的对象有如下限制。在{{system.indexes}}插入数据，可以创建索引。但除此之外该表信息是不可变的(特殊的drop index命令将自动更新相关信息)。 {{system.users}}是可修改的。 {{system.profile}}是可删除的。 MongoDB 数据类型下表为MongoDB中常用的几种数据类型。

MongoDB - 连接启动 MongoDB 服务执行启动操作后，mongodb 在输出一些必要信息后不会输出任何信息，之后就等待连接的建立，当连接被建立后，就会开始打印日志信息。你可以使用 MongoDB shell 来连接 MongoDB 服务器。你也可以使用 PHP 来连接 MongoDB。本教程我们会使用 MongoDB shell 来连接 Mongodb 服务，之后的章节我们将会介绍如何通过php 来连接MongoDB服务。标准 URI 连接语法： mongodb://[username:password@]host1[:port1][,host2[:port2],...[,hostN[:portN]]][/[database][?options]] mongodb:// 这是固定的格式，必须要指定。 username:password@ 可选项，如果设置，在连接数据库服务器之后，驱动都会尝试登陆这个数据库 host1 必须的指定至少一个host, host1 是这个URI唯一要填写的。它指定了要连接服务器的地址。如果要连接复制集，请指定多个主机地址。 portX 可选的指定端口，如果不填，默认为27017 /database 如果指定username:password@，连接并验证登陆指定数据库。若不指定，默认打开 test 数据库。 ?options 是连接选项。如果不使用/database，则前面需要加上/。所有连接选项都是键值对name=value，键值对之间通过&或;（分号）隔开标准的连接格式包含了多个选项(options)，如下所示：实例MongoDB 连接命令格式使用用户名和密码连接到 MongoDB 服务器，你必须使用 'username:password@hostname/dbname' 格式，'username'为用户名，'password' 为密码。使用用户名和密码连接登陆到默认数据库：更多连接实例连接本地数据库服务器，端口是默认的。

MongoDB 删除数据库语法 MongoDB 删除数据库的语法格式如下： db.dropDatabase() 删除当前数据库，默认为 test，你可以使用 db 命令查看当前数据库名。实例以下实例我们删除了数据库 runoob。首先，查看所有数据库： > show dbslocal0.078GBrunoob 0.078GBtest 0.078GB 接下来我们切换到数据库 runoob： >use runoobswitched to db runoob> 执行删除命令：

MongoDB 创建数据库语法 MongoDB 创建数据库的语法格式如下： use DATABASE_NAME 如果数据库不存在，则创建数据库，否则切换到指定数据库。实例以下实例我们创建了数据库 runoob:

CentOS 7自定义开机启动,添加自定义系统服务引言，说明Centos 系统服务脚本目录：/usr/lib/systemd/ 有系统（system）和用户（user）之分：如需要开机没有登陆情况下就能运行的程序，存在系统服务（system）里，即：/lib/systemd/system/ 反之，用户登录后才能运行的程序，存在用户（user）里：/lib/systemd/user/ 服务以.service结尾。这边以presto开机运行为例： 1.建立服务文件vim /usr/lib/systemd/system/presto.service [Unit]Description=presto.servieAfter=network.target [Service]Type=forkingExecStart=/opt/presto/bin/launcher startExecReload=/opt/presto/bin/launcher restartExecStop=/opt/presto/bin/launcher stopPrivateTmp=true [Install]WantedBy=multi-user.target [Unit]:服务的说明Description:描述服务After:描述服务类别[Service]:服务运行参数的设置Type=forking是后台运行的形式ExecStart为服务的具体运行命令ExecReload为重启命令ExecStop为停止命令PrivateTmp=True表示给服务分配独立的临时空间注意：[Service]的启动、重启、停止命令全部要求使用绝对路径[Install]:服务安装的相关设置，可设置为多用户2.保存目录以754的权限保存在目录：/lib/systemd/system 3.相关命令设置开机自启动systemctl enable presto.service 启动nginx服务systemctl start presto.service设置开机自启动systemctl enable presto.service停止开机自启动systemctl disable presto.service查看服务当前状态systemctl status presto.service重新启动服务systemctl restart presto.service查看所有已启动的服务systemctl list-units --type=service

Linux目录结构和常用命令一、Linux目录结构你想知道为什么某些程序位于/bin下，或者/sbin，或者/usr/bin，或/usr/sbin目录下吗？例如，less命令位于/usr/bin目录下。为什么没在/bin中，或/sbin，或/usr/sbin目录中？所有这些目录之间有什么不同？在这篇文章中，让我们回顾一下Linux的文件系统结构，并理解各上层目录的含义。蓝色：表示目录青色：表示链接黑色：表示文件 1、/- 根每一个文件和目录从根目录开始。只有root用户具有该目录下的写权限。请注意，/root是root用户的主目录，这与/.不一样 2、/bin中 - 用户二进制文件包含二进制可执行文件。在单用户模式下，你需要使用的常见Linux命令都位于此目录下。系统的所有用户使用的命令都设在这里。例如：ps、ls、ping、grep、cp 3、/sbin目录 - 系统二进制文件就像/bin，/sbin同样也包含二进制可执行文件。但是，在这个目录下的linux命令通常由系统管理员使用，对系统进行维护。例如：iptables、reboot、fdisk、ifconfig、swapon命令 4、/etc - 配置文件包含所有程序所需的配置文件。也包含了用于启动/停止单个程序的启动和关闭shell脚本。例如：/etc/resolv.conf、/etc/logrotate.conf hosts：设备名称（或域名）到ip地址的解析，相当于本地存在的dns功能。见下图： 5、/dev - 设备文件包含设备文件。这些包括终端设备、USB或连接到系统的任何设备。例如：/dev/tty1、/dev/usbmon0 6、/proc - 进程信息包含系统进程的相关信息。这是一个虚拟的文件系统，包含有关正在运行的进程的信息。例如：/proc/{pid}目录中包含的与特定pid相关的信息。这是一个虚拟的文件系统，系统资源以文本信息形式存在。例如：/proc/uptime 7、/var - 变量文件 var代表变量文件。这个目录下可以找到内容可能增长的文件。这包括 - 系统日志文件（/var/log）;包和数据库文件（/var/lib）;电子邮件（/var/mail）;打印队列（/var/spool）;锁文件（/var/lock）;多次重新启动需要的临时文件（/var/tmp）; 8、/tmp - 临时文件包含系统和用户创建的临时文件。当系统重新启动时，这个目录下的文件都将被删除。 9、/usr - 用户程序包含二进制文件、库文件、文档和二级程序的源代码。 /usr/bin中包含用户程序的二进制文件。如果你在/bin中找不到用户二进制文件，到/usr/bin目录看看。例如：at、awk、cc、less、scp。 /usr/sbin中包含系统管理员的二进制文件。如果你在/sbin中找不到系统二进制文件，到/usr/sbin目录看看。例如：atd、cron、sshd、useradd、userdel。 /usr/lib中包含了/usr/bin和/usr/sbin用到的库。 /usr/local中包含了从源安装的用户程序。例如，当你从源安装Apache，它会在/usr/local/apache2中。 10、/home - HOME目录所有用户用home目录来存储他们的个人档案。例如：/home/john、/home/nikita 11、/boot - 引导加载程序文件包含引导加载程序相关的文件。内核的initrd、vmlinux、grub文件位于/boot下。例如：initrd.img-2.6.32-24-generic、vmlinuz-2.6.32-24-generic 12、/lib - 系统库包含支持位于/bin和/sbin下的二进制文件的库文件. 库文件名为 ld*或lib*.so.* 例如：ld-2.11.1.so，libncurses.so.5.7 13、/opt - 可选的附加应用程序 opt代表可选的。包含从个别厂商的附加应用程序。附加应用程序应该安装在/opt/或者/opt/的子目录下。 14、/mnt - 挂载目录临时安装目录，系统管理员可以挂载文件系统。 15、/media - 可移动媒体设备用于挂载可移动设备的临时目录。举例来说，挂载CD-ROM的/media/cdrom，挂载软盘驱动器的/media/floppy; 16、/srv - 服务数据 srv代表服务。包含服务器特定服务相关的数据。例如，/srv/cvs包含cvs相关的数据。【参考】 Linux Filesystem Hierarchy Source and pre-formatted versions available 1. Linux Filesystem Hierarchy 1.1. Foreward1.2. The Root Directory1.3. /bin1.4. /boot1.5. /dev1.6. /etc1.7. /home1.8. /initrd1.9. /lib1.10. /lost+found1.11. /media1.12. /mnt1.13. /opt1.14. /proc1.15. /root1.16. /sbin1.17. /usr1.18. /var1.19. /srv1.20. /tmp Glossary A. UNIX System V Signals B. Sources C. About the Author D. Contributors E. Disclaimer F. Donations G. Feedback H. GNU Free Documentation License H.1. PREAMBLEH.2. APPLICABILITY AND DEFINITIONSH.3. VERBATIM COPYINGH.4. COPYING IN QUANTITYH.5. MODIFICATIONSH.6. COMBINING DOCUMENTSH.7. COLLECTIONS OF DOCUMENTSH.8. AGGREGATION WITH INDEPENDENT WORKSH.9. TRANSLATIONH.10. TERMINATIONH.11. FUTURE REVISIONS OF THIS LICENSEH.12. ADDENDUM: How to use this License for your documents 二、常用命令 1、命令帮助 2、用户 3、SHELL 4、显示硬盘、分区、CPU、内存信息 5、网络 6、进程 7、文件１、命令帮助[root@localhost ~]#man ps ２、用户$finger username 显示用户username的信息 $who 显示当前登陆用户 $who am I $su 成为root用户 $sudo command 以root用户身份执行 $passwd 更改密码３、SHELL$history 显示在当前shell下命令历史 $alias 显示所有的命令别称 $alias new_command='command' 将命令command别称为new_command $env 显示所有的环境变量 $export var=value 设置环境变量var为value ４、显示硬盘、分区、CPU、内存信息$df -lh 显示所有硬盘的使用状况$du -sh * 显示当前目录下各个目录和文件的大小 $mount 显示所有的硬盘分区挂载 $mount partition path 挂在partition到路径path $umount partition 卸载partition $sudo fdisk -l 显示所有的分区 $sudo fdisk device 为device(比如/dev/sdc)创建分区表。进入后选择n, p, w $sudo mkfs -t ext3 partition 格式化分区patition(比如/dev/sdc1) 修改 /etc/fstab，以自动挂载分区。增加行： /dev/sdc1 path(mount point) ext3 defaults 0 0 $arch 显示架构 $cat /proc/cpuinfo 显示CPU信息 $cat /proc/meminfo 显示内存信息 $free 显示内存使用状况５、网络$ifconfig 显示网络接口以及相应的IP地址。ifconfig可用于设置网络接口 $ifup eth0 运行eth0接口 $ifdown eth0 关闭eth0接口 $iwconfig 显示无线网络接口 $route 显示路由表。route还可以用于修改路由表 $netstat 显示当前的网络连接状态 $ping IP 发送ping包到地址IP $traceroute IP 探测前往地址IP的路由路径 $dhclient 向DHCP主机发送DHCP请求，以获得IP地址以及其他设置信息。 $host domain DNS查询，寻找域名domain对应的IP $host IP 反向DNS查询 $wget url 使用wget下载url指向的资源 $wget -m url 镜像下载６、进程$top 显示进程信息，并实时更新 $ps 显示当前shell下的进程 $ps -lu username 显示用户username的进程 $ps -ajx 以比较完整的格式显示所有的进程 $kill PID 杀死PID进程 (PID为Process ID) ７、文件$touch filename 如果文件不存在，创建一个空白文件；如果文件存在，更新文件读取和修改时间。 $rm filename 删除文件 $cp file1 file2 复制file1为file2 $ls -l path 显示文件和文件相关信息 $mkdir dir 创建dir文件夹 $mkdir -p path 递归创建路径path上的所有文件夹 $rmdir dir 删除dir文件夹，dir必须为空文件夹。 $rm -r dir 删除dir文件夹，以及其包含的所有文件 $file filename 文件filename的类型描述 $chown username:groupname filename 更改文件的拥有者为owner，拥有组为group $chmod 755 filename更改文件的权限为755: owner r+w+x, group: r+x, others: r+x $od -c filename 以ASCII字符显示文件 $cat filename 显示文件 $cat file1 file2 连接显示file1和file2 $head -1 filename 显示文件第一行 $tail -5 filename 显示文件倒数第五行 $diff file1 file2 显示file1和file2的差别 $sort filename 对文件中的行排序，并显示 $sort -f filename 排序时，不考虑大小写 $sort -u filename 排序，并去掉重复的行 $uniq filename 显示文件filename中不重复的行 (内容相同，但不相邻的行，不算做重复) $wc filename 统计文件中的字符、词和行数 $wc -l filename 统计文件中的行数

技术干货 | MapReduce作业调度可以通过设置mapred.job.priority属性或JobClient的setJobPriority()方法来设置优先级（在这两种方法中，可以选VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW中的任何值作为优先级）。在作业调度器选择要运行的下一个作业时，选择的是优先级最高的作业。然而，在FIFO调度算法中，优先级并不支持抢占，所以高优先级的作业任然受阻于此前已经开始的，长时间运行的低优先级的作业。MR1的默认调度器是最初基于队列的FIFO调度器，还有两个多用户调度器，分别为公平调度器和容量调度器。01 公平调度器公平调度器的目标是让每个用户公平共享集群能力。如果只有一个作业在运行，就会得到集群的所有资源。随着提交的作业越来越多，闲置的任务槽会以“让每个用户公平共享集群”这种方式进行分配。某个用户的耗时短的作业将在合理的时间内完成，即便另一个用户的长时间作业正在运行而且还在运行过程中。作业都放在作业池中，在默认情况下，每个用户都有自己的作业池。提交作业数较多的用户，不会因此而获得更多的集群资源。可以用map和reduce的任务槽数来定制作业池的最小容量，也可以设置每个池的权重。公平调度器支持抢占机制，所以，如果一个池在特定的一段时间内未能公平共享资源，就会中止运行池中得到过多资源的任务，把空出来的任务槽让给运行资源不足的作业池。公平调度器是一个后续模块。要使用它，需要将其JAR文件放在HADOOP的类路径，即将它从Hadoop的contrib/fairscheduler目录复制到lib目录。随后，像下面这样设置mapred.jobtracker.taskScheduler属性： org.apache.hadoop.mapred.FairScheduler 02 容量调度器集群由很多队列组成（类似于公平调度器的任务池），这些队列可能是层次结构的（因此，一个队列可能是另一个队列的子队列），每个队列被分配有一定的容量。这一点与公平调度器类似，只不过在每个队列内部，作业根据FIFO方式（考虑优先级）进行调度。本质上，容量调度器允许用户或组织（使用队列进行定义）为每个用户或组织模拟出一个使用FIFO调度策略的独立MR集群。相比之下，公平调度器（实际上也支持作业池内的FIFO作业调度，使其类似于容量调度器）强制每个池内公平共享，使运行的作业共享池的资源。

技术干货 | Apache Spark 黑名单(Blacklist)机制介绍在使用 Apache Spark 的时候，作业会以分布式的方式在不同的节点上运行；特别是当集群的规模很大时，集群的节点出现各种问题是很常见的，比如某个磁盘出现问题等。我们都知道 Apache Spark 是一个高性能、容错的分布式计算框架，一旦它知道某个计算所在的机器出现问题（比如磁盘故障），它会依据之前生成的 lineage 重新调度这个 Task。我们现在来考虑下下面的场景： 1、有个节点上的磁盘由于某些原因出现间歇性故障，导致某些扇区不能被读取。假设我们的 Spark 作业需要的数据正好就在这些扇区上，这将会导致这个 Task 失败。 2、这个作业的 Driver 获取到这个信息，知道 Task 失败了，所以它会重新提交这个 Task。 3、Scheduler 获取这个请求之后，它会考虑到数据的本地性问题，所以很可能还是把这个 Task 分发到上述的机器，因为它并不知道上述机器的磁盘出现了问题。 4、因为这个机器的磁盘出现问题，所以这个 Task 可能一样失败。然后 Driver 重新这些操作，最终导致了 Spark 作业出现失败！上面提到的场景其实对我们人来说可以通过某些措施来避免。但是对于 Apache Spark 2.2.0 版本之前是无法避免的，不过高兴的是，来自 Cloudera 的工程师解决了这个问题：引入了黑名单机制 Blacklist（详情可以参见SPARK-8425，具体的设计文档参见Design Doc for Blacklist Mechanism），并且随着 Apache Spark 2.2.0 版本发布，不过目前还处于实验性阶段。黑名单机制其实是通过维护之前出现问题的执行器（Executors）和节点（Hosts）的记录。当某个任务（Task）出现失败，那么黑名单机制将会追踪这个任务关联的执行器以及主机，并记下这些信息；当在这个节点调度任务出现失败的次数超过一定的数目（默认为2），那么调度器将不会再将任务分发到那台节点。调度器甚至可以杀死那台机器对应的执行器，这些都可以通过相应的配置实现。我们可以通过 Apache Spark WEB UI 界面看到执行器的状态（Status）：如果执行器处于黑名单状态，你可以在页面上看到其状态为 Blacklisted ，否则为 Active。如下图所示：拥有了黑名单机制之后，上面场景的问题就可以很好的解决。目前黑名单机制可以通过一系列的参数来控制，主要如下：因为黑名单机制目前还处于实验性状态，所以上面的一些参数可能会在后面的 Spark 中有所修改。

加米谷大数据 | Hive模式设计过多使用分区可能导致非必须的Hadoop文件和文件夹，最终会超出NameNode对系统云数据信息的处理能力。默认，每个task都是一个新的JVM实例，都需要开启和销毁的开销。对于小文件（小于一个块的大小），每个文件都会对应一个task。会导致JVM开启和销毁的时间中可能会比实际处理数据的时间消耗要长。理想的分区方案部应该导致产生太多的分区和文件夹目录，并且每个目录下的文件应该足够大，应该是文件系统中块大小的若干倍。不能够找到好的、大小相对合适的分区方式的话，可以考虑使用分桶表数据存储。 Hive没有主键或基于序列密钥生成的自增键的概念。分桶是将数据集分解成更容易管理的若干部分的另一个技术。如：在创建表时使用CLUSTERED BY(COLUMN_NAME) INTO 96 BUCKETS; 需要设置一个属性来强制Hive为目标表的分桶初始化过程设置一个正确的reducer个数，然后再执行一个查询来填充分区：set hive.enforce.bucketing=true; from raw_logs insert overwrite table weblog partition (dt='2016-08-23') select user_id,url,source_ip where dt='2016-08-23'; 如果没有使用hive.enforce.bucketing属性，那么就需要自己设置和分桶个数相匹配的reducer个数，如用set mapred.reduce.tasks=96，然后在INSERT语句中，需要在SELECT 语句后增加CLUSTER BY 语句。因为桶的数量是固定的，所以它没有数据波动，桶对于抽样再适合不过。分桶同时有利于执行高效的map-side JOIN。为底层数据增加一个新字段，旧的原始数据文件可能不包含这个字段，这种方式，无法再已有字段的开始或中间增加新字段。几乎在所有情况下，压缩都可以使磁盘上存储的数据量变小，这样可以通过降低I/O来提高查询执行速度，但是压缩和解压缩会消耗CPU资源。一般情况建议使用压缩，除非CPU对性能有影响。

加米谷大数据 | 推荐5款好用的Python工具对于Python开发者，在互联网上有很多可用的开发工具，但对于初学者不知道哪个Python开发工具比较好，找到一个合适的Python开发工具是很难的，需要花费很多的时间精力。所以，加米谷大数据就为初学者推荐几个最好用的5个Python开发工具： 1、Python Tutor Python Tutor 是由 Philip Guo 开发的一个免费教育工具，可帮助学生攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。通过这个工具，教师或学生可以直接在 Web 浏览器中编写 Python 代码，并逐步可视化地运行程序。如果你不知道代码在内存中是如何运行的，不妨把它拷贝到Tutor里可视化执行一遍，加深理解。2、IPython IPython 是一个 for Humans 的 Python 交互式 shell，用了它之后你就不想再用自带的 Python shell 了，IPython 支持变量自动补全，自动缩进，支持 bash shell 命令，内置了许多实用功能和函数，同时它也是科学计算和交互可视化的最佳平台。 3、Jupyter Notebook Jupyter Notebook 就像一个草稿本，能将文本注释、数学方程、代码和可视化内容全部组合到一个易于共享的文档中，以 Web 页面的方式展示。它是数据分析、机器学习的必备工具。 4、Anaconda Python 虽好，可总是会遇到各种包管理和 Python 版本问题，特别是 Windows 平台很多包无法正常安装，为了解决这些问题，Anoconda 出现了，Anoconda 包含了一个包管理工具和一个Python管理环境，同时附带了一大批常用数据科学包，也是数据分析的标配。5、Skulpt Skulpt 是一个用 Javascript 实现的在线 Python 执行环境，它可以让你轻松在浏览器中运行 Python 代码。使用 skulpt 结合 CodeMirror 编辑器即可实现一个基本的在线Python编辑和运行环境。

加米谷大数据 | Hbase的数据坐标 Hbase在表里存储数据使用的是四维坐标系统。分别是：行健、列族、列限定符和时间版本。如：列族A 行健列限定符(name) 列限定符(email) 列限定符C(password) aaa 单元(value1) 单元(value4) 单元(value7) bbb 单元(value2) 单元(value5) 单元(value8) ccc 单元(value3) 单元(value6) 时间版本1：单元(value9),时间版本2：单元(value10) 行健按照字典排序，一行具有一个行健，唯一且一行具有多个列族，每个列族下有一个或多个列限定符，每个列限定符下有多个单元，每个单元默认具有3个时间版本的值。单元的新建、修改和删除都会留下新时间版本，当没有设定时间版本时，HBase以毫秒为单位使用当前时间，所以版本数字用长整型long表示。单元里数据的每个版本提交一个KeyValue实例给Result。可用方法getTimestamp()来获取KeyValue实例的版本信息。如果一个单元的版本超过了最大数量，多出的记录在下一次大合并时会扔掉。除了删除整个整个单元，你也可以删除一个或介个特定的版本。deleteColumns() （带s）处理小于指定时间版本的所有KeyValue，不指定则为当前时间now，则相当于删除了该单元，而方法 deleteColumn()只删除一个时间版本。把所有坐标视为一个整体，Hbase可看做一个键值数据库，可把单元数据看做值。当使用Hbase API检索数据时，不需提供全部坐标，如果在GET命令中省略了时间版本，将返回多个时间版本的映射集合。可以在一次操作中，获取多个数据，按坐标的降序列。如果是全维度坐标，将得到指定单元值。去掉时间版本后，得到一个从时间戳列值的映射。再继续去掉列限定符，得到一个指定列族下的所有列限定符的映射。最后去掉列族，将得到一行的映射。成都加米谷大数据科技有限公司是一家专注于大数据人才培养的机构。由来自阿里、华为、京东、星环等国内知名企业的多位技术大牛联合创办，技术底蕴丰厚，勤奋创新，精通主流前沿大数据及人工智能相关技术。以国家规划大数据产业发展战略为指引，以全国大数据技术和大数据分析人才的培养为使命，以提升就业能力、强化职业技术为目标。面向社会提供大数据、人工智能等前沿技术的培训业务（http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.dtinone.com&urlrefer=087954d6c27420645d8ba4d7381bc2b7）。

加米谷大数据——数据表明，中国的程序员是最牛的！一直觉得中国的程序员想法多，肯钻研肯学习，但却不知道原来中国的程序员是世界上最牛的程序员。说来可能不信，但根据HackerRank官网的一篇报道，数据显示中国的程序员就是世界上最牛的程序员。特将此文翻译成中文，分享给大家。如果问哪里的程序员最牛，很多人肯定会认为是美国。毕竟美国拥有很多杰出的程序员，如比尔·盖茨、肯·汤普森、 C 语言之父丹尼斯·里奇、唐纳德·克努特。但是，这些年，印度的程序员规模增长是全世界最快的，俄罗斯的黑客也越来越锋芒毕露。有什么办法来确定哪个国家的程序员是最牛的吗？在HackerRank网站上，哪些国家在编程挑战赛中表现最厉害呢？通过数据，我们希望可以找到问题的答案。在 HackerRank网站上，为了帮助程序员提高技能，我们举行过数以千计的编程挑战赛。来自世界各地成千上万的程序员参加了这些挑战赛，从 Python 到算法到安全到分布式系统都有涉及。我们的社区也有超过150万开发者的排名，并且社区的人数每天都在增长。根据我们的数据显示，中国和俄罗斯拥有最具才华的程序员。中国程序员在数学、功能程序设计和数据结构方面超过了世界其他国家的程序员，而俄罗斯程序员则在算法领域占据主导地位，算法也是最流行和最具竞争力的领域。虽然美国和印度在HackerRank上也有不少优秀的程序员，但他们也只能排在第28和第31。整体综合排名我们先从程序员中最受欢迎的测试类型开始分析。HackerRank程序员可选择参与15个不同领域，下表显示了各个领域的比例：遥遥领先的领域是算法领域，这个领域得到了近40%的程序员青睐。这个领域包括数据排序，动态编程，搜索关键字和其他基于逻辑的任务方面的挑战。对于算法测试，程序员可使用他们选择的语言，这可能也解释了该领域如此受欢迎的部分原因。排在第二位和第三位的Java和数据架构分别都占到了接近 10%的比例。而分布系统和安全的占比最低。那么，基于这些测试，哪个国家的程序员整体得分最高呢？为了弄清楚，我们查看了各个国家所在领域的平均得分。计算平均得分前我们又为每个领域制定了打分标准（通过从每个分数减去平均值，然后除以标准差，也称为z分数），这样的话，即使每个领域的难度有差异，但我们也能对不同领域的个人打分，并形成从整体到个体的比较体系。为了让结果更直观，我们根据 z 分数框架的原理，做了一个 1-100 分数框架来解释。我们统计了 HackerRank 上程序员最多的 50 个国家，得出下面这张表单：由于中国的程序员得分最高，所以将中国的分数作为 100 的基准分，则俄罗斯的分数为 99.9 ，两国仅相差 0.01 。另外，波兰和瑞士也以 98 的高分进入前列。巴基斯坦得分仅为 57.4 。印度和美国为全世界贡献了最多的程序员，但没有进入榜单的前 25名，只分别以 76 和 78 的分数排名 31 和 28 。特定领域排名虽然中国的排名很出众，但也不只是雄霸所有榜单。哪个国家的程序员在特定领域的表现最好？我们来看看各个领域中上榜的国家。可以看到中国在一些领域相当出色。中国程序员在在数据结构、数学和函数式编程方面打败了其他国家的程序员。另外，俄罗斯程序员在挑战举办最多的算法领域也摘得桂冠。其次是分别处于第二、第三位置的波兰和中国。怎么解释不同国家在不同领域的水平差异？有可能是因为俄罗斯的程序员更喜欢参加算法类的比赛，也就会在这一领域投入更多精力，而大部分中国程序员则更喜欢参与数据结构类的项目。在HackerRank工作的一个软件工程师就是这样的，他叫Shimi Zhang，是我们函数型编程领域排名前十位的程序员之一。他来自中国重庆市，两年前来到美国攻读计算机科学硕士，然后来到HackerRank工作。来自中国的顶尖程序员Shimi Zhang就中国程序员的不同凡响之处表达了他的看法： “和其他国家相比，中国的高等教育资源比较少，中国的年轻人学习编程的路本来就窄。很多非凡的年轻人在得到来之不易的变成比赛，会真正痴迷于此。在中国，很多年轻人在中学时期就开始自学编程了，甚至还尝试解决的一些在全世界也没有多少人能解决的难题。举办专门针对青少年工程师的全国性竞赛，如 NOIp （全国青少年信息学奥林匹克联赛）和 NOI ( 全国青少年信息学奥林匹克竞赛)，今年至少有 3 个人在 NOI 中同时获得了冠军。这种针对青少年举行的编程比赛是近十年内的趋势。并且， NOI 中还有一个**的特别规定：如果一位选手在 NIO 中获得了金牌，他就不能参加国际信息学奥林匹克竞赛的中国队选拔赛，这就意味着，在国际信息学奥林匹克竞赛中获得金牌的中国选手，都是首战告捷。” 不同国家程序员的偏好接下来，我们又比较了每个国家程序员在不同挑战赛上花费的时间，然后与HackerRank用户平均花费的时长进行比较。这样一来，就能找出不同国家程序员在特定领域的偏好了。如上表所示，中国程序员在数学竞赛中的参与度远远高于我们预期的平均水平，这就能解释为什么他们能在这个领域高踞榜首了。捷克人貌似很喜欢 shell，在这个单项他们是第一。不同国家程序员的编程语言偏好但是除了这两个国家，其它国家的选择偏好和擅长领域好像并没有必然联系。我们也想知道其他国家的程序员对特定的编程语言是否有特殊嗜好。比如印度程序员是不是对C++更感兴趣？墨西哥程序员是不是都用Ruby编码？总的来说，世界各地的程序员选用 Java 的比例都要高于其它语言（只有极少数的例外：如马来西亚和巴基斯坦的程序员更喜欢 C++，台湾的程序员更喜欢 Python ）。而斯里兰卡程序员也是JAVA比例使用最高的国家，在HackerRan中也排名排在第八的位置。巴基斯坦、斯里兰卡和尼日利亚目前排名位于低端，他们可以学习学习瑞士的毅力。程序员在HackerRank社区上没有努力就放弃了挑战，得分为零。瑞士的零记分用户比例是最低，瑞士程序员也可谓称得上世界上最顽强的程序员。其实对于世界各地的程序员来说，无论你来自何处，都有可能成为一下个盖茨或者克努特。根据这些数据，如果我们举办一场黑客奥林匹克比赛，中国将赢得金牌，俄罗斯将获得银牌，而波兰则拿下铜牌。尽管美国和印度的程序员让人值得称赞，但想进入前25，还是需要再继续努力的。成都加米谷大数据科技有限公司是一家专注于大数据人才培养的机构。由来自阿里、华为、京东、星环等国内知名企业的多位技术大牛联合创办，技术底蕴丰厚，勤奋创新，精通主流前沿大数据及人工智能相关技术。以国家规划大数据产业发展战略为指引，以全国大数据技术和大数据分析人才的培养为使命，以提升就业能力、强化职业技术为目标。面向社会提供大数据、人工智能等前沿技术的培训业务。

加米谷大数据 | Apache Spark 黑名单(Blacklist)机制介绍在使用 Apache Spark 的时候，作业会以分布式的方式在不同的节点上运行；特别是当集群的规模很大时，集群的节点出现各种问题是很常见的，比如某个磁盘出现问题等。我们都知道 Apache Spark 是一个高性能、容错的分布式计算框架，一旦它知道某个计算所在的机器出现问题（比如磁盘故障），它会依据之前生成的 lineage 重新调度这个 Task。我们现在来考虑下下面的场景： 1、有个节点上的磁盘由于某些原因出现间歇性故障，导致某些扇区不能被读取。假设我们的 Spark 作业需要的数据正好就在这些扇区上，这将会导致这个 Task 失败。 2、这个作业的 Driver 获取到这个信息，知道 Task 失败了，所以它会重新提交这个 Task。 3、Scheduler 获取这个请求之后，它会考虑到数据的本地性问题，所以很可能还是把这个 Task 分发到上述的机器，因为它并不知道上述机器的磁盘出现了问题。 4、因为这个机器的磁盘出现问题，所以这个 Task 可能一样失败。然后 Driver 重新这些操作，最终导致了 Spark 作业出现失败！上面提到的场景其实对我们人来说可以通过某些措施来避免。但是对于 Apache Spark 2.2.0 版本之前是无法避免的，不过高兴的是，来自 Cloudera 的工程师解决了这个问题：引入了黑名单机制 Blacklist（详情可以参见SPARK-8425，具体的设计文档参见Design Doc for Blacklist Mechanism），并且随着 Apache Spark 2.2.0 版本发布，不过目前还处于实验性阶段。黑名单机制其实是通过维护之前出现问题的执行器（Executors）和节点（Hosts）的记录。当某个任务（Task）出现失败，那么黑名单机制将会追踪这个任务关联的执行器以及主机，并记下这些信息；当在这个节点调度任务出现失败的次数超过一定的数目（默认为2），那么调度器将不会再将任务分发到那台节点。调度器甚至可以杀死那台机器对应的执行器，这些都可以通过相应的配置实现。我们可以通过 Apache Spark WEB UI 界面看到执行器的状态（Status）：如果执行器处于黑名单状态，你可以在页面上看到其状态为 Blacklisted ，否则为 Active。如下图所示：拥有了黑名单机制之后，上面场景的问题就可以很好的解决。目前黑名单机制可以通过一系列的参数来控制，主要如下：因为黑名单机制目前还处于实验性状态，所以上面的一些参数可能会在后面的 Spark 中有所修改。

大数据技术沙龙——spark核心技术原理透视大数据技术沙龙——spark核心技术原理透视

企业对大数据人才都有哪些技术要求？现代社会本身竞争压力就很大，更何况是大数据这样热门的专业，越来越多企业运用大数据技术赚钱的同时也需要更多的大数据人才来拟补职场空缺，那到底企业需要什么样的大数据人才去填满职场空缺呢? 企业对大数据人才都有哪些技术要求？一、企业要求大数据人才有专业技术能力学习大数据这个专业的学员有很多，到底哪些学员可以成为企业青睐的对象呢?当然是有能力的合格大数据人才了，这样的人才企业和社会都很青睐，一个合格的大数据工程师需要具备哪些技能?信息挖掘和处理能力、计算机编程能力、信息分析能力等一系列大数据技术能力，都是企业对大数据人才专业技术方面的要求。企业对人才的大量需求在于需要人才去处理解决大数据在运营中所遇到的疑难杂症，只有能解决问题的大数据人才才是有价值的，更被需要的，也会是企业重用的人才，所以正在学习大数据的学员们，要努力培养自己的专业技能，实现自己的价值。二、企业要求大数据人才有实战项目经验企业在看重大数据人才专业技能的能力之外，也会很看重学员的实战项目经验。了解过大数据的人都知道，学习大数据离不开大数据项目操作，做过项目的学员普遍能力较高，也更熟悉企业项目工作流程，对于这样的大数据人才很多企业都比较青睐也很欢迎。大数据实战项目是学习大数据的最后一个步骤也是相当重要的一个步骤，项目操作一般都是在大数据实验室内进行，并且是多台电脑多名学员一同进行的，这样的操作训练让学员们理论知识学以致用，不仅会提升个人大数据操作能力也会培养学员的团队协作能力。三、大数据培训班培养出的大数据人才更受青睐的原因既然企业更青睐有专业技能和实战经验的学员，那怎样才能培养这样的能力成为一个合格的大数据人才呢? 1、大数据培训班有专业大数据课程和导师想要培养自己的专业技能，当然要选择合格的课程并且选择有经验的导师授课。为了保证学员学习大数据知识不脱离一线，加米谷大数据课程每半年就要更新一次，针对不同类型的学员也有不同的学习方案，零基础学员没有计算机编程基础要从最基本的javaSE编程开始学习，具有一定的学习基础和能力之后开始转战大数据课程，基础学员入学进行java考核，考核通过即可学习大数据课程，培训周期和培训费用都会相对而言减少; 2.大数据培训班有大数据实战项目加米谷大数据有完善的课程体系，高质量的培训课程，互动式的培训模式，真实的项目实战。企业需要大数据人才不但要有专业的大数据技能也要求学员具备一定的实战经验，这样的大数据人才在企业才能实现自己的价值，想要实现自己的梦想和价值，加米谷给你们提供舞台!

加米谷大数据｜hadoop之hdfs安全模式 namenode启动时，首先将映像文件（fsimage）载入内存，并中兴编辑日志中的各项操作。一旦在内存中成功建立文件系统元数据的映像，则创建一个新的fsimage文件（该操作不需要借助namenode）和一个空的编辑日志。此时，namenode开始监听RPC和http请求。但是此刻namenode运行在安全模式，即namenode的文件系统对于客户端来说是只读的。（只有访问文件系统元数据的文件系统操作时肯定成功执行的，对于读文件操作，只有集群中当前datanode上的块可用时，才能工作。但文件修改操作，包括写、删或重命名均会失败）在安全模式下namenode并不向datanode发出任何块复制或删除的指令。如果满足“最小副本条件”，namenode会在30秒钟后就退出安全模式，启动一个刚格式化的HDFS集群时，因系统中还没任何块，所以namenode不会进入安全模式。01、进入和离开安全模式 hdfs dfsadmin -safemode get 显示是否处于安全模式 hdfs dfsadmin -safemode wait 一直等到某条命令到来前才退出安全模式以下可以随时进入或离开安全模式 hdfs dfsadmin -safemode enter 进入安全模式 hdfs dfsadmin -safemode leave 离开安全模式 02、安全模式相关的属性 dfs.replication.min（默认1）,成功执行写操作所需创建的最小副本数（也称最小副本级别） dfs.safemode.threshold.pct（默认值0.999），在namenode退出安全模式之前，系统中满足最小副本级别（由dfs.replication.min定义）的块的比例。将这项值设为0或更小会令namenode无法启动安全模式，设为高于1则永远不会退出安全模式。 dfs.safemode.extension（默认值30000），在满足最小副本条件之后，namenode还需处于安全模式的时间（以毫秒为单位）,对于小型集群可设为0 成都加米谷大数据科技有限公司是一家专注于大数据人才培养的机构。由来自阿里、华为、京东、星环等国内知名企业的多位技术大牛联合创办，技术底蕴丰厚，勤奋创新，精通主流前沿大数据及人工智能相关技术。以国家规划大数据产业发展战略为指引，以全国大数据技术和大数据分析人才的培养为使命，以提升就业能力、强化职业技术为目标。面向社会提供大数据、人工智能等前沿技术的培训业务。