转到正文

博客水木

一个学习总结与工作经验分享博客。

SparkSQL简介及入门 一、概述 Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame(数据框)的编程抽象,DF的底层仍然是RDD,并且可以充当分布式SQL查询引擎。 1、SparkSQL的由来 SparkSQL的前身是Shark。在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上...继续阅读

1、系统及环境版本 系统:Win7 旗舰版 64位 sp1 JDK:1.8.0 Spark:2.3.2 Hadoop:2.7 Scala:2.11.8 文章最后,有所有版本的下载链接,不用再去折腾版本之间的问题。 2、环境下载 2.1 Spark 下载 http://spark.apache.org/downloads.html spark 2.2 hadooponwindos 下载 https://github.com/sardetushar/hadoop...继续阅读

1. Spark的简介 Spark是UC Berkeley AMPLab开发的是一种计算框架,分布式资源工作交由集群管理软件(Mesos、YARN),底层是用scala语言实现的。 Spark的目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得...继续阅读

首先要构建电商数据分析的基本指标体系,主要分为8个类指标,即: 1. 总体运营指标:从流量、订单、总体销售业绩、整体指标进行把控,起码对运营的电商平台有个大致了解,到底运营的怎么样,是亏是赚。 2.网站流量指标:即对访问你网站的访客进行分析,基于这些数据可以对网页进行改进,以及对访客的行为进行分析等等...继续阅读

Presto是什么 Presto分布式大数据查询引擎,最主要的是支持跨数据库类型查询。可以快速高效的完成海量数据的查询,作为Hive和Pig的代替者,Presto不仅能访问HDFS,也能访问多种关系型数据库(如mysql),它不是一个标准的数据库,不能用来处理在线事务 Presto支持的数据源类型 Mysql、Hive、Sql server、redis、kafka Pres...继续阅读

Greenplum数据库基于PostgreSQL开源技术。它本质上是几个PostgreSQL数据库实例,它们共同作为一个有凝聚力的数据库管理系统(DBMS)。它基于PostgreSQL 8.2.15,在大多数情况下与PostgreSQL在SQL支持,功能,配置选项和最终用户功能方面非常相似。数据库用户与Greenplum数据库进行交互,就像常规的PostgreSQL DBMS一样。...继续阅读

简介 (翻译自官网) Oozie是一个用于管理Apache Hadoop作业的工作流调度程序系统。 Oozie Workflow job是由多个Action组成的有向无环图(DAG)。 Oozie Coordinator job是根据时间(频率)和数据可用性触发的可重复执行的Oozie Workflow job(简单讲就是根据时间或数据条件,规划workflow的执行)。 Oozie与Hadoop技术...继续阅读

在云服务器 ECS Linux 系统中,通常我们在执行一些运行时间比较长的任务时,必须等待执行完毕才能断开 SSH 连接或关闭客户端软件,否则可能会导致执行中断。本文介绍几种保障程序在用户退出登录后持续运行的方法。 使用管理终端执行 通过 管理终端 会登录服务器的本地会话(console)口,在该终端执行的程序不会受到 S...继续阅读

图论是计算机科学中最重要、最有趣的分支之一,对于存在拓扑关系的业务场景,理解和使用图可以对业务有很多帮助。本文主要针对图理论在大数据量下的技术和应用场景做全貌性的介绍。 1. 图论的起源 在18世纪,一个叫做柯尼斯堡的城市,河流将该城市切成了四部分,割裂的土地之间通过七座桥连接起来了。 当时,有一个与柯尼...继续阅读

Hadoop 的普及和其生态系统的不断壮大并不令人感到意外。Hadoop 不断进步的一个特殊领域是 Hadoop 应用程序的编写。虽然编写 Map 和 Reduce 应用程序并不十分复杂,但这些编程确实需要一些软件开发经验。Apache Pig 改变了这种状况,它在 MapReduce 的基础上创建了更简单的过程语言抽象,为 Hadoop 应用程序提供了一种更...继续阅读

建站服务