博客水木

关于

我是个捶不扁、炒不爆、煮不烂，响当当的一颗金豌豆！

水木轩

水木轩，一个学习交流及资讯共享的休闲互动式综合性网站。

水木社区

水木社区一个学习交流及资讯共享的休闲互动式综合性社区。

水木工作室

大公司的设计品质，工作室的廉价收费!

SparkSQL简介及入门

10月 21

大数据

SparkSQL简介及入门一、概述 Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame（数据框）的编程抽象，DF的底层仍然是RDD，并且可以充当分布式SQL查询引擎。 1、SparkSQL的由来 SparkSQL的前身是Shark。在Hadoop发展过程中，为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上...继续阅读

我要发言 SparkSQL, 入门, 简介 阅读全文

1、系统及环境版本系统：Win7 旗舰版 64位 sp1 JDK：1.8.0 Spark：2.3.2 Hadoop：2.7 Scala：2.11.8 文章最后，有所有版本的下载链接，不用再去折腾版本之间的问题。 2、环境下载 2.1 Spark 下载 http://spark.apache.org/downloads.html spark 2.2 hadooponwindos 下载 https://github.com/sardetushar/hadoop...继续阅读

我要发言 MLlib, Spark, 教程, 环境搭建, 详细 阅读全文

Spark简介和架构

10月 19

大数据

1. Spark的简介 Spark是UC Berkeley AMPLab开发的是一种计算框架，分布式资源工作交由集群管理软件（Mesos、YARN），底层是用scala语言实现的。 Spark的目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得...继续阅读

我要发言 Spark, 架构, 简介 阅读全文

电商大数据分析主要应用在哪些方面，怎么去分析？

10月 18

大数据, 电子商务

首先要构建电商数据分析的基本指标体系，主要分为8个类指标，即： 1. 总体运营指标：从流量、订单、总体销售业绩、整体指标进行把控，起码对运营的电商平台有个大致了解，到底运营的怎么样，是亏是赚。 2.网站流量指标：即对访问你网站的访客进行分析，基于这些数据可以对网页进行改进，以及对访客的行为进行分析等等...继续阅读

我要发言分析, 大数据, 应用, 方面, 电商 阅读全文

Presto分布式大数据查询引擎

10月 17

大数据

Presto是什么 Presto分布式大数据查询引擎，最主要的是支持跨数据库类型查询。可以快速高效的完成海量数据的查询，作为Hive和Pig的代替者，Presto不仅能访问HDFS，也能访问多种关系型数据库(如mysql)，它不是一个标准的数据库，不能用来处理在线事务 Presto支持的数据源类型 Mysql、Hive、Sql server、redis、kafka Pres...继续阅读

我要发言 Presto, 分布式, 大数据, 查询引擎 阅读全文

Greenplum分布式数据库分析

10月 16

大数据

Greenplum数据库基于PostgreSQL开源技术。它本质上是几个PostgreSQL数据库实例，它们共同作为一个有凝聚力的数据库管理系统（DBMS）。它基于PostgreSQL 8.2.15，在大多数情况下与PostgreSQL在SQL支持，功能，配置选项和最终用户功能方面非常相似。数据库用户与Greenplum数据库进行交互，就像常规的PostgreSQL DBMS一样。...继续阅读

我要发言 Greenplum, 分布式, 分析, 数据库 阅读全文

Hadoop工作流调度系统——Oozie介绍

10月 15

大数据

简介（翻译自官网） Oozie是一个用于管理Apache Hadoop作业的工作流调度程序系统。 Oozie Workflow job是由多个Action组成的有向无环图（DAG）。 Oozie Coordinator job是根据时间（频率）和数据可用性触发的可重复执行的Oozie Workflow job（简单讲就是根据时间或数据条件，规划workflow的执行）。 Oozie与Hadoop技术...继续阅读

我要发言 Hadoop, Oozie, 介绍, 工作流, 系统, 调度 阅读全文

Linux中SSH客户端断开后保持进程继续运行配置方法的具体介绍

10月 14

电脑网络

在云服务器 ECS Linux 系统中，通常我们在执行一些运行时间比较长的任务时，必须等待执行完毕才能断开 SSH 连接或关闭客户端软件，否则可能会导致执行中断。本文介绍几种保障程序在用户退出登录后持续运行的方法。使用管理终端执行通过管理终端会登录服务器的本地会话（console）口，在该终端执行的程序不会受到 S...继续阅读

我要发言 Linux, SSH, 保持, 客户端, 断开, 方法, 继续, 运行, 进程 阅读全文

图平台技术及应用实践

10月 13

人工智能

图论是计算机科学中最重要、最有趣的分支之一，对于存在拓扑关系的业务场景，理解和使用图可以对业务有很多帮助。本文主要针对图理论在大数据量下的技术和应用场景做全貌性的介绍。 1. 图论的起源在18世纪，一个叫做柯尼斯堡的城市，河流将该城市切成了四部分，割裂的土地之间通过七座桥连接起来了。当时，有一个与柯尼...继续阅读

我要发言图平台, 应用实践, 技术 阅读全文

使用 Apache Pig 处理数据

10月 12

大数据

Hadoop 的普及和其生态系统的不断壮大并不令人感到意外。Hadoop 不断进步的一个特殊领域是 Hadoop 应用程序的编写。虽然编写 Map 和 Reduce 应用程序并不十分复杂，但这些编程确实需要一些软件开发经验。Apache Pig 改变了这种状况，它在 MapReduce 的基础上创建了更简单的过程语言抽象，为 Hadoop 应用程序提供了一种更...继续阅读

我要发言 Apache, Pig, 使用, 处理数据 阅读全文

较新文章较早文章

一	二	三	四	五	六	日
« 12月
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

关于

水木轩

水木社区

水木工作室

SparkSQL简介及入门

Spark MLlib 环境搭建详细教程

Spark简介和架构

电商大数据分析主要应用在哪些方面，怎么去分析？

Presto分布式大数据查询引擎

Greenplum分布式数据库分析

Hadoop工作流调度系统——Oozie介绍

Linux中SSH客户端断开后保持进程继续运行配置方法的具体介绍

图平台技术及应用实践

使用 Apache Pig 处理数据

腾讯新闻

3D滚动云标签

全球网站点击统计

百度站内搜索

文章分类

友情链接

心路历程

扫描关注我微信