自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 论坛 (1)
  • 收藏
  • 关注

转载 JAVA进行XML解析

XML文本的内容<?xml version="1.0" encoding="GB2312"?> <RESULT> <VALUE>   <NO>A1234</NO>   <ADDR>河南省郑州市</ADDR> </VALUE> <VALUE>   <NO>B1234</NO>   <ADDR>河南省郑州市二七区</ADDR> </VALUE>

2016-11-30 14:36:57 235

原创 windows下把数据从oracle导入hbase

随着数据量的增大,oracle的查询速度就有点捉襟见肘,这个时候我们需要把数据从oracle数据库导入到hbase,然后使用hbase进行查询数据。 废话不多说,直接上代码.public class Getdata { private static Connection conn; private static Statement st; private ResultSet

2016-11-30 13:49:43 1018

原创 windows7连接hbase创建表

windows7连接hbase创建表的代码如下:package connectHbase;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HC

2016-11-29 17:34:19 2323

原创 python数据挖掘需要的第三方库学习

我本来使用matlab,spss作为算法的验证,但是现在要于hadoop,spark对接。所以我学习python进行数据挖掘。下面介绍一个python进行数据挖掘所需要的第三方库。

2016-11-28 09:39:28 3018

原创 Hbase单机模式安装和使用

1.解压压缩包 tar -zxvf hbase-1.2.2-bin.tar.gz 2.修改配置文件 (1)hbase-env.sh 命令:vi conf/hbase-env.sh 加入如下: export JAVA_HOME=/home/dm/opt/jdk1.7.0_79 export HBASE_CLASSPATH=/home/dm/opt/hadoop/etc/hadoop

2016-11-26 15:00:06 402

原创 JAVA设计模式之单例模式

1特点 单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。单例模式确保某个类只有一个实例,而且自行实例化并向整个系统提供这个实例。在计算机系统中,线程池、缓存、日志对象、对话框、打印机、显卡的驱动程序对象常被设计成单例。这些应用都或多或少具有资源管理器的功能。每台计算机可以有若干个打印机,但只能有一个Printer Spooler,以避免两个打印作业同时

2016-11-25 10:58:33 285

原创 Windows7下实现wordcount

本人初学hadoop,在完成windows下面通过Java编程导入数据到hdfs后,一直想完成hadoop中MR的经典程序wordcount(相比学习语言写一个helloworld程序) 下面介绍wordcount的调试过程。 1.首先配置hadoop_home 2.在path中添加%hadoop_home%\bin; 3.在%hadoop_home%\bin下面添加hadoop.dll,w

2016-11-24 15:29:20 921

转载 Java设计模式之工厂模式

转载文章来自 在设计模式中,Factory Method也是比较简单的一个,但应用非常广泛,EJB,RMI,COM,CORBA,Swing中都可以看到此模式的影子,它是最重要的模式之一.在很多地方都会看到xxxFactory这样命名的类 Factory Method是一种创建性模式,它定义了一个创建对象的接口,但是却让子类来决定具体实例化哪一个类.当一个类无法预料要创建哪种类的对象或

2016-11-23 13:25:55 303

原创 windows下eclipse操作hdfs上面的文件

我们使用eclipse编程连接hadoop完成在hdfs上面创建文件。 实验代码如下:public class FileDemo { `private Configuration conf = new Configuration();`// 这里创建conf对象有一个默认参数,boolean

2016-11-18 16:15:37 712

原创 windows7上eclipse连接hadoop

使用hadoop首先要打开hadoop,进入虚拟机上面的hadoop中的sbin目录,输入 ./start-all.sh 命令 接下来我们就会看到This script is Deprecated. Instead use start-dfs.sh and start-yarn.shStarting namenodes on [192.168.13.129]192.168.13.129:

2016-11-18 15:09:36 384

原创 Java方法containsAll学习

有时候我们需要判断B链表是不是A链表的子集,我们可以使用A.containsAll(B)来判断,当返回值是true的时候就表明B链表是A链表的子集,当返回值是false时候就表明B链表不是A链表的子集。 实验代码如下:package learnIng;import java.util.ArrayList;public class Cationsall { public static voi

2016-11-17 12:58:39 35150 6

原创 JAVA注释应用小例子

Java自定义注释的两个应用: 第一个应用相当于获取配置文件的值。 定义一个注释,代码如下:package note;import java.lang.annotation.Documented;import java.lang.annotation.ElementType;import java.lang.annotation.Retention;import java.lang.ann

2016-11-16 14:33:12 774

原创 数据库范式学习之2,3,BCNF

2NF: 若R是1NF,且每一个非主属性,完全函数依赖于码,则R属于2NF。 下面举一个不是2NF的例子。 关系模式S-L-C(Sno,Sdept,Sloc,Cno,Grade) 其中Sloc为学生的住处,并且每一个系的学生住在同一个地方。S-L-C的码为 (Sno,Cno)。函数依赖有: (Sno,Cno)->Grade是完全函数依赖。 Sno,Sdept,(Sno,Cno)->Sd

2016-11-16 10:55:50 323

原创 数据库范式学习名词解释

函数依赖: 设R(U)是属性集U上的关系模式,X,Y是U的子集。若对于R(U)的任意一个可能关系r中,r中不可能存在两个元组在X上面的属性值相等,而在Y上的属性值不等,则称X函数确定Y或Y函数依赖于X,记作X->Y。 非平凡的函数依赖: X->Y,但Y不是X的子集。则称X函数依赖于Y。 平凡的函数依赖: X->Y,但Y是X的子集则称X->Y是平凡的函数依赖。 对于任一关系模式,平

2016-11-16 09:42:22 895

原创 数据库中的范式学习

学生:学号(Sno),姓名(Sname),系名(Sdept) 一个学生只对应一个学生,一个学生只在一个系学习。当学号确定时,姓名和系名也就确定了。 属性中的这种依赖关系就类似于数学中的函数y=f(x),自变量x确定之后,相应的函数y也就唯一地确定了。 Sname=f(Son),Sdept=f(Son) Son->Sname,Sno->Sdept 教务:学号(Sno),所在系(Sdept),系

2016-11-15 18:51:10 407

原创 oracle触发器学习

下面介绍一个简单的触发器例子,触发器实现向a表插入数据的时候,自动向b表插入数据。 1.先创建a,b两个表create table a(stdid int,stdname varchar2(10));create table b(stdid int,stdname varchar2(10));2.创建触发器CREATE OR REPLACE TRIGGER tr_insert af

2016-11-15 10:33:43 228

原创 Spark学习笔记

前面学习了hadoop,在学习spark的时候,比较不解,spark是专门用来计算的框架,而hadoop可以用来分布式存储也可以通过MR来进行计算,spark虽然跟hadoop没有什么关系,但是spark其实是在hadoop上面做了优化,hadoop把中间写过卸载磁盘中,而spark把中间结果写在内存中,因此spark的计算更加快。 spark的计算是基于RDD的,RDD其实是一个链表类似的数据。

2016-11-09 16:20:13 282

原创 python安装和matplotlib库导入全过程

我使用Java和MATLAB和spss做数据挖掘工作,在数据挖掘工作中,由于要使用hadoop和spark所以我放弃了深入学习MATLAB和spss。我选用python作为算法的验证语言,然后Java作为工程语言更好的优化算法的实现过程。初来公司的时候,已经上一个同事已经安装了python3.4。由于我使用eclipse,所以我在eclipse上面安装了pydev。公司使用的jdk1.6.不能安装匹

2016-11-09 15:01:30 7334

转载 hadoop中的job调度管理

Hadoop调优方式 一个MapRedcue作业是通过JobClient向master的JobTracker提交的(JobTracker一直在等待JobClient通过RPC协议提交作业),JobTracker接到JobClient的请求后把其加入作业队列中。Datanode节点的TaskTracker一直通过RPC向JobTracker发送heartbeat询问有没有任务可做,如果有则让其派发任

2016-11-08 09:44:34 1906

转载 Hadoop的压缩codec

作为输入 当压缩文件作为MapReduce的输入时,MapReduce将自动通过扩展名找到相应的Codec对其解压。作为输出 当MapReduce的输出文件需要压缩时,可以更改mapred.output.compress为true,mapred.output.compression.codec为想要使用的codec的类名称,当然你可以可以在代码中指定,通过调用FileO

2016-11-08 09:28:03 247

原创 jdbc调用存储过程

存储过程代码如下:create or replace procedure inandoutpro(a in out number,b in out number) as begin a:=a+b; b:=a-b; a:=a-b; end inandoutpro; a,b是入参。begin,end之间是逻辑处理的过程。实现把a,b进行交换。

2016-11-07 09:53:01 225

原创 Linux命令学习

vi /etc/hosts vi命令主要是全局打开文本编辑器,hosts文件存储的是主机名称。 退出vi的方法如下:  在命令模式中,连按两次大写字母Z,若当前编辑的文件曾被修改过,则Vi保存该文件后退出,返回到shell;若当前编辑的文件没被修改过,则Vi直接退出, 返回到shell。  在末行模式下,输入命令  :w   Vi保存当前编辑文件,但并不退出,而是继续等待用户输入命令。在使

2016-11-07 09:42:12 182

原创 execute、executeQuery和executeUpdate之间的区别

JDBC连接数据库操作的时候,statement下面有3个方法,execute、executeQuery和executeUpdate。下面我们写代码分别介绍这三个方法的作用。 execute方法的返回值是boolean类型。返回true表示有结果集,返回false表示无结果集。 实验代码如下: String str = "insert into student values ('003',

2016-11-04 15:11:10 2808

原创 Blob和Clob类型的区别

BLOB和CLOB都是大字段类型,BLOB是按二进制来存储的,而CLOB是可以直接存储文字的。其实两个是可以互换的的,或者可以直接用LOB字段代替这两个。但是为了更好的管理ORACLE数据库,通常像图片、文件、音乐等信息就用BLOB字段来存储,先将文件转为二进制再存储进去。而像文章或者是较长的文字,就用CLOB存储,这样对以后的查询更新存储等操作都提供很大的方便。

2016-11-04 09:46:26 313

原创 MapReduce学习

MapReduce设计理念移动计算而不是移动数据wordcounter流程图 上面图片讲述的是MR进行groub by计算的计算过程,下面进行详细分析。 1.Splitting动作在图片上显示是按照行进行分组,其实结合HDFS我们知道它们是按照block进行分组的。 2.按照block进行分组的时候,有时候会把car这些隔开,那么我们会进行少量的数据移动。 3.进行map的时候,图上面是按照

2016-11-03 14:24:28 255

转载 JAVA类的成员初始化顺序

下面是父类代码:package staitic;public class Parent {private static String p_StaticField = "父类--静态变量"; private String p_Field = "父类--变量"; // 静态初始化块 static { System.out.println(p_StaticField); System.out.

2016-11-03 09:36:23 280

原创 IO流之fluse()

if (file.exists()) { file.delete(); } // FileWriter fw = new FileWriter(file, true); BufferedWriter writer = new BufferedWriter(new FileWriter(file)); while

2016-11-02 17:34:27 549

原创 Java调用JDBC判断表是否存在

我们使用Java很难判断oracle里面是否存在这张表,网上有很多人使用存储过程进行判断,本文利用try,catch进行判断是否存在表。 实验代码如下:try { statement.execute("select * from " + map.get("gradeitemTable")); } catch (Exception e) {

2016-11-02 17:26:37 2321

原创 .properties文件的使用

我们把程序布置在项目上的时候,一些程序需要参数来确定他们想要什么样的结果,大家在方法上面留下了传入参数,为了让别人能在文件外面修改参数,我们使用.properties文件来保存参数设置,使得程序更加安全。 本文的测试文件内容如下:dbPort = localhost databaseName = mydb dbUserName = root dbPassword = root 实验代码如下:

2016-11-02 09:19:09 191

原创 HDFS备注

1.NN里面主要有两个文件,第一个文件是fsmage里面主要存储映射关系元数据。 例如: File.txt: Blk A: DN1,DN5,DN6 Blk B : DN7,DN1,DN2 Blk C : DN5,DN8,DN9 可以看到一个文件分为多个block,每一个block3个DN存储。 第二个文件是edit主要存储操作日志。 2.当NN停止之前,NN什么都不处理,当NN

2016-11-01 16:16:56 189

原创 HDFS学习

HDFS的设计目标节点失效是常态 —宕机 —磁盘坏点 理想状态 一个或几个节点失效不影响数据的完整性。HDFS设计原则文件以块(block)方式存储 •每个块带下远比多数文件系统来的大(预设64M) •通过副本机制提高可靠度和读取吞吐量 •每个区块至少分到三台DataNode上 •单一 master (NameNode)来协调存储元数据(metadata) •客户端对文件没有缓存机

2016-11-01 15:30:31 274

原创 多线程之sleep()

还是使用join()学习的例子。实验代码如下package thread;public class JoinTest implements Runnable { public static int a = 0; public void run() { for (int k = 0; k < 5; k++) { a = a + 1;

2016-11-01 14:51:27 538 1

原创 多线程之join()

package thread;public class JoinTest implements Runnable{ public static int a = 0; public void run() { for (int k = 0; k < 5; k++) { a = a + 1; } } public stati

2016-11-01 14:44:07 200

原创 Hadoop安装

一.软件各个版本 软件 对应版本 Jdk 1.7 Hadoop 2.6.4 hbase 1.2.2 zookeeper 3.4.8 spark 1.6.2 二.修改配置主机 1.修改各个主机名 命名分别如下: dataminingmaster dataminingslave1 dataminingslave2 dataminingslave3 datami

2016-11-01 13:54:19 242

原创 Hadoop学习笔记之组件了解

Hadoop生态图 HDFS-分布式文件系统 作用:服务器以集群方式存在的时候,磁盘空间合并起来,HDFS用来管理合并起来的空间。 YARN 管理集群中的CPU以及内存(YARN是基于HDFS之上的) 框架: HBase: 分布式列式数据库(分布式数据库,列式数据库),HBase不支持多行事务和跨表事务。下面我们介绍列式数据库与关系数据库的区别。 EmpId Lastname

2016-11-01 10:54:33 276

原创 大数据简介

大数据的4V特征体量大(volume): 非结构化数据的超大规模和增长总数据量的80%~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。 多样性( variety ): 大数据的异构和多样性,很多不同形式(文本,图像,视频,机器数据) 无模式或者模式不明显,不连贯的语法或句意。 价值密度( value ): 大量的不相关信息,对未来趋势与模

2016-11-01 10:26:40 736

原创 Python自学之collection

# 定义数组x = [31.8, 33.9, 35.0, 33.9, 33.8, 33.0, 33.0, 34.4, 36.5, 38.0, 39.3, 40.7, 41.7, 41.4, 40.7, 39.9]# 数组遍历for a in x: print (a) # 数组遍历for i in range(0, len(x)): print (i, x[i]) #m

2016-11-01 09:05:05 221

原创 Python自学之String

#单引号和双引号的区别a='hello'b=' world'c="hello"print(a+b)print(c)print(a[0])print(b[1])print(c[0])m=str(123)n=str(456)print(m+n)实验结果:hello worldhellohwh123456

2016-11-01 09:03:05 218

原创 Python自学之计算

#求平方和print(pow(3,4))print(3**4)#检验除法print(2/3)print(2.0/3.0)print(2/3.0)# print(2/0)#整除print(1//2)print(3//2)#取余数print(3%2)#进制print(0xaf)#十六进制print(0o10)#八进制#获取用户输入# x=input("x:")# pr

2016-11-01 09:01:27 200

空空如也

勿在浮沙筑高台LS的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除