自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 论坛 (1)
  • 收藏
  • 关注

原创 windows7下使用GPU训练tensorflow深度学习模型

windows7先看一下自己有没有GPU,计算机->属性->设备管理器->显示适配器看到自己的显卡,然后查看是否支持GPU运算。 如果支持GPU运算就可以安装CUDA 下载地址如下: cuda8下载地址 cudnn下载地址 tensorflow1.3需要cuda8+cudann8+v6.0+GPU版tensorslow 下载cuda8之后安装,解压cudann8把cu...

2017-11-30 16:53:49 2098

原创 Python实现trie进行机械分词

# -*- coding: utf-8 -*-class node(object): """ 创建trie树节点,包含私有变量,isEnd表示是否是词的末尾节点 name表示存储的值 son__nodes表示子节点 """ #Python中没有private,用两个下划线表示私有变量。 def __init__(self,isend,name)

2017-11-29 15:16:42 578

原创 Python的类方法、静态方法和实例化方法

#-*- coding:utf-8 -*-class A: def __init__(self,name): self.name=name @staticmethod def staticfun(): print("this is static function") @classmethod def classfun(cls)

2017-11-29 14:09:26 1020 1

原创 Python的类变量和成员变量以及局部变量

Python的类变量可以通过类和实例名字进行访问而成员变量只能通过实例名来访问,局部变量只能在方法体内被使用。http://blog.csdn.net/lc_910927/article/details/38757363类变量和成员变量虽然名字相同但是存储的地址不是相同的。# -*- coding: utf-8 -*-class A(): privatestring="aa" de

2017-11-29 11:39:20 2018

转载 Python的伪私有属性

Python中的私有属性和私有方法都不能算真正的私有,只是在变量前面添加了类名字使方法和属性不能在外部直接被访问。http://www.cnblogs.com/blackmatrix/p/5600830.html

2017-11-29 10:59:13 214

原创 Python实现快速排序

快速排序比冒泡排序快的地方是,快速排序的交换次数比较少# -*- coding: utf-8 -*-list=[1,2,43,3,58,76,3]lenght=len(list)for i in range(0,lenght): max=list[i] index=i for j in range(i,lenght): if list[j]>max:

2017-11-28 18:17:13 184

原创 Python实现基于最大长度的正向最大值匹配算法

正向最大值匹配算法不能处理数字和字母问题,这里添加对数字和字母的处理,连续的数字和字母作为一个词进行处理,但是还会出现一些问题,例如出现英文连接符的问题,例如有些手术名字为英文和中文的组合(手部V-Y型皮瓣手术)。# -*- coding: utf-8 -*-import refile=open("/home/liusenubuntu/file/segment/newdict.txt","r",

2017-11-28 10:39:08 1806

转载 Hbase学习

Hbase和Hive的区别https://www.cnblogs.com/justinzhang/p/4273470.htmlHBase原理和基本概念http://blog.csdn.net/woshiwanxin102213/article/details/17584043HBase表有rowkey和列簇以及列名。 rowkey是表中一行的数据的唯一性约束。 列簇是Hbase中表的几个列的组合

2017-11-27 16:04:36 211

原创 Python需要提交表单爬虫

Python爬虫的时候需要提高表单,使用post提交表单的速度比较慢,因此可以先找到要提交的表单数据。 网址如下:https://www.hqms.org.cn/usp/roster/index.jsp打开网址查看源代码,发现只有<option value="7180">北京市</option> <op

2017-11-27 15:34:19 1437

原创 Python爬虫爬取GBK网页

# -*- coding: utf-8 -*-import requestsimport refrom bs4 import BeautifulSoupdef getHtml(url): req = requests.get(url) req.encoding = "gbk" return req.contentdef getcityhtml(html):

2017-11-23 16:02:51 3981

原创 python处理csv中的空值

# -*- coding: UTF-8 -*-import jieba.possegimport tensorflow as tfimport pandas as pdimport csvimport math"""1.必須獲取CSV文件夾(ID:文本)2.返回(ID:分词后的文本)"""flags = tf.app.flagsflags.DEFINE_string("trai

2017-11-23 15:21:30 13803

原创 使用Django创建第一个web项目

http://www.runoob.com/django/django-first-app.html

2017-11-23 13:36:12 502

原创 创建UTF-8的CSV文件

需要把EXCEL文件转换成utf8编码的csv文件。 现在是这样处理的: 第一步,用Excel创建文件,另存为 .csv 格式; 第二步,用记事本打开 CSV 文件,然后另存为 UTF-8 格式

2017-11-23 10:46:47 5149 1

原创 ubuntu安装Python2和Python3之后怎么使用pip

python2是ubuntu自带的,Python3是自己安装的。 使用Python2的pip安装包sudo python2 -m pip install numpy使用Python3的pip安装包sudo python3 -m pip install numpy

2017-11-22 11:47:42 2775

转载 python3.5安装jpype1调用Java

亲测有效https://www.cnblogs.com/xyb930826/p/6060821.html

2017-11-17 14:33:43 1375

转载 windows下eclipse通过JDBC连接hive

https://www.cnblogs.com/liumingyi/p/5955670.html

2017-11-16 16:34:42 426

转载 HQL练习

http://blog.csdn.net/mrbcy/article/details/68488178

2017-11-14 17:40:31 619

转载 Hive+mysql安装

hive+mysql安装亲测有效http://blog.csdn.net/login_sonata/article/details/53178613错误解决http://blog.csdn.net/freedomboy319/article/details/44828337

2017-11-14 17:03:40 201

原创 mapreduce实现writable接口自定义输出格式

static class UserAndPostWritable implements Writable { /** * 类型 U表示用户,P表示帖子 */ private String type; private String data; public UserAndPostWritable()

2017-11-10 10:39:06 348

原创 MapReduce类的输入文件的格式

输入多个文件,但是格式一样FileInputFormat.addInputPath(conf, new Path("hdfs://192.168.16.128:9000/test/groupby/cityA.txt"));输入多个文件,但是每个文件的格式可以不一样MultipleInputs.addInputPath(job, new Path("hdfs://192.168.16.128:9000

2017-11-10 10:36:43 500

转载 HIVE文件格式的map reduce代码编写

在对HDFS里面的文件编写map reduce时候,我们可以直接读txt文件,其实是HIVE底层也是文件,HIVE有三种文件格式。http://hugh-wangp.iteye.com/blog/1405804

2017-11-10 10:30:44 206

转载 mapreduce中setCombinerClass和setReducerClass同时使用

https://www.cnblogs.com/duking1991/p/6069048.html

2017-11-10 10:21:50 850

转载 jena推理学习

http://blog.csdn.net/zdlzwk/article/details/48828221实例: 在百度搜索: 梁启超的儿子的老婆 会出现林徽因 梁启超的儿子的老婆的情人 不会出现徐志摩

2017-11-09 18:15:01 1675

转载 protege4.3安装使用

protege4.3本体编辑器https://www.cnblogs.com/i-bugs/p/3558147.html

2017-11-09 18:06:52 1573

原创 windows连接hadoop没有权限的问题

windows连接hadoop会出现没有权限的问题,导致不能导入文件进入hdfs. 解决方案1.关闭hadoop.2.修改hdfs-site.xml或者添加<property> <name>dfs.permissions</name> <value>false</value></property>3.重启hadoop

2017-11-08 07:22:11 944

转载 知识图谱知识推理

http://www.cnblogs.com/jtianwen2014/p/7000190.html开源工具http://blog.csdn.net/javafreely/article/details/8432522

2017-11-03 17:56:36 4730

转载 知识图谱三元组抽取

http://blog.csdn.net/u013412066/article/details/68065518

2017-11-03 17:54:06 20281 5

转载 map reduce解决数据不平衡问题

hadoop数据不平衡有两种情况 第一种情况是某个NN的数据量很大 可以通过hadoop的balance进行数据平衡,可以多开几个map 第二种情况是某个key的数据很多,reduce过程很慢 可以把key分成多个key进行reduce,然后再进行合并。https://www.zhihu.com/question/32054214

2017-11-03 16:59:31 662

转载 Hadoop使用 MapReduce排序思路、全局排序

hadoop中的shuffle会自动进行排序,但是这个过程很慢。 我们可以把N个数据分成K份(1,2,3,4,5…k)并且保证K中的数字大于k-1 然后把K份数据分别进行reduce结果进行合并就会提高排序速度http://www.thebigdata.cn/Hadoop/13225.html

2017-11-02 17:29:35 441

转载 MapReduce中combine、partition、shuffle的作用是什么

combine是用于组合map端的key partition是设置shuffle的key shuffle是hadoop中自带的map reduce根本不用考虑,只用写好map和reducehttp://blog.csdn.net/mrcharles/article/details/50458637

2017-11-02 17:20:36 765

转载 MapReduce实现基本SQL操作的原理-join和group by,以及Dinstinct

感谢作者做的那么清晰易懂http://blog.csdn.net/sn_zzy/article/details/43446027Group By原理 map阶段 把需要group by的多个字段组合变成一个key reduce字段 对组合的新key进行count map阶段 不变 reduce阶段 相同的id不进行count只保留一个然后再count

2017-11-02 17:07:00 874

原创 mapreduce 实现内连接,左连接,右连接,全连接,反连接

map reduce可以实现sql所做的任何查询操作,通过写map reduce可以了解hadoop里面的数据操作,提高hive sql的性能。http://www.360doc.com/content/15/0108/10/9413880_439086658.shtml整理map reduce进行连接的操作步骤

2017-11-02 16:43:09 517

转载 识别图片中的文字

tesseract-ocr 4.00可以识别图片(.png文件)中的 文字 Windows环境安装tesseract-ocr 4.00并配置环境变量http://www.cnblogs.com/jianqingwang/p/6978724.htmlTesseract-OCR识别中文与训练字库实例http://www.cnblogs.com/wzben/p/5930538.html

2017-11-02 16:32:33 379

转载 ubuntu14.04设置SSH免密码登陆

亲测有效https://jingyan.baidu.com/article/60ccbceb02bd4264cab197b9.html

2017-11-02 16:26:51 284

转载 ubuntu安装Java并且配置环境变量

亲测有效https://jingyan.baidu.com/article/e2284b2b61a2efe2e6118d39.html

2017-11-02 16:24:24 246

转载 新词发现算法研究

使用MMseg进行分词的时候,需要大量的词库最为支撑,因此一个新词发现算法变得尤为重要。 新词发现算法理论基础http://www.matrix67.com/blog/archives/5044在实际运用中你会发现,文本片段的凝固程度和自由程度,两种判断标准缺一不可。只看凝固程度的话,程序会找出“巧克”、“俄罗”、“颜六色”、“柴可夫”等实际上是“半个词”的片段;只看自由程度的话,程

2017-11-02 14:42:35 2679

空空如也

勿在浮沙筑高台LS的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除