自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 利用spark迁移cassandra集群数据

目前工作中遇到需求,需要将一个cassandra集群的数据迁移到另一个cassandra集群。 从网上查询发现有两个解决方案,如下 1. 读写的时候切换CassandraConnector import com.datastax.spark.connector._ import com....

2020-11-17 16:14:33 10 0

原创 spark another attempt succeeded

执行spark任务发现 提示信息“another attempt succeeded”,这是由于设置了spark.speculation为true,该参数的含义如下: 参考: If a task appears to be taking an unusually long time to ...

2020-11-16 14:45:27 14 0

原创 vim常用命令

1. 移动光标的方法 操作 功能 [Ctrl] + [f] 屏幕『向下』移动一页,相当于 [Page Down]按键 [Ctrl] + [b] 屏幕『向上』移动一页,相当于 [Pag...

2020-10-30 15:09:59 10 0

原创 Hadoop安装

http://dblab.xmu.edu.cn/blog/install-hadoop/

2020-10-27 15:46:37 12 0

原创 geoip2解析IP的地理位置和城市

python 代码 # coding=utf-8 import geoip2.database reader = geoip2.database.Reader('./GeoLite2-City.mmdb') # Open a file fo = open("ip...

2020-10-23 10:38:05 79 0

原创 python高效读写文件

1. 读文件 with open("./input.txt") as fp: for line in fp: line = line.strip() if line: print(line) 2. 保存文...

2020-09-23 14:31:35 50 0

原创 python 常用代码块

本文梳理在学习、工作中经常使用的一些代码。 1. 读写文件 2. 时间转换

2020-09-23 14:21:29 24 0

原创 PySpark将dataframe写入本地文件,只生成文件夹含有SUCCESS

1. 代码 results = res.rdd\ .map(lambda word: (word[0].replace(u"(", u"(").replace(u")", u")"), word...

2020-08-26 11:16:52 363 0

原创 TextCnn 模型固化后预测时报 The operation, ‘drop_prob‘, does not exist in the graph.“

对于这一问题,由于模型设计中采用tf.layers.dropou函数,而该函数在预测时不起作用,因此固化模型时无需传drop_prob这一参数,因此如果想获取,就会报这个错。

2020-08-06 15:47:00 112 0

原创 BiLSTM + CRF 命名实体识别实践(下)

0. 前言 上一篇博客简单讨论了理论知识,这篇博客主要是实践部分,主要针对上一篇博客中提到的代码的优化。优化点主要包含以下几个方面: (1)max_seq_len如何取值? (2)sequence_len不固定会给模型带来多大的提升? (3)batch_size不固定,方便预测 (4)词...

2020-07-21 12:43:57 77 0

转载 Python之队列queue模块使用 常见问题与用法

https://blog.csdn.net/yangzhenzhen/article/details/53536335

2020-07-16 21:46:30 54 0

原创 BILSTM+CRF 的命名实体识别(上)

1. CRF介绍 参考资料 最通俗易懂的BiLSTM-CRF模型中的CRF层介绍 条件随机场(CRF)和隐马尔科夫模型(HMM)最大区别在哪里?CRF的全局最优体现在哪里?

2020-07-16 15:45:17 119 0

原创 TensorBoard可视化

1. 运行TensorBoard tensorboard --logdir=/path/log 注:默认端口为6006,可通过参数--port=8090来设置。 2. 浏览器输入http:host:6006即可访问 模型网络结构可查看GRAPHS部分 ...

2020-07-15 16:10:45 48 0

原创 BiLSTM + attention 文本分类实践

BiLSTM + attention 以BiLSTM 的输出output_fw+output_bw作为输入,先计算每个词在句子中的贡献,然后以加权的方式对embedding进行融合。计算词对句子的贡献时,以BiLSTM的输出经过一个manual操作,之后进行softmax即可得到,具体可以看代码实...

2020-07-11 20:33:23 412 1

原创 BiLSTM文本分类实践

BiLstm将前向和后向输出拼接起来,然后recuce_mean连个softmax即可实现文本分类(中间也可以过渡个全连接)。 基于tensorflow的实现代码 #!/usr/bin/python # coding=utf8 import os import numpy as np ...

2020-07-10 19:09:29 376 2

原创 浅谈fasttext、textcnn、dpcnn

最近工作做了个短文本分类,基于fasttext的实现可见这里,基于textcnn的实现可见这里,基于dpcnn的实现可见这里。 简单说说自己的一些实验结果: 1. fasttext的输入一般是word+n-gram,但是仅仅用unigram即基于字,其表现也不错; 2. 对于textcnn、...

2020-07-10 15:41:32 189 0

原创 tf.layers.dropout 和 tf.nn.dropout的区别

1.tf.nn.dropout函数 tf.nn.dropout( x, keep_prob, noise_shape=None, seed=None, name=None ) x:指输入,输入tensor keep_prob: float类型,每个元...

2020-07-10 12:08:50 205 0

原创 DpCNN的实践小结

DpCNN 的理论可见:https://www.jiqizhixin.com/articles/2018-06-22-4 这里简单说下自己的理解:模型中卷积层的作用是扩大视野范围,池化层的作用是提取有效特征,两者结合就是可以从比较长的句子中提取有效特征。 ...

2020-07-09 20:35:52 270 0

原创 TextCNN实践小结

TextCNN模型结构如下图所示: (1)从模型结构中可以看出,多个过滤器提取的特征拼接后接个softmax层即可预测类别,通过实验尝试softmax层之前再接个全连接层进行过滤,其模型效果更好。

2020-07-09 16:14:13 89 0

原创 FastText的实践小结

代码如下: # -*- coding:utf-8 -*- import os import numpy as np import tensorflow as tf from tensorflow.contrib import slim from nlp_utils import * clas...

2020-07-08 21:29:48 200 0

原创 TensorFlow 加载模型进行预测

1. 保存模型 model_path = "./saves/" model_name = "fasttext" saver = tf.train.Saver(max_to_keep=10) saver.save(sess, model_path + mo...

2020-07-08 14:05:36 767 2

原创 EXCEL 中数据分析常用统计方法介绍(二)

0. 前言 EXCEL 中数据分析常用统计方法介绍(一)介绍数据处理技巧部分,本文主要介绍几种分析方法。 1. 分析方法 描述统计、相关系数、协方差、回归、 方差分析:单因素方差分析 方差分析:可重复双因素分析 方差分析:无重复双因素分析 T-检验:平均值的成对二样本分析 T-...

2020-06-07 11:25:21 216 0

原创 EXCEL 中数据分析常用统计方法介绍(一)

0. 前言 Excel 数据中的数据分析功能提供了常用的一些统计方法和数据处理技巧,如下: 本文尝试从实践的角度去结合理论对这些统计方法一一介绍,不对的地方烦请指出,欢迎评论区一起交流讨论。 1. 处理技巧 处理技巧:指数平滑、移动平均、直方图、随机数发生器、排位与百分比排位 ....

2020-06-07 11:19:00 222 0

原创 《白话统计》学习笔记之相关分析与一致性检验

1. 从协方差到线性相关系数 对于变量x,y,其协方差计算公式为 将x,y进行标准化,计算得到的协方差即为相关系数。 2. 线性相关系数及其置信区间 3. 如何比较两个线性相关系数有无差异 4. 分类资料的相关系数 5. 基于秩次的相关系数 6. 相关分析中的...

2020-04-06 20:54:52 434 0

原创 《白话统计》学习笔记之卡方检验

1. 卡方检验 卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值...

2020-04-06 11:41:48 257 0

原创 《白话统计》学习笔记之方差分析与变异分解

1. 相似性度量公式 similarity = max_similarity_avg * delt, 其中delt为匹配到单词数的倒数, 表示这个平均相似度的置信度。 2. 随机选取200个文档

2020-03-31 11:11:14 263 0

原创 《白话统计》学习笔记之t检验

1. 什么是t检验 2. 如何正确应用t检验 3. t检验用于回归系数的检验 4. Wilcoxon秩和检验

2020-03-22 17:38:39 287 0

原创 《白话统计》笔记之正态性与方差齐性

1. 什么是正态性和方差齐性 2.为什么要进行正态性检验和方差齐性检验 3. 如何进行正态性检验和方差齐性检验

2020-03-19 16:29:23 369 0

原创 《数据驱动从方法到实践》

最近在学习数据分析相关的内容,花了零碎的时间终于把《数据驱动》这本书看完了。于是,写个小结把书中重要的知识点记录下来。 1. 从百度大数据工作的经历说开 数据很重要。 2.大数据思维与数据驱动 大数据的概念:大、全、细、时; 大数据时代到来的条件:数据采集能力增强、数据处理能力增强、...

2020-03-16 22:17:27 522 0

原创 数据分析中常见的SQL语句

1.表信息 假设有订单表orderinfo(orderId,userId,isPaid, price, paidTime) 用户表userinfo(userId, sex,birth) 2. 业务需求 统计不同月份的下单人数 统计用户三月份的回购率和复购率 统计男女用户的消费频...

2020-02-11 11:50:17 340 1

原创 《七周学会数据分析》笔记之数据思维

1.数据思维 数据分析中常见的三种核心思维有结构化思维、公式化思维和业务化思维。 1.1 结构化思维 结构化思维是针对某个特定问题绘制思维导图(常用工具Xmind),从多个独立且全面的角度进行分析。 1.2 公式化思维 公式化思维是对于思维导图中的每一个角度,给出一个可量化的公式。 ...

2020-02-08 11:10:34 208 0

原创 TextCNN简介与应用

1.基本原理介绍 TextCNN常用来做短文本的分类问题,其基本网络结构如下图所示: 从上图不难看出,TextCNN主要包括嵌入层、卷积层、池化层和全联接softmax层: Embedding:这一层是图中最左边的7乘5的句子矩阵,高为句子中单词的个数,宽为词向量的纬度,这个可以类比...

2020-02-03 20:09:02 385 0

原创 卷积神经网络简要笔记

1.过滤器 CNN中的过滤器也被称为“kernel”,主要用来提取图片中的某一类特征,如“垂直边缘检测器”可以提取图片中的“垂线”。 实际应用中,常常采用多个filter,并且每个filetr是通过训练学习来确定的。 2.padding padding主要用来填充图片边缘,这样做可...

2020-01-31 13:10:45 89 0

原创 FastText简单实践

fastText原理和文本分类实战 https://blog.csdn.net/feilong_csdn/article/details/88655927 Python interface https://github.com/salestock/fastText.py impo...

2020-01-16 17:47:59 166 0

原创 textRank原理及实现

TextRank原理同PageRank一样,这里暂时就不论述: 1.代码实现 # encoding = utf-8 import jieba # 利用jieba分词 # 返回分割后的word list def getWords(text): allGraphs = text.split(...

2020-01-13 15:38:24 360 0

原创 python 正则表达式

1. 正则表达式模式 模式 描述 ^ 匹配字符串的开头 $ 匹配字符串的末尾。 . 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。 [...] 用来表示一组字符,单独列出:[amk] 匹配 'a...

2020-01-12 12:17:18 58 0

原创 产品笔记-《增长黑客》

最近看了一本关于快速增长的书籍《增长黑客》,今天抽空来做个笔记。 全书主要分为方法和实战两部分,方法主要讲述如何搭建增长团队、好产品是增长的根本、确定增长杠杆和快节奏试验,实战主要包括获客(拉新)、激活(促活)、留存和变现。 1. 搭建增长团队 打破筒仓,增长团队主要包括的人员有:增长负责人...

2020-01-08 20:17:34 112 0

原创 pyspark 模块化代码

期望实现的功能:建立一个模块,计算出两点间的直线距离(单位为英里),并且将计算结果从英里转换成千米。 1. 创建模块 文件组织结构如下: setup.py: 打包用户自定义的功能模块 from setuptools import setup setup( name='...

2019-11-12 14:30:10 138 0

原创 PySpark 之 GraphFrames简介

GraphFrames可以快速轻松地分析以图形结构组织的数据,边和顶点由DataFrame表示,允许我们存储每个节点和边的任意数据。 简单示例如下: # encoding=utf-8 import os import pyspark from pyspark.sql import Spark...

2019-11-11 19:05:44 1510 0

原创 pyspark ml 中LDA简单示例

# encoding=utf-8 import os import pyspark from pyspark.sql import SparkSession import pyspark.sql.types as typ import pyspark.ml.feature as ft import...

2019-11-07 14:44:11 532 0

提示
确定要删除当前文章?
取消 删除