自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 pyspark 模块化代码

期望实现的功能:建立一个模块,计算出两点间的直线距离(单位为英里),并且将计算结果从英里转换成千米。 1. 创建模块 文件组织结构如下: setup.py: 打包用户自定义的功能模块 from setuptools import setup setup( name='...

2019-11-12 14:30:10 138 0

原创 PySpark 之 GraphFrames简介

GraphFrames可以快速轻松地分析以图形结构组织的数据,边和顶点由DataFrame表示,允许我们存储每个节点和边的任意数据。 简单示例如下: # encoding=utf-8 import os import pyspark from pyspark.sql import Spark...

2019-11-11 19:05:44 1510 0

原创 pyspark ml 中LDA简单示例

# encoding=utf-8 import os import pyspark from pyspark.sql import SparkSession import pyspark.sql.types as typ import pyspark.ml.feature as ft import...

2019-11-07 14:44:11 532 0

原创 pyspark ml 中LogisticRegression的使用

前置概念 ML包公开了三个主要的抽象类:转换器(transformer)、评估器(estimator)和管道(pipeline)。 转换器,通常通过将一个新列附加到DataFrame来转换数据,其常见参数有inputCol(所要转换列的名称,默认为features)和outputCol(转换后...

2019-11-06 19:13:33 495 0

原创 python多进程示例

下面这个示例的功能包含: (1)实现python多进程; (2)进程间共享变量company_queue (通过Manager().Queue()实现) (3)每个进程最后输出一个独立的结果(保存路径通过参数传入); (4)实现json数据整合成一个dataframe并输出到文件(支持cs...

2019-11-05 20:46:48 145 0

提示
确定要删除当前文章?
取消 删除