相关文章推荐
帅呆的炒粉  ·  pytorch ...·  2 月前    · 
风流倜傥的大蒜  ·  中国移动翔星卡_移动星卡套餐详细介绍_移动星 ...·  1 年前    · 
不羁的槟榔  ·  贾司特《校花朵朵宠上瘾》杀青造型百变欢乐多_王陆·  1 年前    · 
打篮球的甘蔗  ·  华中师范大学心理健康教育最详细介绍- 知乎·  1 年前    · 
暴走的毛衣  ·  淘宝天猫运营职业- 知乎·  1 年前    · 
爱热闹的小马驹  ·  老北京的端午习俗:吃五毒饼、“扔灾”·  1 年前    · 
小百科  ›  基于python 等频分箱qcut问题的解决开发者社区
python函数 离散化 python
害羞的匕首
1 年前
作者头像
砸漏
0 篇文章

基于python 等频分箱qcut问题的解决

前往专栏
腾讯云
开发者社区
文档 意见反馈 控制台
首页
学习
活动
专区
工具
TVP
文章/答案/技术大牛
发布
首页
学习
活动
专区
工具
TVP
返回腾讯云官网
社区首页 > 专栏 > 恩蓝脚本 > 基于python 等频分箱qcut问题的解决

基于python 等频分箱qcut问题的解决

作者头像
砸漏
发布 于 2020-11-05 11:22:22
3.1K 0
发布 于 2020-11-05 11:22:22
举报

在python 较新的版本中,pandas.qcut()这个函数中是有duplicates这个参数的,它能解决在等频分箱中遇到的重复值过多引起报错的问题;

在比较旧版本的python中,提供一下解决办法:

import pandas as pd
def pct_rank_qcut(series, n):
  series:要分箱的列
  n:箱子数
  edages = pd.series([i/n for i in range(n)] # 转换成百分比
  func = lambda x: (edages  = x).argmax() #函数:(edages  = x)返回fasle/true列表中第一次出现true的索引值
  return series.rank(pct=1).astype(float).apply(func) #series.rank(pct=1)每个值对应的百分位数,最终返回对应的组数;rank()函数传入的数据类型若为object,结果会有问题,因此进行了astype

补充拓展:Python数据离散化:等宽及等频

在处理数据时,我们往往需要将连续性变量进行离散化,最常用的方式便是等宽离散化,等频离散化,在此处我们讨论离散化的概念,只给出在python中的实现以供参考

1. 等宽离散化

使用pandas中的cut()函数进行划分

import numpy as np
import pandas as pd
# Discretization: Equal Width #
# Datas: Sample * Feature
def Discretization_EqualWidth(K, Datas, FeatureNumber):
  DisDatas = np.zeros_like(Datas)
  for i in range(FeatureNumber):
    DisOneFeature = pd.cut(Datas[:, i], K, labels=range(1, K+1))
    DisDatas[:, i] = DisOneFeature
  return DisDatas

2. 等频离散化

pandas中有qcut()可以使用,但是边界易出现重复值,如果为了删除重复值设置 duplicates=‘drop’,则易出现于分片个数少于指定个数的问题,因此在此处不使用qcut()

import numpy as np
import pandas as pd
# Discretization: Equal Frequency #
# vector: single feature
def Rank_qcut(vector, K):
  quantile = np.array([float(i) / K for i in range(K + 1)]) # Quantile: K+1 values
  funBounder = lambda x: (quantile  = x).argmax()
  return vector.rank(pct=True).apply(funBounder)
# Discretization: Equal Frequency #
# Datas: Sample * Feature
def Discretization_EqualFrequency(K, Datas, FeatureNumber):
  DisDatas = np.zeros_like(Datas)
  w = [float(i) / K for i in range(K + 1)]
 
推荐文章
帅呆的炒粉  ·  pytorch 中的#@save的意思_#save python是什么意思
2 月前
风流倜傥的大蒜  ·  中国移动翔星卡_移动星卡套餐详细介绍_移动星卡是什么卡- 抖音
1 年前
不羁的槟榔  ·  贾司特《校花朵朵宠上瘾》杀青造型百变欢乐多_王陆
1 年前
打篮球的甘蔗  ·  华中师范大学心理健康教育最详细介绍- 知乎
1 年前
暴走的毛衣  ·  淘宝天猫运营职业- 知乎
1 年前
爱热闹的小马驹  ·  老北京的端午习俗:吃五毒饼、“扔灾”
1 年前
今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
删除内容请联系邮箱 2879853325@qq.com
小百科 - 百科知识指南
© 2024 ~ 沪ICP备11025650号