数据挖掘—Weka 的数据库挖掘及数据预处理-阿里云开发者社区

2、出现欢迎窗口

3、单击 next 按钮进入下一步

同意 GNU GPL 协议，选择 I Agree 按钮

4、进入选择安装组件，默认选择 FULL ，再单击 next

5、选择安装路径

6、选择开始菜单文件夹名称

这里是 weka 3.8.4，没有特殊要求不需更改，单击 Install 安装完成即可。

7、安装完成后，可生成如下文件

8、data 文件夹

这里需要看一下 data 文件夹，里面是 weka 自带 25个arff 文件作为测试数据集。

9、weka 的初步使用

在电脑的开始菜单里找到 Weka3.8.4 的子菜单，下面有三个菜单项，如下图，第一个菜单项： Documentation ，提供 weka 的参考资料，包括 Weka 手册、 Java 包 API 文档及一些线资源。下面两个菜单项都可以启动Ｗ eka 界面，不同的是后者带有一个 控制台的输出，而前者没有。

10、单击 weka3.8.4启动 weka 界面，并选择探索者界面 Explorer

进入探索者界面如下：

根据不同的功能把这个界面分成 8 个区域。

区域1 的几个选项卡是用来切换不同的挖掘任务面板。这一节用到的只有**“Preprocess”**，其他面板的功能将在以后介绍。

主界面最左上角（标题栏下方）的是标签栏，分为 6 个部分，功能

依次是：

Preprocess( 数据预处理 ) ：选择和修改要处理的数据；

Classify( 分类 ) ：训练和测试关于分类或回归的学习方案；

Cluster( 聚类 ) ：从数据中学习聚类；

Associate( 关联 ) ：从数据中学习关联规则；

Select attributes( 属性选择 ) ：选择数据中最相关的属性；

Visualize( 可视化 ) ：查看数据的交互式二维图像。

区域2 是一些常用按钮。包括打开数据，保存及编辑功能、载入、编

辑数据

标签栏下方是载入数据栏，功能如下：

Open file ：打开一个对话框，允许你浏览本地文件系统上的数据文

件（ .dat ）；

Open URL ：请求一个存有数据的 URL 地址；

Open DB ：从数据库中读取数据；

Generate ：从一些数据生成器中生成人造数据。

区域 3 中“Choose” 某个 “Filter”，可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。

区域 4 展示了数据集的一些基本情况。

区域 5 中列出了数据集的所有属性。勾选一些属性并“Remove”就可以删除它们，删除后还可以利用区域 2 的“Undo”按钮找回。区域 5 上方的一排按钮是用来实现快速勾选的。

在区域 5 中选中某个属性，则 区域 6 中有关于这个属性的摘要。注意对于数值属性和分类属性，摘要的方式是不一样的。图中显示的是对数值属性“income”的摘要。

区域 7 是区域 5 中选中属性的直方图。若数据集的最后一个属性（我们说过这是分类或回归任务的默认目标变量）是分类变量（这里的“pep”正好是），直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。要想换个分段的依据，在区域 7 上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。

区域 8 是状态栏，可以查看 Log 以判断是否有错。右边的 weka 鸟在动的话说明 WEKA 正在执行挖掘任务。右键点击状态栏还可以执行 JAVA 内存的垃圾回收。

11、为了可以挖掘数据库中的数据，我们要将 Weka 和 MySQL 进行连接

WEKA_HOME
E:\environment\Weka-3-8-4

修改系统变量CLASSPATH

%WEKA_HOME%\lib\mysql-connector-java-5.1.49.jar

启动数据库运行，确保已建立名称为 weka 的数据库，并自行建表
修改以下目录中的 DatabaseUtils.props 文件（需要提前将 weka-3-8-4 文件夹下的 weka.jar 包解压才能找到）

以记事本打开该文件，文件内容如下：

# General information on database access can be found here:
# https://waikato.github.io/weka-wiki/databases/
# Version: $Revision: 15255 $
# The comma-separated list of jdbc drivers to use
#jdbcDriver=RmiJdbc.RJDriver,jdbc.idbDriver
#jdbcDriver=jdbc.idbDriver
#jdbcDriver=RmiJdbc.RJDriver,jdbc.idbDriver,org.gjt.mm.mysql.Driver,com.mckoi.JDBCDriver,org.hsqldb.jdbcDriver
jdbcDriver=com.mysql.jdbc.Driver
# The url to the experiment database
#jdbcURL=jdbc:rmi://expserver/jdbc:idb=experiments.prp
jdbcURL=jdbc:mysql://localhost:3306/weka
#jdbcURL=jdbc:mysql://mysqlserver/username
# the method that is used to retrieve values from the db 
# (java datatype + RecordSet.<method>)
# string, getString() = 0;    --> nominal





    
# boolean, getBoolean() = 1;  --> nominal
# double, getDouble() = 2;    --> numeric
# byte, getByte() = 3;        --> numeric
# short, getByte()= 4;        --> numeric
# int, getInteger() = 5;      --> numeric
# long, getLong() = 6;        --> numeric
# float, getFloat() = 7;      --> numeric
# date, getDate() = 8;        --> date
# text, getString() = 9;      --> string
# time, getTime() = 10;       --> date
# timestamp, getTime() = 11;  --> date
# the original conversion: <column type>=<conversion>
#char=0
#varchar=0
#longvarchar=0
#binary=0
#varbinary=0
#longvarbinary=0
#bit=1
#numeric=2
#decimal=2
#tinyint=3
#smallint=4
#integer=5
#bigint=6
#real=7
#float=2
#double=2
#date=8
#time=10





    
#timestamp=11
#mysql-conversion
CHAR=0
TEXT=0
VARCHAR=0
LONGVARCHAR=9
BINARY=0
VARBINARY=0
LONGVARBINARY=9
BIT=1
NUMERIC=2
DECIMAL=2
FLOAT=2
DOUBLE=2
TINYINT=3
SMALLINT=4
#SHORT=4
SHORT=5
INTEGER=5
BIGINT=6
LONG=6
REAL=7
DATE=8
TIME=10
TIMESTAMP=11
#mappings for table creation
CREATE_STRING=TEXT
CREATE_INT=INT
CREATE_DOUBLE=DOUBLE
CREATE_DATE=DATETIME
DateFormat=yyyy-MM-dd HH:mm:ss





    
#database flags
checkUpperCaseNames=false
checkLowerCaseNames=false
checkForTable=true
setAutoCommit=true
createIndex=false
# All the reserved keywords for this database
Keywords=\
  AND,\
  ASC,\
  DESC,\
  FROM,\
  GROUP,\
  INSERT,\
  ORDER,\
  SELECT,\
  UPDATE,\
  WHERE
# The character to append to attribute names to avoid exceptions due to
# clashes between keywords and attribute names
KeywordsMaskChar=_
#flags for loading and saving instances using DatabaseLoader/Saver
nominalToStringLimit=50
idColumn=auto_generated_id