信息化 频道

SPSS Clementine 数据挖掘入门 (2)

  【IT168 信息化】

  4. 建模

  加入Nearal Net和CHAID模型组件,在CHAID组件设置中,将Mode项设为”Launch interactive session”。然后点上方的绿色箭头执行整个数据流。

SPSS Clementine 数据挖掘入门 (2)

  Clementine在训练CHAID树时,会开启交互式会话窗口,在交互会话中可以控制树生长和对树剪枝,避免过拟合。如果确定模型后点上方黄色的图标。

SPSS Clementine 数据挖掘入门 (2)

  完成后,在管理区又多了两个模型。把它们拖入数据流设计区,开始评估模型。

  5. 模型评估

  修改抽样组件,将Mode改成“Discard Sample”,意思是抛弃之前用于训练模型的那70%数据,将剩下30%数据用于检验。注意种子不要更改。

SPSS Clementine 数据挖掘入门 (2)

  我这里只检验CHAID决策树模型。将各种组件跟CHAID模型关联。

  执行后,得到提升图、预测准确率表……

  6. 部署模型

  Export组件都可以使用Publish发布数据流,这里会产生两个文件,一个是pim文件,一个是par文件。

SPSS Clementine 数据挖掘入门 (2)

  pim文件保存流的所有信息,par文件保存参数。有了这两个文件就可以使用clemrun.exe来执行流,clemrun.exe是Clementine Solution Publisher的执行程序。Clementine Solution Publisher是需要单独授权的。在SSIS中pim和par类似于一个dtsx文件,clemrun.exe就类似于dtexec.exe。

SPSS Clementine 数据挖掘入门 (2)

  如果要在其他程序中使用模型,可以使用Clementine执行库(CLEMRTL),相比起Microsoft的ole db for dm,SPSS的提供的API在开发上还不是很好用。

 

0
相关文章