又到了mon吧万能时间 - monmon吧 - RAT

又到了mon吧万能时间

吧务

level 13

错落二人组楼主

[汗]

有木有data science / ml大神
有点数据要分析，类似信贷风险分类这样，估计就是yes/no的二项分类，大概十个左右的attribute，手上有大概30k左右labeled data……上面的意思是看看能不能整点什么结论出来……
本渣渣初步股沟了一番，貌似可以尝试整个id3 decision tree之类的？有木有操作过这方面算法的来科普一下……
[疑问]

[疑问]

是不是该艾特熊掌剃刀之类的

2017年01月03日 13点01分 1

吧务

level 14

[狂汗]

看不懂帮顶

2017年01月03日 14点01分 2

level 14

同楼上

2017年01月03日 14点01分 3

吧务

level 13

一般我们都用r来做，你先下一个r, 再下一个rpart 的packages, 教程在这里http://www.statmethods.net/advstats/cart.html

2017年01月03日 15点01分 4

吧务

level 13

如果要id3的可以下个data.tree的package，教程在https://cran.r-project.org/web/packages/data.tree/vignettes/applications.html

2017年01月03日 15点01分 5

但貌似大家现在都不用id3了，有很多升级版出来了

2017年01月03日 15点01分

错落二人组

@沸水白菜看了下升级版的c4.5感觉有用的提升貌似没那么多。。。

2017年01月03日 15点01分

吧务

level 13

你想要结果更准还是能解释attributes的作用？不用解释attributes的话我们一般都不用一棵decision tree,我们都用random forest的

2017年01月03日 15点01分 6

错落二人组

想过random forest，但我觉得attr有点少，不知道rf的效果是不是明显。。。另外还是要解释attr的

2017年01月03日 15点01分

回复错落二人组：要解释还是logistic regression最好，我一直觉得tree都不太好解释

2017年01月03日 17点01分

吧务

level 13

你可以试试别的方法，其实只有data别太烂大家还是会用logistic regression

2017年01月03日 15点01分 7

可以加个penalty什么的做feature selection.

2017年01月03日 15点01分

吧务

level 17

ZS1627

[滑稽]

跪请大神@挥动剃刀

2017年01月03日 16点01分 8

吧务

level 13

两类问题直接上svm吧

2017年01月03日 16点01分 9

错落二人组

svm当初看过，但感觉麻烦的是attr大多都是non ordinal categorical value，看了一下要塞进svm貌似只有加维度，似乎代价有点大

2017年01月04日 04点01分

回复错落二人组：啥叫nonordinal categorical value

2017年01月04日 04点01分

错落二人组

@挥动剃刀值都是离散的分类描述，基本没有连续数值……感觉svm或者回归都有点难处理……

2017年01月04日 10点01分

吧务

level 13

错落二人组楼主

其实最蛋疼的事这个事情有点老大拍脑袋的意思，我们这边也不是专业做这块的，软硬件资源都很有限，能不能用r或python现成的实现都不好说。。。最初想法是觉得decision tree比较好实现也比较好向外行解释，实在不行撸袖自己写个都比较可行。。。

2017年01月04日 04点01分 10

level 15

真黑妖狐鬼面

我是谁？我在哪里？我为什么要点进来？ [晕乎乎]

[晕乎乎]

2017年01月04日 08点01分 12

吧务

level 17

ZS1627

我是谁？我在哪里？我为什么要点进来？ [晕乎乎]

[晕乎乎]

2017年01月04日 16点01分 13

1