又到了mon吧万能时间
monmon吧
全部回复
仅看楼主
吧务
level 13
错落二人组
楼主
有木有data science / ml大神
有点数据要分析,类似信贷风险分类这样,估计就是yes/no的二项分类,大概十个左右的attribute,手上有大概30k左右labeled data……上面的意思是看看能不能整点什么结论出来……
本渣渣初步股沟了一番,貌似可以尝试整个id3 decision tree之类的?有木有操作过这方面算法的来科普一下……
是不是该艾特熊掌剃刀之类的
2017年01月03日 13点01分
1
吧务
level 14
长空雪影LG
看不懂 帮顶
2017年01月03日 14点01分
2
level 14
烈焰炽翼
同楼上
2017年01月03日 14点01分
3
吧务
level 13
沸水白菜
一般我们都用r来做,你先下一个r, 再下一个rpart 的packages, 教程在这里
http://www.statmethods.net/advstats/cart.html
2017年01月03日 15点01分
4
吧务
level 13
沸水白菜
如果要id3的可以下个data.tree的package,教程在
https://cran.r-project.org/web/packages/data.tree/vignettes/applications.html
2017年01月03日 15点01分
5
沸水白菜
但貌似大家现在都不用id3了,有很多升级版出来了
2017年01月03日 15点01分
错落二人组
@沸水白菜
看了下升级版的c4.5感觉有用的提升貌似没那么多。。。
2017年01月03日 15点01分
吧务
level 13
沸水白菜
你想要结果更准还是能解释attributes的作用?不用解释attributes的话我们一般都不用一棵decision tree,我们都用random forest的
2017年01月03日 15点01分
6
错落二人组
想过random forest,但我觉得attr有点少,不知道rf的效果是不是明显。。。另外还是要解释attr的
2017年01月03日 15点01分
沸水白菜
回复 错落二人组 :要解释还是logistic regression最好,我一直觉得tree都不太好解释
2017年01月03日 17点01分
吧务
level 13
沸水白菜
你可以试试别 的方法,其实只有data别太烂大家还是会用logistic regression
2017年01月03日 15点01分
7
沸水白菜
可以加个penalty什么的做feature selection.
2017年01月03日 15点01分
吧务
level 17
ZS1627
跪请大神
@挥动剃刀
2017年01月03日 16点01分
8
吧务
level 13
挥动剃刀
两类问题直接上svm吧
2017年01月03日 16点01分
9
错落二人组
svm当初看过,但感觉麻烦的是attr大多都是non ordinal categorical value,看了一下要塞进svm貌似只有加维度,似乎代价有点大
2017年01月04日 04点01分
挥动剃刀
回复 错落二人组 :啥叫nonordinal categorical value
2017年01月04日 04点01分
错落二人组
@挥动剃刀
值都是离散的分类描述,基本没有连续数值……感觉svm或者回归都有点难处理……
2017年01月04日 10点01分
吧务
level 13
错落二人组
楼主
其实最蛋疼的事这个事情有点老大拍脑袋的意思,我们这边也不是专业做这块的,软硬件资源都很有限,能不能用r或python现成的实现都不好说。。。最初想法是觉得decision tree比较好实现也比较好向外行解释,实在不行撸袖自己写个都比较可行。。。
2017年01月04日 04点01分
10
level 14
真黑妖狐鬼面
我是谁?我在哪里?我为什么要点进来?
2017年01月04日 08点01分
12
吧务
level 17
ZS1627
我是谁?我在哪里?我为什么要点进来?
2017年01月04日 16点01分
13
1