又到了mon吧万能时间
monmon吧
全部回复
仅看楼主
吧务
level 13
[汗]有木有data science / ml大神
有点数据要分析,类似信贷风险分类这样,估计就是yes/no的二项分类,大概十个左右的attribute,手上有大概30k左右labeled data……上面的意思是看看能不能整点什么结论出来……
本渣渣初步股沟了一番,貌似可以尝试整个id3 decision tree之类的?有木有操作过这方面算法的来科普一下……
[疑问]是不是该艾特熊掌剃刀之类的
2017年01月03日 13点01分 1
吧务
level 14
[狂汗]看不懂 帮顶
2017年01月03日 14点01分 2
level 14
同楼上
2017年01月03日 14点01分 3
吧务
level 13
一般我们都用r来做,你先下一个r, 再下一个rpart 的packages, 教程在这里http://www.statmethods.net/advstats/cart.html
2017年01月03日 15点01分 4
吧务
level 13
如果要id3的可以下个data.tree的package,教程在https://cran.r-project.org/web/packages/data.tree/vignettes/applications.html
2017年01月03日 15点01分 5
但貌似大家现在都不用id3了,有很多升级版出来了
2017年01月03日 15点01分
@沸水白菜 看了下升级版的c4.5感觉有用的提升貌似没那么多。。。
2017年01月03日 15点01分
吧务
level 13
你想要结果更准还是能解释attributes的作用?不用解释attributes的话我们一般都不用一棵decision tree,我们都用random forest的
2017年01月03日 15点01分 6
想过random forest,但我觉得attr有点少,不知道rf的效果是不是明显。。。另外还是要解释attr的
2017年01月03日 15点01分
回复 错落二人组 :要解释还是logistic regression最好,我一直觉得tree都不太好解释
2017年01月03日 17点01分
吧务
level 13
你可以试试别 的方法,其实只有data别太烂大家还是会用logistic regression
2017年01月03日 15点01分 7
可以加个penalty什么的做feature selection.
2017年01月03日 15点01分
吧务
level 17
[滑稽]跪请大神@挥动剃刀
2017年01月03日 16点01分 8
吧务
level 13
两类问题直接上svm吧
2017年01月03日 16点01分 9
svm当初看过,但感觉麻烦的是attr大多都是non ordinal categorical value,看了一下要塞进svm貌似只有加维度,似乎代价有点大
2017年01月04日 04点01分
回复 错落二人组 :啥叫nonordinal categorical value
2017年01月04日 04点01分
@挥动剃刀 值都是离散的分类描述,基本没有连续数值……感觉svm或者回归都有点难处理……
2017年01月04日 10点01分
吧务
level 13
其实最蛋疼的事这个事情有点老大拍脑袋的意思,我们这边也不是专业做这块的,软硬件资源都很有限,能不能用r或python现成的实现都不好说。。。最初想法是觉得decision tree比较好实现也比较好向外行解释,实在不行撸袖自己写个都比较可行。。。
2017年01月04日 04点01分 10
level 14
我是谁?我在哪里?我为什么要点进来?[晕乎乎]
2017年01月04日 08点01分 12
吧务
level 17
我是谁?我在哪里?我为什么要点进来?[晕乎乎]
2017年01月04日 16点01分 13
1