我呢,目前在做得研究叫做 “SDU-WH语句树交互验证分析平台”,具体项目暂时保密,因为研究过程中遇到过大大小小的各种问题,所以我一直渴望也有这样一个交流的组织。本人整理了一些项目思路,现在遇到各种问题,这些问题也许我能解决,但个人能力实在有限,最关键心很累,所以想找一些对这方面很感兴趣的同学。
以下是我整理出来的该项目当前需要的技术:
一、前端页面设计:
主要是根据需求修改下页面,最主要是功能导航
应用页面链接:
http://lab.sductp.tk/trecloud/document需要学习并熟练 javascript + html +css;
二、数据挖掘
1、数据收集——利用爬虫从互联网爬取数据,多为文档,新闻,目前我做了一个小爬虫,能力很弱,虽然也能爬取。
2、数据整理——为爬下的数据去重,分类。由于爬虫的能力目前还很弱小,所以数据整理的步骤很是麻烦。
3、数据存储——随着数据的增加,mysql已经在服务上表现不出优势。取一个良好的方案存储数据,所以也许会接触Nosql语言,redis,hadoop等架构
4、数据可视化——应用的处理数据需要可视化交互,这一点尤其重要。
5、数据计算——这应该算是数学问题吧。