关于分词问题
人工智能吧
全部回复
仅看楼主
level 13
“我的车是白色的” 为什么分词软件分词的结果是“我的 车 是 白色 的”
而我需要“我的车 是 白色的” 这样的结果,怎么办?请教各位高手、各位吧主如何方法分词好,谢谢
@建设西路东口
2018年09月28日 06点09分 1
level 14
NLP领域,我就学过一点点文法解析(编译原理)方面的知识,我根据我已有的知识回答这个问题。
“我的车是白色的”这一中文句子,符合【名词词组 是 形容词】这样的句式,程序尝试对中文句子进行分词,并建立一棵语法树。可以看到“我的车”是一个名词词组,它还可以细分为形容词(我的)和名词(车)。
把这棵树的叶子节点连起来,得到的结果是:我的 车 是 白色的 。这并没有什么问题。
要想让计算机把“我的车”这个名词词组看成一个整体,只能让它在这个节点上不再进行细分。
我之前接触的案例都是英文句子的文法解析,中文句子是不带空格的,我猜想中文NLP系统应该是先对句子进行机械分词,得到很多种分词方案,然后再调用语法分析程序,淘汰掉那些不符合语法的方案,不知道我说的对不对。
2018年09月28日 07点09分 2
名词词组是的,这是个好办法!可惜现在许多分词的结果都是不考虑名词词组的,而后也无法更好的实现语义理解
2018年09月28日 08点09分
@空灵小宇宙 我觉得这个部分你得自己写,我也是在为这些头疼。
2018年10月22日 13点10分
我打解决思路是把“我的车”这个替换成一个名词再重启分析。
2018年10月22日 13点10分
我觉得要考虑自写语法分析。先自己识别短语再启动语法分析。
2018年10月22日 13点10分
level 14
2018年09月28日 07点09分 3
2018年09月28日 07点09分
level 13
这个分词还要好,直接 :“我 的 车 是 白色 的 ” 分的还要粗暴简单[笑眼]
2018年09月28日 08点09分 5
level 13
“我的车”是一个整体性独立的概念
区别于“我的”和其他的“车”,是一个专有名词(组合)
AI应该能智能识别出我的车”,然后才能解决其他的问题
比如我问AI,我的车是什么颜色?AI应该不会回答我是什么颜色,或者回答其他车是什么颜色,而应该能调出“我的车”里的信息来解答:是白色
2018年09月28日 08点09分 6
level 8
一般分词软件都可以自定义词组,自己定义“我的车“、”白色的”,应该就行了。
2018年09月28日 08点09分 7
哦,这样啊,不能自动识别吗
2018年09月28日 08点09分
@空灵小宇宙 自动识别一般只能是大众化的“我的 车 是 白色 的”,你的要求比较特别,所以要自定义
2018年09月28日 09点09分
一般是自定义词组。还可以有一种方案就是使用我的语义分类法,把“我的车、我的电脑”,“白色的,红色的”这样的例子训练出一个分类器,把分好词的句子送进分类器,找出可以合并的短语合并。
2018年09月28日 10点09分
level 13
等一下,我突然发现这不是分词问题,这是后续智能识别语法成分,提取出关键概念信息的问题
2018年09月28日 09点09分 9
level 1
“我/的/车”、“我的/车”、“我的车”关系到一个分词粒度问题,在分词阶段,“的”字一般是单独成词(“美的空调”这样的专有名词例外),所以应该分成“我/的/车”。“我的车”这样的整体概念,是在合词阶段(或句树分析)来完成的,否则“我白色的车”也成了整体概念当作一个词,就不利于提取信息了。
要理解句子,需要从句子中提取有用的信息。提取之前,可以自定一种结构化信息作为概念模型,然后把信息填充到这个结构里。
例如:“我的车是白色的”
物体:车 | 颜色:白 | 所属者:我
“我白色的车开走了”
物体:车
颜色:白
所属者:我
动作:开(移动-被动)
动作结果:走(位置改变,移出原来的位置)
施动者:未知(被谁开走的?默认是‘我’)
再例如:“我和小明的车是白色的”
物体:车 | 颜色:白 | 所属者:我
物体:车 | 颜色:白 | 所属者:小明
当你问“我的车是什么颜色的?”,机器可以查找结构化数据再组织语言来回答问题,而不受限于词的匹配
2018年09月29日 03点09分 12
你这样分是很细致的,语句理解看起来任务还很重,问题还很多
2018年09月29日 06点09分
@- 我的例子是一个极简的模型,只是处理最直接的信息和较明显的可能。文字常有多层含义的,理解也是分层次的,深层的理解常常是超越了字面的含义,更深层信息解码就有些类似破译密码,很难产生所有可能的结果
2018年09月29日 06点09分
@- 可以先提取一些基本的信息,用的时候再使用目标驱动,提取和目标关系最密切的信息,再不断获取新的信息,逐步扩展。
2018年09月29日 06点09分
@- 模式化提取工具是很重要的,做的好可以解决很多问题
2018年09月29日 08点09分
level 6
我的 车

我的车
这个差别处理起来结果差异大么?
这个不应该有差异啊。
2018年09月29日 07点09分 13
不管分词成“我的 车”还是“我的车”,最后要形成一个特定的指向概念才能后续处理呢
2018年09月29日 08点09分
@- 但是他好像想要“我的车”,这个更不好复用的东西欸……
2018年09月29日 11点09分
@空灵小宇宙 没错,那“我的”+“车”和“我的车”,你最后指向的概念不一样么?
2018年09月29日 11点09分
@- 楼主咯
2018年09月30日 03点09分
level 1
字符串处理是可以做一些常用工具的
最基础的,主要就是从中提取节点,然后尝试各种排列组合,通过一系列方法找到规律
例如基于词典的切分:“研究生命起源”,先找出所有可能的路径,然后根据规则找到最合理的路径
问题在于未登录词的识别。可以在找不到合理路径的情况下再尝试未登录词的组合,这样可以提高效率。
另外要求词典可以动态修改,如上文中明确提到“命起源”是个人名,那么这句就可以有新的解读。
2018年09月29日 08点09分 14
level 1
自然语言的一些常见问题汇总
2018年09月29日 09点09分 15
@- 像老师吧?[哈哈] 程序生成类似《Her》里的手写体。分词是我自己写代码的,就用最简单的字典树,生成markdown格式的文本。画流程图用的是Mermaid美人鱼js库,底层是d3库,根据markdown文本自动生成流程图。默认是折线,我改了下代码成贝塞尔曲线,圆角调的太大了所以有点手画的感觉
2018年09月29日 14点09分
@- 我最近一直研究机器解小学题和公务员考题,也经常和小学老师交流,发现一些小学生学习时遇到的问题,对于机器学习也是同样的问题。文章是我以前收集的疑难的句子,按关键词分了分类,然后手工组织起来的
2018年09月29日 17点09分
@- 机器目前主要是按单句分析句子的,全路径分析效率太低。人是按当前最大可能、局部最优或次优来读句子,甚至速读时会跳过很多词或整句的信息,效率高。当遇到读不通或不理解的句子也常常跳过。对于读错句子,也常反复阅读来纠正未理解的信息
2018年09月29日 17点09分
@- 如果你的阅读有明确的目标,例如使用某产品时阅读说明书,你可能会有选择的阅读某些文字,获取使用产品必要的信息。所以自然语言理解常常和应用是绑定的。
2018年09月29日 17点09分
level 1
全部路径
标准的处理方式是处理全部路径节点的全概率得分,每两个节点和连线至少算出一个分数,取整条路径得分最高的作为句子的解释。
全部排列组合:
0 {拿 出 练 习 本 来 应 有 的 态 度}
1 {拿 出 练 习 本 来 应 有 的 态度}
2 {拿 出 练 习 本 来 应 有的 态 度}
3 {拿 出 练 习 本 来 应 有的 态度}
4 {拿 出 练 习 本 来 应有 的 态 度}
5 {拿 出 练 习 本 来 应有 的 态度}
6 {拿 出 练 习 本来 应 有 的 态 度}
7 {拿 出 练 习 本来 应 有 的 态度}
8 {拿 出 练 习 本来 应 有的 态 度}
9 {拿 出 练 习 本来 应 有的 态度}
10 {拿 出 练 习 本来 应有 的 态 度}
11 {拿 出 练 习 本来 应有 的 态度}
12 {拿 出 练习 本 来 应 有 的 态 度}
13 {拿 出 练习 本 来 应 有 的 态度}
14 {拿 出 练习 本 来 应 有的 态 度}
15 {拿 出 练习 本 来 应 有的 态度}
16 {拿 出 练习 本 来 应有 的 态 度}
17 {拿 出 练习 本 来 应有 的 态度}
18 {拿 出 练习 本来 应 有 的 态 度}
19 {拿 出 练习 本来 应 有 的 态度}
20 {拿 出 练习 本来 应 有的 态 度}
21 {拿 出 练习 本来 应 有的 态度}
22 {拿 出 练习 本来 应有 的 态 度}
23 {拿 出 练习 本来 应有 的 态度}
24 {拿 出 练习本 来 应 有 的 态 度}
25 {拿 出 练习本 来 应 有 的 态度}
26 {拿 出 练习本 来 应 有的 态 度}
27 {拿 出 练习本 来 应 有的 态度}
28 {拿 出 练习本 来 应有 的 态 度}
29 {拿 出 练习本 来 应有 的 态度}
简化版,去掉可以成词的单字
0 {拿出 练习 本来 应 有的 态度}
1 {拿出 练习 本来 应有 的 态度}
2 {拿出 练习本 来 应 有的 态度}
3 {拿出 练习本 来 应有 的 态度}
基于统计的话,更高效的是基于局部相邻的几个节点(基于“场”)来计算得分,例如条件随机场。
基于理解的话,可以同时保留几种读得通的、可能性(得分)较大的路径,再根据上下文和知识库来评分。
2018年09月29日 15点09分 16
分析的非常细致啊,赞
2018年09月30日 07点09分
“拿出联系本来应有的态度”这句话我好像无法理解……
2018年09月30日 10点09分
@胡梦柯3 【情感欲望或说目的需求响应不同,会使解析产生不同的变化】自然语言理解常常受应用(目标)影响的,情感和欲望应该也算是目标驱动的,由目标引导产生一些相关联想,就会影响到理解的结果,产生各种不同的理解或解释
2018年09月30日 16点09分
@aerofloyd “拿出X应有的态度/拿出应有的X态度”从句式上讲,X常是“人称团体(你、领导、公务员、公司);动+宾(对待员工、面对挫折)”,直接用“名词或动词(练习、学习、比赛)”较少,所以可能有点儿理解障碍,可以脑补的,例如“拿出‘做练习’应有的态度”(动+宾)
2018年09月30日 17点09分
1 2 尾页