level 15
即将开始语义相同的句型库的建设.这次希望吸收其他人的参与,对于词与词组有两种通配符:TP
#WORD,TP#
WORDS.相同的句型放在同一行,空格隔开,例如:
TP
#WORD1_的食物是_TP#
WORDS1 TP
#WORD1_以_TP#
WORDS1_为食 TP
#WORD1_的食物包括_TP#
WORDS1
多余1个的通配符后面序号递增就可以了,例如:TP
#WORD2,TP#
WORD3; TP
#WORDS2, TP#
WORDS3.
这个可以用于智能问答与知识提取.
句型相同只是替换近义词的就不用写上去了,想到几条就发几条给我(或者在下面跟帖),
参与者可以共享有关数据或者以后得到我的服务器的相关服务作为答谢.
2014年03月26日 02点03分
3
level 15
短语也可以,例如:
又_TP
#WORD1_又_TP#
WORDS2 既_TP
#WORD1_又_TP#
WORDS2
2014年03月26日 02点03分
5
level 15
也可以使用如下简化格式:
对于词与词组有两种通配符:
#W,#
WS.相同的句型放在同一行,'=='隔开,通配符与其它字之间用空格隔开.例如:
#W1 的食物是 #
WS1 ==
#W1 以 #
WS1 为食 ==
#W1 的食物包括 #
WS1
2014年03月26日 04点03分
8
level 15
我还没有正式开始,先随便贴几个:
你叫什么名字 == 尊姓大名 == 请问你的名字 == 你的名字是什么 == 怎么称呼 == 告诉我你的名字
你的联系方式 == 有联系方式吗 == 告诉我你的地址好吗 == 你的电话是多少 == 我怎么跟你联系
#W1 的定义是 #
WS1 ==
#W1 有如下定义 #
WS1 ==
#W1 的定义如下 #
WS1 ==
#W1 被定义为 #
WS1
#W1 是一门 #
WS1 的科学 ==
#W1 是 #
WS1 的学科
有些复句太复杂的就先不写了,先把典型的短语句给它列举出来.
2014年03月27日 08点03分
14
level 10
以这个为例:
你叫什么名字 == 尊姓大名 == 请问你的名字 == 你的名字是什么 == 怎么称呼 == 告诉我你的名字
尊姓大名算不算名字的近义词?
你的尊姓大名
请问你的尊姓大名
可不可以告诉我你的尊姓大名
请问你尊姓大名
你的尊姓大名是什么
...
这样算不算句式变换?
怎么称呼
怎么称呼你
我该怎么称呼你
我不知道怎么称呼你
...
楼主需要把规范定的再详细一点,或者说说你是怎么处理近义词的,这样别人写的句型才会更标准化一些。
creation_zy的格式和我以前用的差不多,我后来又专门做了停用词的处理,减少了句式的可能性,起到一些作用。
2014年03月27日 12点03分
16
我是计算语义距离的,所以近义词不成问题。你那些句式也都符合要求,因为变换了结构的句型电脑就认为不同,放到句型库里电脑才知道这些是相同语义。
2014年03月27日 12点03分
哦。明白了。
2014年03月27日 15点03分
要建设语义相同的句型库的话,必须先定义类似句型是如何差异的吧?例如‘请问您尊姓大名’和‘你什么名字’语义类似,差别就在敬意。所以‘敬意’如果没定义在knowledge representation 里头的话恐怕语义距离就算不周全了。
2014年03月29日 02点03分
回复 click4i :那还没有万全之策.现在人工归类为相同,计算机就认为是相同的.以后要更细化,再归类为不同的就可以了.
2014年03月29日 02点03分
level 15
增减了词语(的了吧啊吗可不算),使用了不同的词语组合,以上的句型都符合要求。
2014年03月27日 12点03分
17
level 10
句式组合对高频的停用词有些要求,比如你可能会对某些停用词过滤,或者利用它做变换。
我提供一些停用词作参考。
单字:把被并不出从大但到得的等地都对而个给更过好和很还会几就可来里了没们那能你去却让人上时使是说他它她太为我下想像象小要也一以用有又与在这只中着子总最
双字:本来 比较 必定 必然 必需 必须 必要 变成 表示 别的 并非 并且 不错 不但 不对 不管 不过 不会 不仅 不可 不能 那样 从来 不然 不如 不少 不是 不同 不行 不要 不用 不再 才能 产生 常常 成了 成为 出来 出去 出现 除非 除了 从此 从来 存在 打开 大概 大家 大小 带来 但是 当然 当时 到底 得到 的确 地方 地上 第二 第一 东西 都还 都是 对于 多么 多少 而且 而是 发生 发现 反正 方法 方面 非常 否则 改变 感到 刚才 根本 更加 共同 关于 过来 过去 好了 好像 很长 很多 很快 后来 后面 忽然 还是 还要 还有 回到 回来 或者 极其 极为 即使 几次 几个 几乎 几下 既然 继续 假如 简直 渐渐 接着 结果 结束 今天 进行 尽管 经常 经过 就是 就要 觉得 绝对 开始 看来 可能 可是 可惜 可要 可以 肯定 来说 类似 里面 两次 两个 两下 两只 另外 马上 没有 每次 每个 每天 明天 哪边 哪儿 哪个 哪里 哪能 哪些 那儿 那个 那里 那么 那些 那样 那种 难道 能够 你们 旁边 其实 其他 其中 起来 前面 情况 全部 全都 确实 然而 然后 人们 任何 认为 仍旧 仍然 如此 如果 如何 上来 上面 甚至 剩下 十分 时候 时间 什么 实在 事情 事实 是的 是否 是个 首先 说明 似乎 虽然 所以 所有 他们 它们 特别 通过 同时 同样 突然 完成 完全 为了 问题 我们 无法 无论 希望 下来 下面 下去 显得 现在 相当 相信 需要 许多 样子 要求 要是 也会 也能 也是 也许 一般 一边 一次 一旦 一点 一定 一段 一个 一件 一面 一起 一切 一天 一条 一下 一些 一样 一直 一只 一种 已经 以后 以及 以来 以前 以为 意思 因此 因而 因为 引起 应当 应该 永远 尤其 由于 有点 有时 有些 于是 原来 原因 怎么 怎样 曾经 找到 这边 这次 这儿 这个 这就 这里 这么 这时 这是 这些 这样 这种 真的 真是 真正 整个 正好 正是 正在 证明 知道 之处 之后 之间 之前 之外 之中 直到 值得 只好 只能 只是 只要 只有 至少 至于 中间 终于 重新 重要 逐渐 主要 注意 准备 自从 自己 自然 总是 最后 作为 作用
三字:不得不 不能不 不至于 差不多 大多数 进一步 看样子 任何人 实际上 事实上 为什么 一部分 一会儿 有时候 越来越 怎么样 这时候
2014年03月27日 15点03分
18
level 15
可以分成删除停用词,虚词,代词多个等级。视要求高低而不同。高标准时可以一个都不删。
2014年03月27日 15点03分
19
写句型库时按照平时句子写就行了。
2014年03月27日 15点03分
复句还有点难处理,先录典型的较简单的句子。
2014年03月27日 15点03分
level 15
#W1 的父亲是 #
W2 ==
#W2 的儿子是 #
W1 ==
#W1 是 #
W2 的儿子 ==
#W2 是 #
W1 的父亲 ==
#W2 生了 #
W1
#W1 的作者是 #
W2 ==
#W2 的作品是 #
W1 ==
#W1 是 #
W2 的作品 ==
#W2 是 #
W1 的作者 ==
#W2 写了 #
W1
#W1 出生于 #W2 ==
#W1 的故乡是 #W2 == #W1 在 #W2 出生 ==
#W2 是 #
W1 的故乡
2014年03月28日 05点03分
21
最后一个感觉有问题,"出生于"可能去接时间词
2014年03月29日 00点03分
level 13
#W1 起源于 #
WS1 ==
#WS1 是 #
W1 之父
2014年03月28日 09点03分
22
之父 改为 的祖先 更加精确点吧
2014年03月29日 12点03分
level 13
因为
#WS1 所以 #
WS2 == 之所以
#WS2 是因为 #
WS1
2014年03月28日 09点03分
23
level 7
我的思路可能更进一步,区分了一个最基础的逻辑句式,和若干意义接近的表达句式:
形如:
<句式>
<逻辑句式>【gn】,的,【生物运动】,是,【val】</逻辑句式>
<描述句式>【gn】,能,【val】</描述句式>
<描述句式>【gn】会【val】</描述句式>
<描述句式>【gn】可以【val】</描述句式>
<!--一个逻辑句式即一种逻辑意义对应多个表达及描述句式-->
</句式>
<句式>
<阅读句式> @名词,的,@名词,是,@名词or形容词 </阅读句式>
<逻辑句式>【gn】,的,【cons】,是,【value】</逻辑句式>
</句式>
<句式>
<阅读句式> @名词,的,@名词,是,@疑问词 </阅读句式>
<阅读句式> @疑问词,是,@名词or形容词,的,@名词or形容词 </阅读句式>
<逻辑句式>【gn】,的,【cons】,是,【?】</逻辑句式>
</句式>
我的QQ是29073356,希望能火星-pai 更详细讨论:
2014年03月28日 15点03分
24
你这个句式太通用了,要是用在问答里处理后还是不知道怎么回答。我给你那种格式也是可以在得到#W后限定其词性的。
2014年03月28日 15点03分
明天继续讨论。
2014年03月28日 15点03分
回复 火星的日升日落 : 太通用是毛病吗? 如需要细化,可以在某个抽象的句式下定义字句式,进行第二次搜索;
2014年03月29日 00点03分
level 7
逻辑句式中的gn代表概念文件名,cons代表xml中描述概念的属性名,value代表属性值。用于搜索自己理解掌握的概念库;
表达 、 描述、阅读句式(差别不大,将统一起来)则是与语言文字相匹配的句式,用于输入时先匹配、再转换为逻辑句式就实现了理解; 反向过程:思维先形成逻辑句式,再选择表达句式输出,实现多样化表达
2014年03月29日 00点03分
25
现在这样就不用另建概念库了,别人一问"XXX出生于哪里?",就可以先用"XXX出生于哪里?"搜索一遍,再用"XXX在哪里出生?"搜索一遍,...,搜索到符合的句型,就能马上得到答案.
2014年03月29日 01点03分
level 7
你能建多大的概念库?正是因为语言的浩瀚,才需要用有限的已知知识,通过演绎、推测,来面对无限的世界。全世界的计算资源,目前尚不足解决13路棋盘这种理论上有解的可计算问题,怎么可能面对上千符号的组合?
一次性直接搜索,即所谓万能操作手册,如果存在的话,就没有AI问题了。
概念的种类,由个人来做,不宜超过50种,生成的对象个数不宜超过500
2014年03月29日 01点03分
26
level 7
人脑之所以对很多问题反应奇快,就是多次小区域搜索。
2014年03月29日 01点03分
27
level 7
如果单纯研究句式的话,我们不妨先从小学一年级课本开始,掌握十几个核心的逻辑句式,就能读懂很多文字,可以自主扩展一些AI知识库了
2014年03月29日 01点03分
28
语言学里如果有通用的解决方案的话,那就早就由语言学家解决了,就不用烦劳计算机编程人员了.
2014年03月29日 02点03分