火星的日升日落 火星的日升日落
关注数: 113 粉丝数: 200 发帖数: 6,600 关注贴吧数: 118
系统论与还原论 今天在查询“语气副词”的时候发现语言学家的研究成果还是可以给后人乘凉的,说“开除一个语言学家,语音识别准确率上升三个点”者是何其愚蠢。http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fm.gaosan.com%2Fgaokao%2F237848.html&urlrefer=1c7895a576b2a79d65c15b7a604a6876 究其根源,就涉及到了系统论与还原论之争了。中医与西医的研究方法区别,就是典型的系统论与还原论的区别。在机器学习领域,鼓吹黑盒子、端到端一个公式拟合一切的就是系统论,像我这样提倡分解问题到百分之百可解释、公式与公式组合的就是还原论。 系统论不可避免地成为妄想一步登天做梦者狂欢的舞台,重灾区就是生命科学与深度学习。理工科一直都是还原论的天下,只有遵从还原论的研究方法,才能像蚂蚁啃骨头一样攻克一个个高不可攀的难关。我读书的时候,老师就告诉我们,中国人还是稍显浮躁了一点,像合金的各种成分配比对性能的影响的工作,都是西方与前苏联的科学家们一点一点做出来的。 一条是每个人都口吐莲花、天花乱坠的路,一条是默默攻坚克难的路,只要成功,你就是王者。孰去孰从,就看你自己的选择了。 谈人工智能15:分析还原的威力 http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fblog.csdn.net%2FVucNdnrzk8iwX%2Farticle%2Fdetails%2F120944362&urlrefer=49aad1b378212323377bcada56260ed8
充分利用全人类的已编写程序。 我现在已经可以在一个软件里混合使用各种编程语言编程、汇集很多台机器协同工作。接下来就是怎么样充分利用各种语言函数库(类库)的问题。所以我设计了以下方法,可以使人快速找到自己想要的函数。 1.用中文给函数写一段说明,利用我的中文语义检索功能找到所需要的函数。 2.使用标准格式写函数接口,IN(STR,DWORD)OUT(STR),IN2(I,I,IO)。IN()里面是输入参数的VOID,BOOL,CHAR,BYTE,WORD,DWORD,int,long,FLOAT,DOUBLE,STR,StrFile,CString等数据类型,如果是指针加上'*'。(如果侧重于字符串处理也可以只有STR,int两种类型,有文件加一个strFile)。IN2()里面是输入参数的in,out,inout三种属性。 3.写几个标准示例,字符串用“123”,“ABCDEFG”,“1+1”,“例A 例B 例C”,“123\n”,“123\nABCDEFG\n”,数值用1,2,3。例如atoi()就写成“IN("123")OUT(123)”,去除汉字的函数就写成“IN("例A 例B 例C")OUT("A B C")”。如果有需要还可以加上IN2()格式。 一个函数如果写了这三种说明,找函数时就只要写上述的一种或者两种说明就能找到了。 带有文件操作的函数或者命令行也可以这样写第三种说明: 3.文件参数的标准写法,用FileA,FileB,FileC,FileD代表四个文件“123\n”,“123\nABCDEFG\n”,“123\nABCDEFG\n1+1\n”,“ABCDEFG\n””。例如读取文件的第n行的函数就可以写成IN("FileB",1)OUT("ABCDEFG")。两个文件合并的函数就是IN("FileA","FileD","FileB")OUT()IN2(I,I,O)。 第二第三种格式是一种全新的方法,它让人通过举例子就能找到所需要的函数或者软件。
充分利用全人类的已编写程序。 我现在已经可以在一个软件里混合使用各种编程语言编程、汇集很多台机器协同工作。接下来就是怎么样充分利用各种语言函数库(类库)的问题。所以我设计了以下方法,可以使人快速找到自己想要的函数。 1.用中文给函数写一段说明,利用我的中文语义检索功能找到所需要的函数。 2.使用标准格式写函数接口,IN(STR,DWORD)OUT(STR),IN2(I,I,IO)。IN()里面是输入参数的VOID,BOOL,CHAR,BYTE,WORD,DWORD,int,long,FLOAT,DOUBLE,STR,StrFile,CString等数据类型,如果是指针加上'*'。(如果侧重于字符串处理也可以只有STR,int两种类型,有文件加一个strFile)。IN2()里面是输入参数的in,out,inout三种属性。 3.写几个标准示例,字符串用“123”,“ABCDEFG”,“1+1”,“例A 例B 例C”,“123\n”,“123\nABCDEFG\n”,数值用1,2,3。例如atoi()就写成“IN("123")OUT(123)”,去除汉字的函数就写成“IN("例A 例B 例C")OUT("A B C")”。如果有需要还可以加上IN2()格式。 一个函数如果写了这三种说明,找函数时就只要写上述的一种或者两种说明就能找到了。 带有文件操作的函数或者命令行也可以这样写第三种说明: 3.文件参数的标准写法,用FileA,FileB,FileC,FileD代表四个文件“123\n”,“123\nABCDEFG\n”,“123\nABCDEFG\n1+1\n”,“ABCDEFG\n””。例如读取文件的第n行的函数就可以写成IN("FileB",1)OUT("ABCDEFG")。两个文件合并的函数就是IN("FileA","FileD","FileB")OUT()IN2(I,I,O)。 第二第三种格式是一种全新的方法,它让人通过举例子就能找到所需要的函数或者软件。
充分利用全人类的已编写程序。 我现在已经可以在一个软件里混合使用各种编程语言编程、汇集很多台机器协同工作。接下来就是怎么样充分利用各种语言函数库(类库)的问题。所以我设计了以下方法,可以使人快速找到自己想要的函数。 1.用中文给函数写一段说明,利用我的中文语义检索功能找到所需要的函数。 2.使用标准格式写函数接口,IN(STR,DWORD)OUT(STR),IN2(I,I,IO)。IN()里面是输入参数的VOID,BOOL,CHAR,BYTE,WORD,DWORD,int,long,FLOAT,DOUBLE,STR,StrFile,CString等数据类型,如果是指针加上'*'。(如果侧重于字符串处理也可以只有STR,int两种类型,有文件加一个strFile)。IN2()里面是输入参数的in,out,inout三种属性。 3.写几个标准示例,字符串用“123”,“ABCDEFG”,“1+1”,“例A 例B 例C”,“123\n”,“123\nABCDEFG\n”,数值用1,2,3。例如atoi()就写成“IN("123")OUT(123)”,去除汉字的函数就写成“IN("例A 例B 例C")OUT("A B C")”。如果有需要还可以加上IN2()格式。 一个函数如果写了这三种说明,找函数时就只要写上述的一种或者两种说明就能找到了。 带有文件操作的函数或者命令行也可以这样写第三种说明: 3.文件参数的标准写法,用FileA,FileB,FileC,FileD代表四个文件“123\n”,“123\nABCDEFG\n”,“123\nABCDEFG\n1+1\n”,“ABCDEFG\n””。例如读取文件的第n行的函数就可以写成IN("FileB",1)OUT("ABCDEFG")。两个文件合并的函数就是IN("FileA","FileD","FileB")OUT()IN2(I,I,O)。 第二第三种格式是一种全新的方法,它让人通过举例子就能找到所需要的函数或者软件。
公开我的BSON数据格式。 公开我的BSON数据格式。 BSON(BambooScript Object Notation) 是一种轻量级的数据存储交换格式,最初用于我的bamboo动态语言。比起json,它使得人们更容易的进行阅读和编写。同时也方便了机器进行解析和生成。用于准自然语言编程时,它可以是集程序与数据(变量)于一体的内存体,也就是一个字符串就相当于诸葛亮这样一个智能体。你把这个字符串传送给刘备,就相当于把诸葛亮这个活人传送给他当军师了。 BSON里变量的数据都放在左右括号内,变量名称则放在左括号之前,可以多层嵌套。变量之间用空格或者逗号隔开。例如“a(b(1) c(uvw))”,就相当于有两个变量,a.b=="1",a.c=="uvw"。 BSON与准自然语言编程一样,不区分变量类型,唯一的变量类型就是字符串。程序可以用atol(),atof()这一类函数或者base64等编码把字符串转换为其他类型的数据。 BSON里变量支持数组格式,数组成员就是放在同一对括号内的各个变量,变量之间用空格或者逗号隔开。这些变量用数组形式访问的时候,以先后顺序作为下标。例如“a(b(1) c(uvw))”,也相当于有两个数组成员,a[0]=="1",a[1]=="uvw"。a.b,a.c形式依然有效。 BSON里的主程序放在最外面一级的main()内,例如"main(xxx),a(b(1) c(uvw)),obj2(a(b(1) c(uvw)))"里面就有一段程序“xxx”,四个全局变量a.b,a.c,obj2.a.b,obj2.a.c。
#天天早上有灵感#,对现有的聚类算法很不满意,每次运行得到的 #天天早上有灵感#,对现有的聚类算法很不满意,每次运行得到的结果居然是不确定的,难怪现在很多机器学习得到的结果是不确定的。于是我自己动手,设计出了一个可能是最好的聚类算法。多维的可能不太好理解,所以就以二维为例, 先根据xy尺寸以及样本数量确定一个二维方块大小,作用就像LED显示屏里面的里面的一个显示方块(像素点),再统计所有方块里面的样本点个数,这个个数值就像是这个图像块的浓淡,划分一个阈值,删除有样本点的方块的数量的1/3,即删除最淡的一部分图像块,这样就完成了把整个二维图片“染色”的任务,分成了一个个图像块。然后再使用“腐蚀”功能,一层一层腐蚀,就能找到每个图像块的中心点,这个中心点总是最后被腐蚀掉的,这时候它的上下左右已经没有其他点。这个中心点就代表了这个聚类(图像块)的种类。前面被删除的图像块里的样本种类则由离它最近的图像块聚类种类决定。如此就得到了精确完美的结果。 由此联想到机器学习领域种种不好的风气。做不出精确结果不是你的错,但是如果因为你做不出精确结果,你就鼓吹不确定性那就大错特错了。就像用深度学习做聊天机器人,他们由于能力所限,连想象都不敢想象我可以用千元台式机实时检索10亿、百亿条规则、检索全人类知识,居然有脸造谣“检索是落后的”;做不到用准自然语言对机器人教学,居然造谣“设置问答是落后的”。至于那些人云亦云的粉丝们,只能说他们在世界观养成阶段没有受到科学精神的熏陶,根本不具备科学的世界观。只能拜托他们在免费为洋大爷们摇旗呐喊的时候别那么卖力,给国产民科们留一点发声空间。🙏
以几个例子戳穿深度学习的谎言。 与深度学习粉丝们商榷。 以几个例子戳穿深度学习的谎言。 与深度学习粉丝们商榷。 1.训练拟合一切。那就比试一下,请你训练一个能够报出中国十四亿人每个人姓名生日的模型吧。这个对程序员或者说对搞搜索引擎的程序员是很简单的事,有数据时,用千元台式机一个程序员一天可以搞定,看看深度学习能够花什么配置多少人力多久可以搞定?从中还可以戳穿GPT3的谎言,用45TB的数据训练,损失了多少信息,交给搜索引擎来做,那是保真每一个字节的。 2.端到端一个公式拟合一切。宣言这个是对所有科学家的侮辱。很多科学家穷其一生只是证明了一个定理公式,作用何在?就是因为宇宙里的组合是无穷无尽的,只有不断找出子规律(定理公式),用子规律与子规律组合才能有效减少组合数目。就像“小明在天河区棠下卫生院工作了三百天”、“小王在黄埔区89中学工作了一千天”这一类别的语句总结规律,以一百万的的词库为例,组合数目就达到了一百万的九次方,不划分子规律混成一锅粥来找规律是何其荒谬?用我的语义正则表达式(传统符号主义)来做就简单了,在前人总结出的词性、单位这些子规律的基础上进行组合,“人名 在 单位 工作 了 数量 天”一举搞定。 3.又有粉丝说“端到端一个公式”搞定,深度学习自动化程度多高啊。问题是这是个谎言啊,你也当真了?谎言都是听起来让人很爽,同时对应的就是“信的人很傻”,就像传销洗脑“一年赚一个亿”一样。深度学习的套路就是让粉丝们学很多高等数学的东西,一是弥补神经网络的缺陷,事实干活的还是符号主义的公式与编程。二是在效果不如意时粉丝们会自怨学艺不精,而不是怀疑深度学习有问题。其实人工智能技术应该是帮人干活的,而不是人帮它干活的。像我的机器学习算法就从来追求的是“初中生就能操作”,使用者只要归类好正例反例,就能坐享成果了。像问答机器人需要的是海量的知识(工作量),我一个光杆司令做的就可以吊打百度微软的重点生命线产品了,究竟谁更自动化?那些粉丝们居然有脸照吹不误。
解决一个难题,有东西方两大流派。以中西医为例,中医是把所有关 解决一个难题,有东西方两大流派。以中西医为例,中医是把所有关联事物作为一个整体来对待,西医是把各个关联事物都割裂开来,一个一个研究。 我是西医流派的,就像电路维修一样,我强调的是不能同时有两个及以上的未知因素,需要一个个排除,只留一个未知因素后,才能确定是这个未知因素导致故障。 把太多未知因素关联进来,整体解决问题,其实不具备可操作性。要透彻地解决问题,还是需要西医流派的。 分析问题,排除得只剩一个未知因素,其实不难。只要有树状层级的思路。比如说电脑维修,你就先确定是:显示电路问题还是输入输出口问题,还是电脑板问题。这时即使电脑板里面有多个故障,你也可以把它当做一个故障来对待,如果其它组件没问题,那就只要换电脑板就能修好了。如果想做到只换少数零件,那就再把电脑板分割成几个模块分析,就这样一层一层深入。 所以我一贯强调的是“百分之百可解释”,每次都要把待解决问题细分(不断把没把握的问题或者无关的问题割裂开来、放到一边),细分到只剩百分之零点一的未知因素,再把焦点集中于这个未知因素强攻,针尖处的压强无限大,这时候才能强攻成功。 这种思维方法是西方科技赖以成功的关键。西方的思想底蕴还是很讲逻辑的,所以八十年代神经网络学说会被视为“伪科学”,没想到现在美国居然会炼丹术(深度学习)盛行,但是也做不到一统天下,反而是国内全都是没有自己思想的文抄公,清一色捧着洋大爷的神主牌顶礼膜拜。像我这样的“逻辑编程派”是少之又少,当然,对未来谁胜谁负我是淡定的很,喧嚣一时的泡沫总归是要破的。他们折腾了这么多年,连个蠕虫的神经系统都没搞定。一大帮人被忽悠得把人脑神话得无以复加,让他们努力个二十年,撑死了也就达到个人脑水平。殊不知,对我来说,人脑只是一个小目标,更高更快更强的电脑才是永远的目标。
周五参加小孩成人礼,我的脑子也没闲着,基本想清楚了下面的问题 周五参加小孩成人礼,我的脑子也没闲着,基本想清楚了下面的问题: 自然语言里面经常有多一个词、少一个词不影响语义的情况,例如:“步入婚姻”,“步入婚姻殿堂”,“步入婚姻生活”这三者语义基本相等,现在就想用计算方法来确定。 经过思考,我终于发现了其中的规律—— “婚姻殿堂”,“婚姻生活”的左右词完全被“婚姻”的左右词集合所覆盖,据此可以判断。 上述短语被“殿堂”的左右词集合全覆盖是很正常的,但是被前面定语的左右词集合覆盖就少见,就属于上述情况。 但是上面的名词短语语义还是稍微有点偏差,所以用加上“步入”后的短语对词频稍高的左右词进行统计更加符合。 这个问题又可以延伸为判断“婚姻殿堂”是不是建筑物的问题,因为“婚姻殿堂”右边的词基本上不出现“结构,面积,位置”,所以它不是建筑物,“殿堂”的语义在短语里比重很小。 再对“xx的殿堂”进行总结,发现“心灵的殿堂”,“科学的殿堂”都符合这种情况。所以这种情况实际上可以如此描述:“步入一座殿堂,这座殿堂的名字叫“婚姻”。”。所以这个名词性短语语义等同于“婚姻”。这一类情况可以直接定义为一种规则,便于程序处理。
周五参加小孩成人礼,我的脑子也没闲着,基本想清楚了下面的问题 周五参加小孩成人礼,我的脑子也没闲着,基本想清楚了下面的问题: 自然语言里面经常有多一个词、少一个词不影响语义的情况,例如:“步入婚姻”,“步入婚姻殿堂”,“步入婚姻生活”这三者语义基本相等,现在就想用计算方法来确定。 经过思考,我终于发现了其中的规律—— “婚姻殿堂”,“婚姻生活”的左右词完全被“婚姻”的左右词集合所覆盖,据此可以判断。 上述短语被“殿堂”的左右词集合全覆盖是很正常的,但是被前面定语的左右词集合覆盖就少见,就属于上述情况。 但是上面的名词短语语义还是稍微有点偏差,所以用加上“步入”后的短语对词频稍高的左右词进行统计更加符合。 这个问题又可以延伸为判断“婚姻殿堂”是不是建筑物的问题,因为“婚姻殿堂”右边的词基本上不出现“结构,面积,位置”,所以它不是建筑物,“殿堂”的语义在短语里比重很小。 再对“xx的殿堂”进行总结,发现“心灵的殿堂”,“科学的殿堂”都符合这种情况。所以这种情况实际上可以如此描述:“步入一座殿堂,这座殿堂的名字叫“婚姻”。”。所以这个名词性短语语义等同于“婚姻”。这一类情况可以直接定义为一种规则,便于程序处理。
今天早上想到两种情形,不能依靠相邻词的概率排除歧义义项。第一 今天早上想到两种情形,不能依靠相邻词的概率排除歧义义项。第一种是“我花了8000元买了个苹果”,第二种是“小李很喜欢他的苹果”。这两种都比较难确定“苹果”是水果还是手机?特别是第二种,需要依靠上下文前面的“小李拥有两个手机”来判断,两句话的距离可能比较远,而且要在小李的拥有物之内,把苹果与手机关联起来,人虽然容易做到,电脑想依靠数学或算法来做可真是头痛。还好灵感发现,我五分钟之后就想到了办法。 第一种情形,只要写两个语义正则表达式,“Q:* 苹果 * num 元 * A:num:TP@TOTOAL”,“Q:* num 元 * 苹果 * A:num:TP@TOTOAL”,再用这个模板上语料库搜到八句num数值最接近的句子,再计算所得到的八个整句(TP@TOTOAL)里面所有的名词动词与水果和手机的关联度,可以排除歧义义项了。 第二种情形更复杂一点,就用以下语句训练出一个语义模板: “Q:小明拥有两个手机 A:小明 手机”, “Q:小明买了一个手机 A:小明 手机”, “Q:*送给小明一个手机 A:小明 手机”, “Q:小明手上有两个手机 A:小明 手机”, “Q:*小明的手机* A:小明 手机”, “Q:小朱拥有两个玩具 A:小朱 玩具”, “Q:小朱买了一个玩具 A:小朱 玩具”, “Q:*送给小朱一个玩具 A:小朱 玩具”, “Q:小朱手上有两个玩具 A:小朱 玩具”, “Q:*小朱的玩具* A:小朱 玩具”, 有了这个语义模板以后,遇到可以确定拥有物的语句,就可以输出所有者与拥有物这两个词。用它来处理上下文,就能找到小李的所有拥有物,计算这些拥有物与水果和手机的关联度,可以排除歧义义项了。
今天早上想到两种情形,不能依靠相邻词的概率排除歧义义项。第一 今天早上想到两种情形,不能依靠相邻词的概率排除歧义义项。第一种是“我花了8000元买了个苹果”,第二种是“小李很喜欢他的苹果”。这两种都比较难确定“苹果”是水果还是手机?特别是第二种,需要依靠上下文前面的“小李拥有两个手机”来判断,两句话的距离可能比较远,而且要在小李的拥有物之内,把苹果与手机关联起来,人虽然容易做到,电脑想依靠数学或算法来做可真是头痛。还好灵感发现,我五分钟之后就想到了办法。 第一种情形,只要写两个语义正则表达式,“Q:* 苹果 * num 元 * A:num:TP@TOTOAL”,“Q:* num 元 * 苹果 * A:num:TP@TOTOAL”,再用这个模板上语料库搜到八句num数值最接近的句子,再计算所得到的八个整句(TP@TOTOAL)里面所有的名词动词与水果和手机的关联度,可以排除歧义义项了。 第二种情形更复杂一点,就用以下语句训练出一个语义模板: “Q:小明拥有两个手机 A:小明 手机”, “Q:小明买了一个手机 A:小明 手机”, “Q:*送给小明一个手机 A:小明 手机”, “Q:小明手上有两个手机 A:小明 手机”, “Q:*小明的手机* A:小明 手机”, “Q:小朱拥有两个玩具 A:小朱 玩具”, “Q:小朱买了一个玩具 A:小朱 玩具”, “Q:*送给小朱一个玩具 A:小朱 玩具”, “Q:小朱手上有两个玩具 A:小朱 玩具”, “Q:*小朱的玩具* A:小朱 玩具”, 有了这个语义模板以后,遇到可以确定拥有物的语句,就可以输出所有者与拥有物这两个词。用它来处理上下文,就能找到小李的所有拥有物,计算这些拥有物与水果和手机的关联度,可以排除歧义义项了。
1 下一页