Aug 24, 2007

中国历史上的十大定律

 

      历史的发展,如同陀螺的运动,不停地旋转,一圈又一圈,周而复始。在这种周期性的运动中,有某种恒定的东西,始终保持不变。杜牧说,"秦人不暇自哀而后人哀之,后人哀之而不鉴之,亦使后人复哀后人也。

     "后人复哀后人",不正好反映了中国历史在变中保持不变的特点吗?

     这是一种规律,有人称之为历史定律。近来可以看到,不同的学者,针对不同的历史事实,从不同的角度,阐释不同的"历史定律"。这其中有黄炎培所说的"其兴也勃焉,其亡也忽焉"定律;柏杨写的"瓶颈定律";秦晖写的"黄宗羲定律";吴思写的"血酬定律";杨光写的"传统权力合法性定律"以及"水能载舟,亦能覆舟"定律;"得道多助,失道寡助"定律;"分久必合,合久必分"定律;"兔死狗烹"定律;"成王败寇"定律;"家族盛衰循环定律"等等。

       各种各样的说法,是否都能称之为"定律",也有疑问。但它们确实是在不断地被重复,呈现出某种规律性。学者们何以对历史定律产生兴趣?我以为他们的用心,是要打破我们历史上那些千古不变的东西。"后人复哀后人",这样的重复,给我们太多的痛苦。

      我从各种各样的说法中选出十条,姑且称之为"定律",也谈一点看法。

第一定律,象牙筷定律

      殷纣王即位不久,命人为他琢一把象牙筷子。贤臣萁子说,"象牙筷子肯定不能配瓦器,要配犀角之碗,白玉之杯。玉杯肯定不能盛野菜粗粮,只能与山珍海味相配。吃了山珍海味就不肯再穿粗葛短衣,住茅草陋屋,而要衣锦绣,乘华车,住高楼。国内满足不了,就要到境外去搜求奇珍异宝。我不禁为他担心。"(冯梦龙)

      果然,纣王"厚赋税以实鹿台之钱,......益收狗马器物,充仞宫室。......以酒为池,悬肉为林,使男女倮相逐其间,为长夜之饮。"百姓怨而诸侯叛,亡其国,自身"赴火而死"。

为什麽事态会如萁子所言,一步一步地发展下去?

      很小的时候,我们就已经知道了普希金的伟大,因为我们都很喜欢他的那个《渔夫与金鱼的故事》。那个丑陋的老太婆,最初只不过想要一个新木盆。第一个愿望被满足之后,第二个愿望接踵而来。一个接一个,胃口越来越大。最后的结果,仍旧只有一只旧木盆。

世人的贪欲,不都是这样?得寸进尺,得陇望蜀。没有止境的。

君王的贪欲,更为可怕,因为他拥有无限的权力,没有人可以阻止他。

《诗》云,"商鉴不远,在夏后之世。"

这里所说的商鉴,究竟要我们鉴什麽?

其一,一定不能有"第一次"。

      第一次可能是微不足道的,一双筷子或一只木盆。只是大坝一旦决了口,洪水便会一泻而下。

看一看那些贪官,只要收了第一笔贿金,以后的事便不由他了。

只是,人的意志力是多麽薄弱。一旦坐上权力的交椅,有几个人能拒绝这第一次?

其二,整个过程是"进行性"的。

      "进行性"一词是我从医学书中借用来的。像癌症,就是进行性的。不断地发展,不会中止,也不会逆转,一直进行下去。

      殷纣王身边,虽有比干和萁子这样的贤臣,却无法劝阻他。依靠臣下的劝阻来制约至高的皇权,其有效性显然不足。所以,事态的发展有其必然性。

其三,"其亡也忽焉"。

《左传,荘公十一年》:"桀纣罪人,其亡也忽焉。"这里的"忽"字,意为迅速,突然。

洪水溃堤,转瞬之间,一泻千里。

李自成打进北京,一生事业达到巅峰。由巅峰而至于落荒而走,大起大落,也在转瞬之间。

殷纣王之后,两千多年,有周幽王、秦二世、陈胜、王莽、陈后主、隋炀帝、黄巢、朱温、李煜、李自成、洪秀全、蒋介石等,"其亡也忽焉",何其多。

殷纣王,这个中国历史上著名的昏君、暴君、亡国之君,他给后人留下了什麽?留下了两个字,"殷鉴"。

无法节制的权力+无限膨胀的贪欲=殷鉴不远。

      黄炎培先生曾在延安的窑洞中向毛泽东提起"其亡也忽焉"这样的历史规律,因此,有人将这个定律称为"黄炎培窑洞定律"。

第二定律,兔死狗烹定律

      越王句践,为报仇雪恨,卧薪尝胆,精神非凡。但他的个人品质却非常糟糕。在极端困苦的情况下,帮他筹划大计的两个功臣,成就大业之后,一个被杀,一个逃跑。

      杀文种的时候,句践说,"你教我灭吴七种方法,我用了其中三种就灭了吴国,你那里还有四种,把它带到先王那里去吧。"

      有七种方法灭吴,应当很有智慧,却遭了句践的毒手。

      此前,范蠡曾规劝文种,"蜚鸟尽,良弓藏;狡兔死,====烹。越王为人长颈鸟喙,可与共患难,不可与共乐。"范蠡之智,显然高过文种,终能免於一死。

兔死狗烹这样的事,历史上不断地重演。

      能够吟诵《大凤歌》的汉高祖,也是小鸡肚肠。依赖韩信的军事天才,夺得天下。原说是与韩信"共天下"的,后来非但不"共",还要了韩信的命。

      倒是张良聪明绝顶,托言辟谷,躲到深山里去。刘邦一死,张良的辟谷秀也就谢了幕,照旧吃饭。

说到杀功臣,狠毒莫过于朱元璋。当年帮他打天下,战将如林。后来朱棣南下,朝廷居然派不出得力将领去带兵。幸好不是北边的蒙古人打过来,否则朱姓的江山,传到第二代也就败了。

      赵匡胤说,"吾终夕未尝安枕而卧。"得了天下,却又睡不着觉,夜夜失眠,竟为何事?

      天下汹汹,想要南面为王的野心家何其多。就是咱自家,当年"黄袍加身,"不也是个野心家?如此说来,野心家就睡在我们的身边。

      老是疑神疑鬼,睡不好觉,搞得神经衰弱,以为真是狼来了,于是起了杀心。

      这是一种思维定势,世人无论是谁,只要坐(抢)到这个位置上,总会不由自已这样去想。原本抢来的东西,难保不被别个抢去。所以,历史上兔死狗烹之事不断重演,是完全符合逻辑的。

      文革时期,我是一个逍遥派,一个观棋不语的看客。看来看去,看得多了,心里就非常佩服范蠡这个人。那些造反派,开始时受压,可怜兮兮的。后来得势,内部就分为许多派别,彼此争斗不休。几乎没有例外,一旦外部的压力消除,内部立刻就分化。人为什麽会是这样,患难易共,富贵难同?现在这些做生意的人,若是几个人合伙共同创业。开始的时候,兢兢业业,在艰苦环境中Gong同拚搏,尚能齐心协力。一旦家大业大,有了丰厚的利润,就会生出异心。彼此猜忌、龃龉,终至于分道扬镳。

难道人的天性就是这样?

      后人把范蠡的这个定律表述为,"狡兔死,====烹;飞鸟尽,良弓藏;敌国灭,谋臣亡。自古患难易共,富贵难同。"

第三定律,包围定律

      诸葛亮在《出师表》中论及天下兴亡之道,"亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。" 奸臣和小人,虽为人所不齿,但他们在中国历史上却占有重要地位。皇朝的灭亡,国家的劫难,往往与他们有关。《史记》中有《佞辛传》,《汉书》中有《奸佞传》,《新唐书》及其以后的《宋史》、《元史》《辽史》、《明史》翟积史中都有《奸臣传》。奸臣在历史中的地位,史家不敢忽略。 "指鹿为马"的赵高,"口蜜腹剑"的李林甫,祸国"六贼"童贯、高俅、蔡京等,陷害忠良的秦桧,两面三刀的严嵩,无法一一列举。若能把他们聚集拢来,可以排列成大军,浩浩荡荡。只不过,这只大军不能用来上阵杀敌,他们所起的作用,就是"包围"。

鲁迅先生说,凡是"猛人","身边便总有几个包围的人们,围得水泄不透。"结果,"是使该猛人逐渐变成昏庸,有近乎傀儡的趋势。""中国之所以永是走老路,原因即在包围,......。"

这就是包围定律。

包围者不仅有奸臣小人,还有女人,像妲己、褒姒、以及文*中的白骨精。虽说"女色亡国"论是不对的,但坏女人在历史中的作用却不容忽视。

将一块磁铁投入沙堆中,磁铁表面便会粘上些许铁屑,磁铁吸引铁屑,是因为存在磁场。

围绕着权力,也有一个看不见的权"场"。各种意有所图的人都会在"权场"中向着权力中心作定向移动。于是就有了"包围"。包围是客观存在的,在我们中国,有权力就一定有包围。

权力越大,包围就越厚。

一个皇帝周围,有三宫六院,无数的宫女(唐朝后宫宫女最多时可达数万人),无数的太监,无数的虎贲勇士,还有皇亲国戚,文臣武将。千军万马,铜墙铁壁,把一个"寡人"包围在当中。

寡人心里高兴,就要走出去巡视。但即便他真的走到了田间地头,也得不到真实。因为"下面"的人熟谙蒙骗之术。一切场景都是事先精心安排好的,滴水不漏,皆大欢喜。

鲁迅先生认为,"猛人倘能脱离包围,中国就有五成得救。"先生因此想作一篇《包围新论》,讲述"包围脱离法"。"然而终于想不出好的方法来"。

我那时就很悲观,鲁迅也如范蠡一样,是中国最聪明的人,居然想不出好方法。

后来听说瑞典首相出门不带警卫,上班乘公交车。心想,答案就在这里了,包围是可以打破的呀。

第四定律,敌戒定律

唐代柳宗元有一篇题为"敌戒"的短文,其思维逻辑与常人常理完全相悖,富含哲理,是一篇奇文,转录如下:

皆知敌之仇,而不知为益之尤;皆知敌之害,而不知为利之大。秦有六国,兢兢以强;六国既除,訑訑乃亡。晋败楚鄢,范文为患;厉之不图,举国造怨。孟孙恶臧,孟死臧恤,"药石去矣,吾亡无曰"。智能知之,犹卒以危,矧今之人,曾不是思。敌存而惧,敌去而舞,废备自盈,祗益为愈。敌存灭祸,敌去召过。有能知此,道大名播。惩病克寿,矜壮死暴;纵欲不戒,匪愚伊耄。我作戒诗,思者无咎。

从来人们都把敌人看作是祸害,无力者避之,有力者根除之。唯独柳公认为,有敌人是好事。

毛泽东对这篇短文推崇备至。

毛泽东一生,空前绝后,以他的眼光,审视历史,何以对这篇短文情有独钟?

古人治国,由大乱到大治。毛泽东治国则反其道而行之。阶级斗争,一抓就灵,一个接一个的运动,把整个中国搞得如火如荼,水深火热。毛泽东的斗争哲学是否与《敌戒》中宣示的哲理有某种契合?

千年大树,其里皆空。我们这个老大帝国,历经几千年,早已完全腐朽了。

比较中国的历史与西方的历史有很大的不同。欧洲大陆,自罗马帝国以后,列国争雄,就像我们的春秋战国时期,国与国之间,总有打不完的战争。一个国家,要在这样的环境中生存,必须励精图治。所以,西方文化中的主旋律是竞争。西方的政治、哲学,市场经济,都强调竞争。在他们的电影、游戏中,充斥着激烈的争斗场面。

我国的历史与欧洲完全不同,自秦统一以后的两千年,几乎一直是一国独大的局面,周边没有任何一个国家的人口与经济实力可以与这个中央帝国"度长絜大,比权量力"。

没有强大的敌人,失去了外部的压力,内部自然就腐化。未闻边塞号角,但见歌舞升平。自秦以后,皇朝的历史,一代不如一代,整个社会的精神处于退化之中。

正是这种历史环境长期地作用,使中国人鸩於安乐,不思进取,怯懦畏葸,麻木不仁。

中国人发明了火药,把他造成鞭炮,用于喜庆娱乐之中。西方人却把他造成武器,使人类的战争由冷兵器时代进入热兵器时代。

没有了竞争的压力,也就失去了不断创新进步的动力。

当今世界,美国人横行天下。是三次大战(两次仍唤一次冷战)造就了美国人之"横"。

中国人讲究"中庸",讲究"和为贵",这是我们的哲学,我们的传统。热爱和平是一件好事,但前提条件是不会有别个打进来,亡了国。

我不是法西斯式的好战分子,对于阶级斗争那一套更是深恶痛绝。但我相信达尔文的进化论,"物竞天择,适者生存。"我们中华民族要真正自立于世界民族之林,一定要克服我们千年之惰性,振奋民族精神,从容面对当今世界的挑战和竞争。

梁启超鼓吹《少年中国说》,"潜龙腾渊,鳞爪飞扬;乳虎啸谷,百兽震惶。"霹雳之声,撼人心魄。

第五定律,朋党定律

唐穆宗时期,以李德裕为首的士族出身官员结成一派,以李宗闵、牛僧孺为首的科举出身官员结成一派,两派在朝廷上互相攻讦、倾轧达四十年,史称牛李"朋党之争"。

中国历史上这样的"党(派)争"持续不断。

西汉有外戚、宦官作祟,东汉有清议党锢,魏晋南北朝有士族门阀,唐有刘李党争,宋有"元祐党人碑",明有东林党、宣党、崑党,清有帝党、后党,====内有黄埔系、cc系、政学系等。

各朝各代,都有朋党、帮派,是一个很有中国特色的历史现象。朋党现象,有其社会根源。

中国传统社会的最大特点是,他是一个宗法社会。

一部《红楼梦》,其隐含的意义,不是什麽反封建。《红楼梦》用一个凄绝动人的爱情故事,向我们展示了古代宗法社会的基本结构及其运行特点。荣宁二府,是一个大的(宗族)家族。像一棵大树,有主干和旁枝。"亲不间疏,后不僭先。"有规有矩。贾王史薛,四大家族,互相倚持,结为势力。更有皇亲国戚,达官贵人,彼此回护。构成一个复杂的体系,盘根错节。只有明晰了其中的脉络,才算真正读懂了《红楼梦》。

中国宗法社会的特点之一就是盘根错节。

一个人立于社会,并非是孤立的。在他的周围有各种各样的关系,亲戚关系、乡党关系、同学关系、师生(徒)关系、战友关系、同事关系、朋友关系、帮会关系、同志(道)关系等等。

这些关系构成了一个人的社会资源。聪明的人,运作得好,前途无量。

无论处庙堂之高,江湖之远,都能见到中国人在忙着拉帮结派。像一个个勤奋的蜘蛛,编织着属于自己的网络。

网络越大、越结实,捕获就越多。

现在说打贪官,须先搞清楚,贪官后面的保护伞有多大,前后左右铁杆关系有多硬。否则贪官打不到,反倒捅了个马蜂窝。

对于中国的朋党现象,自古以来就有两种不同的观点,褒贬不一。持否定观点的人认为,"结党营私"。宋朝欧阳修却认为,"小人无朋(党),惟君子则有之。"

"物以类聚,人以群分。"由于社会和历史的原因,中国人常常结为宗派,十分自然,是一种客观存在的社会现象。许多人对此十分忌讳,刻意回避,讳莫如深。其实大可不必。

像毛泽东这样的马克思主义者,也公开承认,"党外无党,帝王思想;党内无派,千奇百怪。"

倒是曰本人比我们痛快,他们的政党内部就分为不同的派别,公开活动,堂而皇之。这是曰本国内政治的一大特点。

第六定律,黄宗羲定律

所谓"黄宗羲定律"是由秦晖先生依据黄宗羲的观点而总结出来的某种历史规律。内容是关于"帝国千年以来"通过"并税式改革"解决"农民负担问题"。历次改革的目的都是好的,改革者的初衷是要通过"并税"的方式减轻农民负担。一次又一次的改革,农民的负担非但没有减轻,反倒愈益加重。黄宗羲称为"积累莫返之害"。

依常理来看,是有些奇怪。像王安石这样的改革家,诗文写得极好,富有智慧,怎麽也会犯一些不断被重复的简单的错误?

中国的农民对此有他们自己的解释。在农村普遍流传着一种说法,"上面的经是真经,都是下面这些歪嘴和尚把经念歪了。"

歪嘴和尚何以要把经念歪?考其原因有二。一是和尚水平太差,不会念经;二是和尚故意要把经念歪。我以为后一种情形居多。

吴思先生在其《血酬定律》一书中提到明朝官员的薪俸太低,其各项必要的支出加在一起高过俸禄的收入。吴先生认为,与其他各个朝代相比,明朝官员的俸禄是最低的。明朝官员俸禄虽低,尚有俸可领,而在王莽时期,官员们从朝廷中领不到钱,俸禄为零。

读史读到这里,觉得十分有趣。不给官员发薪,难道让他们去喝西北风?自古有喝西北风的老百姓,未见有喝西北风的官员。

结果是王莽时期的官员却因零俸禄政策而大发其财。既然朝廷不给发薪,他们只好自行解决,正好有了借口,可以理直气壮,大肆搜刮。

在我们推行各项改革措施时,经常碰到的一种情形是,"两头热,中间凉。"中间热不起来,自有其道理。

十七世纪英国哲学家霍布斯认为,人是自私自利的动物,每个人都努力要保持自己的生命。这种"自我保存"(Selfpreservation)是人类一切行为的基本动力。

Selfpreservation,一个很好的词,每个人都会Selfpreservation。我以为,既然每个人都会Selfpreservation,官员们的Selfpreservation也是自然的,无可非议。

为甚麽和尚要把经念歪?为甚麽中间热不起来?皆因为中间的官员们认为改革不利于他们的Selfpreservation。

要Selfpreservation的官员去为供养他们的农民减轻负担,这是一个典型的逻辑悖论。

在这个悖论中,最关键的是农民和官员之间的供养关系,假如去掉这种关系,悖论就不能成立。或者,在减轻农民负担的同时,由中央财政给官员们以补偿,两方都不吃亏,"中间"也就没有道理再凉下去。

王安石的变法,十分缜密,像"青苗法"之类,仔细阅读其内容,确实为农民考虑得十分周全。令人难以理解的是,这样的殚精竭虑,最后却惹得民怨沸腾。

是各级官员和胥吏在其中做了手脚,捣了鬼,把一件好事搅成一塌糊涂。

吴思先生所说的"潜规则",正是官员胥吏们的捣鬼之术。官员们捣鬼有术,他们不仅有"潜规则",有时更是肆无忌惮,毫无规则,随心所欲。如老百姓所说,"和尚打伞,无法(发)无天。"

这里说的是两个层面的问题,一个是和尚要吃饭,一个是和尚会打伞,两者之间有一定的联系。和尚要吃饭是正常的,也是正当的,不给他们吃饭,或吃不到好饭,他们就会去"打伞"。

中国历史上有过许多次变法,成功的不多。一个重要的问题是"执行难"。好的法律,好的政策,到了中下层官员手里,常常会走了样。批评者常常把矛头指向中下层官员。我以为虽然是中间环节出了问题,根源却在上面。表面上是一个"执行难"问题,实际上是一个设计问题。

设计一个好的政策(比如说"青苗法"),同时也应配备一个好的"路线图"。在这个"路线图" 中,必须把"和尚要吃饭问题"与"和尚会打伞问题"列入曰程。不考虑并重视"和尚"问题,好的政策就只是空中楼阁。或者我们说,一个好的设计师,要想把他设计的好政策付诸实施,顺利推行,必须首先把"和尚" 安顿好,否则,"黄宗羲定律"就会不断重演。

第七定律,五世而斩定律

1856—1860年,太平军两次打破围困天京的清军江南、江北大营,取得大捷。

有人说,虽然打了胜仗,但客观上却帮了清廷的忙。何以这样说?

驻守江南、江北大营的是清廷"精锐"的八旗兵和绿营兵。绿营兵"射箭,箭虚发;驰马,人堕地。"八旗兵则更为腐败无能。两营溃败,湘军成为清廷主力,形势急转直下。

当年八旗兵入关,真是"金戈铁马,气吞万里如虎。"这只凶猛的老虎后来为什麽会变成如此熊样?

富贵人家,总是难以持久,是中国历史的规律。孟子曰,"君子之泽,五世而斩。"一个有本事的君子,得了个好位子,挣了一大份家业,想把他千秋万代的传下去。但"五世而斩",君子的梦想终会被残酷的现实所击碎。

老百姓的说法,更加令人扫兴。他们说,"富不过三代"。

五世也好,三代也好,贫与富,是在不断地转换。也许这是一种自然的调节,自然的公正。

为什麽富者不能恒富?富贵人家之所以会出败家子,我以为原因有四:

一曰"骄"。

八旗兵入关,满人成为统Zhi阶级,拥有特权。八旗子弟一不务农,二不做工,对汉人有强烈的优越感。

由"骄" 而"横",一些贵胄子弟仗恃父兄的特权,在社会上横行霸道,欺男霸女。

红楼梦中的薛蟠,打死人命,抢了丫头,扬长而去。古代法律,不仅"刑不上大夫",亦且"刑不上大夫之子"。

二曰"奢"。

八旗兵入关,大肆掳掠。许多人在战争中聚敛了大量的财富。

西方人拥有了财富,会把他变为资本,不断增值。我们中国的富人比较缺少这种进取心,尤其是一些新贵,有一种暴发户心态,喜欢彼此攀比,讲排场,一掷千金。像"石崇与王恺争豪"这样的事,是一种流行病,一直流行到今天。

生于锦绣丛中的富家子弟,耳濡目染,他们的攀比和挥霍,更是青出于蓝。

惟其如此,才有了五陵少年和八旗子弟。

三曰"淫"。

古人告诫我们,"富贵不能淫。"此处"淫"字之义,乃是迷惑与放纵。

之所以有这样的告诫,是因为富贵能迷惑人,使人放纵。通常我们说,饱暖思淫欲。或者像现在人们所说的,男人有钱就学坏。有钱会使人们产生更多的欲望。外部世界又充满了各种诱惑。内部的欲望碰到外部的诱惑,两者一拍就合。

已经成熟的男人尚且无法抵御社会上的各种诱惑,小孩子的自制力如何比得上男人?

四曰"逸"。

"学好数理化,不如有个好爸爸。"这句话流传很广。

好爸爸是很有用的,他可以帮我们进入好大学,帮我们安排好工作,帮我们步入上流社会,过安逸生活。但好爸爸也有副作用,他使我们失去了艰苦奋斗的精神。在这个竞争激烈的社会,一旦失去了好爸爸,美丽的象牙塔便会轰然倒地。

中国经济快速发展,有了更多的富人,富人子弟如何承继父业,已成为一个问题。解决富家子弟问题,我们的学者开出药方来是四个字,"加强教育"。像美国人,注重培养孩子的自立能力和自尊精神。据说他们那边百万富翁的孩子也会利用假期去打工挣钱。

一些富家子弟,骄奢淫逸,根本不是什麽教育问题,他有深刻的社会历史背景。正是那样的社会,那样的传统,生出那样的孽障。富家子弟,骄奢淫逸,根本是一个社会问题。

有晋人撰文说,某晋商家业兴盛达两百年,打破了"富不过三代"的定律。家业延续两百年,确实了不起。但两百年后又如何?

"旧时王谢堂前燕,飞入寻常百姓家。"

第八定律,权大欺主定律

这个题目是我从一本题为《蒋党真相》的书中看来的。

书中说,清末权臣袁世凯,为大清帝国送了终,人称"权大欺主"。蒋介石从这件事中吸取教训,其 "御下之术"是,暗中支持和挑唆各个派别和山头(黄埔系、cc系、政学系)相争,各派彼此争斗、钳制,需从蒋那里寻求支持,于是蒋超越各派之上成为无法撼动的最高领袖,云云。(早年读过的书,印象十分模糊了。)

几千年的中国历史,有一个难解的结始终困扰着历代的政治家,那就是"权大欺主"。

历史上"权大欺主"的事屡见不鲜。楚成王儿子商臣,逼迫成王自杀;吴国公子光派专诸刺杀王僚;西汉末有王莽篡汉;晋有"八王之乱";三国时期有曹操、司马昭擅权;隋有杨广弑父杀兄;唐有李世民"玄武门之变";宋有赵匡胤"黄袍加身";明有朱棣"靖难"之变等等。

在封建皇朝,存在着两种大搏弈。一种博弈发生在皇帝和皇储(太子)之间,另一种博弈发生在皇帝和权臣之间。皇帝和皇储,亲生骨肉,也会为了权力生死相搏。虎毒尚且不食子,帝王家庭内,却会上演父(母)杀子,子弑父,或兄弟相残的惨剧。皇帝和权臣间更有说不尽的恩怨。"君臣一曰百战",君权和相权较力,外戚或宦官擅权,朝堂和皇宫从来都是权术和阴谋的演练场。皇储和权臣是中国历史上最危险的人物。说他们危险是因为他们存在的本身就是对君王权力的威胁,他们自身也因此时刻处于危险之中。这种危险状况有时会演变成危机,甚至发生大的动乱。

如何防止"权大欺主"是中国古代政治学最大的课题之一。

我的专业是《园艺学》。我们有一个名词叫顶端优势。当一棵大树中心干上的分枝高过中心干时,其生长势会强於中心干,最终取而代之。

取而代之,是因为"生长势"的对比发生了变化,终于成为"强枝弱干"。在帝国的朝堂上,当帝王与臣下"权势"的对比发生变化时,也会有"取而代之"。自然界与人类社会一样,对优势地位的竞争无时不有,无处不在。

项羽见到秦始皇出游的仪仗时说,"彼可取而代也"。刘邦则说,"大丈夫当如此也。"我想人群之中心生羡慕的应当不止是这两人。人们常说,"打江山,坐江山。"何谓"坐"?"坐"就是享用。把一个大饼送给一个饥肠辘辘的穷汉,穷汉会"享用"赐给他的美食。一个皇帝,他所"享用"的并非一个大饼,皇帝打下了"江山",他"享用"整个国家。无数美女,多少美丽与温柔,还有各种奇珍异宝,山珍海味。这样的 "享用",怎不令世人羡慕?

现时的人把权力叫做"公共权力",认为"主权在民",古代人的观念则完全不同,他们说,"普天之下,莫非王土"。芸芸众生只不过是一群驯顺的绵羊,皇帝和官吏执长鞭鞭笞天下,他们是牧羊人。一切权力归于统Zhi者,是统治者的私有物。正是这种权力私有的特性,导致了无休止的争夺。象是一个金苹果,被众人抢来抢去。"高才捷足"者从血泊中抢到它,然后"坐天下",享用整个国家。

西方资本主义也有争夺,他们争夺的是金钱,物欲横流,我们称之为"拜金主义"。

中国的传统文化与西方文化有很大的不同,中国人更看重权力。有了权力就有了一切,我将其称为"拜权主义"。

人们常说,饮食男女,人之大欲也。人之欲望,难道仅仅只有食欲和性欲?**时期,我感受到人世间还有一种欲望,超越食欲和性欲。那样的饥渴,那样的迫不及待,那样的不顾一切,那样的不知羞耻,那样的不择手段,那样的心毒手狠,心心所念,只是为了权力,这就是"权欲"。人世间居然会有这种东西,如此强烈,令我惊奇,

古代权力私有的特性,更兼中国传统文化中的"拜权主义",两者叠加,在中国历史舞台上,演出了一幕又一幕血腥的连续剧。

还有一种原因导致"权大欺主",有人将其称为"权力结构的不稳定性"。

《左传》云"故王臣公,公臣大夫,大夫臣士,士臣皂,皂臣舆,舆臣隶,隶臣僚,僚臣仆,仆臣台。"

这句话,清晰地勾勒出封建社会的基本结构。其主要特征是"一级压一级",形成一种压力—稳定结构。整个系统的稳定,取决于压力的梯度,越往上去,压力越大,权越重。根据韩非子的学说,处于这种压力结构最上端的君王,必须具有一种强大的"势"(以势压人),君王一旦失去其"势",整个压力系统就会崩溃。一般开国的君王,熟谙权术,具有铁腕,拥有某种强"势",下面的人摄于其"势"而不敢有非分之想。这种铁腕和强"势",在其后人那里却难以为继,甚至出现像晋惠王这样昏聩的白痴,或像溥仪这样幼年登基的小皇帝,强"势"荡然无存,于是出现"强枝弱干 ","权大欺主","取而代之"。

"权大欺主"是封建社会始终没有解开的一道难题。

第九定律,皮毛定律

"皮之不存,毛将焉附"。这句话,写的是中国知识分子千年之病,千年之痛。

自从秦始皇统一中国之后,中国的知识分子就变成了"毛"。

"毛"是个什麽东西,有一股腥膻之味。堂堂乎文人雅士,怎麽会是"毛"?

秦之前,文人们曾经有过一段美好时光。他们负笈而行,周游列国,天马行空,十分浪漫。那时的人,他们"笈"中装着的那份精彩只属于他们自己,独一无二。他们背负着它,走遍世界。他们是要用自己的思想去说服全世界。他们的思想像凌空而过的天马,高远而神奇。诸子百家,(三?)'教九流,每一流派都是一股清泉,喷涌而出。清泉汇集之处,是大海,激荡澎湃。

秦以后的文人,他们的"笈"中只有先人的经书和教义,他们整曰诵咏的是别人思想的片断。文人们没有了思想,失去了自我,甘洌的清泉完全干涸了。天马没有了,只剩下一些依附於皮上的随风抖动的"毛"。

文革时期,我的一个朋友告诉我,他正在思索和撰写一篇真正具有"独立见解",与别人观点完全不同的大块头文章。我问他,"林*彪说,我们这麽大的国家,需要有一个统一的思想。这是什麽意思?这是说,所有人的思想,都要统一,最后只能有一个思想,就是毛泽东思想。你现在不讲统一,反倒要独立,你是活得不耐烦了?如果说你写文章是要阐释某人的思想,那叫什麽‘独立见解'?"朋友甚感迷惑,终于没有写完他的"大块头"文章。

秦始皇时代,确实有过一些活的不耐烦的文人,他们执着於"自成一家",不肯统一,后来都被秦始皇送到"坑"里去了。自那以后,文人们都学了乖,知道"坑"的厉害,自觉地维护"统一",不再闹独立性了。

林彪的话,含有某种哲理。我们这麽大的国家,如果人人都固执己见,都要按自己的想法去做,百人百性,众说纷纭,岂不是乱了套?千人敲锣,一锤定音。没有这一锤定音,千面锣只会敲出杂沓之音。

我以为秦始皇统一中国,他所作的最重要的一件事,就是统一了中国人的思想。不过,这件事的难度相当大。"车同轨,书同文,"做起来并不难。而要把这些十分固执的文人的思想统一起来,不是秦始皇的雄才大略,也难奏其效。

但秦始皇的做法过于血腥,后人诟病甚多,称其为"霸道"。到隋唐时代,使用的方法就先进得多,不再用"霸道"而改用"王道"。如果说秦始皇采用的是"大棒"政策,唐代以后则更多采用"胡萝卜"政策。应用科举的方式,使那些出身于豪门或是寒门的士子们都有了进身之阶。顾炎武说,"八股之害,甚於焚书。"说的就是这种"胡萝卜"政策的有效性和先进性。

无论"大棒"还是"胡萝卜",都只是外因。使知识分子变为"毛"的还有其内因。

有人说知识分子是社会的良心。我以为这种说法并不准确,至少在我们中国不可以这样说。

如果要用社会的良心去定义知识分子,中国文人的大多数都会被排除在外。

许多人不喜欢"文人"这个词,甚至以为他是一个贬义词。把"文人"的"文"去掉,他和普通的人就没有甚麽大区别。一样的有七情六欲,一样的要食人间烟火。治国者为他摆下了盛宴,有"颜如玉"、"黄金屋"、"千盅粟",他们怎可拒绝?自然就会有"学成文武艺,货与帝王家"的忠心。这是顺理成章的。当然,文人与普通人还是有一点区别,他们的功利心比普通人更为强烈。这些都是文人变"毛"的内因。

在"内因"与"外因"的双重作用下,中国的知识分子都变成了"毛"。这种变化缘於一种不可抗的力,所以成为一种规律。这也是中国知识分子的宿命,千年不改,万人一律,没有哪个可以逃脱。

举国一致,只有一个思想,欧洲人没有做到,我们中国人做到了,这是很值得骄傲的。但世界上的事物都有其两面性,有利必有弊,对于我们的成绩也须一分为二。知识分子都变成了"毛",依附於"皮"之上,当然很好。只是要从这些失去思想的"毛"中产生出像洛德、卢梭这样的思想家以及像牛顿、爱因斯坦这样的科学家,决无可能。晚清以后的落后与挨打,似乎也就成了一种历史的必然。

 第十定律,枪杆子里面出政权定律 (不须说)

Aug 7, 2007

大人的友誼 新朋友學


這是個最好的時代,也是最壞的時代。
當世界是平的,人與人之間的關係或許在實體世界中疏遠了,
卻又可以在虛擬世界中拉近。
我們對友誼,需要有新的想像、新的方法。
什麼是友誼,「職場友誼」對個人、對企業有何影響?
這些不是老生常談,而是歷久彌新的重要課題。
在不安定、缺乏信任的時代,
我們更需要來重新定義友誼,找回快樂。

 

大人的友誼 新朋友學
96.8.7 【馬岳琳-郭至楨】
在職場上,工作上,你需要四種朋友:推手型、啦啦隊型、開拓者型、最後就是導航者型。這四種朋友不僅可以在順境時幫助你,更可以因為很了解你,在逆境的時候扶持你,順利時提醒你。另外,就是千萬不要忌妒、不要拉幫結派、不要說閒話、不要背叛!...

文/楊艾俐(更多詳細內容,請看本期《天下》雜誌)

《天下》雜誌封面(照片/天下雜誌提供)

○○三年的一個夜晚,星星佈滿天空,基隆海洋大學教授李彌和一位小學同學,在一個公園裡深談徹夜,第二天他換了自己手機號碼、電子信箱、家裡電話,辭去海洋大學教職,離開基隆。

曾經代表新黨參加兩次立委選舉,都以些微票差落選,離開基隆也等於離開了他的選民,「但是我和同學講了一晚上,」現任開南大學教授的李彌說,「他只有聽,很少講,末了,我做了那個決定。」

* * * * *

十年前七月上旬的一個夜晚,台積電董事長張忠謀回到家中,一如往常,吃完飯後,打了幾個電話給部屬,思緒依然紛亂,情感與理智拔河。他拿起電話,打給一位在美國的友人。這位掌控千億資金,從不失控的企業人,再也忍不住說,「I feel hurt.」

因為那天下午兩點鐘,當時已卸任的台積電總經理布魯克到張忠謀辦公室,布魯克此來,證實了傳聞已久的流言──他即將投效聯電。

曾經是三十年舊識,二十年朋友,曾經是悉心提拔的部屬,一夕之間兩人轉為最大勁敵。張忠謀百感交集,很難釋懷,他知道打給這位朋友,不會洩密,不會因而看輕他。

人生中不可或缺的朋友

朋友重要,似乎是一個老掉牙的問題。美國《時代雜誌》去年在一期「追求快樂」的文章中說,金錢很重要,但不是絕對重要。據調查,一年收入在四萬五千美元的家庭生活無虞,就已能達到快樂條件(沒錢不會快樂,貧賤夫妻百事哀)。能夠帶來快樂的是朋友、家人、信仰,以及一顆感恩的心。

在現代,交朋友看似容易,在雅虎、Skype、MySpace裡,兩分鐘就可找到兩百個朋友。研討會、宴會、雞尾酒會人來人往,酒酣耳熱,就可稱兄道弟。

但是友誼品質有多高?你在人生荊棘中,有多少人可以分擔你的挫折、徬徨、焦慮?

因此,探討友誼的書和研究愈來愈多。去年,暢銷書作者湯姆.雷思(Tom Rath)出版《Vital Friends : The People You Can`t Afford to Live Without》(《人生一定要有的八個朋友》),一出版,就列居美國《紐約時報》暢銷書。

 

書中提到人生中,一定要有八種朋友的類型:一.推手(Builder),二.支柱(Champion),三.同好(Collaborator),四.伙伴(Companion),五.中介(Connector),六.開心果(Energizer),七.開路者(Mind Opener),八.導師(Navigator)。

大人的友誼

作家余秋雨曾寫道:「常聽人說,人世間最純淨的友情只存在於孩童時代。這是一句極其悲涼的話,居然有那麼多人贊成,人生之孤獨與艱難,可想而知,」余秋雨也不贊同,因為他認為,孩童時代的友誼多半只是愉快的嬉戲,友情真正能產生意義是在成年之後,也因此,友誼在獲得意義之後,才會達到最佳的狀態。

日本暢銷書作家河合隼雄也寫下《大人的友誼》,第一章就取名,「渴望友情」。

在結尾時,現在身纏病榻的他深深體會,「不體驗友情,或想過友情這東西,人生旅程就有如到歐洲,只買紀念品,在名勝前照張像,走馬看花,可惜極了。」

台灣近年來,社會關係疏離,交朋友、維繫朋友都困難。在全球化社會裡,人才到處流動,台灣有近一百五十萬人在中國大陸工作,加上家人大約五百萬左右,朋友相隔兩地,久了感情也會變淡。

「Email、Skype、MSN再發達,也無法彌補距離造成的分割,」一位文化人說。

近年來,政客挑弄族群,社會焦慮不安,朋友又常藍綠對立而反目。一位美國回來的企業界人士,一下飛機興沖沖打電話給從小一起長大的表妹(也是好朋友),講了幾句話後,提到時局,她表妹就說,「你是深藍的,我們沒有什麼好講的。」兩人就掛斷電話,從此沒有再見面。

朋友重要,但此次接受《天下雜誌》訪問的人,大部份對「朋友」定義最難下。什麼是朋友?要交情多深才能算朋友?同業、同事、甚至上司是不是朋友?

我們需要不同層次的朋友

歸納書本,研究和訪問,現代社會,人際關係複雜,社會驚濤駭浪,變動不安。要存活職場,要廣拓人脈,需要有不同層次的朋友。

 

 

前體育委員會副主委陳雨鑫覺得有三種朋友最重要。一.職場朋友:幫助你的事業。二.道場朋友:幫助你的人生。三.醫生朋友:提醒你活出健康(根據美國一項研究,倘若你擁有飲食健康的好朋友,你擁有同樣飲食習慣的機率是一般人的五倍)。

更多人認為一定要交到三師:律師、醫師、會計師,才算完整的人生,有任何問題,就可以隨時詢答。

但是在湯姆.雷思《人生一定要有的八個朋友》中,認為「朋友一詞已成為太過廣泛的通稱」,每個人應該想自己有沒有Vital Friends(不可或缺的朋友),這種朋友是:一.明顯改善生活的人;二.在你的工作上或私生活中不可缺少的。「Vital Friends是生命必要元素,」湯姆.雷思說。

政大心理系系主任陳皎眉也同樣認為,朋友、家人,是個人社會支持度的重要網路,自殺、憂鬱症的人往往由於缺乏社會支持,而至每況愈下,別人對他沒有期待,久了,他對自己的生命也沒有期待。

逆境見真情

很多人生經驗豐富,或心理學家卻把朋友定義得狹窄得多,尤其必須「逆境見真情」。

台大心理系教授林以正說,朋友在逆境能安慰、傾聽。就像個安全氣囊,讓我們喘息、恢復、統整,重新出發。他更提供一個述說的空間,讓你有機會對自己的生命做一個有意義的重構。

台灣面臨多重挑戰,工作隨時可能不見,商場虧損時時、家人病危、過世,甚至交情甚篤的朋友也會背叛。「經濟不好時,人與人的傾軋、競爭特別尖銳,」精研人際關係的台大心理系教授黃光國說。

《基督教論壇報》前社長林意玲,十八年來,將《基督教論壇報》帶上專業經營,不但財務自主,而且累積三億元的資產,正積極往日報進軍,希望能建立媒體純淨風氣,卻與董事會齟齬,使得林意玲必須在五月退休,轉做顧問

「就像你把十八年青春獻給一個人,結果,很shock的結束,怎麼可能不難過?」

林意玲雖然語帶堅強,但少不了感傷。

心理學家歸納,人遇到危機(如親人死亡、生病、失業),通常都會經過三個階段,先是否認,然後是憤怒,最終自怨自艾,「這時候你需要一個人,聽你講,帶你走出來,」林意玲說。

 

在她消沉時,是朋友幫她度過難關。尤其是她的基督徒同業,和她一起禱告,治療她的傷痛。「有次,我在嘉義演講完,一個人旅館,不想接手機,但有個朋友十分鐘就傳一則簡訊給我,他們怕我想不開,直到十一點,我傳一則簡訊說我要睡覺了,他們才停,」林意玲還記得那個微寒的春天夜晚。

常常在挫折中,最容易發現誰是真朋友。軟體公司總經理楊雨亭,在做資訊策進會組長時,因為掌握很多軟體公司計劃,因此每天朋友圍繞不斷。

一旦他轉到民營企業,很多圍在身邊的人都不見了,必須獨力奮鬥。當他所經營的企業出現財務危機,當年所謂的朋友卻一個都不見了。

留在他身邊、給他援手的,只有幾位在眷村從小長大的鄰居。「不到六個人,」他用指頭用力地數。

也許是因為他自己身遭危機時受到冷落,所以對朋友遭難,特別願意雪中送炭。當他的好友──前台灣彩券公司總經理張汝恬,因為彩券運作不順利,在財政部壓力下辭職。楊雨亭立即打了三個電話,把張汝恬找出來,一再安慰她不要氣餒。「這是我們的默契,比同行和同事更親,」張汝恬說。

現仍兼任中信金控資深副總的張汝恬坦然說,企業裡主管各有壓力,自身難保,遇到挫折,伸出援手只能到某種程度,必須有圈外朋友,可以商量。

感情用「搏」的就不真實

根據採訪,政治和商界真真假假,最難交到真心朋友。心理學家黃光國說,尤其中國人人際關係複雜,對不同人,在不同場合,臉變來變去,玩到極致,自己都迷失,難尋自己真面目,何況要對別人真誠。「政治人物動輒要搏感情,要用搏的就不真實,很廉價,」他說。

一位企業界人士表示,國民黨當政時,他與一位行政首長交情甚篤,常做他和企業間的溝通橋樑,政黨輪替後,馬上感受到「門前車馬稀」。最近這位首長再起,來找他的所謂「朋友」又一下多了。

縱使政商界一起打高爾夫球,綠草如茵、藍天白雲,表面看一派和樂,但私底下,一位企業人士說,也各有所圖:是否有生意機會?這個人有什麼「潛力」可以供自己開發(或利用)?甚至還觀察對方舉止、修養,是否值得做伙伴?他搖搖頭笑著說。

 

 

政商界人士往往很珍惜從小一起長大的同學、鄰居。國內外友人不絕的立委李紀珠,放假時卻最常和幾個宜蘭蘭陽女中的同學在一起混,「她們可以直接闖到我家,和我媽媽聊天。」

台灣亞洲基金會執行長林添貴,從小學讀西門國小,中學建國中學,累積的幾位朋友,最真實。「不管天涯海角,有事打一通電話就舒服很多,」亞洲基金會常需要募款,這些朋友替他推薦自己的老闆,贊助一些,捐款人往往很放心。

夫妻也可成為最好的朋友,前體育委員會副主委陳雨鑫,在這波內閣改組中,出乎意料被換下。一路在企業及政壇,平步青雲,遭遇到此生最大打擊,太太變成了他的最佳傾訴人。「她引用佛家講法,得之我幸,不得我命,放下而不是放空,」他說。

歸納起來,人必須有幾個生死之交,他不可能事事順你意,但會無條件包容你。國際心理學家阿道夫.古根包爾(Adolf Guggenbuhl-Craig),有次在「友情」課上對學生說,小時候他問祖父,什麼是「友情」,他祖父回答,所謂朋友,就是「半夜十二點開車子來,行李箱裡裝著屍體,問你該怎麼辦,會二話不說地幫忙想辦法的人。」

《大人的友誼》作者河合隼雄進一步解釋,這種友誼,就是「不管任何時候,發生任何事情,你做了多惡劣的事,你還是我的朋友,而且是『二話不說』地幫忙,」「但是他只是幫忙想辦法,而不是包庇你,單讓人感受到這種態度,就是件很美好的事。」

職場友誼──生存要素

人生中職場生涯起碼佔三分之二,職場朋友就更為重要。文化大學國際企管研究所博士生梁進龍的論文研究指出,同事間的友誼有助於自我效能(自主管理)的提升,又因為友誼建立同事間互信基礎,更使公司創新能力增強。

朋友可以一起打拚做夥,成就一番大事業,在電子業尤其多。如華碩就是由現任董事長施崇棠和副董事長童子賢,帶著在宏碁的部屬成立,縱使現在如集團裡負責研發的鄭定群,或負責運籌管理的姚德慈也都是從宏碁投奔而來。因為有默契、有信任,才能成就今天華碩電腦數一數二的盟主地位。

 

奧美廣告副董事長葉明桂更認為,同事間的友誼是一種「副關係」。有別於純同事的「正關係」,多了一層「副關係」,同事溝通直接,信任度增強。尤其廣告業,靠創意、看不見的磁場,氣氛、心情很重要,朋友都可加強這幾方面的正向發展。

廣告圈內人都知道,奧美兩大創辦人宋秩銘和莊淑芬曾為情侶。很多人關心公司情侶有助公司發展,或有損公司紀律。

留著點點鬍髭的葉明桂說,和朋友一樣,情侶也要先把本分事做好,才能講別的。宋秩銘和莊淑芬在當情侶時,謹守此分寸。分手後,沒有反目成仇,反而一致為公司打拚,兩人都很有紀律。「不管你是不是朋友,基本面一定有,就是不能成為別人的拖油瓶,」他說。

和宋秩銘情同師徒,和莊淑芬形同姊弟,葉明桂跟著兩人做事二十八年,認為跟上司做朋友是他廣告生涯中最大的滿足。「宋秩銘教了我很多,開了我的眼界,莊淑芬和我有如伙伴。」

有了他在台灣看家,莊淑芬和宋秩銘在大陸發展無後顧之憂(因為兩人在台灣奧美還有相當股份),而葉明桂也能夠獨當一面,負責台灣奧美廣告多年。

多年來帶過無數部屬的葉明桂觀察,人的工作表現有高有低,同事低潮時,有辦公室好朋友分攤工作,慰籍支持,低潮就很容易度過,兩三個月後,他們又會活力無窮,創意源源。

「股東要求沒有彈性,客戶要求更不能打折,」葉明桂說,「同事間就可以寬容點。」

現代人際關係複雜,到底友誼是純友誼,還是很功利,令人迷惑。心理學家黃光國說,人際關係總含有工具性和情感性,完全純感情,世間難尋,完全純工具,別人不可能如此被你利用,總是混合。

只是工具和情感各有行為規範,否則關係就不容易持久。例如「情感性」就是對對方忠實,不能背叛,更不能背後戳一刀。「工具性」則要求人必須守承諾,重義氣。例如一起做生意,該得該付都得明算帳,否則關係很容易變質,最終拆夥,分道揚鑣。「關係是動態的,明天的關係就和今天的不一樣,」黃光國說。

 

 

友誼學的七大學分

好友難尋,維繫友情更難,綜合採訪者的建議,拓展友誼、維繫友誼有原則可尋:

一、好友不在多,品質才是關鍵。《人生一定要有的八個朋友》一書指出,杜克大學醫學中心研究人員發現,朋友少於四人的心臟病患者,存活率較低,這份研究也顯示,有五、六、七、八位朋友的人,與擁有四位好朋友的人,能夠延長生命的比率相同。

最適好友規模為四位到八位,多了不容易維持。友誼品質才是關鍵。開南大學教授李彌也認為朋友太多,很累。每兩個星期打一個電話給好朋友,也要幾個月才打完。

二、正面思考,吸引朋友。奧美副董事長葉明桂說,以前有挫折,似乎只要個人吐苦水,發牢騷就可以。現在競爭日烈,責任日重,有了難題自己必須去解決。「去發洩,不如找忠告,」他斬釘截鐵,「負面朋友拖下你,一起沉淪。」

三、擴大交友視野,沒有足夠朋友的人,先找周遭志同道合的人。雖然藍綠對立,削減了很多人的友誼,但是民主行動聯盟主要組成人黃光國卻認為,在這種時候,也能結合很多志同道合的人。

例如民盟三年前十幾個人決定出來選舉任務型國代,因為要繳選舉保證金,大家一起到中央信託局互相擔保借款。

幾位女教授連先生都沒有告訴,自己在外面借款,「可以一起實現理想的就是朋友,」黃光國說。

四、開放自己。社會歷練愈久,受過創傷,受過挫折,愈不願對人真心以待。但是台大心理系教授林以正說,朋友建基在信任,信任基礎就是在「自我表露」,也就是分享內在感受和秘密

「如果一個人跟你談一小時,你們只能談天氣,聊王建民這種不關己的事,你們就不可能變成朋友。」

台灣亞洲基金會執行長林添貴說,高位者難交到真心朋友,高處不勝寒的主因就是他們不願開放,「自我防衛已經成了他們的skin。」

五、傾聽+同理心。大部份人在傾訴自己的問題時,需要的只是對方的耐心傾聽,不必急著給意見,當事人最後會做個自我判斷。

 

 

但是傾聽並不容易,它必須以「同理心」為基礎,表達對朋友的關切,對他遭遇的理解,更要肯定他訴說的價值,肯定他感受的合理性。

六、不要求「完美」的友誼。美國一項研究指出,八三%受訪者都認為,自己為友誼付出,比好朋友更多。如果你只在意對方沒有做到的部份,友誼不容易長存。多看朋友的付出,不要求朋友周全圓滿,因為自己都缺點連連。

七、有些千秋不變的做人原則,同樣也適用在友誼。例如不能欺騙、竊盜、背叛、不損害人家權益。剛從體委會副主委卸職的陳雨鑫說,被人在後面捅一刀的感覺很不好受,但是對圈內人殘酷肅殺,「我知道,我看到,我也會玩,但是我不一定要玩,」陳雨鑫說。

友誼與我們的快樂、健康工作、前途息息相關,湯姆.雷思卻觀察,從小學大學,沒有「友誼」這門課。學者也很少人研究友誼,心理學家研究個人喜怒哀樂,管理學者著重個人潛能開發,社會學者又注重團體研究。

「把重點放在個人太狹隘,放在團體又太廣泛,真正能量是潛藏在兩個人的關係,這種能量可以創造歷史、改變世界,」湯姆.雷思說。

近代漢語斷詞手冊

 

前言

體裁問題(文言、詩詞歌賦)

如果某些動詞的使成用法在現代漢語中不再具有創生力時,即視為及物動詞,不再視為兼具及物與不及物用法的「作格動詞」(ergative verb)。只是這些特殊用法必須視為文言的遺留,和現代漢語中保有創生力的作格動詞不同。

有些副詞是文言的遺留,其搭配的動詞或副詞很有限制,因此會使人覺得應該和其他語素被合為一詞,不過

體裁問題(其他:成語諺語)

壹、一般分詞原則

1.單字詞自為一個分詞單位。

2.多字而為單語素的自為一個分詞單位,因此連綿詞、音譯詞自為一個分詞單位。

3.疊字詞若非可由構詞律產生者,則自為一個分詞單位。但AABB式若由AB式產生者,仍標為一個分詞單位。

4.無論何種複合結構,若是超過四個音節的,只要能再切分,原則上給與切分。也就是一個字組如果在意義上雖為一體而還不是不可分的整體,如果音節過長,還是儘可能拆分。但成語諺語不受此原則限制。

5.一個字組若是由構詞律組合者切分之。

5.專名原則上自為一個分詞單位。

6.語素(字)的組合產生的意義不只是字義單純累加的(意即意義經過轉化或重構的)合併選為一個分詞單位(以下就以「轉義」來簡稱意義的轉化或重構)。

?7.離心結構合併為一詞。

8.附著語素依以下標準來決定是否獨立為詞:

(1).虛字為附著語素,依所附著的成分來決定是否獨立為詞。傳統上列為虛詞的副詞(這裏的副詞並不包括名詞、動詞作狀語的)、介詞、連詞、助詞等儘管為附著語素,但都依附於詞組上,故原則上獨立為詞。指代詞介於虛實之間,但通常獨自分為一詞(參第8條)。

(2).其他的虛字依其附著情況又大可分為兩類,是否獨立為詞也依此分類而定。附著語素如果只附著於別的詞,不依附於詞組上,則和其他的詞合併為一個分詞單位(如「刀子」「忽然」)。如果附著語素雖然常附著於詞,但也可以附著於詞組,則該語素獨自視為一個詞(如「兄弟們」的「們」)。所以如果某語素同時也可以附著於詞組上,該語素就當作一個詞看。但當這個附著語素只和一個封閉類的詞相結合時,則合併為一個分詞單位(如代詞是個封閉類,因此「他們」視為一詞)。如果附著語素可以附著於詞和詞組,但能和該語素結合的詞已限定為少數幾個(也就是差不多失去衍生力了),則該語素和相結合的詞合併為一個分詞單位(例如「者」為一個詞,但「賢者」還是合併為一個分詞單位),和詞組結合的則該語素和詞組各自分為一個分詞單位。

(3).附著語素如果固定和某個無窮類的詞相結合而且負擔意義恒為不變的話,一律獨自視為一個分詞單位。例如:「第一」的「第」總是搭配數字,數字是無窮類,因此「第」獨自分為一個詞。但如「第一義」之類有佛學意義,則合併為一個分詞單位。

(4).近代漢語實字是否為自由語素並不易判斷。目前暫時把不能作名語的名詞和不作述語的動詞視為附著語素。近代漢語實字如為附著語素,通常只依附於其他語素(包括自由語素和附著語素),這個實字和其他語素合併為一個分詞單位。

9.因為近代漢語實字是否為自由語素並不易判斷,我們也從其結合面的廣狹來幫忙決定是否算是個分詞單位(也就是視常用性或所搭配的語素多寡而定)。

結合面廣泛的語素除非在結合其他語素後造成轉義或者十分常用,否則原則上獨自視為一個分詞單位,虛詞可不用說,其他如指代詞、數詞原則上獨自視為一個分詞單位。其中數詞即使是幾個數字共同組成一個數目,其中每個數字都各自分成一個分詞單位。但指代詞、數詞也有和其他詞合併為一個分詞單位的,特別是在偏正結構中。方位詞的結合面也廣,但在偏正結構中,方位詞與他詞的結合的緊密度,似乎依其地位而有所差別,所以是否獨立分詞,難以一概言之。

指代詞、數詞、方位詞在偏正結構中分詞與否的條件比較複雜,其施行細則見下文的貳之七。

其他實字也有結合面廣的,則以結合後有轉義的或語素搭配固定的為詞,否則各成分分別為詞。

10.實字搭配後為高頻率及共現率高的儘可能的合併為一個分詞單位。

11.離合詞或不連續的詞語原則上分詞,但可加上語法特徵來加以連繫。

12.根據以上標準而分合還猶豫難決的,暫時仍合標為一個分詞單位。

13.成語、諺語原則上合為一個分詞單位,但標上獨有的類別,以示非一般的詞。如果中間有標點符號隔開,可用語法特徵來連繫。

14.為了比較之便,原則上,除了本手冊已有規則要分詞之外,現代漢語的詞我們也合併為一個分詞單位(衡量現代漢語是否為詞的標準大體依據中研院詞庫小組的電子詞典,但其中也有相異之處,主要的異同可參考第參節)。

貳、各結構類的選詞標準

因無現成的近代漢語詞庫,所以我們要利用在文檔上斷詞和加詞類標記的時候,來建立這樣的一個詞庫。但要建立近代漢語的詞庫,就得避免把不該列在詞典中的詞語列進我們的詞庫中,在進行分詞時就不得不放棄用現代漢語組的構詞律來合詞,因此有些在現代漢語組該合併的詞語在近代漢語組就不得不分(參第參節)。

一個漢字若正好是一個詞,自不用說應為一個分詞單位。兩個字以上的組合則有可能是詞或詞組,以下的選詞標準主要是針對兩個字以上的詞或詞組。

語素合併選為一個分詞單位的理由不外乎語素不獨自作述語或名語、語素合併後意義有所轉化、語素搭配固定、使用頻率高、音節不太多等等。

我們對近代漢語詞的分合可以按以下幾類來加以說明:

1.專名、2.連綿詞、3.音譯詞、4.重疊詞、5.派生詞與附屬詞、6.並列結構、7.偏正結構、8.述補結構、9.述賓結構、10.介賓結構、11.主謂結構、12.縮寫或節略、13.成語諺語、14.其他。

一、專名

1.專名不論語素多寡,一律不作切分,獨自作為一個分詞單位。

2.各書篇卷開頭的標題、作者不作標選。

3.專名與通名連用而又同位時(「專名+通名」,其中專名為人名、地名),合併為一個分詞單位。如。.

4.因為本標準把連用的專名與通名合併為一個分詞單位,因此造成專名與偏正結構區辨上的問題。

當專名又以通名為其中心語時(其實只限於同位的情況),有兩種可能的選詞法。其一為選專名,其一為選偏正結構。

二、連綿詞

連綿詞包括雙聲疊韻詞與非雙聲疊韻詞(這些詞大體來自上古,因此是否雙聲或疊韻本應以上古漢語音系為準,而不能依賴近代漢語語音),是不能分解的單純詞(如「恍惚」「珊瑚」),所含各字皆非語素,也就是說每個字分開後獨自沒有意義。就不能分解這一點言,連綿詞性質類似下述的音譯詞。只是連綿詞限於二字,而且大體是上古漢語本有的詞或早期的外來詞;而音譯詞不限字數。

在斷詞時,連綿詞不切分,獨自作為一個分詞單位。

三、音譯詞

指外來語直接音譯為漢字而又非專名的。

音譯詞不切分,獨自作為一個分詞單位。如「菩薩」「菩提」等。

四、重疊詞

(一)分合原則:

1.不是由重疊律產生的重疊形式列為一個分詞單位。

2.描繪情狀的AA式重疊形式不易判定是否由重疊律產生,其中有些可能不用或不常用不重疊的形式了,因此我們把這樣的重疊形式列為一個分詞單位。表示程度加強的AA式事實上和描繪情狀的連綿詞性質相類,語法表現也相類。由AB產生的AABB基本上也是描繪情狀的,雖然其中的AB仍為常用的詞,由於不能直接切分,為了斷詞切分的方便,仍列為一個分詞單位。另外能夠重疊為AABB的ab也有限制,似乎和詞彙不無關係,因為語義相當的並不一定有平行的重疊形式。比較「漂漂亮亮」和「?美美麗麗」。

3.由重疊律產生的重疊形式若只是傳達特定的語法意義,不列為一個分詞單位。如表示嘗試或暫時貌、逐指等。

4.不能直接切分的重疊形式列為一個分詞單位(如「明明白白」);不連續的重疊分詞(如「試一試」)。

(二)分合實例:

以下按疊字的形式來說明分詞的處理情形:

1.疊字詞最多的是AA式,也就兩個相同的字的重疊。AA式有三種:

(1).AA或是不能拆的疊音詞,或是重疊表示程度上的加強。如「青青」「了了」「輕輕」「奶奶」。合為一個分詞單位。

(2).AA是A的重疊,表示逐指:這一類的重疊,有普通名詞或量詞的重疊(如「人人」「色色」「一片片」)、時間詞的重疊(如「世世」)、副詞的重疊(如「各各」)等。其中只有副詞的重疊合為一個分詞單位,因為副詞可以重疊的很有限。

(3) AA是動詞的重疊,表示嘗試或暫時貌。如「試試」。分為不同的詞。

這三類AA式性質是很不相同的。第一種疊音詞事實上和連綿詞性質相類,只不過AA式是否全部都不是A的重疊,尚無定論。

2.AAB:主要為動詞的重疊。如「見見面」。如果其中的AB為動賓複合詞的時候,在分詞上比較不好處理。如「見見面」的「見面」仍分標為二詞,再加上指示其為複合詞的語法特徵,第一個「見」或許可比照第二個「見」的標示法。

3.ABB:「赤條條」視如描繪情狀的AA式,合為一個分詞單位;「一次次」比照量詞的重疊,拆開來;「唱看看」的「看看」為嘗試貌的詞,獨自立為一詞。

4.AABB:AABB 如果不是AA和BB的單純並列,而是AB的重疊時,就合選為一個分詞單位。有時AABB不像是AB的重疊,也不像AA和BB的相加,也合選為為一個分詞單位。如「戰戰競競」。

當AABB是AB的重疊的時候,通常是表示情狀,都合選為為一個分詞單位。如「歡歡喜喜」「打打殺殺」。

5.ABAB:主要是AB式動詞的重疊,表示嘗試或暫時貌。可以用構詞律產生,因此分為不同的詞。如「走動走動」分為「走動 走動」。

6.A裏AB:「糊裏糊塗」。雖主要由AB式狀態動詞衍生,但只限於少數動詞,因此合選為為一個分詞單位。

7.「AXA」式:因為重疊的語素是不連續的,所以分為不同的詞。如「試一試」「試他一試」「試一試這個」「數了一數」。

五、派生詞與附屬詞

我們這裏討論的詞頭、詞尾只包括具有衍生性的虛語素。

有時實語素搭配的是詞綴或是附屬詞並不易斷定。

(一)詞頭與前加附屬詞

詞頭如「阿母」的「阿」、「兀那」的「兀」和其所附著的語素合選為一個分詞單位。

「阿」「老」有接在姓名前的,如「阿嬌」「老王」。也是和其所附著的語素合選為一個分詞單位,列入專名中,但需加上構詞成分的語法特徵。

「自」「相」「可」雖然負擔的語法意義固定,但一般直接在單音節的動詞前,且所搭配的動詞趨於固定,因此原則上與單音節動詞合詞。至於在雙音節動詞前的「自」「相」「可」就獨立為一詞,歸類為副詞,列入偏正結構中處理。「自」「相」「可」與單音節動詞搭配的也有不合詞的。一般原則是:「自」有反身作用的合詞;表示自主的如果跟的是及物動詞,則視此及物動詞後頭可否加賓語而定,可加賓語的不合詞,如「自 主 之」的「自」獨自為詞(但如「自主」的「自」是兼表示反身的仍合詞);「自」搭配不及物動詞的皆合詞,如「自然」。「可」加動詞後如果還跟了賓語的一般要分詞,否則合詞。如「可愛」「可 殺 之」。「相」與單音節動詞的搭配一律合詞。如「相打」「相罵」「相信」。

「第」雖然只搭配數詞,但數詞是無限的,且「第」在組合上永遠負擔固定的意義,我們可以視為附屬詞,把它獨立分為一詞。只有在某些意義特定的固定組合上合詞,如佛學語彙「第一義」。

(二)詞尾與後綴附屬詞

詞尾通常和其所附著的語素合選為一個分詞單位。如「子」「兒」在近代漢語可以確定為詞尾,因此「子」「兒」和其所附著的語素合選為一個分詞單位。

「王氏」「王某」的「氏」「某」和其所附著的語素合選為一個分詞單位,列入專名中,但需加上構詞成分的語法特徵。

動詞詞尾是一般所謂的構詞詞綴,表達特定的語法功能,且可搭配的詞多,因此就獨立分為一詞。如「了」「著」「過」「看」「看看」「將」。其中「將」一般放在移動動詞後趨向動詞前。

除了傳統所謂的語氣助詞以外,有些語素可附於詞和詞組之後,我們原則上都歸之附屬詞(語氣助詞也算是附屬詞,只是附著於句子。另外方位詞也算是後接的附屬詞,而副詞、介詞、連詞也可算是前接的附屬詞,但因都已歸於傳統的詞類,可以不論)。除了在某些條件下我們把它和其前的語素合併為詞以外,附屬詞通常獨自分為一詞。大約可分如下幾類:

1.位在名詞或名詞組之後,表示複數的:如「們」「等」「等等」「之類」等。這一類如果位在一般名詞後就獨立為詞,在代詞後則合併為一個分詞單位(如「我們」「我等」)。

2.位在數詞之後的:如表約數或餘數的「來」「餘」「多」。我們把數字的組合也當作詞組,因此這幾個語素也視為附屬詞,獨立為詞。如「五百來個」。

3.附綴於狀詞或有狀詞性質的詞組後: 如「地(的)」「裏」「價」「也似」「似的」「一樣」「一般」等。這一類原則上獨為一詞,在某些條件下把它和其前的語素合併為詞。另外,「然」在功能和歷史演變上和這些詞有關,但因為是由文言傳承而來,且搭配的語素趨於固化,因此視為詞尾,和其前的語素合併為詞。

4.可附在從句或狀語後,表示條件、時間、原因等的:「時」「(的)時節」「的時候兒」「的話」「上」「起見」「來」「以來」。原則上都獨立為詞。如「若是死時,與你們同死」「他去腰裏摸時,搭膊和書都不見了」「為此上」「九歲上」「十年來」。

5.「的(底)」「之」:附綴於定語後。不過「的(底)」後的中心語可以隱含,而「之」後面一定得有中心語名詞。

6.「得(的)」:表示可能性的動詞後綴,或作為引介補語的連接詞。如「曉得」(比較「曉不得」)「打得著」「娶得他起」「吃得口滑」。

7.「者」「所」:「者」「所」可分析為代詞性的附屬詞。除了部分附著在單字詞後的「者」與其所附著的詞合列為詞外,「者」原則上獨立為詞。「所」除了在表示全量的「所有」以外,都獨立為一詞。

「者」所附著的如果是單字的狀態動詞,則合併為一個分詞單位(如「仁者」「尊者」「長者」);如果是單字的動作動詞或數詞,則和所附著的分為二詞(如「施者」「受者」「二者」)。如果「者」和所附著的單字構成常用詞語,也合併為一個分詞單位(如「向者」「今者」)。「者」字如果只是助頓用的,則獨自分為一詞。

「然」「地(的)」「裏」「地裏」「價」「假」「家」「箇(個)」「生」「也似」「似的」「一樣」「一般」的分詞,我們認為需要再討論一下。這些語素,其功能大扺相類,但在分詞的處理上,似乎不必完全一致。所以有的我們列入詞尾,有的列入附屬詞。目前的處理是:詞尾都和所附著的語素合併在一起,附屬詞獨立分為一詞。以下稍作討論:

如「然」「爾」「如」等應視為詞尾,因為是由文言傳承而來且與其搭配的語素趨於固定化。例如「忽然」。

「地」通常跟在AA或ABB、AABB式的狀詞後頭,跟在單音節的詞後頭很少,另外更少見的是看來像是複合詞或詞組的(如「平白地」「不住地」「恭意加敬地」「不知不覺地」)。也有似不能分離的雙音節或三音節詞(如「猛可地」「軟郎當地」),亦為罕見。明代以後,用「的」來替代「地」逐漸常見起來。以下不特別指出時,就以「地」包括「的」。

和「地(的)」相結合的如果是單音節的語素,宜合併視為一詞。有些單音節的語素似乎不能不加「地」,或者得加「地」才能修飾更多的動詞。如「魆地」「特地」。「怎地」「恁地」和「怎」「恁」的限制有些不同,「怎」「恁」不能作述語。因此單音節的語素宜和「地」合併視為一詞。但狀聲的詞似乎應該獨自分離開來,因為可能的狀聲詞太多了(有的小說標點本還用引號把狀聲詞單獨隔起來)。如「颼(搜、醙)地」「撲(朴)地」。搭配「地」的狀聲的詞也有雙音節乃至三音節的,則當比照「地」搭配單音節狀聲詞的情形,和「地」分離開來,不合併為詞。

「地」雖然也附綴在詞組之後,但是這些詞組通常為套語,在斷詞上本可列為一個分詞單位,因此即使在這裡,「地」也可以視如詞尾一般。但就總體而言,我們還是寧可把「地」視為附屬詞,一方面是「地」可以結合的詞數目不少(但詞類比較固定,主要是狀詞和擬聲詞);另一方面是功能固定而非必用(可能和韻律有關)。

上頭說有些「地」所附綴的看來像是複合詞或詞組的結構,這種情形是較少數的。複合詞或詞組與「地」的分合原則我們且待下面AA、ABB等式與「地」的分合原則決定後再說。

那些加「地」的AA、ABB、AABB等式到底是否應和「地」合併為一個分詞單位,似乎很難一言而決。以下談一下斷為二詞和合併為一詞時可能遇到的問題。

先談分為二詞的問題。如果斷為二詞,就會面臨如下的問題:

1.「地」一旦分詞,就有要歸什麼詞類的問題。

2.詞彙中如果沒有加「地」的詞,也就不能直接比較有「地」和無「地」的詞在用法上的異同。

3.如果「地」獨立,那麼功能和「地」相當的「的」也應該標為同樣的詞類,但在詞類的自動標記時恐怕無法達到需求。

再談合併為詞的問題。如果「地」和所附綴的合為一個分詞單位,就會面臨如下的問題::

1.會導致詞典中有太多不必要的重複。如AA除了本式,還可以有加「地」「的」「裏」「價」的形式。如果某些加「地」的詞要列為一個分詞單位,那麼與此相對應而詞尾為「的」「裏」「價」也要合併為一個分詞單位。那麼這樣的合併到底要到怎樣的程度呢?是全部還是部分?更重要的是,不含附綴的形式和加「地」「的」的形式在語義和語法功能上通常是一樣的(「裏」「價」通常用於狀語,可能和較少見有關)。假如語義和語法表現差不多,何必合?

2.也可以用構詞律來預測可加「地」即可,不需要以增加詞的方式來解決。

比較上述二者,我們覺得如AA、ABB、AABB等式最好和「地」分作二詞。複合詞加「地」可比照AA式的分詞方式,詞組更不用說,也應和其後的「地」分作二詞。

「裏」的附加功能和「地」一樣,大致上和「裏」搭配的形式也可以在「地」前找到。如「白白裏」「平白裏」「猛可裏」。我們比照「地」,把「裏」獨立為詞。

「地裏」的情況有些不同,所搭配的語素似有些限制,因此暫時把它合為一詞。例如「黑地裏」「越地裏」「私地裏」。

「價」「假」「家」等應該是同一語素的變體(其中「假」「家」罕見),功能也和「地」相當,但作狀語為常,且跟在詞組後的似也比較常見。我們比照「地」,把它獨立為詞。如「格格價」「丕丕價」「大聲價」「每日價」「一陣價」「十日半月價」「送湯送水價」「甚般價」「每日家」「每日假」。

「個」可能也是「價」的變體,但通常看到的只限於「真個」,因此合併為一詞。

「生」的功能和「地」相似,只是從元明以後就比較不常用,處理辦法大致如「地」。因為代詞是有限類,所以即使是附在雙音節代詞後,也合併歸類。其他的雙音節實詞則仍然分詞。如「作摩生」「」。

「也似」「似的」「一樣」「一般」在功能上和「然」「地」等相當,且是雙音節的,更應獨立為詞。

六、並列結構

並列結構包括名詞、動詞以及虛詞的並列(如「朋友」「乏少」「了別」「悉皆」),原則上兩音節的並列結構都選為一個分詞單位(不包括專名的並列,如姓氏和地名)。

就語義言,我們選為一個分詞單位的並列結構包括同義、近義、反義等,也包括語義僅有些微關連而在語法次類範疇不相違背的(例如在能否接賓語上是一致的)。反義並列也標選,除了因為這樣可藉以觀察當時雙音節律運作的狀況,也因為有些反義並列並不能確定是否有轉義。如「大小」「多少」「反正」等。

分合原則:

1.語素結合後意義有轉化的一定選為一個分詞單位。但我們所選的並列結構包括同義、近義、反義等,也不一定要有轉義。

2.並列結構中有頓號時各自為詞,如果不含頓號,一般則合選為一個分詞單位。句號代頓號,處理辦法則如頓號。

3.三字以上的並列結構是否要合選為一個分詞單位,依以下辦法處理:

(1).三字的並列組合一般每個語素地位相等,是否合選為一個分詞單位,原則上以是否成組或成套(自成一個封閉自足的集合)為準。如「去來今」「枝葉果」。為了比較的方便,有時即使未完全成組或成套,也合選為一個分詞單位。如「地水火」。

(2).四字以上的組合如果其直接成分可以再往下切分(通常字數為偶數),原則上這個組合不選為一個分詞單位。如「我人 壽命」。如果四字以上組合每個語素地位相等,而且成組或成套,則不作切分而選為一個分詞單位。如「春夏秋冬」「眼耳鼻舌身意」。

並列複合詞的分離:

「沒情沒緒」「名目」

七、偏正結構

偏正結構分兩種:以名詞為中心語的:以動詞為中心語的。

偏正結構是否選為一個分詞單位,在我們的斷詞中是問題最複雜且棘手的,因為最不容易找到一個具體客觀的標準。因此在我們決定是否選為一個分詞單位時,往往需要多方的考慮,而實際上所設計的選詞標準也比較瑣細。

音節數目

偏正結構如果超過三字的,原則上不選為分詞單位。

意義

偏正結構為二字組合或三字組合的,無論是詞還是詞組,只要語素結合後超出組合義的(也就是意義有轉化的),就合併為一個分詞單位。(如「大人」「大麥」)。如是否有轉義難以確定而在兩可之間的,還是選為一個分詞單位。

離心

結構的詞類和中心語不一致的(也就是離心結構),該結構選為一個分詞單位。

自由性

偏正結構為二字組合的,也視語素結合的緊密度來看是否合併為一個分詞單位。如果中心語和定語都是附著語素,就合併為一個分詞單位。如果中心語和定語都是自由語素,且組合後意義無變轉,就分為二詞。如果中心語或定語中只有一個是附著語素,就視意義有無變轉和語素是否常用來決定是否合併為一個分詞單位。意義無變轉和兩個語素都是常用的合併為一個分詞單位。

三字組合

常用性

文言語素

定名式和狀述式是否有別?

定名式

(二)當數詞、指代詞、方位詞作為偏正結構的一個成分時選取標準如下:

1.數詞作為定語時,數詞如果只是作為對中心語的計數,則不合併為一個分詞單位(如「十 事」「七 夜」);數詞如果是用來指稱中心語類集合的總數,且這個集合在專業領域中其元素總是特定的某些個(如「六界」),則合併為一個分詞單位;又或者數詞是指該集合中某個元素的序數,也合併為一個分詞單位(如「一品」)。

在三音節的結構中數詞作為定語有兩種:一為「數詞+中心語」,如「三達智」;一為「「數詞+中心語」+中心語」,如「十種力」。無論屬哪一類,選為分詞單位的標準大抵相同。

2.指代詞作為定語時,一般獨立為一個分詞單位(如「吾 足」「此 人」「諸 佛」「一切 人」)。但如下的一些情況不在此限:

(1).有轉義時則應合併為一個分詞單位。如「吾子」是對人的尊稱,「己身」不只是「自己的身體」。

(2).指代詞作為定語的偏正結構如果有特殊佛學意義的合併為一個分詞單位(如「一切色」「一切智」「己印」)。

(3).新興或有新用法的指代詞可以和中心語合併為一個分詞單位。如「自」原為副詞,到中古漢語也可作定語,因此無論是否轉義或有無特殊佛學意義,凡是以「自」為定語的二字結構就標選。如「自印」標選為一個分詞單位。

(5).疑問代詞作定語的偏正結構如果只有兩個音節而且搭配頻率又高,則合併為一個分詞單位。理由是疑問代詞作定語時所結合的詞比較有限。如「何等」「何人」「何物」「何時」「何處」「何所」等為常用詞語,因而選為一個分詞單位。但「何藥」不選為一個分詞單位。

3.方位詞如果作為定語,一般和中心語合為一個分詞單位,如「東方」;如果作為中心語,原則上獨自視為一個分詞單位,如「城中」分為二詞。但「天下」「足下」等有轉義的仍合為一個分詞單位。又如「空」在上古原為「孔」或「空洞」之義。在中古,「空中」可以指「天空之中」,則合為一個分詞單位。方位詞連用而只指一個方位或定點的,合為一個分詞單位。如「東北」「中上」。

(三)有的結構的中心語不能確定為狀態動詞還是抽象名詞(動作動詞原則上仍視為動詞),原則上要看該詞是否仍常用作主語或賓語(包括作主語或賓語的中心語)。如果是的話,便視為抽象名詞。如果不是的話,便仍視為動詞,而該組合不視為偏正結構。如果一個結構還可以為一般副詞修飾的,便不視為偏正結構。如「妄想」可加「不」修飾,成為「不妄想」,歸到「其他」類中。

以抽象名詞為中心語的偏正結構,原則上和定語合併作一個分詞單位。

(四)偏正結構也依不同的字數各取標準來決定分詞單位。

近代漢語有時並不能以結合的緊密度來決定偏正結構是否為詞,以有無轉義來決定偏正結構是否選為一個分詞單位有時也還難以掌握。因此有轉義固然要選為分詞單位,我們同時也依賴詞的結合面的廣狹和使用頻率或搭配頻率的高低來輔助決定是否選為分詞單位。

1.二字的組合依下述標準劃分分詞單位:

(1).兩個實字如果結合面都廣,而且結合前後意義大致不變的,一般不合併為一個分詞單位。如「小 山」。兩個實字如果結合面都廣,而且結合前後意義大致不變,但彼此搭配頻率高,一般合併作一個分詞單位。如「女人」。

(2).兩個實字如果結合面都不廣,而結合後意義有轉化的,或者彼此搭配頻率高,一般合併作一個分詞單位。如「肉髻」「冠幘」。

(3).定語如為名詞(包括音譯詞),和中心語又非領屬關係,則一般合併為一個分詞單位。如兩字若為領屬關係,則一般不合併為一個分詞單位(如「王 足」「佛 所」)。但有轉義或在專業域領域中具有特殊意義的,則合併為一個分詞單位(如「佛心」)。又或者定語對中心語的限制僅為冗贅,也合併為一個分詞單位。如在「手掌」「車輪」中,「手」和「車」對中心語「掌」和「輪」的範限其實是無所增減。

(4).定語如為動詞,是否合併為一個分詞單位的原則如下:

當定語是結合面廣的狀態動詞(相當傳統所謂的形容詞)或動作不及物動詞時,如果沒有轉義或在專業域領域中不具特殊意義的,則不合併為一個分詞單位。一般定語如果只是描述感官上所呈現的空間、數量或屬性上的對比,是不合併為一個分詞單位的。如「大寺」「大城」「大燈」「大華」的「大」獨立為詞。但是如果偏正結構所指涉的超出其組合義(如空間成為有固定規格的,或者比原有組合義的範圍更加受限),則合併為一個分詞單位。如「大人」(貴族)、「大火」( 火災)、「大水」(水災)合併為一詞。是否有轉義有時可以採用轉換為句子的檢驗法。如「大寺」「大城」「大燈」「大華」可以轉換為「寺大」「城大」「燈大」「華大」而意義沒有增損,該偏正結構就視為沒有轉義(插入「之」來檢驗是否為詞在中古漢語是行不通的,故不考慮)。但這個檢驗法的答案也並非總是很確定的。

定語所指的如果只是中心語這個類的共通屬性或者對中心語的範圍無增損,也合併為一個分詞單位。如「白骨」「綠葉」「大海」。

定語結合面較窄的或和中心語搭配頻率高的通常和中心語合併為一個分詞單位。例如同樣形容美好的「善」「妙」「良」「好」等,只有「善」通常獨立為一詞(除非有轉義或有佛學意義);而「妙」「良」「好」的結合面較窄,通常和中心語合併為一個分詞單位。如「好衣」。又如「威」作定語主要是搭配容顏,所以和中心語合併為一個分詞單位。如「威容」「威顏」「威相」。

2.三個實字的組合是否合併為一個分詞單位原則如下:

(1).「雙音節+單音節」通常和佛學有關,因此合併為一個分詞單位。如「凡夫法」。如果和佛學關係不大,但有轉義或常用,也合併為一個分詞單位。如「族姓子」。

(2).「單音節+雙音節」是否合併為一個分詞單位視情況而定,通常就是有轉義或在專業域領域中具有特殊意義的合標為一個分詞單位。

(3).不能確定為「雙音節+單音節」還是「單音節+雙音節」的偏正結構,也標選為一個分詞單位。

3.四個實字或五個實字以上的組合原則上切分,但有特殊佛學意義而值得在佛學詞典上列出來加以解釋的合併為一個分詞單位。

(五)如果詞組中含有併合成分,無論含不含頓號,都合併為一個分詞單位。

(六)「狀語+述語」

在雙音節的狀述式中,怎樣的狀語可以和單音節動詞合併為一個分詞單位?決定於意義結合後的情況和常用性。

文言語素與文言語法:

「火急」「雪白」=「如火急」「如雪白」

「仇視」(如仇一般看視):「視」一般為文言語素,只出現在某些構詞成分中(「近視」「視野」);「仇」在白話中一般也不用來直接修飾動詞。

作狀語的語素是否獨立為詞,得考慮動詞後否可帶賓語。如果可帶賓語,而且狀語用在修飾動詞上還算常用,則狀語以獨立分詞為原則。如「緊追其後」的「緊」。

一般而言,常用的副詞如「不」「將」等是要獨自選為一個分詞單位的。但是如果「狀語+述語」轉為特定意義的則為例外。如「不退轉」「將來」合併為一個分詞單位。

如果動詞為附著的,也和副詞合為一個分詞單位。如「相處」。因為「處」只在文言中可以獨用,但在近代漢語中為附著成分。

副詞修飾副詞,除了法相副詞一般和其前的否定詞或疑問詞合併以外(配合現代語組的作法),原則上分詞。如「暫 不」「不 再」。有時有搭配固定而有特定功能的副詞也合併。如「不曾」相當現代在動詞組前的「沒有」。

副詞的結合面轉受限制的,也和中心語合選為一個分詞單位。如「自」在上古漢語是副詞,可以修飾相當多的動詞,可以使不及物動詞使動化或意動化。但因受中古漢語使動或意動用法衰退的影響,「自」和不及物動詞的結合就逐漸固化,這個結構就比較難以創生類似的新詞語了;同時「自」在上古漢語和動詞的結合較緊密,往往構成一個音步,到了雙音節動詞轉趨豐富的中古,雙音節動詞可以自為一個音步,「自」和動詞的結合就沒有那麼緊密了。「自」加單音動詞的結合面趨於縮小而固定,多半為上古漢語遺留的化石。因此「自」和單音不及物動詞的結合通常可選為一個分詞單位。如「自大」可以選為一個分詞單位。

此外,「非人」有特定的意義,故選為一個分詞單位。我們的「非」視為副詞而不視為動詞,故不列入述賓。

八、述補結構

本處的述補結構的補語並不包括時間補語和數量補語,主要指的是動結式、動趨式這種以動詞為補語的結構。如「解開」「脫出」。

(一)動結式

動結式的述補結構常常不易決定是否複合詞,是否應該列入詞典中。目前只要補語前可插入表能性的「得」「不」,我們都還算是述補複合詞。述補複合詞如果是不可分離的(包括含中嵌的),就合標為一詞(如「脫不了」「虧不盡」);但只要是可游離的,我們都分別標詞類,而加上語法特徵(即[+vrv] 和[+vrr])來表示其可以合併為詞(這麼做還要先考慮程式的辨認及統計是否有困難)。如:

「看(VE)[+vrv] 見(VK) [+vrr]」

「看(VE)[+vrv] 不(Dc) 見(VK)[+vrr]」

這樣做的好處是述補複合詞是否要算作一詞在處理上是一致的,也利於統計;同時也可以減少許多能性式的詞彙,這些詞彙本可由構詞律產生。

原則上我們不把「得」「不」視為述補複合詞的一個成分。我們建議:如果述補結構只有「V{得,不}C」的形式而無相應的VC式時(亦即只有插入「得」「不」的形式時,如「做他不著」),還是把「得」「不」獨自標類,而加上如[+vrd]的語法特徵(如下例);如果述補結構不但有「V{得,不}C」,而且也有相應的VC式時,就只把「得」「不」獨自分詞分類而不加上如[+vrd]的語法特徵(如上述「看不見」的標法)。

「看(VE )[+vrv] 不(Dc)[+vrd] 起(VA)[+vrr]」

這麼做不但在標選方式上取得一致,同時可避免某些性質介於補語和動詞詞尾之間的常用詞(亦即所謂的「動相補語」(phase complement)在歸類上的困擾。如「忍住」的「住」。這種詞可附在許多動詞之後,如果把它和那些動詞都合併列入詞典中,那麼將會增加不少詞。如果我們把動補式都分開來而僅以語法特徵來連繫,那麼可以讓詞典不列入這些動補結構,若需要研究時也可以很容易把這動補結構都列出來。

另外述補複合詞分開標類在詞類的標注上也有好處,理由另見《近代漢語詞類標注手冊》中的討論。

在「V不C」式中有「V不得」「V不了」,我們建議把「不得」和「不了」合併為一詞(「不得」為常用補語,性質有些像後置的法相副詞),並加上[+vrr]的語法特徵。最主要的是因為否定式的「不得」和「不了」的「得」「了」可以由「不」,仍具實詞性,而相應的VC式應為「V得」和「V了」(還可以有「V得了」),其中的「得」「了」一般卻只能歸入詞尾或助詞。

「V得慌」的「得慌」視作獨立的後置副詞,「得」和「慌」合詞,算是「得」中的例外。

常用的「不-V」式如果已固化而表達特定的語法功能,也可比照「不得」作同樣的處理,如「難道...不成」的「不成」。

(二)動趨式

動趨式的述補結構的補語為趨向動詞,如「上」「下」「起」「回」「轉」「出」「進」「入」「過」「開」「攏」等。另外還有「來」「去」,也算是趨向動詞,但「來」「去」還可放在其他趨向動詞後成為複式的趨向動詞。以下暫時把「來」「去」和上述的趨向動詞分開來以便說明。

動趨式因為也有插入「得」「不」的形式,或者插入動詞詞尾,因此趨向動詞和動結式的述補結構處理一樣,也和前面的述語動詞各自分開分詞分類,並加上語法特徵以資連繫。但趨向動詞還有加上「來」「去」的複合形式。「來」「去」和其前的趨向動詞還可以游離開來。目前「來」「去」和其前的趨向動詞在分詞上我們想到如下的處理法:

首先,在含複式趨向動詞的動趨式述補結構,趨向動詞到底和前面的動詞還是和後面的「來」「去」結合得較緊,是很成問題的。這個問題牽涉到分詞的問題。動詞詞尾總在趨向動詞前(如「V了出來」),因此趨向動詞看來和「來」「去」結合得較緊。但如果有動詞賓語的話,賓語又以放在趨向動詞和「來」「去」。之間為較常見「V出NP來」。更易令人迷惑的是,有時趨向動詞出現冗贅的重複,好像趨向動詞和中心動詞及「來」「去」都結合得緊(如「V出NP出來」)。因此我們如果打算把整個含複式趨向動詞的述補結構拆成兩詞,就不知是在趨向動詞前分詞還是在趨向動詞後分詞。我們目前的處理上仍然把這樣的結構視為一體,但是仍作切分,而以語法特徵來加以連繫。我們給中心動詞[+vrv] 的語法特徵,而給趨向動詞和趨向動詞[+vrr] 的語法特徵,所以在實際的分詞上是讓趨向動詞和「來」「去」保有較緊密的關係。

其次,趨向動詞和「來」「去」既是可分離的,在分詞就有如下的幾種辦法可供選擇:

1.無論是否相連,趨向動詞都和「來」「去」分詞:

此法好處是一致,壞處是要加更多的語法特徵(碰到「V出NP出來」這種句式時,在處理上更是棘手)。「來」「去」一旦獨立開來,在處理上有兩種辦法可供選擇:

1a.視「來」「去」為完全獨立的詞,比照其他句末的「來」「去」,可能的詞類為T。缺點是認為「來」「去」是和其前的「來」「去」為不相關的助詞,而且表示動貌的「下去」「起來」也勢得拆開來。

1b.把「來」「去」也加上和趨向動詞一樣的語法特徵[+vrr],詞類和動詞的「來」「去」相同(即VA),只有表示動貌的詞類另外處理(如趨向動詞和「來」「去」都給Di)。因為「來」「去」既然視為動詞的補語,就不該是虛詞了。「來」「去」視為動詞還有一個理由:趨向動詞如果單獨和「來」「去」構成述補結構,兩者間可插入「不」而造成能性式的合併為詞(如「上不來,下不去」),因此在這個地方的「來」「去」看來仍像是動詞,而且和趨向動詞關係很密切。儘管在「V+趨+{來,去}」時,「不」總在趨向動詞前,也很難說「趨+{來,去}」這樣的合併結構和附在其他動詞後「來」「去」就變成另一個不相干的助詞了。

這個辦法的缺點是比較麻煩,因為要連用三個語法特徵來連繫動補結構的三個語素,而且至少有兩個語素要標上[+vrr])。另外一個問題是其他句末的「來」「去」都是助詞,作為動趨式補語的「來」「去」很難說功能有明顯的不同。

2.趨向動詞都和「來」「去」相連時合詞,不連續時分詞:

如採這個辦法,則如「下去」「起來」無論為補語還是動貌標記,都合併為詞(如果是一般補語,就合標一個語法特徵[+vrr],如果具有動貌功能,就合標一個語法特徵 [+asp] ),在分詞上可以避免要先分辦是否動貌標記的困擾,而且趨向動詞加「來」「去」的組合很有限,並不難難找出來作統計。「來」「去」和趨向動詞分離時,也如上述第一法一樣,有兩種辦法可供選擇:

2a.一是視為完全獨立的詞,比照其他句末的「來」「去」,可能的詞類為T。這樣做有一個問題:「來」「去」和趨向動詞分離時標為T,但與和趨向動詞相接連時看來並無多大差別。

2b.把分離的「來」「去」也加上和趨向動詞一樣的語法特徵[+vrr],詞類和動詞的「來」「去」相同(即VA)。因此也是至少有兩個語素要標上[+vrr])。這樣做的缺點是不一致,好似分離的「趨-來」和相接連的「趨-來」是變成不同的詞;而且「來」「去」和附在其他動詞後「來」「去」就變成不相干的詞了。。

3.混合的辦法:無論是否相連,趨向動詞都和「來」「去」分詞,但表示動貌的「下去」「起來」合詞。這個辦法,除了表示動貌的「下去」「起來」合併為詞以外,「來」「去」無論是否和趨向動詞連接,都分另外分詞。而且「來」「去」的標類也有兩種選擇。一是標VA而以[+vrr]來連繫。一是一致標為T。此法的缺點是較複雜,在自動斷詞上較為困難;而且萬一補語和動貌標記界線不很清楚時,在分詞上先就是一個問題了。

比較上述諸方案,我們覺得2b的缺點相對上比較可以容忍,而且在標記作業上是較簡便的。以下給個例示:

趨向動詞作為補語時:

「走(VA)[+vrv] 下去(VA)[+vrr]」

「走(VA)[+vrv] 下(VA)[+vrr] 樓(Nc) 去(VA)[+vrr]」

「做(VC)[+vrv] 出(VA) [+vrr] 十來兩銀子的氣質 出來(VA) [+vrr]」

表示動貌的趨向動詞在語法上其實仍可視為補語,並不完全虛化。如對應於「唱起來」和「(繼續)走下去」有「唱得起來」「唱不起來」和「走得下去」「走不下去」等式。從這裡可以看出它的表現和別的補語是一致的。如果「起」「下」已虛化為詞尾,不應仍受否定詞的修飾或。我們把這種表示動貌的趨向動詞仍視為補語,仍給與它的動詞原類,但還加上[+asp] 的語法特徵。這個語法特徵的意思是具有動貌功能的補語。

「唱(VC)[+vrv] 起(VAC)[+asp] 歌(Na) 來(VA)[+asp]

「走(VA)[+vrv] 下去(VA)[+asp]」

當趨向動詞作為中心動詞時:

「入(VCL)[+vrv] 去(VA)[+vrr] 房(Nc) 裏(Ng)」

「入(VCL)[+vrv] 房(Nc) 去(VA)[+vrr]」

(三)動詞配給與動詞

相當現代漢語雙賓動詞「V給」的是「V與」,「與」和動詞的搭配也可視為一種動補結構,因為「與」的動詞性比一般的介詞要強得多。理由如下:

近代漢語動詞詞尾可在「與」的前面或後面,如「V了與NP 」和「V與了NP 」都有。但「V了與NP 」的NP以單音節為主,可能和節律有關(NP可能為弱讀,避免和弱讀「了」連用),。從這裡看,中心動詞為「與」。

「與」決定時貌和論元。

「V了+NP+與+ NP」比「V+NP+與了+NP」為常,後者雖有而較不自然。從這裡看,主要動詞又像是V。

可否用加語法特徵解決?

「V了與 NP」

(3)論元:「與」決定論元。「V與」的「與」歸為動詞(是否要用語法特徵(如+vrr)來和主要動詞用法區別開來?)。如果V為有「給與」義的三元動詞,可以預測可以加「與」,也可以不用加;如果V為不是三元動詞,可以預測必須加「與」來表達「給與」義。

比較:

送給他三塊錢 / 送他三塊錢 / 把三塊錢送給他 / 送三塊錢給他

付給他三塊錢 / 付他三塊錢 / 把三塊錢付給他 / 付三塊錢給他

交給他三塊錢 / *交他三塊錢 / 把三塊錢交給他 / 交三塊錢給他

分給他三塊錢 / ?分他三塊錢 / 把三塊錢分給他 / 分三塊錢給他

寄給他三塊錢 / *寄他三塊錢 / 把三塊錢寄給他 / 寄三塊錢給他

拿給他三塊錢 / *拿他三塊錢 / 拿三塊錢寄給他 / 拿三塊錢給他

「與」在動詞前和動詞後的區別:前者歸作介詞,後者歸為動詞VD。

由於「V與」是可分離的,因此不管是否連用,都各自標類。如果V也是三論元的動詞,則可以考慮把V和「與」各加上[+vrv]和 [+vrr]的語法特徵。

九、述賓結構

近代漢語的述賓結構是可游離的,因此是詞還是詞組有時不好判斷。我們根據如下的標準來決定近代漢語的述賓結構是否視為複合詞:

1.述語、賓語結合後意義轉化的。如「出家」「將軍」。

2.述語、賓語間結合固定者要選。如「稽首」「如是」「若此」。

9.動詞「有」「無」及準繫詞「為」「如(若)」等原則上不和賓語合選,除非和賓語結合固定的,或者組合後意義有轉化的。如「無色」「有漏」。

由於述賓複合詞是可以游離的,因此我們認為也當比照述補複合詞,只要是可游離的,我們都分別標詞類,而加上語法特徵(即[+spv]和 [+spo],這個語法特徵中的sp在這裡的意義是「可游離的」)來表示其可以合併為詞;述賓複合詞如果是不可分離的,還是合標為一詞(如「結果他」「抱怨」)。述賓複合詞分詞而加上語法特徵還有詞類標注上的好處,理由見《近代漢語詞類標注手冊》中的討論。

大部分的述補複合詞可視為在句法層次結合成詞,因此在詞典中可以不列整個述補複合詞,只列動詞也就可以了(部分還是得先列入詞典中);但是述賓複合詞的情況看來不同,最好視作在詞彙層次就已構成,否則不好處理。但是哪些述賓結構要視為形成於詞彙層次,也不是都很容易決定的。

十、介賓結構

介賓結構選為一個分詞單位的限於二字組,主要是上古漢語遺留下來的,通常已固化為詞。如介詞在賓語前的「於是」和介詞在賓語後的「是以」「何以」「何因」「何從」等。介詞在疑問代詞賓語前的二字組合也合併為一個分詞單位。如「從何」「由何」「於何」。

十一、主謂結構:

主謂結構其實和以抽象名詞為中心語的偏正結構是不容易區分的,最主要是因為動詞是否名語化在漢語中是一個頗富爭議的問題,不過一般列在偏正結構的中心語一般是常用作主、賓語而且多非動作動詞。主謂結構的例子如「年少」「師子吼」。

十二、縮寫或節略

縮寫或節略選為一個分詞單位。如「從來」相當「從始以來」,「大梵天子」相當「大梵天之天子」。

十三、成語、諺語

成語、諺語原則上選為一個分詞單位。

十四、其他

(一)不連續結構

述補、述賓以外的不連續結構一般也不合選為一個分詞單位。

不連續結構如果因中間成分不出現而連在一起時,視其是否尚可分解或有特定的功能而決定是否選為一個分詞單位。

動詞後接「為」「成」「作(做)」

「叫做」是來自「叫X做Y」的,「叫」和「做」原非同一句範疇的動詞,只是一旦夾在二詞中間的詞為隱含時,兩字就常連在一起用。由於中間的詞可以復,因此「叫X做Y」的「叫」和「做」分作二詞。「叫」和「做」的呼應可以從「叫」的語法記載中預測出來。其他結構相同的處理方式相同。

「奈何」雖來自不連續結構「奈....何」,但在近代漢語中也當作問方法的固定詞彙,一般人未必知道其原本的用法,因此選為一個分詞單位。

另外如「難道...不成」的「難道」和「不成」雖前後呼應作為反問句,我們也還是視為二詞。

(二)非結構

「非結構」是說其中的各語素原來並不是共為一個成分的。如「然而」「然後」原為承指代詞「然」加上連詞「而」和副詞「後」,後來才凝結為連詞。

有些上古常用的副詞到中古時,因為失勢而有時就成為副詞、連詞的附著語素,如「復」「自」之類。到近代漢語時,「自」仍可作為副詞的附著語素。

當副詞、連詞後連續接「是」和動詞組的時侯,「是」是應分析為詞尾還是獨立的詞往往頗費斟酌(「是」在這種地位原先可能是起烘托焦點的作用,但久而久之就弱化了)。,有

「若是」和「若」

助詞連用時的分與合。

「了麼」

「V於NP」

動詞後加「於」來引介名詞組的「V於NP」結構是上古漢語的遺留。

「V有」

(三)文言遺留的特殊語序

賓語為疑問代詞而又在動詞或介詞之前的兩字組如果為常用詞語也合併為一個分詞單位(如「何如」「何若」「何以」)。如果不是常用詞語,則分為二詞(如「今欲何行」的「何」和「行」分為二詞)。


參、分詞和詞庫現代漢語組分詞不一致的地方及理由

一、與詞庫現代漢語組在分詞上主要的差異(初步構想)

草案(合) 近代漢語組(分)

序詞「第接數詞」數詞 第七 第 七

數詞 五千三百六十一 五 千 三 百 六 十 一

分數 七分之三 七 分 之 三

表概數「多、來、幾」 二百多 二 百 多

述補結構(述-結) 打死 打 死

述補結構(述-趨) 升上來、送去 升 上來、送 去

述補2+1結構 演奏完 演奏 完

動詞重疊(AA) 唱唱 唱 唱

動詞重疊(ABAB) 考慮考慮 考慮 考慮

動詞重疊(AAB) 聊聊天 聊 聊 天

量詞 片片、一片片 片 片、一 片 片

V-到 走到 走 到

V-為 流為 流 為

V-成 剪成 剪 成

V-作 鑄作 鑄 作

V-給 送給、贈送給 送 與、贈送 與

V-有 收有 收 有

V-於 居於 居 於

偏正式(動詞為中心語) 接頭詞與單音節動詞合 接頭詞與單音節動詞分

(例:重做、改寫) (例:重 做、改 寫)

方位詞 之中,之上,之後 之 中,之 上,之 後

正反問句 喜不喜歡、可以不可以 喜 不 喜歡(第一個「喜」 加語法特徵)、可以 不 可以


近代漢語詞類標注手冊

這個手冊主要為標注明清小說的詞類而設,因此主要的適用對象也是明清小說,詞例、例句也多採自這個範圍。

詞類標注

壹、分類原則

多功能詞的歸類

一個詞語如果在不同的語法地位意義有明顯的不同,就視為不同的詞。譬如某個字用作狀語時和用於述語時意義很不同,則分別歸類為副詞和動詞。

一般名詞如果也用於定語或狀語,仍視為名詞(如時間及地方名詞),但此外的詞在跨類上可能別有問題。

(1)可作述語、定語、狀語:不跨類(動詞);跨類(其一,依功能分三類;其二,作述語、定語為動詞,作狀語為副詞)。

(2)可作定語、狀語:不跨類(非謂形容詞);跨類(依功能分非謂形容詞和副詞兩類)

(3)可作述語、定語:動詞

(4)只可作述語?

(5)只可作定語:非謂形容詞

(6)只可作狀語:副詞

歸類決定的牽涉到主要用法?如果雖可跨類,卻主要用作狀語。

特別要注意狀詞和代詞,特別是有些以作狀語和定語為主的,但通常為狀語,而且有的只作狀語。

狀詞要算是虛還是算是實?加「地(的)」是否要和不加「地(的)」的狀態動詞分開來處理?

一般實詞

一般實詞如果能用作名語(主語、賓語、介詞賓語),而不作述語用,則無論在任何地位,都歸類為名詞;如果能作述語用,而不作名語用,則不論在任何地位,都歸類為動詞。如果只能用作定語就歸類為非謂形容詞;如果只能用作狀語,就歸類為副詞;如果只能用作定語及狀語,就歸類為非謂形容詞。

虛詞

代詞

代詞是有限類,而它的語法功能又很重要,需要另外處理:

「所有的人」的「所有」只能作定語,要歸入哪一類?

一個詞語如果在不同的語法地位意義有明顯的不同,就視為不同的詞。譬如某個字用作狀語時和用於述語時意義很不同,則分別歸類為副詞和動詞。和

指示

地方

情狀:「恁」「恁地(的)」;

狀詞

(一)詞綴與附屬詞

常用且組合意義一定的詞綴獨立標類(將來可用構詞律合併的詞綴獨自分詞)。如「第」。

「地」「裏」「地裏」「價」「家」「然」「也似」「似的」

介詞和動詞的分界與其歸類原則:

介詞還是動詞?

近代漢語有些詞很難決定要歸入P還是動詞。這些詞像常用的虛詞,但又有動詞的徵性。如「將」「把」「與」「除」「和」「同」之類。以下略示處理辦法:

「送與」的「與」在近代漢語仍可歸入動詞,可視同做主要動詞的「與」。不過因這類詞不但常用而且和其他介詞在功能上的分際也有些模糊,即使歸入動詞,仍需要加以適度的區隔。將來採行的方案可能是:從不作述語用的詞歸作介詞,也兼作述語用的歸入動詞。

如「跟」「和」「同」可以作主要動詞及次動詞,都可帶詞尾。因此似可歸入動詞VC1或VJ,這種用法的「和」「同」可以和「和」「同」的不及物用法(VH)分作兩類。「為了(著)」「除了」有了特殊的用法而不同於一般的動詞時,則可連同詞尾歸入介詞或連詞。

關於辨識原則:

(1)地位:如果只有次動詞用法,則歸為介詞。如「共」。

(2)時貌:「著」「了」。歸為動詞。但和第一項衝突時怎麼辦?注意有的次動詞同時跟著「著」「了」。

(3)論元:「與」決定論元。「V與」的「與」歸為動詞(是否要用語法特徵(如+vrr)來和主要動詞用法區別開來?)。如果V為有「給與」義的三元動詞,可以預測可以加「與」,也可以不用加;如果V為不是三元動詞,可以預測必須加「與」來表達「給與」義。

比較:

送給他三塊錢 / 送他三塊錢 / 把三塊錢送給他 / 送三塊錢給他

付給他三塊錢 / 付他三塊錢 / 把三塊錢付給他 / 付三塊錢給他

交給他三塊錢 / *交他三塊錢 / 把三塊錢交給他 / 交三塊錢給他

分給他三塊錢 / ?分他三塊錢 / 把三塊錢分給他 / 分三塊錢給他

寄給他三塊錢 / *寄他三塊錢 / 把三塊錢寄給他 / 寄三塊錢給他

拿給他三塊錢 / *拿他三塊錢 / 拿三塊錢寄給他 / 拿三塊錢給他

「與」在動詞前和動詞後的區別:前者歸作介詞,後者歸為動詞VD。

「將」「拿」「同」

「被」「與」「給」「著」「乞」「喫」作被動的標誌,其中「與」「給」「著」又有致使用法,是否應當區分為不同的類?。

「與」在主要動詞前有兩用:一為「與同」義,可歸入介詞或連詞;一相當「為」,是否該歸入動詞(帶句子的雙賓動詞),「給」「著」的致使及被動用法也歸此?

「被堅執銳」

副詞與連詞的區別

「又」

副詞還是動詞?

評價副詞和動詞並不一定好分,原則上如果能同時可用於述語和狀語的而意義又沒有明顯的不同時,就只歸入動詞。如「虧不盡」「幸虧」都不能單獨作述語,因此都是副詞。

副詞的細類

是否該多分類?

如關連副詞

關連副詞

評價副詞與法相副詞

評價副詞與方式副詞

評價副詞與時間副詞

分類原則的討論

多功能與跨類

一個詞如果可作狀語、述語、定語、補語等,一般的給類原則應當給與動詞類。但是有些詞雖然可以在狀語及以外的地位出現,常見的卻是作狀語,其他

地位出現就比較有限制。這使得我們在歸類上頗為難決。這其中最不容易處理的是重疊詞和代詞。以下述說我們的處理方案。

1.重疊詞:

重疊詞如「AA(地)」「ABB(地)」「AABB(地)」最通常是用作狀語,但也可以作述語或定語、補語。「A地」及其他加「地」的狀語以外的用法就比較少。

我們不採用跨類的作法,原則上把這類視為不及物的狀態動詞(VH)。但如果重疊詞只作狀語,歸入副詞;如果重疊詞只兼作狀語及定語,則歸作非謂形容詞(VA)。

要算是什麼詞類,加「地」以後是否要合併為一個分詞單位,和不加「地」的形式是否要分作二詞(詞類亦各自決定),頗不易決定。

如「看起來」這種含有「起來」的Dbc類則放棄,「起來」將獨自為詞。

2.代詞:

代詞數目有限,可採取跨類(由地位決定)或不跨類的作法。若採不跨類的作法,則選類容易,且利於自動標類。若採跨類的作法,有助於將來的統計,目前我們暫時趨向於採取不跨類的作法。

一個代詞如果能用作名語(主語、賓語、介詞賓語),而不作述語用,則無論在任何地位,都歸類為名詞(指示詞「這」「那」比較特殊,歸入定詞,另外處理),如「我」「那裏」。如果能作述語又作定語、狀語,而不作名語用,則歸類為動詞,(只是有的代詞常用作狀語,但作述語卻很少見),如「恁的」;如果只能用作定語及狀語,就歸類為非謂形容詞;如果只能用作狀語,就歸類為副詞,如「那」(上聲)。

如「什麼」「這」分別歸入Nh和Nep類。「那(哪)」可歸Nep類和Dj類,「怎的」可歸在Dj類和VH類中。但此法不。,但目前代動詞和代副詞在詞庫現有的類中將無位置可放,一個辦法是全部歸在Nh中。

3.時間詞;

時間詞若是只能作狀語或定語,建議歸入VA。

貳、和現代漢語組詞類標注不一致的地方及理由

一、可游離的複合詞詞類的標示

(一)述補複合詞詞類的標示:

述補結構無論是否複合詞或相連,都分別標類而加上語法特徵(即[+vrr] 和[+vrr]),這個做法已在斷詞手冊中說明。現在要談詞類的標示法(部分說明已見於該手冊中)。

對於可游離的述補複合詞,我們考慮把兩個語素各自標上語素原有的詞類,而非整個述補複合詞的詞類。如詞庫現代漢語組的「叫(VC)[+vrv] 不(D) 醒(VC)[+vrr]」,或許就改標為「叫(VC)[+vrv] 不(Dc) 醒(VH)[+vrr]」。如此一則不必考慮「叫他不醒」要怎樣標類了;一則這樣可以和述賓複合詞的標示法取得一致,因為現代漢語組的述賓複合詞都是標示原類的。

另外,如果述補複合詞的中心動詞同時又是述賓複合詞的中心動詞時,就可以避免中心動詞同時又是及物動詞又是不及物動詞的困擾了。

如果述補複合詞的語素詞類分標,那麼整個述補複合詞的詞性要如何決定,是否在計算上會造成問題呢?

原則上整個述補複合詞的詞性要合併兩個語素來決定。如果其中一個語素為及物動詞,或者是VAC、VHC,那麼整個述補複合詞即可以帶賓語。如果第二個語素(即補語)原為可倒裝主語的動詞,那麼整個述補複合詞應也可以倒裝主語。我們認為述補複合詞的詞性的預測困難並不大,只是希望有程式可以有效的計算出來(預計可能只有很小的部分無法預測出來)。

考慮到「不得」為「得」的否定式,可能把「不得」標為一詞(「不了」情形類似)。但對應於「不得」的「得」可能多標為DE(我們建議另歸助詞T3類),「不得」似無可歸類(目前除了程度副詞,尚未設其他的後置副詞類),或者仍然把它視為補語而加[+vrr]的語法特徵,或者把它改為助詞類。

V和「與」的搭配:「與」標為VD類。

(二)述賓複合詞詞類的標示:

建議述賓複合詞如果可以游離,那麼無論是離或合,詞類標注,都不採用複合後的詞類,而以語素的詞類為準,並另外加上語法特徵來顯示為述賓複合詞(如[+spv] [+spo])。理由如下:

1.述賓複合詞如果加上語法特徵,就足以顯示為述賓複合詞。而且述賓複合詞通常是不及物動詞的,我們可以用其他的辦法來處理及物用法的預測問題(如永遠不能分開的及物性述賓複合詞合併給類;表示認知的述賓複合詞比較可能帶句子賓語)。此外,有時及物或不及物的分界也不是很清楚。例如「動火」在,近代漢語為一般不及物的,但偶然可帶賓語。

2.述賓複合詞和一般述賓結構的分界不一定很清楚,如果詞類標注上保持一致,而以加上語法特徵來區別,則在修改上比較容易。而且述賓複合詞也常常可以分離開來,有時可以把賓語作成領屬賓語。

大部分的述補複合詞可視為在句法層次結合成詞,因此在詞典中可以不列整個述補複合詞,只列動詞也就可以了(部分還是得先列入詞典中);但是述賓複合詞的情況看來不同,最好視作在詞彙層次就已構成,否則不好處理。但是哪些述賓結構要視為形成於詞彙層次,也不是都很容易決定的。

二、類的增減:

(一)舊類的刪併:

1.Cab:本類刪除,改歸T6。原本為「等」「等等」「之類」所屬的類。

2.Ncd:此類原名位置詞類,和方位詞(Ng)頗有重疊,今取消,改歸Ng。方位詞只有和他詞成為複合詞時不列為方位詞。

3.Neqb:本類刪除,改歸T7。原為後置數量定詞,它的用法都接在量詞之後。原本適用於如下的詞:三點、五十歲出頭、兩丈

4.Cba(移動性前繫連接詞)和 Cbb(非移動性前繫連接詞)合併:

現代漢語的.Cba和Cbb的區別,在近代漢語並沒有那麼清楚,因此合併為.Cb(關聯連接詞)一類。

(二)新類的增加:

1.在標注副詞時,把現代漢語組電子詞典原有的副詞細類回補進來:

詞庫近代漢語組副詞類實際標注的類比現代漢語組現在進行的標注還要細,但原則上還是採用現代漢語組電子詞典中原有的分類。這是針對研究重點的不同而採取的因應手段。如近代漢語組第一年重點在副詞,因此採用現代漢語組原本較細的分類。也就是現代漢語組原有的Daa、Dab、Dba、Dbb、Dc、Dd、Dfa、Dfb、Dg、Dh、Di、Dj、Dk的分類在標注時都補了回來。

2.近代漢語組自添的類:

以下的類是近代漢語組新添的類(其中T類增加的理由已見於斷詞手冊):

[Dl] 關連副詞:如「也」「又」「就」「便」「才」「卻」等。這一類現代漢語組的電子詞典原來的歸屬不一。如「也」為Dbb;「又」為Dd和Caa;「就」為Daa和Dd;「才」為Daa。暫且不論這些詞都可能有表示評價的用法(可以視為引伸附帶的功能),只論其他的用法。這其中「就」和「才」的Daa用法因為功能明確,可以勿論。其他在歸類上都不無問題。

「也」電子詞典歸入Dbb,這是表示評斷的副詞。但「也」用在如「他吃你也吃」「也有風也有雨」這種句子是很常見的,卻很難看得出有什麼評斷意味。傳統上「也」比較常見的是歸於範圍副詞,因為至少可以說是以述語為其論元。

「又」分別列入Dd和Caa固然也是一法。不過把和時間無關的「又」列入Caa卻不見得理想,因為「又」一般是不放在主語之前的,所以應該列為副詞。如「他又肥又胖」「草兒又長,馬兒又肥」。把「又」放在關連副詞中,可以統合有時間關涉及無時間關涉的兩種用法,而且可以避免歸作連詞的問題。

「就(便)」「才」都可涉及時間,但是只有「就」列了時間副詞Dd的類,其實「才」也有涉及時間的用法。如「他才到」。另外,「就(便)」「才」都有表示條件而和時間無涉的用法,現有體系卻無處可放。如「這樣才對」「這樣就對了」。我們認為,把「就(便)」「才」放在關連副詞中,也可以統合有時間關涉及無時間關涉的兩種用法。

我們把這些詞歸入關連副詞,也是過去有人使用過的辦法。這個歸類法不但可以強調它聯絡句子的特徵,而且可以避免某些歸類上可東可西的困擾。

T1(預留類)動詞詞尾:表動貌。如「了」「著」「過」「將」等。

T2.(預留類)「的(底)」「之」:附綴於名詞修飾語的詞。「之」其實和「的(底)」功能有所差別,後面一定得有中心語名詞。

[T3].「得(的)」:表示可能性的動詞後綴,或作為引介補語的連接詞。如「曉得」(比較「曉不得」)「打得著」「娶得他起」「吃得口滑」。

[T4].位在描繪情狀的詞語之後的: 如「地(的)」「裏」「價」「也似」「似的」「一樣」「一般」等。

[T5].可附在從句或狀語後,表示條件、時間、原因等的:「時」「(的)時節」「的時候兒」「的話」「上」「起見」「來」「以來」。如「若是死時,與你們同死」「他去腰裏摸時,搭膊和書都不見了」「為此上」「九歲上」。

[T6].位在名詞或名詞組之後,表示複數的:如「們」「等」「等等」「之類」等。這一類如果位在一般名詞後就獨立為詞,在代詞後則合併為一個分詞單位(如「我們」「我等」)。

[T7].位在數詞之後的:如表約數或餘數的「來」「餘」「多」。我們把數字的組合也當作詞組,因此這幾個語素也視為附屬詞,因此獨立為詞。如「五百來個」。

[T8]「者」「所」:「者」「所」可分析為代詞性的附屬詞。除了部分附著在單

詞後的「者」與其所附著的詞合列為詞外,「者」原則上獨立為詞。

[]擬聲詞

成語諺語

1.擬聲詞

另外獨立分類的理由:

(1)很難納入現有的詞類中(以作定語和狀語最多)。

(2)變異太多,即使勉強納入現有的詞類中,和別類混在一起定性或統計,也沒有多大意義。如果獨立分類,在統計時可以視情況來取捨。

2.成語、諺語、引詩詞、引古語

除了四字格的成語可以比較活用於句子中,其他較長串的諺語、詩詞、古語,無論是內部或對外都沒有標示詞類的價值,可以整串用一個符號來標示(其中有標點符號的,可看清況用feature來連繫)。至於四字格的成語的語法功能大致一定,是否併入其他詞類不是很重要。假如要想對固化的成語另作研究,也可以獨立出一類來。

三、內容有更動的類

詞類標注的不一致有的只是個別詞實際歸類的不同而非分類不同,但也有因對類別定義有所更動而導致部分詞歸類的不同。

如[Dl] 關連副詞:如「也」「又」「就」「便」「才」。

Dcd取消

T

四、個別詞在詞類上的變動

「來」「去」不標D

五、關於語法特徵

(一)名物化的徵性處理辦法的差別

標 [+nom] 的名化動詞將只限於不後接賓、補語和前面無狀語修飾的。如現代漢語組「學生的不(D)合作(VH)[+nom]」,我們只標作「學生的不(D)合作(VH)」。

對於「有些」「有一些」「有點」「有一點」,無論它是在動詞前還是在名詞前,我們的分詞都是一致的,也就是都把「有」和「些」「一些」「點」「一點」分為不同的詞。因此如現代漢語組的「他 有一些(Dfa) 瘋狂(VH)」將改分析為「他 有(V-2) 一些(Neqa) 瘋狂(VH)[+nom]」。其中「瘋狂(VH)」的[+nom]也可以不採用。

此外,如「快快說明白」「聒絮不住」中的「明白」「不住」在「個」後頭,有些像是名物化,但我們暫時還是不加上[+nom]的特徵。

(二)可分離結構的語法特徵

述補複合詞、述賓複合詞語法特徵在標記上的的異同已如上述。近代漢語還有似乎把並列複合詞分離開來的一種現象。如「沒」「沒」「有」。這種現象雖不經見,但在分詞和詞類標注上總是應給與適當處理的。我們覺得應可分為四個分詞單位,而把其中分離開來的並列複合詞標上同樣的詞類和加上語法特徵(只是尚無現成的語法特徵可資利用)。

近代漢語詞類標注簡表

文檔上標注的類別和詞庫現代漢語組有異者下加線。

Angel [A] 非謂形容詞。 是純粹的形容詞,不具述語作用。例:公共、共同。

[Caa] 並列連接詞,類連接詞多半同時具有介詞的特性。例:與。

Cab (刪除,改歸T6)

[Cb] 句子連接詞。這一類原包括Cba和Cbb兩類。原Cba類如雖然、因為、即使、只有(原 來的「時」「的話」和「起見」等改歸T5);原Cbb類如:雖、不但、可是、 所以、那麼、否則、而且。

Cbb(刪除,和Cba合併為Cb)。

[Daa] 表範圍和數量的副詞。例:就、才、只、光、不過、約、正好、約、僅僅。

[Dab] 表範圍和數量的副詞,不可以直接修飾名詞組。例:都、通、一。

[Dba] 法相副詞。例:也許、大概、一定、:必須、可以、得。

[Dbb] 表示說話者的評斷的副詞。例:幸虧、果然。

[Dc] 表否定的副詞。包括:未、沒有、沒、不。

[Dd ] 時間副詞。例:先、立刻。

[Dfa] 動詞前程度副詞。例:很、非常。

[Dfb] 動詞後程度副詞。例:得很、之至。

[Dg] 地方副詞。例:處處、到處。

[Dh] 方式副詞。例:逐一、從頭、一起。

[Di] 標誌副詞。幾乎都緊接在動詞之後,表現時態。例:了、過、著、將(如「走 將出去」的「將」)。(建議此類將來歸在T1)

[Dj] 疑問副詞。例:可、為什麼、幹麼。

[Dk] 句副詞。有轉變或連接語氣的功能。例:總之、據說。(建議此類將來改歸 Cc,可改稱為「語段連詞」)

[Dl] 關連副詞:如「也」「又」「就」「便」「才」「卻」。

[DE] 即:的、底、之。(建議此類將來改隸T2)

[ I ] 感歎詞。表示說話者的口氣或態度的獨用語式。例:啊、喂、唉。

[Na] 名詞。例:泥土、鹽、水、牛肉;桌子、杯子、衣服、刀;夢、話、原因、 勾當;風度、香氣;三餐、五臟六腑、四肢;車輛、船隻、夫妻。

[Nb] 專有名稱。例:賈寶玉、崔寧、詩經、心宿;張、王、李。

[Nc] 地方名詞。例:蘇州、臨安;府衙、市場、學校、村莊;海外;四海、當地。

Ncd(刪除)

[ Nd] 時間名詞。例:西漢;天寶;辛未;春天;十二月、臘月;六日、冬至;傍 晚、大清早;過去、從前、當初;以後、後來、將來;現在、當今、眼前。

[Neu] 數詞(原Neu):數字和代數字。例:三、幾、好幾、甲。

[Nes] 特指定詞(原Nes):具有特指(Specific)意義的定詞,不能單獨出現,可 以直接修飾名詞。例: 某、該、本、同、第。

[Nep] 指代定詞(原Nep):例:這、那、哪、其、箇。

[Neqa] 數量定詞(原Neqa):除了修飾中心語外,還可出現在論元位置(因中心 語省略)、狀語位置。例:許多、一些。少部分還可當補語。例:她漂亮了 許多

Neqb:(刪除,改歸T7)

[Nf] 量詞。用以計量的連用語位,常和定詞構成定量式詞組。

[Ng] 方位詞。經常前接一個詞組形成時間成分或表情況的成分。例:例:有天 堂;上頭、中間、左方、西北;夜、三百人以上

[Nh] 代詞。「我」「你」「他」;自己;您、足下、令尊(?)、本人、賤內、 小犬;「誰」「什麼」「甚麼」「啥」;之。

[P] 介詞。用以引介一個角色,作動詞的修飾成分或必要論元。

[SHI] 即:是。

[ T ] 語助詞。附加於詞組或句子後的連用詞。.了;.沒、沒有、未、而已、罷了、 也罷、著、來、去;.呀、哇、那、呢、哩、麼、嘔、誒、囉、嘍、吧、罷、 則箇;嗎、否、不、無、與否、哉、耶、矣、啵、云云。

T1(預留類)動詞詞尾:表動貌。如「了」「著」「過」「將」等。

T2.(預留類)「的(底)」「之」:附綴於名詞修飾語的詞。

[T3].「得(的)」:表示可能性的動詞後綴,或作為引介補語的連接詞。如「曉 得」(比較「曉不得」)「打得著」「娶得他起」「吃得口滑」。

[T4].位在描繪情狀的詞語之後的: 如「地(的)」「裏」「價」「也似」「似的」 「一樣」「一般」等。

[T5].可附在從句或狀語後,表示條件、時間、原因等的:「時」「(的)時節」 「的時候兒」「的話」「上」「起見」「來」「以來」。

[T6].位在名詞或名詞組之後,表示複數的:如「們」「等」「等等」「之類」等。

[T7].位在數詞之後的:如表約數或餘數的「來」「餘」「多」。

[T8]「者」「所」:「者」「所」可分析為代詞性的附屬詞。

[VA] 動作不及物動詞。這類動詞只需要一個名詞組參與論元即可。例:跑、飛、 走;坐、躺;上臺、出場;下雨、颳風、打雷;謀生。

[VAC] 作格動詞。論旨角色為客體(theme),動詞前可有一個肇始者(causer),

原來出現在動詞前的客體移到賓語的位置。 例:出動、轉。

[VB] 動作類單賓動詞。語意上需要兩個參與論元,但它的賓語不能直接出現在動 詞後,而以介詞引介或賓語前提的方式出現。例:求婚、拜年;充公、除名。

[VC] 動作單賓動詞。語意上需要兩個參與論元。例:打、學、使用、破壞、照顧; 買、賺、吃、組織、收取、洩露;押送、放、埋、懸掛、儲存、囚禁。

[VCL] 表移動或存在的動詞。主語為客體(theme),賓語為表地方的終點(goal)。 例:進、闖入、經過、逃離、住、世居。

[VD] 雙賓動詞。這類動詞在語意上有傳遞事物的動作訊息,需要三個參與論元。

例:寄、送、捐;搶、索取。

[VE] 動作句賓動詞。後接句賓語的動作及物動詞。例:責問、詢問;許諾、指引: 悲歎、自誇、下令、研究、討論、探索、反省、猜想、說。

[VF] 動作謂賓動詞。後接動詞組賓語的動作及物動詞。例:企圖、想、打算;任 用、勸。

[VG] 分類動詞。擔任主語和補語間連結的角色。例:稱呼、喊、命名;姓、當。

[VH] 狀態不及物動詞。用以描述事物所呈現的狀態,這類動詞只需要一個論元即 可。例:動聽;大、高、慢;瀰漫、矗立;夠、適合;丟、瞎、斷;心酸。

[VHC] 作格動詞。例:辛苦、豐富、穩固;震驚、為難、急煞、感動。

[VI] 狀態類單賓動詞。語意上需要兩個參與論元,但它的賓語不能直接出現在動

詞後,而以介詞引介或賓語提前的方式出現。例:心動、灰心、傾心;內行、

不利、為例;受教、取材、取決。

[VJ] 狀態單賓動詞。這類動詞在語意上需要兩個參與論元。例:迎合、代表;景

仰、惦念、嫌忌;長達、剩餘。

[VK] 狀態句賓動詞。後接句賓語的狀態及物動詞。例:不滿、嫌惡;反應、干係。

[VL] 狀態謂賓動詞。後接動詞組的狀態及物動詞。例:甘願;輪、該;使、讓。

[V_2] 即「有」。


近代漢語詞類說明(據中研院詞庫計劃現代漢語組的「詞類分析總表」修訂)

分類大綱

這裡詞類的分類主要是根據中研院詞庫計劃現代漢語組的「詞類分析總表」再酌予增減而成的。

體詞(N),體詞通常出現在主語或賓語的位置。(依其語意、作用分八類)

動詞

動詞,是述語中心。(依動作/狀態、及物性、論元個數以及動詞後接成分的詞組形式分為十二大類)

非謂形容詞

3. 副詞,主要用作述語的修飾語。

[ I ] 感歎詞。表示說話者的口氣或態度的獨用語式。例:啊、喂、唉。

象聲詞

Angel [A] 非謂形容詞

是純粹的形容詞,不具述語作用,可以修飾名詞或副詞。例:公共、共同。

例句:

[Caa] 並列連接詞(相當原Ca類,但不包括「等」「之類」等)

連接兩個詞性相似的成分形成向心式結構,其中每一個成分的功能都跟整個結構相同。

類連接詞多半同時具有介詞的特性。例:與、和、同、跟。

2.2.關聯連接詞,是能夠把幾個分句連成複句形式的連接詞。(原Cb)(下分二類)

[Cba] 偏正句句尾連接詞。(原Cbab)這一類如「時」「時節」「的時候」和「起見」。

[Cbb] 偏正句連接詞。(下分三類)

1.偏正句移動性連接詞。(原Cbaa)為移動性前繫連接詞,語意上具起頭作用,後面常須接一個分句,其所在分句可能移位至複句的後半段。例:雖然、因為、即使、只有。

2.非移動性前繫連接詞。語意上具起頭作用,後面常須接一個分句,位置固定在前一分句。(原Cbb)(下分兩類)

a.偏正句非移動性前繫連接詞。(原Cbba)例:雖、既、就是。

b.聯合句前繫連接詞。(原Cbbb)例:不但、一來。

3.後繫連接詞,能將一個分句聯繫於前一個句子的連接詞。(原Cbc)(下分兩類)

a.偏正句後繫連接詞。(原Cbca)例;可是、所以、那麼、否則。

b.聯合句後繫連接詞。(原Cbcb)例:而且、二來。

◎若、可中(=如果)

[Daa] 表範圍和數量的副詞。例:就、才、只、光、不過、約、正好、約、僅僅。

◎俱

◎只(止、祇)、單、單單、光、惟

◎又、

[Dab] 表範圍和數量的副詞,不可以直接修飾名詞組。例:都、通、一概、也。

◎都、

◎但

◎也。

[Dba] 法相副詞。(原Dba)

a.推測用法。(原Dbaa)例:也許、大概、可能、一定。

b.義務用法。(原Dbab)例:必須、可以、得。

◎定、一(以、已)定、必、必定、是(事、勢)必、務、務必、須、消、管取。

◎莫、莫是、莫非

[Dbb] 表示說話者的評斷的副詞。例:幸虧、果然。

詞例:

◎難道、豈、不成、終不成、沒地(的、得)、沒地裏、不到(道)得(的、底)。

◎幸、早是、虧不盡

◎果然

◎anyway反正、脫不了(=反正)、高低、好歹、○

◎卻、可(=卻)

例句:

不成日後倒要替你們吃官司!(水滸傳)○沒地裏倒把我撥回陽穀縣去不成!(水滸傳)○押司便誤了些公事,知縣相公不到得便責罰你!(水滸傳)

[Dc] 表否定的副詞。包括:未、沒有、沒、不。

◎別、不、休、沒、別要、沒曾、不曾、莫。

[Dd ] 時間副詞。

例:先、立刻。

時段:

相對的時點:

◎已、已經、早、早(是)、早已。

◎曾、

◎方纔(才)、適纔(才)、適間、剛、剛刪、剛纔(才)、

◎將、將次、行將、方待。

◎正、在、正在。待中

◎常、常常、時、時時、時常、常時、時刻、尋常、通常。再、再三、再四。

◎還、依然、尚然、仍舊、兀自。

◎先

◎一向、向來、從來。

[Dfa] 動詞前程度副詞。例:很、非常。

◎許多、多、多少

◎好、好生、老、怪、煞、極、十分、著實、儘、忒、甚、稍、略略的、、幾可裏(=差不多)、越、越發、較。

[Dfb] 動詞後程度副詞。例:得很、之至、。

◎得慌、之極。

[Dg] 地方副詞。例:處處、到處。

◎一地裏、

[Dh] 方式副詞。例:逐一、從頭、一起。

◎這麼(們)、這等、這般、這樣、恁般、恁樣、如許。

[Di] 標誌副詞。幾乎都緊接在動詞之後,表現時態。例:了、過、著、將(如「走

將出去」的「將」)。(建議此類將來歸在某個T類)

◎了、著、仔(子)、過、將。

例句:

◎走將出去()○

[Dj] 疑問副詞。例:為什麼、幹麼。

◎可、可是、敢、還。

◎怎(爭)、怎地(的)、怎麼、怎生、怎樣、怎麼樣、作什麼、因甚、為甚、

為甚麼、為怎麼、

◎是否、能否、應否、可否、曾否、有無、

[Dk] 句副詞。有轉變或連接語氣的功能。例:總之、據說。

[Dl] 關連副詞:如「也」「又」「就」「便」「才」「卻」等。

這些詞都可能有表示評價的用法(可以視為引伸附帶的功能)。「就」和「才」另有Daa用法。

「也」電子詞典歸入Dbb,這是表示評斷的副詞。但「也」用在如「他吃你也吃」「也有風也有雨」這種句子是很常見的,卻很難看得出有什麼評斷意味。傳統上「也」比較常見的是歸於範圍副詞,因為至少可以說是以述語為其論元。

「又」分別列入Dd和Caa固然也是一法。不過把和時間無關的「又」列入Caa卻不見得理想,因為「又」一般是不放在主語之前的,所以應該列為副詞。如「他又肥又胖」「草兒又長,馬兒又肥」。把「又」放在關連副詞中,可以統合有時間關涉及無時間關涉的兩種用法,而且可以避免歸作連詞的問題。

「就(便)」「才」都可涉及時間,但是只有「就」列了時間副詞Dd的類,其實「才」也有涉及時間的用法。如「他才到」。另外,「就(便)」「才」都有表示條件而和時間無涉的用法,現有體系卻無處可放。如「這樣才對」「這樣就對了」。我們認為,把「就(便)」「才」放在關連副詞中,也可以統合有時間關涉及無時間關涉的兩種用法。

我們把這些詞歸入關連副詞,也是過去有人使用過的辦法。這個歸類法不但可以強調它聯絡句子的特徵,而且可以避免某些歸類上可東可西的困擾。

例句

近代漢語中有些方言的關連副詞可以放在主語之前,用法有如連詞。這樣的用法的條件限制為何,還有待進一步研究。如果單獨使用或與其他副詞合用,我們仍歸作副詞。如:

也就大家不言語了(醒世姻緣)○便事體大不好了(醒世姻緣)○他合了別的學生同(醒世姻緣)○卻又晁源漸覺減了病症(醒世姻緣)

但如果和連詞合用,則視為連詞。如:

況又他處心不善(醒世姻緣)

用於轉折句的「可」的來源可能和「卻」有關,但是用在主語前卻比「卻」為常見。因此歸類為連詞。如:

○你給他,他媳婦見著沒?(醒世姻緣)○他那時腿好,他也不自家賣(醒世姻緣)○

4. [DE] 即:的(底)、之。

近代漢語「底」「得」「地」是三種功能不同的虛詞,但在元明時這三種在語音上已逐漸化約為「的」。的(底)

5. [ I ] 感歎詞。表示說話者的口氣或態度的獨用語式。例:啊、喂、唉。

6. 體詞(N),體詞通常出現在主語或賓語的位置。(依其語意、作用分八類)

6.1. [Na] 名詞。(下分五類)

1.物質名詞,是不可數的實體名詞。(原Naa)例:泥土、鹽、水、牛肉。

2.個體名詞,是可數的實體名詞,可受個體量詞修飾。(原Nab)

例:桌子、杯子、衣服、刀。

3.可數抽象名詞,是可數的非實體名詞。(原Nac)例:夢、話、原因、勾當。

4.抽象名詞,是不可數的非實體名詞。(原Nad)例:風度、香氣、愛心、馬後砲。

5.集合名詞:這類名詞(1)不能指涉個體,只能指涉複數,且(2)不可以受個體量詞修飾,又依是否受定量式複合詞修飾分二類。(原Nae)

(1)不能加任何定量式詞組來修飾的集合名詞。(原Naea)

例:三餐、五臟六腑、四肢。

(2)可用定量式詞組來修飾。(原Naeb)

例:車輛、船隻、夫妻。

6.2. [Nb] 專有名稱。(下分兩類)

1.正式專有名稱,包含時間、地方以外的專有名稱。(原Nba)

例:晁源、賈寶玉、崔寧、詩經、心宿。

2.姓氏。(原Nbc)例:張、王、李。

6.3. [Nc] 地方名詞。(下分四類)

1.專有地方名詞,特指某一地方、行政單位或機構,通常不能用定量式複合詞來修飾。(原Nca)例:蘇州、臨安。

2.普通地方名詞,可以用定量式詞組來修飾。(原Ncb)

例:府衙、市場、學校、村莊。

3.名方式地方名詞。例:海外、身上、腳下。(原Ncc)

4.定名式地方名詞。(原Nce)例:四海、當地。

Ncd(刪除)

6.4. [ Nd] 時間名詞。(下分三類)

1.時間名稱(原Nda)(下分兩類)

(1)歷史性的時間名稱(原Ndaa)(下分四小類)

a.特指的時代名稱。(原Ndaaa)例:洪荒時代。

b.朝代名稱。(原Ndaab)例:唐朝、西漢。

c.歷代帝王的年號名稱。(原Ndaac)例:乾隆、光緒、天寶。

d.年份名,用以計數年份的紀元。(原Ndaad)例:公元、西元。

(2)可循環重複的時間名稱(原Ndab)(下分六小類)

a.年稱。(原Ndaba)例:今年是「辛未」年。

b.季節,即春、夏、秋、冬四季。(原Ndabb)例:今年「春天」雨水多。

c.月份名稱。(原Ndabc)例:「十二月」又叫「臘月」。

d.日期。(原Ndabd)例:三月「六日」、冬至。

e.日以內的時間名稱。(原Ndabe)例:傍晚、大清早。

f.時期,指一段時間。(原Ndabf)例:年假、春節。

2.名方式時間名詞,由附著語位的時間成分加上方位詞複合而成。(原Ndc)

例:年底、週末、日後。

3.副詞性時間詞(原Ndd)(以下分三類)

(1)表過去的副詞性時間詞。(原Ndca)例:過去、從前、當初。

(2)表將來的副詞性時間詞。(原Ndcb)例:以後、後來、將來。

(3)表現在及其他的副詞性時間詞。(原Ndcc)例:現在、當今、眼前、近來、適纔(才)、適間、恰纔(才)。

6.5. 定詞(原Ne),用以表示物品的指涉或物品的數量。依語意和語法特性,細 分為以下五類:

[Neu] 數詞定詞(原Neu):純數字、及序數數詞,例:三、百、幾、好幾、甲。

[Nes] 特指定詞(原Nes):具有特指(Specific)意義的定詞,不能單獨出現,可以直接修飾名詞。例: 某、該、本、同、第。前、後、上。前一日、前一回、上回。

[Nep] 指代定詞(原Nep):除了定語,另有代詞功能。例:這、那、哪、什麼、啥、其、箇。

[Neqa] 數量定詞(原Neqa):除了修飾中心語外,還可出現在論元位置(因中心語省略)、狀語位置(主語和謂詞之間)。例:許多、百分之五十、三分之一、五成三。

少部分還可當補語。例:她漂亮了許多

[Neqb] 後置數量定詞(原Neqb):嚴格說,這類詞並不符合定詞的定義,只是它的用法都接在量詞之後,暫時將它們放在此類。

例:三點、五十歲出頭、兩丈

6.6. [Nf] 量詞。用以計量的連用語位,常和定詞構成定量式詞組。

1.個體量詞,表示每一個名詞所屬的專門單位詞。(原Nfa)

例:一「張」桌子、一「個」杯子、一「件」衣服、一「把」刀子。

2.跟述賓式合用的量詞,放於動詞與賓語之間。(原Nfb)

例:下一「盤」棋、寫一「手」好字、說一「口」標準國語。

3.群體量詞,語義上能標示出一組或一群的物體。(原Nfc)

例:一「對」夫妻、一「雙」筷子、一「副」耳環、一「群」鴨子。

4.部分量詞,表示事物的部分而非整體的概念。(原Nfd )

例:一「部分」原因、一「節」甘蔗、一「段」文章、一「些」事情。

5.容器量詞,用器皿式的名詞來作量詞,表示概括性的容量。(原Nfe)

例:一「箱」書、一「櫃子」衣服、一「盤」水梨、一「碗」飯。

6.暫時量詞,是以名詞作量詞,加在定詞後面。(原Nff)

例:一「肚子」牢騷、一「頭」秀髮、一「鼻子」灰、一「地」落葉。

7.標準量詞,是正規的量詞,為名副其實的量詞。(原Nfg )包括:

長度單位。例:尺、寸、丈。

面積單位。例:頃、畝。

重量單位。例:斤、兩。

容量單位。例:升、斗。

時間單位。例:分、時、刻。

錢幣單位。例:錢、兩。

數量單位。例:刀、令。

能量單位。例:馬、牛、炬。

8.準量詞,由名詞轉化而來的單位化量詞,是獨立自主的,它不是後頭名詞的量詞。(原Nfh)例:國、面、撇。

9.動詞用量詞,是動作動詞的量詞,表示動作發生的次數。(原Nfi)

例:看一「遍」、摸一「下」。

6.7. [Ng] 後置詞。它是一個附著成分,前接一個詞組形成時間成分或表情況的成分。例:睡覺「之前」、夜「裡」、三百人「以上」。

表事物相對位置的地方詞。大部分由獨用的方位詞或方方式或定方式複合詞構成 (下分二小類)。(原Ncd

1.單音節位置詞,其後不能加「的」。(原Ncda)例:「上」有天堂。

2.雙音節位置詞。(原Ncdb)例:上頭、中間、左方、西北。

6.8. [Nh] 代名詞。(下分三類)

1.人稱代名詞(原Nha)(下分三小類)

(1)常用的人稱代名詞,是「我」「你」「他」及其複數式、同義詞。(原Nhaa)

◎「我」「俺」「咱」「你」「恁」「他」「我們(每)」「咱們」「你們(每)」「他們(每)」。

(2)一般的人稱代名詞,可與第一、二、三人稱同位並列。(原Nhab)例:自己。

◎自家、自己、別、別人、大家。

(3)特別的人稱代名詞,有所專指的代名詞。(原Nhac)

例:您、足下、令尊、本人、賤內、小犬。

2.疑問代名詞,包括「誰」「什麼」及其別體「甚麼」「啥」等。(原Nhb)

3.泛指代名詞,可通用於人、物的代名詞。(原Nhc)例:之、其。

7. [P] 介詞。用以引介一個角色,作動詞的修飾成分或必要論元。(依介詞組所可能表示的角色、介詞對其論元之語意及語法限制的不同分為六十五類)

◎把、將、拿。

◎被、叫(教)、著、使、喫、把、與。

◎似、如、起、過。

◎與、和、合、同、連。

◎for 與、合、替。

◎在

◎到

◎、向、就、對著、去、。

◎從、打、打從、自從、自。

8. [SHI] 即:是、係、為。

9. [ T ] 語助詞。附加於詞組或句子後的連用詞。(依語助詞間共存的次序分為四類)

1.了。(原Ta)

2.沒、沒有、而已、罷了、也好、也罷、云云、等等、之類、爾爾、著、來。(原Tb)

3.啊、呀、哇、哪、吶、呢、哩、喲、唷、嘛、嚜、麼、哦、喔、嘔、誒、耶、 囉、嘍、吧、罷、啦、咧、則箇。(原Tc)

4.了麼、了否、而已嗎、啦云云、咧云云、嗎、否、不、與否、哉、耶、矣、 啵。(原Td)

  如果有一個以上的語助詞一起出現,其先後的順序依序為:Ta,Tb,Tc。Td 不與前三類共存。

◎了、麼(摩、無、否、沒)、呢、哩(俚、里、裏)、咱、則箇、著、休、來、來著、去、罷、罷了、也、呀(啞)、那、哇、喲、囉、嘍、啦、哉、來哩、罷麼、罷呢、罷呀、哩麼、云云、爾爾。

T1(預留類)動詞詞尾:表動貌。如「了」「著」「過」「將」等。

T2.(預留類)「的(底)」「之」:附綴於名詞修飾語的詞。

[T3].「得(的)」:表示可能性的動詞後綴,或作為引介補語的連接詞。如「曉 得」(比較「曉不得」)「打得著」「娶得他起」「吃得口滑」。

[T4].位在描繪情狀的詞語之後的: 如「地(的)」「裏」「價」「也似」「似的」 「一樣」「一般」等。

[T5].可附在從句或狀語後,表示條件、時間、原因等的:「時」「(的)時節」 「的時候兒」「的話」「上」「起見」「來」「以來」。

◎若發了病的時侯兒,拏出來吃一丸。(紅樓夢)

[T6].位在名詞或名詞組之後,表示複數的:如「們」「等」「等等」「之類」等。

[T7].位在數詞之後的:如表約數或餘數的「來」「餘」「多」。

[T8]「者」「所」:「者」「所」可分析為代詞性的附屬詞。

10. 動詞,是述語中心。(依動作/狀態、及物性、論元個數以及動詞後接成分的詞組形式分為十二大類)

[VA] 動作不及物動詞。這類動詞只需要一個名詞組參與論元即可。(依論旨角色、語意特性的不同分為三類)

1.表移動或存在的動詞,論旨角色為客體(theme)。(原VA1)(依語意及內部結構的不同分為三類)

(1)表移動或行動的動詞,可後接地方成分,有主語倒置的現象。(原VA11)

例:跑、飛、走。

(2)表存在或靜態的動詞,可後接地方成分,有主語倒置的現象。(原VA12)

例:坐、躺。

(3)內部結構為述賓結構且賓語為表地方成分的行動動詞。(原VA13)

例:逛街、上臺、出場。

2.氣象動詞,論旨角色為客體(theme)。(原VA3)

例:下雨、颳風、打雷。

3.一般的動態動詞,論旨角色為主事者(agent)。(原VA4)

例:違規、謀生、開會。

[VAC] 作格動詞。論旨角色為客體(theme),動詞前可有一個肇始者(causer),

原來出現在動詞前的客體移到賓語的位置。(原VA2) 例:出動、轉。

[VB] 動作類單賓動詞。語意上需要兩個參與論元,但它的賓語不能直接出現在動詞後,而以介詞引介或賓語前提的方式出現。(依論旨角色的不同分為兩類)

1.賓語為動作施行的對象,其角色為終點(goal)。(原VB1)(依句型的不同分為兩類)

(1)終點一定要以介詞引介出現在動詞前或後。(原VB11)例:求婚、拜年。

(2)終點可以是名詞組出現在主語位置。(原VB12)例:立案、整容、解體。

2.賓語的角色為客體(theme)。(原VB2)例:充公、除名、送醫。

[VC] 動作單賓動詞。語意上需要兩個參與論元。(依論旨角色的不同分為三類)

1.以主事者(agent)為主語,終點(goal)為賓語。(原VC2)

例:打、學、訪問、使用、破壞、照顧。

2.以主事者(agent)為主語,客體(theme)為賓語。(原VC3)(依句型的不同分為三類)

(1)動詞後除了賓語外不需再接一個地方成分。(原VC31)

例:買、賺、吃、生產、組織、收取、洩露。

(2)動詞後除了賓語外,通常還接一個由介詞「到」引介的地方詞。(原VC32)

例:走私、引渡、調遣、押送、發射、搭載。

(3)動詞後除了賓語外,通常還接一個由介詞「在」或「到」引介的地方詞,而且有地方詞倒置的現象。(原VC33)

例:放、埋、懸掛、儲存、搭建、囚禁。

[VCL] 表移動或存在的動詞。主語為客體(theme),賓語為表地方的終點(goal)。(原VC1)例:進、闖入、經過、逃離、住、世居。

[VD] 雙賓動詞。這類動詞在語意上有傳遞事物的動作訊息,需要三個參與論元。(依間接賓語的論旨角色的不同分為兩類)

1.表將一事物傳遞給對方的動詞,主事者(agent)具有起點特徵(+source),間接賓語是終點(goal)。(原VD1)例:寄、送、捐。

2.表向對方取得一事物,主事者(agent)具有終點的特徵(+goal),間接賓語是起點(source)。(原VD2)例:搶、敲詐、索取。

[VE] 動作句賓動詞。後接句賓語的動作及物動詞。(依論元個數的不同分為兩類)

1.三元動詞。(原VE1)(依語意上的不同分為「問類」及「說類」兩類)

(1)問類(原VE11),以主事者(agent)為主語,以終點(goal)為間接賓語,客體(theme)為直接賓語 (句賓語),句賓語為疑問句式,且疑問範圍只到包接句。 例:責問、詢問。

(2)說類(原VE12),和VE11的論旨角色相同,不同的是:

a. VE12的句賓語不限於疑問句。

b.句賓語的疑問範圍不限於包接句。

c.主語或間接賓語與句賓語之主語間可有共指關係。

例:提示、許諾、指引。

2.二元動詞,以主事者(agent)為主語,終點(goal)為句賓語,語意多為表語言行為之動詞。(原VE2)

例:悲歎、自誇、下令、研究、討論、探索、反省、強調、猜想、說、提到。

[VF] 動作謂賓動詞。後接動詞組賓語的動作及物動詞。(依論元個數的不同分為兩類)

1.二元動詞,以主事者(agent)為主語,終點(goal)為賓語,語意多含有「打算」之意。(原VF1)

例:企圖、想、打算。

2.三元動詞,以主事者(agent)為主語,後帶一個終點(goal)的名詞組賓語,再帶一個表客體(theme)的動詞組賓語。其中這個名詞不但是主要動詞的賓語,也是動詞組賓語的主語,是一般所謂的「兼語式」動詞,此類動詞語意多表「鼓勵」、「命令」、「強迫」、「請求」。(原VF2)

例:任用、勸。

[VG] 分類動詞。擔任主語和補語間連結的角色。(依論元個數的不同分為兩類)

1.三元動詞,這類動詞帶有主事者(agent)、客體(theme)和範圍(range)三個論元。(原VG1)

例:稱呼、喊、命名。

2.二元動詞,典型的分類動詞,帶客體(theme)和範圍(range)兩個論元。(原VG2)例:姓、當。

[VH] 狀態不及物動詞。用以描述事物所呈現的某種狀態,這類動詞只需要一個參與論元即可。(依論旨角色的不同分為兩大類)

1.論旨角色為客體(theme)。(原VH1)(依句型的不同分為六類)

(1)一般的不及物動詞。(原VH11)例:動聽、浪漫、特別。

(2)能夠後接定量詞表示量度的動詞。(原VH12)例:入超、增值、淨重。

(3)能夠後接比較對象及兩者差額的動詞。(原VH13)例:大、高、慢。

(4)可以後接地方成分,有地方詞倒置句型。(原VH14)例:瀰漫、矗立。

(5)可以以句子作為主語,且可將句子移至動詞後。(原VH15)例:值得、夠、適合。

(6)動詞前可有一個接受者(recipient),是客體(theme)的擁有者。(原VH17)例:丟、瞎、斷。

2.論旨角色為經驗者(experiencer)。(原VH2)

(1)非作格動詞。(原VH21)例:心酸、想不開。

[VHC] 作格動詞。又可分兩類:

1.作格動詞,動詞前可有一個肇始者(causer),原來動詞前的客體(theme)移到一般賓語的位置。(原VH16)例:辛苦、豐富、穩固。

2.作格動詞,動詞前可有一個肇始者(causer),原來動詞前的經驗者(experiencer)移到賓語的位置。(原VH22)例:震驚、為難、急煞、感動。

y[VI] 狀態類單賓動詞。語意上需要兩個參與論元,但它的賓語不能直接出現在動詞後,而以介詞引介或賓語提前的方式出現。(依論旨角色的不同分為三類)

1.以經驗者(experiencer)為主語,終點(goal)為賓語,表心靈狀態。

(原VI1)例:心動、灰心、傾心。

2.以客體(theme)為主語,以終點(goal)為賓語。(原VI2)

例:內行、不利、為例。

3.以客體(theme)為主語,以起點(source)為賓語。(原VI3)

例:受教、取材、取決。

[VJ] 狀態單賓動詞。這類動詞在語意上需要兩個參與論元。(依論旨角色不同分為三類)

1.以客體(theme)為主語,以終點(goal)為賓語。(原VJ1)

例:迎合、代表。

2.以經驗者(experiencer)為主語,終點(goal)為賓語,表心靈狀態。(原VJ2)例:景仰、惦念、嫌忌。

3.以客體(theme)為主語,以範圍(range)為賓語。(原VJ3)

例:長達、剩餘。

[VK] 狀態句賓動詞。後接句賓語的狀態及物動詞。(依照主語論旨角色的不同分為兩類)

1.以經驗者(experiencer)為主語,以終點(goal)為賓語,表心靈狀態。(原VK1) 例:不滿、嫌惡。

2.以客體(theme)為主語,以終點(goal)為賓語。(原VK2)

例:反應、在於、干係。

[VL] 狀態謂賓動詞。後接動詞組的狀態及物動詞。(依照主語論旨角色或論元個數的不同分為四類)

1.以經驗者(experiencer)為主語,終點(goal)為賓語的二元動詞,表心靈狀態而其語意多表「意願」。(原VL1)例:樂於、甘願。

2.以客體(theme)為主語,終點(goal)為賓語的二元動詞。其語意多表「專門」之意。(原VL2)例:擅長、專門、擅於。

3.不帶主語的二元動詞,後接一個終點(goal)和一個表客體(theme)的動詞組論元。(原VL3)例:輪、該。 其中表客體的動詞組中賓語部分常常會移到輪、該等主要動詞前面的位置。

4.使役動詞,帶肇始者(causer)、終點(goal)、客體角色(theme)的三元動詞。(原VL4)例:使、讓。

[V_2] 即「有」。

表﹑中研院詞庫近代漢語詞類標記集

簡化標記

對應的CKIP詞類標記[1]

A

A

/*非謂形容詞*/

Caa

Caa

/*對等連接詞,如:和、跟*/

Cab

Cab

/*連接詞,如:等等*/

Cba

Cbab

/*連接詞,如:的話*/

Cbb

Cbaa, Cbba, Cbbb, Cbca, Cbcb

/*關聯連接詞*/

Da

Daa

/*數量副詞*/

Dfa

Dfa

/*動詞前程度副詞*/

Dfb

Dfb

/*動詞後程度副詞*/

Di

Di

/*時態標記*/

Dk

Dk

/*句副詞*/

D

Dab, Dbaa, Dbab, Dbb, Dbc, Dc, Dd, Dg, Dh, Dj

/*副詞*/

Na

Naa, Nab, Nac, Nad, Naea, Naeb

/*普通名詞*/

Nb

Nba, Nbc

/*專有名稱*/

Nc

Nca, Ncb, Ncc, Nce

/*地方詞*/

Ncd

Ncda, Ncdb

/*位置詞*/

Nd

Ndaa, Ndab, Ndc, Ndd

/*時間詞*/

Neu

Neu

/*數詞定詞*/.

Nes

Nes

/*特指定詞*/

Nep

Nep

/*指代定詞*/

Neqa

Neqa

/*數量定詞*/

Neqb

Neqb

/*後置數量定詞*/

Nf

Nfa, Nfb, Nfc, Nfd, Nfe, Nfg, Nfh, Nfi

/*量詞*/

Ng

Ng

/*後置詞*/

Nh

Nhaa, Nhab, Nhac, Nhb, Nhc

/*代名詞*/

I

I

/*感嘆詞*/

P

P*

/*介詞*/

T

Ta, Tb, Tc, Td

/*語助詞*/

VA

VA11,12,13,VA3,VA4

/*動作不及物動詞*/

VAC

VA2

/*動作使動動詞*/

VB

VB11,12,VB2

/*動作類及物動詞*/

VC

VC2, VC31,32,33

/*動作及物動詞*/

VCL

VC1

/*動作接地方賓語動詞*/

VD

VD1, VD2

/*雙賓動詞*/

VE

VE11, VE12, VE2

/*動作句賓動詞*/

VF

VF1, VF2

/*動作謂賓動詞*/

VG

VG1, VG2

/*分類動詞*/

VH

VH11,12,13,14,15,17,VH21

/*狀態不及物動詞*/

VHC

VH16, VH22

/*狀態使動動詞/

VI

VI1,2,3

/*狀態類及物動詞*/

VJ

VJ1,2,3

/*狀態及物動詞*/

VK

VK1,2

/*狀態句賓動詞*/

VL

VL1,2,3,4

/*狀態謂賓動詞*/

V_2

V_2

/*有*/

DE

/*的, 之, 得, 地*/

SHI

/*是*/

FW

/*外文標記*/


[1] 斜體詞類,表示在技術報告#93-05中沒有定義,即後來增列的。

Probability for linguists

 

John Goldsmith

April 2001

1. Introduction

Probability is playing an increasingly large role in computational linguistics and machine learning, and will be of great importance to us. If you've had any exposure to probability at all, you're likely to think of cases like rolling dice. If you roll one die, there's a 1 in 6 chance -- about 0.166 -- of rolling a "1", and likewise for the five other normal outcomes of rolling a die. Games of chance, like rolling dice and tossing coins, are important illustrative cases in most introductory presentations of what probability is about. This is only natural; the study of probability arose through the analysis of games of chance, only becoming a bit more respectable when it was used to form the rational basis for the insurance industry. But neither of these applications lends itself to questions of linguistics, and linguists tend to be put off by examples like these, examples which seem to suggest that we take it for granted that the utterance of a word is a bit like the roll of a die -- which it's not, as we perfectly well know.

Probability is better thought of in another way. We use probability theory in order to talk in an explicit and quantitative way about the degree of certainty, or uncertainty, that we possess about a question. Putting it slightly differently, if we wanted to develop a theory of how certain a perfectly rational person could be of a conclusion in the light of specific data, we'd end up with something very much like probability theory. And that's how we should think of it.

Let's take an example. Many of the linguistic examples we consider will be along the lines of what a speech recognition system must deal with, which is to say, the task of deciding (or guessing) what word has just been uttered, given knowledge of what the preceding string of words has been coming out of the speaker's mouth. Would you be willing to consider the following suggestions?
Let us suppose that we have established that the person is speaking English. Can we draw any conclusions independent of the sounds that the person is uttering at this moment? Surely we can. We can make an estimate of the probability that the word is in our desk-top Webster's Dictionary, and we can make an estimate of the probability that the word is "the", and an estimate of the probability that the word is -- let's choose another word -- "telephone". We can be quite certain, in fact, that "the" is the most likely word to be produced by an English speaker; as much as five percent of a speaker's words may be “the”s.

2. Let's take a look at -- or review -- some of the very basics.

We're going to try to look at language from the roll-of-the-die point of view for a little while. It's not great, but it might just be the best way to start.

The very first notion to be familiar with is that of a distribution: a set of (non-negative) numbers that add up to 1.0. In every discussion of probability, distributions play a central role, and one must always ask oneself what is being treated as forming a distribution. Probabilities are always members of a distribution.

Let's consider the roll of a die. There are six results of such a roll, and we typically assume that their probabilities must be equal; it follows that their probabilities must be 1/6, since they add up to 1.0: they form a distribution. We call a distribution in which all values are the same a uniform distribution. We always assume that there is a universe of basic outcomes, and each outcome has associated with it a probability. The universe of basic outcomes is normally called the sample space. The sum of the probabilities of all of the outcomes is 1.0 Any set of the outcomes has a probability, which is the sum of the probabilities of the members of the subset. Thus the probability of rolling an even number is 0.5.

In this simplest case, we took the universe of outcomes to consist of 6 members, the numbers 1 through 6. But this is not necessary. We can take the universe of outcomes to be all possible outcomes of two successive rolls of a die. The universe then has 36 members, and the outcome "The first roll is a 1" is not a single member of the universe of outcomes, but rather it is a subset consisting of 6 different members, each with a probability of 1/36. These six are: (1) The first roll is 1 and the second is 1; (2) The first roll is 1 and the second is 2; …(6) The first roll is 1 and the second is 6. The probability of these 6 add up to 1/6.

It is not hard to see that if a universe consists of N rolls of a die (N can be any positive number), the number of outcomes in that universe will be 6N. (And the probability of any particular sequence is 1/6N, if the distribution is uniform).

Be clear on the fact that whenever we pose a question about probability, we have to specify precisely what the universe of outcomes (i.e., the sample space) is that we're considering. It matters whether we are talking about the universe of all possible sequences of 6 rolls of a die, or all possible sequences of 6 or fewer rolls of a die, for example. You should convince yourself that the latter universe is quite a bit bigger, and hence the probability of any die-roll that is 6 rolls long will have a lower probability in that larger universe than it does in the universe consisting only of 6 rolls of a die.

We have just completed our introduction to the most important ideas regarding probabilistic models. Never lose sight of this: we will be constructing a model of a set of data and we will assign a distribution to the basic events of that universe. We will almost certainly assign that distribution via some simpler distributions assigned to a simpler universe. For example, the complex universe may be the universe of all ways of rolling a die 6 or fewer times, and the simpler universe will be single rolls of a fair, six-sided die. From the simple, uniform distribution on single rolls of a die we will build up a distribution on a more complex universe.

Notation, or a bit more than notation: It should always be possible to write an equation summing probabilities over the distribution so they add up to 1.0:

. You should be able to write this for any problem that you tackle.

We can imagine the universe to consist of a sequence of rolls of a die anywhere in length from 1 roll to (let us say) 100. The counting is a little more complicated, but it's not all that different. And each one of them is equally likely (and not very likely, as you can convince yourself).

Let's make the die bigger. Let us suppose, now, that we have a large die with 1,000 sides on it. We choose the 1,000 most frequent words in a large corpus -- say, the Brown corpus. Each time we roll the die, we choose the word with the corresponding rank, and utter it. That means that each time the die comes up “1” (which is only once in a thousand rolls, on average), we say the word "the". When it comes up "2", we say "of" -- these are the two most frequent words. And so forth.

If we start rolling the die, we'll end up with utterances like the following:

320 990 646 94 756

which translates into: whether designed passed must southern.

That's what this worst of random word generators would generate. But that's not what we're thinking about grammars probabilistically to do – not at all. Rather, what we're interested in is the probability that this model would assign to a particular sentence that somebody has already uttered. Let's use, as our example, the sentence: In the beginning was the word. There are six words in this sentence, and it just so happens that all six are among the 1,000 most common words in the Brown corpus. So the probability that we would assign to this sentence is 1/1000 * 1/1000 * 1/1000 * 1/1000 * 1/1000 * 1/1000, which can also be expressed more readably as 10-18. There are 1,000 = 103 events in the universe of strings of one word in length, and 1,000,000 = 106 events in the universe of strings of 2 words in length, and 1018 events in the universe of strings of 6 words. That is why each such event has a probability of the reciprocal of that number. (If there are K events which are equally likely, then each has the probability 1/K, right?)

I hope it is already clear that this model would assign that probability to any sequence of six words (if the words are among the lexicon that we possess). Is this good or bad? It's neither the one nor the other. We might say that this is a terrible grammar of English, but such a judgment might be premature. This method will assign a zero probability to any sequence of words in which at least one word does not appear in the top 1000 words of the Brown corpus. That may sound bad, too, but do notice that it means that such a grammar will assign a zero probability to any sentence in a language that is not English. And it will assign a non-zero probability to any word-sequence made up entirely of words from the top 1,000 words.

We could redo this case and include a non-zero probability for all of the 47,885 distinct words in the Brown Corpus. Then any string of words all of which appear in the corpus will be assigned a probability of (1/ 47,885 )N, where N is the number of words in the string, assuming a sample space of sentences all of length N. A sentence of 6 words would be assigned a probability of (1/ 47,885)6, which just so happens to be about (2.1 * 10-5)6, or 86 * 10-30. We'll get back to that (very small) number in a few paragraphs.

Or – we could do better than that (and the whole point of this discussion is so that I can explain in just a moment exactly what “doing better” really means in this context). We could assign to each word in the corpus a probability equal to its frequency in the corpus. The word “the”, for example, appears 69,903 out of the total 1,159,267 words, so its probability will be approximately .0603 -- and other words have a much lower probability. “leaders” occurs 107 times, and thus would be assigned the probability 107/1,159,267 = .000 092 (it is the 1,000th most frequent word). Is it clear that the sum of the probabilities assigned to all of the words adds up to 1.00? It should be.

This is very important, and most of what we do from now on will assume complete familiarity with what we have just done, which is this: we have a universe of outcomes, which are our words, discovered empirically (we just took the words that we encountered in the corpus), and we have assigned a probability to them which is exactly the frequency with which we encountered them in the corpus. We will call this a unigram model (or a unigram word model, to distinguish it from the parallel case where we treat letters or phonemes as the basic units). The probabilities assigned to each of the words adds up to 1.0

Table 1: Top of the unigram distribution for the Brown Corpus.

word count frequency

the

69903

0.068271

of

36341

0.035493

and

28772

0.028100

to

26113

0.025503

a

23309

0.022765

in

21304

0.020807

that

10780

0.010528

is

10100

0.009864

was

9814

0.009585

he

9799

0.009570

for

9472

0.009251

it

9082

0.008870

with

7277

0.007107

as

7244

0.007075

his

6992

0.006829

on

6732

0.006575

be

6368

0.006219

s

5958

0.005819

i

5909

0.005771

at

5368

0.005243

(Note that "s" is the possessive s, being treated as a distinct word.)

Now let's ask what the probability is of the sentence "the woman arrived." To find the answer, we must, first of all, specify that we are asking this question in the context of sentence composed of 3 words -- that is, sentence of length 3. Second, in light of the previous paragraph, we need to find the probability of each of those words in the Brown Corpus. The probability of "the" is 0.068 271; prob (woman) = 0.000 23; prob (arrived) = .000 06. These numbers represent their probabilities where the universe in question is a universe of single words being chosen from the universe of possibilities -- their probabilities in a unigram word model. What we are interested in now is the universe of 3-word sentences. (By the way, I am using the word "sentence" to mean "sequence of words" -- use of that term doesn't imply a claim about grammaticality or acceptability.) We need to be able to talk about sentences whose first word is "the", or whose second word is "woman"; let's use the following notation. We'll indicate the word number in square brackets, so if S is the sentence "the woman arrived," then S[1] = "the", S[2] = "woman", and S[3] = "arrived". We may also want to refer to words in a more abstract way -- to speak of the ith word, for example. If we want to say the first word of sentence S is the ith word of the vocabulary, we'll write S[1] = wi. (This is to avoid the notation that Charniak and others use, which I think is confusing, and which employs both subscripts and superscripts on w's.)

We need to assign a probability to each and every sequence (i.e., sentence) of three words from the Brown Corpus in such a fashion that these probabilities add up to 1.0. The natural way to do that is to say that the probability of a sentence is the product of the probabilities: if S = "the woman arrived" then

(1) prob (S) = prob ( S[1] = "the") * prob (S[2] = "woman" ) *

prob ( S[3] = "arrived")

and we do as I suggested, which is to suppose that the probability of a word is independent of what position it is in. We would state that formally:

For all sentences S, all words w and all positions i and j:
prob ( SIdea [I] = wn ) = prob ( S[j] = wn ).

A model with that assumption is said to be a stationary model. Be sure you know what this means. For a linguistic model, it seems reasonable, but it isn't just a logical truth. In fact, upon reflection, you will surely be able to convince yourself that the probability of the first word of a sentence being “the” is vastly greater than the probability of the last word in the sentence being “the”. Thus a stationary model is not the last word (so to speak) in models.

Sometimes we may be a bit sloppy, and instead of writing "prob ( SIdea [I] = wn ) " (which in English would be "the probability that the ith word of the sentence is word number n") we may write "prob( SIdea [I] )", which in English would be "the probability of the ith word of the sentence". You should be clear that it's the first way of speaking which is proper, but the second way is too easy to ignore.

You should convince yourself that with these assumptions, the probabilities of all 3-word sentences does indeed add up to 1.0.

Exercise 1. Show mathematically that this is correct.

As I just said, the natural way to assign probabilities to the sentences in our universe is as in (1); we'll make the assumption that the probability of a given word is stationary, and furthermore that it is its empirical frequency (i.e., the frequency we observed) in the Brown Corpus. So the probability of "the woman arrived" is 0.068 271 * 0.000 23 * .00006 = 0.000 000 000 942 139 8, or about 9.42 * 10-10.

What about the probability of the sentence "in the beginning was the word"? We calculated it above to be 10-18 in the universe consisting of all sentences of length 6 (exactly) where the words were just the 1,000 most frequency words in the Brown Corpus, with uniform distribution. And the probability was 8.6 * 10-29 when we considered the universe of all possible sentences of six words in length, where the size of the vocabulary was the whole vocabulary of the Brown Corpus, again with uniform distribution. But we have a new model for that universe, which is to say, we are considering a different distribution of probability mass. In the new model, the probability of the sentence is the product of the empirical frequencies of the words in the Brown Corpus, so the probability of in the beginning was the word in our new model is

.021 * .068 * .00016 * .0096 * .021 * .00027 =

2.1 * 10-2 * 6.8 * 10-2 * 1.6 * 10-4 * 9.6 * 10-3 * 2.1 * 10-2 * 2.7 * 10-4 =

1243 * 10-17 =

1.243 * 10-14.

That's a much larger number than we got with other distributions (remember, the exponent here is -14, so this number is greater than one which has a more negative exponent.)

The main point for the reader now is to be clear on what the significance of these two numbers is: 10-18 for the first model, 8.6 * 10-29 for the second model, and 1.243 * 10-14 for the third. But it's the same sentence, you may say! Why the different probabilities? The difference is that a higher probability (a bigger number, with a smaller negative exponent, putting it crudely) is assigned to the sentence that we know is an English sentence in the frequency-based model. If this result holds up over a range of real English sentences, this tells us that the frequency-based model is a better model of English than the model in which all words have the same frequency (a uniform distribution). That speaks well for the frequency-based model. In short, we prefer a model that scores better (by assigning a higher probability) to sentences that actually and already exist -- we prefer that model to any other model that assigns a lower probability to the actual corpus.

In order for a model to assign higher probability to actual and existing sentences, it must assign less probability to other sentences (since the total amount of probability mass that it has at its disposal to assign totals up to 1.000, and no more). So of course it assigns lower probability to a lot of unobserved strings. On the frequency-based model, a string of word-salad like civilized streams riverside prompt shaken squarely will have a probability even lower than it does in the uniform distribution model. Since each of these words has probability 1.07 * 10-5 (I picked them that way --), the probability of the sentence is (1.07 * 10-5)6 = 1.4 * 10-30.That's the probability based on using empirical frequencies. Remember that a few paragraphs above we calculated the probability of any six-word sentence in the uniform-distribution model as 8.6 * 10-29; so we've just seen that the frequency-based model gives an even smaller probability to this word-salad sentence than did the uniform distribution model -- which is a good thing.

You are probably aware that so far, our model treats word order as irrelevant -- it assigns the same probability to beginning was the the in word as it does to in the beginning was the word. We'll get to this point eventually.

Probability mass

It is sometimes helpful to think of a distribution as a way of sharing an abstract goo called probability mass around all of the members of the universe of basic outcomes (that is, the sample space). Think of there being 1 kilogram of goo, and it is cut up and assigned to the various members of the universe. None can have more than 1.0 kg, and none can have a negative amount, and the total amount must add up to 1.0 kg. And we can modify the model by moving probability mass from one outcome to another if we so choose.

Conditional probability

I stressed before that we must start an analysis with some understanding as to what the universe of outcomes is that we are assuming. That universe forms the background, the given, of the discussion. Sometimes we want to shift the universe of discussion to a more restricted sub-universe – this is always a case of having additional information, or at least of acting as if we had additional information. This is the idea that lies behind the term conditional probability. We look at our universe of outcomes, with its probability mass spread out over the set of outcomes, and we say, let us consider only a sub-universe, and ignore all possibilities outside of that sub-universe. We then must ask: how do we have to change the probabilities inside that sub-universe so as to ensure that the probabilities inside it add up to 1.0 (to make it a distribution)? Some thought will convince you that what must be done is to divide the probability of each event by the total amount of probability mass inside the sub-universe.

There are several ways in which the new information which we use for our conditional probabilities may come to us. If we are drawing cards, we may somehow get new but incomplete information about the card -- we might learn that the card was red, for example. In a linguistic case, we might have to guess a word, and then we might learn that the word was a noun. A more usual linguistic case is that we have to guess a word when we know what the preceding word was. But it should be clear that all three examples can be treated as similar cases: we have to guess an outcome, but we have some case-particular information that should help us come up with a better answer (or guess).

Let's take another classic probability case. Let the universe of outcomes be the 52 cards of a standard playing card deck. The probability of drawing any particular card is 1/52 (that's a uniform distribution). What if we restrict our attention to red cards? It might be the case, for example, that of the card drawn, we know it is red, and that's all we know about it; what is the probability now that it is the Queen of Hearts?

The sub-universe consisting of the red cards has probability mass 0.5, and the Queen of Hearts lies within that sub-universe. So if we restrict our attention to the 26 outcomes that comprise the "red card sub-universe," we see that the sum total of the probability mass is only 0.5 (the sum of 26 red cards, each with 1/52 probability). In order to consider the sub-universe as having a distribution on it, we must divide each of the 1/52 in it by 0.5, the total probability of the sub-universe in the larger, complete universe. Hence the probability of the Queen of Hearts, given the Red Card sub-Universe (given means with the knowledge that the event that occurs is in that sub-universe), is 1/52 divided by 1/2, or 1/26.

This is traditionally written: p(A|B) = probability of A, given B = .

Guessing a word, given knowledge of the previous word:

Let's assume that we have established a probability distribution, the unigram distribution, which gives us the best estimate for the probability of a randomly chosen word. We have done that by actually measuring the frequency of each word in some corpus. We would like to have a better, more accurate distribution for estimating the probability of a word, conditioned by knowledge of what the preceding word was. There will be as many such distributions as there are words in the corpus (one less, if the last word in the corpus only occurs there and nowhere else.) This distribution will consist of these probabilities:

pk( SIdea [I] = wj given that S[i-1] = wk ), which is usually written in this way:

pk( SIdea [I] = wj | S[i-1] = wk )

The probability of "the" in an English corpus is very high, but not if the preceding word is "the" -- or if the preceding word is "a", "his", or lots of other words.

I hope it is reasonably clear to you that so far, (almost) nothing about language or about English in particular has crept in. The fact that we have considered conditioning our probabilities of a word based on what word preceded is entirely arbitrary; as we see in Table 4, we could just as well look at the conditional probability of words conditioned on what word follows, or even conditioned on what the word was two words to the left. In Table 5, we look at the distribution of words that appear two words to the right of "the". As you see, I treat punctuation (comma, period) as separate words. Before continuing with the text below these tables, look carefully at the results given, and see if they are what you might have expected if you had tried to predict the result ahead of time.

Table 2: Top of the Brown Corpus for words following "the":

Total count 69936

word count count / 69936

0 first 664 0.00949439487531457

1 same 629 0.00899393731411576

2 other 419 0.0059911919469229

3 most 419 0.0059911919469229

4 new 398 0.00569091741020361

5 world 393 0.0056194234728895

6 united 385 0.00550503317318691

7 *j 299 0.00427533745138412

8 state 292 0.00417524593914436

9 two 267 0.00381777625257378

10 only 260 0.00371768474033402

11 time 250 0.00357469686570579

12 way 239 0.00341741020361473

13 old 234 0.00334591626630062

14 last 223 0.00318862960420956

15 house 216 0.0030885380919698

16 man 214 0.00305994051704415

17 next 210 0.00300274536719286

18 end 206 0.00294555021734157

19 fact 194 0.00277396476778769

20 whole 190 0.0027167696179364

Table 3: Top of the Brown Corpus for words following "of".

Total count 36388

word count count / 36,388

1 the 9724 0.267230955259976

2 a 1473 0.0404803781466418

3 his 810 0.0222600857425525

4 this 553 0.015197317797076

5 their 342 0.00939870286907772

6 course 324 0.008904034297021

7 these 306 0.00840936572496427

8 them 292 0.00802462350225349

9 an 276 0.00758491810486974

10 all 256 0.00703528635814005

11 her 252 0.00692536000879411

12 our 251 0.00689787842145762

13 its 229 0.00629328350005496

14 it 205 0.00563372540397933

15 that 156 0.00428712762449159

16 *j 156 0.00428712762449159

17 such 140 0.00384742222710784

18 those 135 0.00371001429042541

19 my 128 0.00351764317907002

20 which 124 0.00340771682972408

Table 4: Top of the Brown Corpus for words preceding "the".

Total count 69936

word count count / 69,936

1 of 9724 0.139041409288492

2 . 6201 0.0886667810569664

3 in 6027 0.0861787920384351

4 , 3836 0.0548501487073896

5 to 3485 0.0498312743079387

6 on 2469 0.0353037062457104

7 and 2254 0.0322294669412034

8 for 1850 0.0264527568062228

9 at 1657 0.023693090825898

10 with 1536 0.0219629375428964

11 from 1415 0.0202327842598948

12 that 1397 0.0199754060855639

13 by 1349 0.0192890642873484

14 is 799 0.0114247311827957

15 as 766 0.0109528711965225

16 into 675 0.00965168153740563

17 was 533 0.00762125371768474

18 all 430 0.00614847860901396

19 when 418 0.00597689315946008

20 but 389 0.00556222832303821

Table 5: Top of the Brown Corpus for words 2 to the right of "the".

Total count 69936

word count count / 69,936

1 of 10861 0.155299130633722

2 . 4578 0.0654598490048044

3 , 4437 0.0634437199725463

4 and 2473 0.0353609013955617

5 to 1188 0.0169869595058339

6 ' 1106 0.0158144589338824

7 in 1082 0.0154712880347747

8 is 1049 0.0149994280485015

9 was 950 0.013583848089682

10 that 888 0.012697323266987

11 for 598 0.00855067490276825

12 were 386 0.00551933196064974

13 with 370 0.00529055136124457

14 on 368 0.00526195378631892

15 states 366 0.00523335621139327

16 had 340 0.00486158773735987

17 are 330 0.00471859986273164

18 as 299 0.00427533745138412

19 at 287 0.00410375200183024

20 or 284 0.00406085563944178

What do we see? Look at Table 2, words following "the". One of the most striking things is how few nouns, and how many adjectives, there are among the most frequent words here -- that's probably not what you would have guessed. None of them are very high in frequency; none place as high as 1 percent of the total. In Table 3, however, the words after "of", one word is over 25%: "the". So not all words are equally helpful in helping to guess what the next word is. In Table 4, we see words preceding "the", and we notice that other than punctuation, most of these are prepositions. Finally, in Table 5, we see that if you know a word is "the", then the probability that the word-after-next is "of" is greater than 15% -- which is quite a bit.

Exercise 2: What do you think the probability distribution is for the 10th word after "the"? What are the two most likely words? Why?

Conditions can come from other directions, too. For example, consider the relationships of English letters to the phonemes they represent. We can ask what the probability of a given phoneme is -- not conditioned by anything else -- or we can ask what the probability of a phoneme is, given that it is related to a specific letter.

More conditional probability: Bayes' Rule

Let us summarize. How do we calculate what the probability is that the nth word of a sentence is “the” if the n-1st word is “of”? We count the number of occurrences of “the” that follow “of”, and divide by the total number of “of”s.

Total number of "of": 36,341

Total number of "of the": 9,724

In short, p ( SIdea [I] = the | S[i-1] = of ) = 9724 / 36341 = 0.267

What is the probability that the nth word is "of", if the n+1st word is "the"? We count the number of occurrences of "of the", and divide by the total number of "the": that is,

p ( SIdea [I] = "of" | S[i+1] = "the" ) = 9,724 / 69,903 = 0.139

This illustrates the relationship between p ( A | B ) "the probability of A given B" and p(B|A) "the probability of B given A". This relationship is known as Bayes' Rule. In the case we are looking at, we want to know the relationship between the probability of a word being the, given that the preceding word was of -- and the probability that a word is of, given that the next word is the.

p ( SIdea [I] = "of" | S[i+1] = "the" ) = p (SIdea [I] = "of" and S[i+1] = "the") / p( S[i+1] = "the" )

and also, by the same definition:

p ( SIdea [I] = the | S[i-1] = of ) = p (SIdea [I] = "of" and S[i+1] = "the") / p( S[i-1] = "of")

Both of the preceding two lines contain the phrase: p (SIdea [I] = "of" and S[i+1] = "the"). Let's solve both equations for that quantity, and then equate the two remaining sides.

p ( SIdea [I] = "of" | S[i+1] = "the" ) * p( S[i+1] = "the" ) = p (SIdea [I] = "of" and S[i+1] = "the")

p ( SIdea [I] = "the" | S[i-1] = of ) * p( S[i-] = "of") = p (SIdea [I] = "of" and S[i+1] = "the")

Therefore:

p ( SIdea [I] = "of" | S[i+1] = "the" ) * p( S[i+1] = "the" ) =

p ( SIdea [I] = "the" | S[i-1] = of ) * p( S[i-] = "of")

And we will divide by "p( S[i+1] = "the" )", giving us:

And writing that without the equation editor, which may not make it to HTML :

p ( SIdea [I] = "of" | S[i+1] = "the" ) * =

p ( SIdea [I] = "the" | S[i-1] = of ) * p( S[i-] = "of") / p( S[i+1] = "the" )

The general form of Bayes' Rule is:

again, that's: prob (A | B ) = p ( B | A) p (A ) / p (B)

The joy of logarithms

It is, finally, time to get to logarithms -- I heave a sigh of relief. Things are much simpler when we can use logs. Let's see why.

In everything linguistic that we have looked at, when we need to compute the probability of a string of words (or letters, etc.), we have to multiply a string of numbers, and each of the numbers is quite small, so the product gets extremely small very fast. In order to avoid such small numbers (which are hard to deal with in a computer), we will stop talking about probabilities, much of the time, and talk instead about the logarithms of the probabilities -- or rather, since the logarithm of a probability is always a negative number and we prefer positive numbers, we will talk about -1 times the log of the probability. Let's call that the positive log probability. If the probability is p, then we'll write the positive log probability as {p}.

Notation: if p is a number: {p} = -1 * log p

If E is an event, then {E} = -1 * log prob (E)

(One standard notation puts a tilde over the p, but it's hard to put a tilde over a long formula.) As a probability gets very small, its positive log probability gets larger, but at a much, much slower rate, because when you multiply probabilities, you just add positive log probabilities. That is,

log ( pr(S[1]) * pr( S[2] ) * pr( S[3] )* pr( S[4] ) ) =

-1 * { S[1] } + { S[2] } + { S[3] }+ { S[4] }

And then it becomes possible for us to do such natural things as inquiring about the average log probability -- but we'll get to that.

At first, we will care about the logarithm function for values in between 0 and 1, which is where all probabilities necessarily lie, as in the graph below:

If we make these positive log probabilities, we get the following graph:

It's important to be comfortable with notation, so that you see easily that the preceding equation can be written as follows, where the left side uses the capital pi to indicate products, and the right side uses a capital sigma to indicate sums:

We will usually be using base 2 logarithms. You recall that the log of a number x is the power to which you have to raise the base to get the number x. If our logs are all base 2, then the log of 2 is 1, since you have to raise 2 to the power 1 to get 2, and log of 8 is 3, since you have to raise 2 to the 3rd power in order to get 8 (you remember that 2 cubed is 8). So for almost the same reason, the log of 1/8 is -3, and the positive log of 1/8 is therefore 3.

If we had been using base 10 logs, the logs we'd get would be smaller by a factor of about 3. The base 2 log of 1,000 is almost 10 (remember that 2 to the 10th power is 1,024), while the base 10 log of 1,000 is exactly 3.

It almost never makes a difference what base log we use, actually, until we get to information theory. But we will stick to base 2 logs anyway.

Exercise 3: Express Bayes' Rule in relation to log probabilities.

Interesting digression: There is natural relationship between the real numbers (both positive, negative, and 0) along with the operation of addition, on the one hand, and the positive real numbers along with operation of multiplication:

Real numbers + addition ó Positive reals + multiplication

We call such combinations of a set and an operation ("real numbers + addition") groups.

Zero has a special property with respect to addition: it is the identity element, because one can add zero and make no change; 1 has the same special property (of being the identity element) with respect to multiplication.

So there's this natural relationship between two groups, and the natural relationship maps the identity element in the one group to the identity element in the other -- and the relationship preserves the operations. This "natural relationship" maps any element x in the "Positive reals + multiplication" group to log x in the "reals + addition" group, and its inverse operation, mapping from the multiplication group to the addition group is the exponential operation, 2x. So: a . b= exp ( log (a) + log (b) ).

And similarly, and less interestingly: a + b = log ( exp (a) exp (b) ).

Exercise 4: Explain in your own words what the relationship is between logarithms and exponentiation (exponentiation is raising a number to a given power).

Adding log probabilities in the unigram model

The probability of a sentence S in the unigram model is the product of the probabilities of its words, so the log probability of a sentence in the unigram model is the sum of the log probabilities of its words. That makes it particularly clear that the longer the sentence gets, the larger its log probability gets. In a sense that is reasonable -- the longer the sentence, the less likely it is. But we might also be interested in the average log probability of the sentence, which is just the total log probability of the sentence divided by the number of words; or to put it another way, it's the average log probability per word = . This quantity, which will become more and more important as we proceed, is also called the entropy -- especially if we're talking about averaging over not just one sentence, but a large, representative sample, so that we can say it's (approximately) the entropy of the language, not just of some particular sentence.

We'll return to the entropy formula, with its initial 1/N to give us an average, but let's stick to the formula that simply sums up the log probabilities . Observe carefully that this is a sum in which we sum over the successive words of the sentence. When i is 1, we are considering the first word, which might be "the", and when i is 10, the tenth word might be "the" as well.

In general, we may be especially interested in very long corpora, because it is these corpora which are our approximation to the whole (nonfinite) language. And in such cases, there will be many words that appear quite frequently, of course. It makes sense to re-order the summing of the log probabilities -- because the sum is the same regardless of the order in which you add numbers -- so that all the identical words are together. This means that we can rewrite the sum of the log probabilities as a sum over words in the vocabulary (or the dictionary -- a list where each distinct word occurs only once), and multiply the log probability by the number of times it is present in the entire sum. Thus (remember the braces mark positive logs):

If we've kept track all along of how many words there are in this corpus (calling this "N"), then if we divide this calculation by N, we get, on the left, the average log probability, and, on the right: . That can be conceptually simplified some more, because is the proportional frequency with which wordj appears in the list of words, which we have been using as our estimate for a word's probability. Therefore we can replace by freq (wordj), and end up with the formula:

,

which can also be written as

.

This last formula is the formula for the entropy of a set, and we will return to it over and over. We can summarize what we have just seen by saying, again, that the entropy of a language is the average log probability of the words.

Let’s compute the probability of a string

Let’s express the count of a letter p in a corpus with the notation [p], and we’ll also allow ourselves to index over the letter of the alphabet by writing “li” – that represents the ith letter. Suppose we have a string S1 of length N. What is its probability? If we assume that the probability of each letter is independent of its context, and we use its frequence as its probability, then the answer is simply:

Suppose we add 10 e’s to the end of string S1. How does the probability of the new string S2 compare to S1?

The probability of S2 is:

Let’s take the ratio of the two:

but N2 = N1 + 10, so this equals

taking logs:

where the capital delta function is the log ratio of the values in the before and the after condition (state 1 in the numerator, state 2 in the denominator).

Or in words:

the difference of the log probabilities is the sum of three terms, each weighted by the size of the parts of the string, which are: the original e’s; 10 new e’s; and everything else. The first is weighted by the Delta function; the second by the information content of the new e’s; and the last by a value of approximate Email [E] bits! (Remember that log (1+x) is approximately x, for small values of x, because the first derivative of log is 1 at 1.)

Maximizing probability of a sentence, or a corpus

We will now encounter a new and very different idea, but one which is of capital importance: the fundamental goal of analysis is to maximize the probability of the observed data. All empirical learning centers around that maxim. Data is important, and learning is possible, because of that principle.

When we have a simple model in mind, applying this maxim is simple; when the models we consider grow larger and more complex, it is more difficult to apply the maxim.

If we restrict ourselves at first to the unigram model, then it is not difficult to prove – but it is important to recognize – that the maximum probability that can be obtained for a given corpus is the one whose word-probabilities coincide precisely with the observed frequencies. It is not easy at first to see what the point is of that statement, but it is important to do so.

Let us remind ourselves that we can assign a probability to a corpus (which is, after all, a specific set of words) with any distribution, that is, any set of probabilities that add up to 1.0. If there are words in the corpus which do not get a positive value in the distribution, then the corpus will receive a total probability of zero (remind yourself why this is so!), but that is not an impossible situation. (Mathematicians, by the way, refer to the set which gets a non-zero probability as the support of the distribution. Computational linguists may say that they are concerned with making sure that all words are in the support of their probability distribution.)

Suppose we built a distribution for the words of a corpus randomly -- ensuring only that the probabilities add up to 1.0. (Let’s not worry about what “randomly” means here in too technical a way.) To make this slightly more concrete, let's say that these probabilities form the distribution Q, composed of a set of values q(wordi), for each word in the corpus (and possibly other words as well). Even this randomly assigned distribution would (mathematically) assign a probability to the corpus. It is important to see that the probability is equal to

and that is equal to

.

Make sure you understand why this exponent is here: when we multiply together k copies of the probability of a word (because that word appears k times in a corpus), the probability of the entire corpus includes, k times, the probability of that word in the product which is its probability.

If we now switch to thinking about the log probability, any particular word which occurs k times in the corpus will contribute k times its log probability to the entire sum which gives us the (positive) log probability:

What should be clear by now is that we can use any distribution to assign a probability to a corpus. We could even use the uniform distribution, which assigns the same probability to each word.

Now we can better understand the idea that we may use a distribution for a given corpus whose probabilities are defined exactly by the frequencies of the words in a given corpus. It is a mathematical fact that this "empirical distribution" assigns the highest probability to the corpus, and this turns out to be an extremely important property. (Important: you should convince yourself now that if this is true, then the empirical distribution also assigns the lowest entropy to the corpus.)

Exercise 5: Show why this follows.

It follows from what we have just said that if there is a "true" probability distribution for English, it will assign a lower probability to any given corpus that the empirical distribution based on that corpus, and that the empirical distribution based on one corpus C1 will assign a lower probability to a different corpus C2 than C2's own empirical distribution. Putting that in terms of entropy (that is, taking the positive log of the probabilities that we have just mentioned, and dividing by N, the number of words in the corpus), we may say that the "true" probability distribution for English assigns a larger entropy to a corpus C than C's own empirical distribution, and that C1's empirical distribution assigns a higher entropy to a different corpus C2 than C2's own empirical distribution does.

These notions are so important that some names have been applied to these concepts. When we calculate this formula, weighting one distribution (like an observed frequency distribution) by the log probabilities of some other distribution D2, we call that the cross-entropy; and if we calculate the difference between the cross-entropy and the usual (self) entropy, we also say that we are calculating the Kullback-Leibler (or "KL") divergence between the two distributions. Mathematically, if the probability assigned to wordi by D1 is expressed as D1(wordi) (and likewise for D2), then the KL divergence is

The tricky part is being clear on why D1 appears before the log in both terms in this equation. It is because there, the D1 is being used to indicate how many times (or what proportion of the time) this particular word occurs in the corpus we are looking at, which is entirely separate from the role played by the distribution inside the log function -- that distribution tells us what probability to assign to the given word. (Solomon Kullback and Richard Leibler were among the original mathematicians at the National Security Agency.)

The KL divergence just above can be written equivalently as

A common notation for this is: KL(D1||D2). Note that this relationship is not symmetric: KL(D1 || D2) is not equal to KL (D2 || D1 ).

Here's one direct application of these notions to language. Suppose we have a set of letter frequencies (forming distributions, of course) from various languages using the Roman alphabet. For purposes of this illustration, we'll assume that whatever accents the letters may have had in the original, all letters have been ruthlessly reduced to the 26 letters of English. Still, each language has a different set of frequencies for the various letters of the alphabet, and these various distributions are called Di. If we have a sample from one of these languages with empirical distribution S (that is, we count the frequencies of the letters in the sample), we can algorithmically determine which language it is taken from by computing the KL divergence KL(S||Di). The distribution which produces the lowest KL divergence is the winner -- it is the correct language, for its distribution best matches that of the sample.

Conditional probabilities, this time with logs

We have talked about the conditional probability of (for example) a word w, given its left-hand neighbor v, and we said that we can come up with an empirical measure of it as the total number of v+w biwords, divided by the total number of v's in the corpus:

. Look at the log-based version of this: .

Essential Information Theory

Suppose we have given a large set of data from a previously unanalyzed language, and four different analyses of the verbal system are being offered by four different linguists. Each has an account of the verbal morphology using rules that are (individually) of equal complexity. There are 100 verb stems. Verbs in each group use the same rules; verbs in different groups use entirely different rules.

Linguist 1 found that he had to divide the verbs into 10 groups with 10 verbs in each group.

Linguist 2 found that she had to divide the verbs into 10 groups, with 50 in the first group, 30 in the second group, 6 in the third group, and 2 in each of 7 small groups.

Linguist 3 found that he had just one group of verbs, with a set of rules that worked for all of them.

Linguist 4 found that she had to divide the verbs into 50 groups, each with 2 stems in it.

Rank these four analyses according how good you think they are -- sight unseen.

Hopefully you ranked them this way:

Best: Linguist 3

Linguist 2

Linguist 1

Worst: Linguist 4

And why? Because the entropy of the sets that they created goes in that order. That's not a coincidence -- entropy measures our intuition of the degree of organization of information.

The entropy of a set is , where we sum over the probability of each subset making up the whole -- and where the log is the base-2 log.

  • The entropy of Linguist 1's set of verbs is -1 * 10 * 1/10 * log (1/10) = log (10) = 3.32.
  • The entropy of Linguist 2's set of verbs is -1 * (1/2 log (1/2) + 0.3 * log (0.3) + 0.06 * log (0.06) + 0.14 * log (0.02) ) = 0.346 + 0.361 + 0.169 + 0.548 = 1.42.
  • The entropy of Linguist 3's set of verbs is -1 * 1 * log (1) = 0.
  • The entropy of Linguist 4's set of verbs is -1 * 50 * 1/50 * log (0.02) = 3.91.

Thus, in some cases – very interesting ones, in my opinion – the concept of entropy can be used to quantify the notion of elegance of analysis.

Another approach to entropy

The traditional approach to explaining information and entropy is the following. A language can be thought of as an organized way of sending symbols, one at a time, from a sender to a receiver. Both have agreed ahead of time on what the symbols are that are included. How much information is embodied in the sending of any particular symbol?

Suppose there are 8 symbols that comprise the language, and that there is no bias in favor of any of them – hence, that each of the symbols is equally likely at any given moment. Then sending a symbol can be thought of as being equivalent to be willing to play a yes/no game – essentially like a child's Twenty Questions game. Instead of receiving a symbol passively, the receiver asks the sender a series of yes/no questions until he is certain what the symbol is. The number of questions that is required to do this – on average – is the average information that this symbol-passing system embodies.

The best strategy for guessing one of the 8 symbols is to ask a question along the lines of "Is it one of symbols 1, 2, 3, or 4?" If the answer is Yes, then ask "Is it among the set: symbols 1 and 2"? Clearly only one more question is needed at that point, while if the answer to the first question is No, the next question is, "Is it among the set: symbols 5 and 6?" And clearly only one more question is needed at that point.

If a set of symbols has N members in it, then the best strategy is to use each question to break the set into two sets of size N/2, and find out which set h as the answer in it. If N = 2k, then it will take k questions; if N = 2k + 1, it will take k+1 questions.

Note that if we did all our arithmetic in base 2, then the number of questions it would take to choose from N symbols would be no more than the number of digits in N (and occasionally it takes 1 fewer). 8 = 10002, and it takes 3 questions to select from 8 symbols; 9 = 10012, and it takes 4 questions to select from 9 symbols; 15 = 11112, and it takes 4 questions to select from 15 symbols.

Summarizing: the amount of information in a choice from among N possibilities (possible symbols, in this case) is log N bits of information, rounding up if necessary. Putting it another way -- if there are N possibilities, and they each have the same probability, then each has probability 1/N, and the number of bits of information per symbol is the positive log probability (which is the same thing as the log of the reciprocal of the probability).

Exercise 6: why is the positive log probability the same thing as the log of the reciprocal of the probability?

But rarely is it the case that all of the symbols in our language have the same probability, and if the symbols have different probabilities, then the average number of yes/no questions it takes to identify a symbol will be less than log N. Suppose we have 8 symbols, and the probability of symbol 1 is 0.5, the probability of symbol 2 is 0.25, and the probability of the other 6 is one sixth of the remaining 0.25, i.e., 1/24 each.

In this case, it makes sense to make the first question be simply, "Is it Symbol #1?" And half the time the answer will be "yes". If the answer is "No," then the question could be, "Is it Symbol #2?" and again, half the time the answer will be "Yes." Therefore, in three-fourths of the cases, the average number of questions needed will be no greater than 2. For the remaining six, let's say that we'll take 3 more questions to identify the symbol.

So the average number of questions altogether is (0.5 * 1) + (0.25 * 2) + (0.25 * 5) = 0.5 + 0.5 + 1.25 = 2.25. (Make sure you see what we just did.) When the probabilities are not uniformly distributed, then we can find a better way to ask questions, and the better way will lower the average number of questions needed.

All of this is a long, round-about way of saying that the average information per symbol decreases when the probabilities of the symbols is not uniform. This quantity is the entropy of the message system, and is the weighted average of the number of bits of information in each symbol, which obeys the generalization mentioned just above: the information is -1 times the log of the probability of the symbol, i.e., the positive log probability.

The entropy is, then:

Mutual information

Mutual information is an important concept that arises in the case of a sample space consisting of joint events: each event can be thought of as a pair of more basic events. One possible example would be the input and the output of some device (like a communication channel); another, very different example could be successive letters, or successive words, in a corpus. Let's consider the case of successive words.

The joint event, in this case, is the occurrence of a biword (or bigram, if you prefer). "of the" is such an event; so is "the book", and so on. We can compute the entropy of the set of all the bigrams in a corpus. We can also consider the separate events that constitute the joint event: e.g., the event of "the" occurring as a left-hand member of a biword. That, too, has an observed frequency, and so we can compute its entropy -- and of course, we can do that for the right-hand words of the set of bigrams. We want to know what the relationship is between the entropy of the joint events and the entropy of the individual events.

If the two words comprising a biword are statistically unrelated – independent – then the entropy of the joint event is the sum of the entropies of the individual events. We'll work through that, below. But linguistically, we know that this won't in fact be the case. If you know the left-hand word of a bigram, then you know a lot about what is likely to be the right-hand word: that is to say, the entropy of the possible right-hand words will be significantly lower when you know the left-hand word. If you know that the left-hand word is the, then there is an excellent chance that the right-hand word is first, best, only (just look at Table 2 above!). The entropy of the words in Table 2 is much lower than the entropy of the whole language. This is known as the conditional entropy: it's the entropy of the joint event, given the left-hand word constant. If we compute this conditional entropy (i.e., right-hand word entropy based on knowing the left-hand word) for all of the left-hand words of the biword, and take the weighted mean of these entropies, what you have computed is called the mutual information: it is an excellent measure of how much knowledge of the first word tells you about the second word (and this is true for any joint events).

Mutual information between two random variables i,j:

(MM-1)

(While we're at it, don't forget that p(yj|xi) = )

It is certainly not obvious, but the following is true: if you compute the conditional entropy of the left-hand word, given the right-hand word, and compute the weighted average over all possible right-hand words, you get the same quantity, the mutual information. Mutual information is symmetric, in that sense.

There is a third way of thinking about mutual information which derives from the following, equivalent formula for mutual information:

(MM-3) ,

where p(xi) is the probability of xi, which is to say, This last expression, (MM-3), can be paraphrased as: the weighted difference between the information of the joint events (on the one hand) and the information of the separate events (on the other). That is, if the two events were independent, then would be 1.0, and its log of that would be zero.

So far, all of our uses of mutual information have been weighted averages (we often find it handy to refer to this kind of average as an ensemble average, which borrows a metaphor from statistical physics). However, in computational linguistics applications, it is often very useful to compute for individual bigrams. The most straightforward way to use it is to compare the log probability assigned to a string of words under two models: (1) a unigram model, in which each word is assigned a (positive) log probability (remember this formula from above?

and (2) a bigram model, in which each word is assigned a positive log probability, conditioned by its left-hand neighbor. . (You have to do something special to deal with the probability of the first word here.) It turns out, as we shall see, that the difference between the sum of the logs of the unigram model and the sum of the logs on the bigram model is just the sum of the mutual information between the successive pairs of words. That is, the difference in the goodness of a bigram and a unigram model is the (sum of the) mutual information between successive words.

STOP. Think about that.

This is because the bigram model gives us:

=

while the MI is

Again: bigram model = unigram model + mutual information.