kylin 的个人资料Kylin's Site照片日志列表更多 ![]() | 帮助 |
|
2007/3/29 我的大学物理 过了~~
我早说过我会过的!◎#¥◎#!
这个“大学物理(下)”伴随着我的大学、我的spaces好久了,用站内搜索google了一下:
今天有人提起了,突然觉得这个万恶的physics对我的伤害真是罄竹难书……
2007/3/28 中文分词(2.2)基础理论上篇谈到分词方法有三大类,并简介了第一类:基于字符串匹配的分词方法,接下来简介其它两类分词方法:
2、基于理解的分词方法。它是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想是在分词的同时进行句法、语义分词,利用句法信息和语义信息来处理歧义问题,故通常包括三个部分:分词子系统、句法语义子系统、总控中心。在总控中心的协调下,分词子系统获得有关词、句等的句法、语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程,这种分词方法需要使用大量的语言知识和信息。
由于汉语本身的复杂性、模糊性,很难有一种将各种语言信息组织成机器可直接读取的形式,因此,目前基于理解的分词系统还处在试验阶段。 3、基于统计的分词方法。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词,即字与字相邻出现的频率可以放映成词的可信度。对海量语料中相邻出现的各个字的组合的频度(可以认为是概率)进行统计,定义它们的互现信息。计算两个汉字A、B的相邻出现的概率,它们的互现信息体现了A、B之间结合关系的紧密程度。当紧密程度高于临界值,便可认为A、B构成一个词。 这种方法只需对语料中的字组频度进行统计,不需要切分词典,因此也叫无词典分词法。但这种方法也有一定的局限性,会经常抽出一些互现信息度很高,但显然不是词的字组,如“有的”、“我的”、“之一”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典进行串匹配分词,同时使用统计方法识别一些新词。这种将串匹配和串频统计结合的方法,既发挥匹配分词切分速度快、效率高的特点,又利用统计分词结合上下文识别新词、自动消除歧义的优点。 由上简要分析可知,单纯使用每种分词算法都有一些难以克服的弱点。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法去处理问题。 2007/3/27 中文分词(2.1)基础理论 目前采用的分词方法主要有以下几种: 最大匹配法、反向最大匹配方法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、邻接约束方法、邻接知识约束方法、专家系统方法、最少分词词频选择方法、神经网络方法等等。除了这些, 许多基于统计的方法也引入到分词过程中。例如分词与词性标注一体化方法,随机有限状态算法用于分词,模拟物理研究中结晶过程的统计方法也被尝试于分词过程。此外,还有大量的基于统计或规则的汉语未登录词识别的研究, 这里不能一一列举。 2007/3/26 FedoraCore5(6)系统结构
2007/3/24 FedoraCore5(5)命令对比Linux与Windows对比,看这篇文章假设你对Windows已经比较熟:
一、命令比较: 查看当前目录 cd pwd 返回上层目录 cd.. cd .. 列出目录 dir ls 建立目录 mk mkdir 删除空目录 rd rmdir 查看文件内容 type cat,more 拷贝文件 copy cp 移动文件 move mv 删除文件 del rm 文件改名 ren mv(移动到异名文件不就改名了嘛) 清屏幕 cls clear 关闭窗口 exit exit 文件比较 fc diff 查找 find grep 显示帮助 help man 显示时间 time date 已内存数量 mem free 二、自动运行程序的方式,不完全统计如下:
Windows:(可运行msconfig命令查看) 注册表,服务,“开始”菜单启动项,“任务计划”,根目录下的“AUTOEXEC.BAT”、“Autorun.exe”,系统目录下的“win.ini”、 “system.ini”…… Linux: 1、开机启动自动运行程序,linux加载后初始化硬件和设备驱动,运行进程init,init根据配置文件继续引导过程,启动其它进程。因此可修 改"/etc/rc"或"/etc/rc.d"或"/etc/rc?.d"目录下的脚本文件使init启动其它程序。 2、登录后自动运行程序,用户登录后bash首先自动执行系统管理员建立的全局登录script:/etc/profile,然后bash在用户起始目录下按顺序 查找三个特殊文件中最先找到的一个:/.bash_profile、/.bash_login、/.profile,其实就相当于“AUTOEXEC.BAT”。同理,linux用户退出登 录时bash自动执行个人的退出登录脚本/.bash_logout,通常此脚本用于备份文件。 3、定时自动运行程序,相当于Windows的“任务计划”,不过Windows用图形界面,而Linux用了两个不同的命令--crond、at。守护进程 crond主要功能时周期性检查"/var/spool/cron"目录下的一组命令文件的内容,并在设定的时间执行。用户可通过cronttab命令建立、修改、 删除。 eg: 建立文件crondFile,内容为"40 7 24 Mar * Hello",运行"cronttab cronFile"命令,则每个3月24日7:40(*表示不论星期几)系统都会自 动执行"Hello"程序。 还有at命令,用法于其在Windows下同名命令用法类似,恕不赘述。 三、其它比较
1、Linux下的root相当于Windows的Administrator 2、Linux下带参数用-,Dos还可以用/ 2007/3/23 FedoraCore5(4)文件权限昨安装MPlayer时,由于登录用户不是root,而是一般用户kylin,在Gnome里管理文件经常没权限,只好进命令行:
总结一句话:在linux里,Command才是王道啊,收拾了两个比较好用的命令及其参数如下:
cp--拷贝文件:
cp [options][source][destination]
-u表示只复制目标文件夹中没有的或旧的,-r表示递归复制,通常可用于安装更新
[root@localhost ~]# cp -u -r /home/kylin/nokia/usr/* /usr chmod--改变文件管理权限,有两种句法:
1、chmod [options] [who] opcode permission files options :-c(changes)显示改变的信息 -R(recrsive)连同该目录下所有子目录及文件一并更改 who: u(user) g(group) o(other) a(all) 默认是a(all) opcode: +增加权限 -删除权限 =更新权限 permission: r(read) w(write) x(excute) u与user同权限 g、o类似u eg: chmod u+x file1 file2 为file1、file2所属用户加上执行权 chmod u=rwx,g=r file1 为file1所属用户分配读写执权、所属组分配读取权,除此之外其他权限取消 chmod -R o-w directory1 取消其他用户对目录directory1及其子目录、文件的写入权 2、chmod [options] [n1]n2n3n4 file1s [n1]用法比较复杂,取值方法如下: 1:sitcky bit 2:group ID bit 4:user ID bit 3:1+2 5:1+4 6:2+4 7:1+2+4 n2n3n4:n2n3n4分别表示所属用户、所属组、其他用户的权限,取值方法如下: 0:没权限 1:x 2:w 4:r 3=1+2:xw 5=1+4:xr 6=2+4:wr 7=1+2+4:xwr eg: chmod 740 file1 同上 "chmod u=rwx,g=r file1" chmod 111 file1 file2 所有用户均可执行文件file1和file2 chmod -R 755 directory1 目录directory1所有者可以读写执,所属组及其它用户可以读执,修改连同其子目录 2007/3/22 FedoraCore5(3)安装示例Linux比Windows更适合“艰苦”的编程工作,但linuxer也不能没有音乐、电影,于是有了MPlayer,安装起来不是一件事儿,在知哥的技术支持下,终于安装成功,能在FedoraCore5下观看有中文字幕的《Prison Break》,^_^: 零、需要准备的文件,MPlayer官方网站下载页面: 一、安装解码包: 二、安装MPlayer主程序: 三、安装MPlayer皮肤即图形界面,只要将默认的皮肤拷贝到"/usr/share/mplayer/skins/default"下即可,其它的皮肤也可以不用解压,放在"/usr/share/mplayer/skins/"下即可 四、在桌面上放置一个mplayer的图标,在桌面上右键选择启动器,名称为mplayer;命令为/usr/bin/gmplayer,而mplayer的默认图标位置在/usr/share/pixmaps/mplayer-desktop.xpm 五、安装MPlayer字体,由于这个版本的MPlayer在字幕菜单中只有cp936,而大多数中文字幕是gb编码的,所以需要一些修改: 六、卸载mplayer只需在刚刚由MPlayer-1.0pre7.tar.bz2解压出来的 MPlayer-1.0pre7目录下运行make uninstall即可。所以,这个解压出来的文件夹不要删除,如果删除了,卸载的时候也可以到安装目录下直接删除,linux下没有注册表的概念放心删除
2007/3/21 FedoraCore5(2)进程监视这里列举几个在linux下最常使用的用于管理的命令及说明:
top 命令--显示系统中最消耗CPU资源的进程,
默认选项是定期更新显示全部用户内容,按CPU负载排序,还可以加上以下常用的参数:
m+ENTER:(memory)按内存使用排序; t+ENTER:(time)按执行时间排序; u+用户名+ENTER:(user)监视特定用户; k+PID+ENTER+ENTER:(kill)杀死特定进程; d+秒数+ENTER:(delay)调整刷新速度; h:(help)显示帮助信息; q:(quit)退出top; ps (process status)命令--查看系统中执行的进程,
默认选项是进程ID号、终端代号、CPU时间、正在执行的程序或命令: 例如:
#ps -au --sort pid
-u+ENTER:(user-oriented)面向用户的输出格式; -l+ENTER:(long)提供更详细的查看信息; -a+ENTER:(all)显示系统中执行的全部进程; -au+--sort user:(按用户名排序)也可以按time,pid,uid排序; grep 命令--在文件里或标准输入设备中查找符合条件的模式:
例如: 1、在当前目录下的文件"main.c"中查找'hello world",忽略大小写(-ignore) # grep -i 'hello world' main.c printf("Hello world"); 2、与"ps"命令搭配使用查询带有"root"字符的进程所在行 # ps -au | grep root root 2012 0.0 0.0 1588 412 tty4 Ss+ 08:03 0:00 /sbin/mingetty tty5 ………… 最常用的参数有: -E:--extended-regexp:表示模式是扩展的正则表达式(ERE),ERE空值将匹配所有行: -F:--fixed-strings:表示模式是一个字符串集,空字符串可匹配所有行; grep家族中的'egrep'='grep -E';'fgrep'='grep -F',不过它们的错误和使用信息不同 说明:grep用法极其丰富多变,建议详看其帮助文档"# grep --help" kill 命令--杀死进程:
例如:
#kill 2312 #可结束PID为2312的进程 +pid+ENTER:一般情况下,只要kill+欲删除进程的pid即可; +-15+pid+ENTER:强行删除; +-9 +pid+ENTER:"-15"参数都无法删除时使用; 说明:除了管理员外,每个用户都只能删除自己的进程。 2007/3/19 FedoraCore5(1)初步认识(学习使用Fedora Core 5中……)
现电脑双系统,Linux是工作平台,但也不能完全舍弃了Windows,幸好有了两全其美的办法--在Linux下加载Windows分区。 关于这方面的原理与命令网上已经有很多资料文章,现就已自己的操作记录说明如下: mkdir /mnt/winc
mount -t vfat /dev/hda1 /mnt/winc -o iocharset=gb2312 以上即是将Windows下的C盘("/dev/hda1",fat32即vfat格式之一)挂载到Linux下的"/mnt/winc"目录下,
所加的参数"-o iocharset=gb2312"即选择××字符集,以免中文成为乱码。 如果Windows下还有其它分区,如法炮制即可。 不过,如果经常使用Windows分区的文件的话,那么每次都要手动加载不是一件很智能的事儿,那么Linux自然会有自动加载的办法:
在Linux的"/etc"目录下的fstab文件中列出了Linux开机自动挂载的文件系统列表,如要实现以上功能加上以下语句即可: /dev/hda1 /mnt/winc vfat defaults,codepage=936,iocharset=gb2312 0 0
与上面的语句用法接近,恕不赘述。
刚进Linux系统时,被几种压缩、编译、安装文件弄的晕头转向,现终于整明白了:
1、先列出在Linux下几种最常见的压缩与解压缩文件后缀名及对应的命令:
———————————————————————
.tar(注:tar是打包,不是压缩!)
解包:tar xvf FileName.tar 打包:tar cvf FileName.tar DirName .gz
解压:gunzip FileName.gz 压缩:gzip FileName .tar.gz
解压:tar zxvf FileName.tar.gz 压缩:tar zcvf FileName.tar.gz DirName .bz2
解压:bunzip2 FileName.bz2 压缩:bzip2 -z FileName .tar.bz2 解压:tar jxvf FileName.tar.bz2 压缩:tar jcvf FileName.tar.bz2 DirName .zip
解压:unzip FileName.zip 压缩:zip FileName.zip DirName
.rpm(在RedHat的系统中一般是双击即可)
2、一般在解压完源码文件包之后,典型的使用GNU的AUTOCONF和AUTOMAKE产生的程序的安装步骤如下:
./configure #是用来检测安装平台的目标特征的。比如它会检测你是不是有CC或GCC,并不是需要CC或GCC,它是个shell脚本;
make #是用来编译的,它从Makefile中读取指令,然后编译; make install #是用来安装的,它也从Makefile中读取指令,安装到指定的位置. 如果“不出意外”的话,就OK了。
2007/3/18 中文分词(1.1)绪论重要意义和发展现状:
中文自动分词是目前中文信息处理中公认的难题,因为分词是自然语言理解、机器翻译、信息检索、语言文字等研究领域中最基本的环节之一,也是最突出的“瓶颈”。如果能突破这一“瓶颈”,那么中文信息的自动处理问题就会迎刃而解,为汉语走向世界铺设了一条信息的高速公路,开启了中华民族文化的伟大复兴的大门。
汉语自动分词的最终解决将对以下计算机信息研究领域产生影响: 计算机信息系统的人机接口; 情报检索、信息检索、自然语言检索; 语言文字自动处理; 智能计算机以及智能机器人; 专家系统和知识库; 数据挖掘; 智能搜索引擎; ………… 正是由于自动分词的重要性,因此不但受到计算机界的广泛关注,而且还有人工智能界、汉语语言学界、情报检索界及其它各界的广泛关注。目前,国内主要有以下三支研究队伍活跃在这个方面: 1、计算机和人工智能领域。主要利用自动分词成果从事自然语言理解和处理研究。如语义分析、自动编辑、机器翻译、专家系统等; 2、情报信息领域。主要活跃于汉语自动分词与自动标引、汉语自动分词与情报检索、搜索引擎研究与实践以及数据挖掘; 3、汉语语言学研究领域。主要从事汉语言文字研究以促进书面汉语自动切分。 2007/3/16 中文分词(1.0)绪论(慢慢熬这个问题中……)
必 要 性:
计算机中文信息处理就是要“用计算机对汉语的音、形、义进行处理”,而且“词是语言里最小的、可以自由运用的单位”。还有,汉语文本是连续的汉字串,词与词之间没有明确的分隔标记。因此,将汉字串切分成正确的词串是实现中文信息处理的各项任务的首要问题。 主 要 问 题:
从计算机处理过程上看,分词系统的输入是(C1C2C3……Cm),输出是(W1W2W3……Wn)。显然,就存在一个问题:至今为止,还没有一个统一的权威的分词词表作为分词依据。 一般的解决方法是:a、以现有的分词规范作为指导自动分词工作的基本准则,虽然现有的作为国家标准的《信息处理用现代汉语分词规范》也有一些不尽如人意的地方;b、在前者基础上,加上基于语料库的统计方法,即“经验+统计”,进行收词,以便扩展丰富。 因此,词表中不可能也没有必要囊括所有的词。一方面是因为语言在不断发展变化中,新词不断出现;另一方面词的派生、衍生现象也说明没有必要将所有的词收入词典。 这也就是第二个问题:未登录词的识别。未登录词,即词典中并没有收录,但又确实是“词”的词。例如人名、地名、商标等专用名词,以及常用的简称、省略语、流行语等都较难处理,又是在一段时期内人们经常使用的词。 这就要求分词系统必须有一定的词法分析能力,从而解决衍生词、复合词、派生词、缩略词等词汇层面的问题,为进一步解决中文信息处理提供坚实的基础。 还有第三个问题:歧义切分。歧义是指“两歧或多歧的意义,有两种或几种可能的解释”。这是一个并不只存在于分词系统的问题,没有人的知识去理解,计算机很难知道到底哪个方案正确。 现阶段解决歧义的方法一般分为两类:基于规则的和基于统计的方法。基于规则的方法主要根据句法、语义规则和语法、语法解析进行判断。这些规则仅涉及毗邻词之间的关系,没有完整反应句子中的层次关系,难以建立完整、有效的无矛盾的系统。而国内对歧义字段切分提出了许多不同的基于统计的方法(将在以后的文章中详细介绍),也有一定的成效;但离实际需要的差距还很大,而且由于汉语的复杂性和语言规则的不确定性,歧义现象在词典式分词方法中普遍存在,而且只能有限减少,不可能完全消除。 (学习中,多有鄙陋,敬请斧正……) 2007/3/13 梦想照不进现实昨天本是个好日子,大多数的院校都张榜布分了,梆子井 3#3L 却一片沉闷。
戌时,有些哥们就开始喝酒了。
咳,谁能知道我们考研日子是怎么过来的?谁又能知道落榜是什么滋味?
我不相信酒能解愁,也就没喝。
可躺在床上事儿想多了也睡不着。这大半夜的烟、牌、酒都有,个个写满脸的不是醉意就是悲痛,好像明天就毕业了。
说到毕业,吓,自己被自己吓了一跳,一转眼,我弱冠多年了,却近乎一无所有。
梦想老照不进现实,很崇拜技术却连雕虫小技都要学好久。有时开始怀疑自己是不是有些眼高手低,于是不断地降低心中的要求,至少学以致用吧,可扪心自问自己手上的技术又可以让多少的企业受益呢?又能拿什么对得起月薪奖金呢?
已经懒得理论中国大陆高等教育体制有多么得失败了,或许从自身寻找原因更实际更高效,我被“精英教育”甩开一段路只证明我这段时间没满足条件要求。
快毕业了,活得像个大学生的样子!
|
|
|