公告板
预览模式: 普通 | 列表

这几天整理的小巧中文分词词库供大家下载

这几天在还在优化中文分词,词库一直是个问题,所以重新整理了网上几个流行的词库,先发上一个比较小巧的词库(数据量92984)上来,带词性和tf/idf词频统计
大致的词性从以下代码中可以获得,整理好的词库文件在附件中下载,编码是UTF-8,比较适合小型项目使用,更大的还在整理中下载文件带词性和tf/idf词频统计小巧中文分词词库.rar (771.84 KB , 下载:2323次)

[阅读全文]

C语言里printf函数格式控制符的完整格式

printf的格式控制的完整格式:
%  -  0  m.n  l或h  格式字符
下面对组成格式说明的各项加以说明:
①%:表示格式说明的起始符号,不可缺少。
②-:有-表示左对齐输出,如省略表示右对齐输出。
③0:有0表示指定空位填0,如省略表示指定空位不填。
④m.n:m指域宽,即对应的输出项在输出设备上所占的字符数。N指精度。用于说明输出的实型数的小数位数。为指定n时,隐含的精度为n=6位。
⑤l或h:l对整型指long型,对实型指double型。h用于将整型的格式字符修正为short型。
格式字符
格式字符用以指定输出项的数据类型和输出格式。
①d格式:用来输出十进制整数。有以下几种用法:
%d:按整型数据的实际长度输出。
%md:m为指定的输出字段的宽度。如果数据的位数小于m,则左端补以空格,若大于m,则按实际位数输出。
%ld:输出长整型数据。
②o格式:以无符号八进制形式输出整数。对长整型可以用"%lo"格式输出。同样也可以指定字段宽度用“%mo”格式输出。
例:
  main()
  { int a = -1;
    printf("%d, %o", a, a);
  }
 运行结果:-1,177777
 程序解析:-1在内存单元中(以补码形式存放)为(1111111111111111)2,转换为八进制数为(177777)8。
③x格式:以无符号十六进制形式输出整数。对长整型可以用"%lx"格式输出。同样也可以指定字段宽度用"%mx"格式输出。
④u格式:以无符号十进制形式输出整数。对长整型可以用"%lu"格式输出。同样也可以指定字段宽度用“%mu”格式输出。
⑤c格式:输出一个字符。
⑥s格式:用来输出一个串。有几中用法
%s:例如:printf("%s", "CHINA")输出"CHINA"字符串(不包括双引号)。
%ms:输出的字符串占m列,如字符串本身长度大于m,则突破获m的限制,将字符串全部输出。若串长小于m,则左补空格。
%-ms:如果串长小于m,则在m列范围内,字符串向左靠,右补空格。
%m.ns:输出占m列,但只取字符串中左端n个字符。这n个字符输出在m列的右侧,左补空格。
%-m.ns:其中m、n含义同上,n个字符输出在m列范围的左侧,右补空格。如果n>m,则自动取n值,即保证n个字符正常输出。
⑦f格式:用来输出实数(包括单、双精度),以小数形式输出。有以下几种用法:
%f:不指定宽度,整数部分全部输出并输出6位小数。
%m.nf:输出共占m列,其中有n位小数,如数值宽度小于m左端补空格。
%-m.nf:输出共占n列,其中有n位小数,如数值宽度小于m右端补空格。
⑧e格式:以指数形式输出实数。可用以下形式:
%e:数字部分(又称尾数)输出6位小数,指数部分占5位或4位。
%m.ne和%-m.ne:m、n和”-”字符含义与前相同。此处n指数据的数字部分的小数位数,m表示整个输出数据所占的宽度。
⑨g格式:自动选f格式或e格式中较短的一种输出,且不输出无意义的零。
关于printf函数的进一步说明:
如果想输出字符"%",则应该在“格式控制”字符串中用连续两个%表示,如:
printf("%f%%", 1.0/3);
输出0.333333%。

对于单精度数,使用%f格式符输出时,仅前7位是有效数字,小数6位.
对于双精度数,使用%lf格式符输出时,前16位是有效数字,小数6位.

拾遗
由高手指点
对于m.n的格式还可以用如下方法表示(例)
char ch[20];
printf("%*.*s\n",m,n,ch);
前边的*定义的是总的宽度,后边的定义的是输出的个数。分别对应外面的参数m和n 。我想这种方法的好处是可以在语句之外对参数m和n赋值,从而控制输出格式。

今天(06.6.9)又看到一种输出格式 %n 可以将所输出字符串的长度值赋绐一个变量, 见下例:

int slen;

printf("hello world%n", &slen);

执行后变量被赋值为11。

又查了一下, 看到一篇文章(查看)说这种格式输出已经确认为一个安全隐患,并且已禁用。再搜搜果然这种用法都被用来搞什么溢出、漏洞之类的,随便找了一个:格式化字符串攻击笔记

特别注意下%*.*s这种用法
转自:http://blog.liuwentao.net/read.php?17 

情况1:warning C4267: “初始化” : 从“size_t”转换到“int”,可能丢失数据


如果使用 /Wp64 进行编译,或者在 64 位操作系统上编译,则在为 64 位目标程序编译时,type 为 32 位而 size_t 为 64 位。

要修复此警告,请使用 size_t而不是 type

[阅读全文]

在VC下编译使用unistd.h,times.h等文件

许多在Linux下开发的C程序都需要头文件unistd.h,但VC中没有个头文件,
所以用VC编译总是报错。把下面的内容保存为unistd.h,可以解决这个问题。

类似还有
#include <sys/time.h>等linux写法,

在vc中可直接#include <sys/time.h>

/** This file is part of the Mingw32 package.
 *  unistd.h maps     (roughly) to io.h
 */

#ifndef _UNISTD_H
#define _UNISTD_H

#include <io.h>
#include <process.h>

#endif /* _UNISTD_H */


复习c/c++中

以下为过程重点记录:

C++中,标准库放在名字空间std中,标准的输入输出头文件是不是iostream,虽然还支持下iostream.h,但不在标准中(Windows XP已不支持)

头应该为

#include <iostream>
using namespace std;

最近一段时间,QQ不能接收图片也不能发图片,朋友有什么问题都得直接让其截图后以文件的形式传送过来,很是麻烦
但QQ又不能丢,于是在线升级,重新下载新的安装包都试过了,文件接收路径也改了又改,都不能奏效。
很奇怪的是:我平常用两个QQ,一样的QQ版本,怎么另一个不会出现这种情况

[阅读全文]

windows+cygwin 确实方便

cygwin  的确很强大,在windows下编译linux文件,省去了很多库不存在再down tar包,然后./configure make install的麻烦,gcc~ libxml2等直接在线重安装一个即可解决
windows下编译,cygwin 确实方便

安装的redhat,该过默认的显示器配置后,测试没问题,进系统后无法启动xwindows,还好闪一闪有text界面,直接输入 redhat-config-xfree86重新配置一下
startX,重新进入熟悉的界面

·此地為某只的個人YY之地,言論僅代表自己的個人觀點,和現實、社會、政治完全沒關係,沒事請不要在此惹事生非。
·若要轉載本blog内容請註明轉載地址和作者名字,禁止無權轉載/盜鏈等無恥行爲。
·如有轉載侵權請聯系刪除。
·謝謝合作。^_^