首页 技术教程 实用代码 注册破解 正则表达式 网址导航 电子书籍

unicode与utf8编码的转换算法

Ansi,UTF8,Unicode,ASCII编码1. ASCII和Ansi编码 字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为 单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码. 双字节内码 -- Double-Byte character sets)(DBCS),可以支持65000个字符编码. 前者即为ASCII编码,后者对应ANSI. 至于简体中文编码GB2312,实际上它是ANSI的一个代码页9362. Unicode unicode 是一种编码表格,例如,给一个汉字规定一个代码。类似 GB2312-1980, GB18030等,只不过字集不同。 一个unicode码可能转成长度为一个BYTE,或两个,三个,四个BYTE的UTF...
类别:其它 - 字符编码    查看:157    更新:2014-06-01

基于MySQL数据库的UTF8中文网站全文检索的实现

现在的互联网上,很多网站都提供了全文搜索功能,浏览者可以通过输入关键字或者是短语来搜索特定的资料。在PHP+MySQL构架的网站中,通常的做法是通过SELECT查询的Like语句来进行搜索,这一办法存在搜索不够精确、以及效率非常低下的缺点。比如对一个有十几万条记录数据表的TEXT字段进行LIKE操作,可能会花费上近10秒钟左右,这对网站的浏览者来说是一个非常糟糕的使用体验。如何在海量的数据中能够快速的进行全文检索呢?MySQL提供了一个全文索引功能,也就是把字段设置上FULLTEXT索引属性,然后通过SELECT的MATCH AGAINST语句进行查找。 我们开发的一个纯英文站点TouchUs - The Globa...
类别:数据库 - MySQL    查看:115    更新:2014-05-19

在Java中将数据由UTF8转换成GB2312格式

UTF8转换成GB2312 当我们在基于HTTP协议的JSP或Servlet的应用中获取数据或发送请求时,JVM会把输送的数据编码成UTF8格式。如果我们直接从HTTP流中提取中文数据,提取的结果为“????”(可能更多问号),为转换成我们能够理解的中文字符,我们需要把UTF8转换成GB2312,借助ISO-8859-1标准编码能够轻易的实现,下面的代码实现了这一功能:  byte [] b;  String utf8_value;  utf8_value = request.getParameter("NAME");//从HTTP流中取"NAME"的UTF8数据  b = utf8_value.getBytes("8859_1"); //中间用ISO-8859-1过渡  String name = new ...
类别:程序开发 - JAVA    查看:105    更新:2014-05-13

Ansi,UTF8,Unicode,ASCII

1. ASCII和Ansi编码字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为 单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码. 双字节内码 -- Double-Byte character sets)(DBCS),可以支持65000个字符编码.前者即为ASCII编码,后者对应ANSI.至于简体中文编码GB2312,实际上它是ANSI的一个代码页9362. Unicode 如上,ANSI有很多代码页,使用不同代码页的内码无法在其他代码也正常显示,这就是为什么日文版/繁体中文版游戏无法在简体中文平台直接显示的原因.Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语...
类别:其它 - 字符编码    查看:120    更新:2014-05-09