java中判断字符串真实长度(中文2个字符,英文1个字符)的方法

java中判断字段真实长度(中文2个字符,英文1个字符)的方法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
public class StringLength {

String s1 = "a";
String s2 = "国1a";
String s3 = "aa";

@Test
public void testLength() {
assert 1 == s1.getBytes().length;
assert 3 == s2.length();
assert 4 == s2.getBytes(Charset.forName("GBK")).length;
assert 5 == s2.getBytes().length;
assert 2 == s3.getBytes().length;
assert 2 == s3.getBytes(Charset.forName("GBK")).length;
assert 2 == s3.length();
}
}

为什么用GBK字符集?

其实不止是gbk编码,GB2312、GB18030也是可以的,主要利用了,字符集用2个字节表示中文,1个字节表示英文、数字。
当然这不是万能的,不在字符集中的字符会不准确,例如:”嗀、兀、鎴、戝、枩、綘”,GB2312用1个字节表示

英文字母和中文汉字在不同字符集编码下的字节数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
import java.io.UnsupportedEncodingException;

public class EncodingTest {

@Test
public void test() {
String en = "A";
String ch = "人";
System.out.println("英文字母:" + en);
printByteLength(en, "GB2312");
printByteLength(en, "GBK");
printByteLength(en, "GB18030");
printByteLength(en, "ISO-8859-1");
printByteLength(en, "UTF-8");
printByteLength(en, "UTF-16");
printByteLength(en, "UTF-16BE");
printByteLength(en, "UTF-16LE");
System.out.println();

System.out.println("中文汉字:" + ch);
printByteLength(ch, "GB2312");
printByteLength(ch, "GBK");
printByteLength(ch, "GB18030");
printByteLength(ch, "ISO-8859-1");
printByteLength(ch, "UTF-8");
printByteLength(ch, "UTF-16");
printByteLength(ch, "UTF-16BE");
printByteLength(ch, "UTF-16LE");
}

/**
* 打印不同字符集下Java字符串所占的字节数
*
* @param str 待操作的字符串
* @param encodingName 字符集名称
*/
public void printByteLength(String str, String encodingName) {
System.out.print("字节数 : ");
try {
System.out.print(str.getBytes(encodingName).length);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
System.out.println(";编码:" + encodingName);
}
}

结果:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
英文字母:A
字节数 : 1;编码:GB2312
字节数 : 1;编码:GBK
字节数 : 1;编码:GB18030
字节数 : 1;编码:ISO-8859-1
字节数 : 1;编码:UTF-8
字节数 : 4;编码:UTF-16
字节数 : 2;编码:UTF-16BE
字节数 : 2;编码:UTF-16LE

中文汉字:人
字节数 : 2;编码:GB2312
字节数 : 2;编码:GBK
字节数 : 2;编码:GB18030
字节数 : 1;编码:ISO-8859-1
字节数 : 3;编码:UTF-8
字节数 : 4;编码:UTF-16
字节数 : 2;编码:UTF-16BE
字节数 : 2;编码:UTF-16LE