level 8
FonTomas
楼主
Delphi中字符串的操作很简单,但幕后情况却相当复杂。Pascal传统的字符串操作方法与Windows不同,Windows吸取了C语言的字符串操作方法。32位Delphi中增加了长字符串类型,该类型功能强大,是Delphi缺省的字符串类型。 字符串类型在Borland公司的TurboPascal和16位Delphi中,传统的字符串类型是一个字符序列,序列的头部是一个长度字节,指示当前字符串的长度。由于只用一个字节来表示字符串的长度,所以字符串不能超过255个字符。这一长度限制为字符串操作带来不便,因为每个字符串必须定长(确省最大值为255),当然你也可以声明更短的字符串以节约存储空间。 字符串类型与数组类型相似。实际上一个字符串差不多就是一个字符类型的数组,因此用[]符号,你就能访问字符串中的字符,这一事实充分说明了上述观点。
为克服传统Pascal字符串的局限性,32位Delphi增加了对长字符串的支持。这样共有三种字符串类型: ShortString:短字符串类型也就是前面所述的传统Pascal字符串类型。这类字符串最多只能有255个字符,与16位Delphi中的字符串相同。短字符串中的每个字符都属于ANSIChar类型(标准字符类型)。 ANSIString:长字符串类型就是新增的可变长字符串类型。这类字符串由内存动态分配,引用计数,并使用了更新前拷贝(copy--on-write)技术。这类字符串长度没有限制(可以存储多达20亿个字符!),其字符类型也是ANSIChar类型。 WideString :长字符串类型与ANSIString 类型相似,只是它基于WideChar字符类型,WideChar字符为双字节Unicode字符。 使用长字符串
如果只简单地用String定义字符串,那么该字符串可能是短字符串也可能是ANSI长字符串,这取决于$H编译指令的值,$H+(确省)代表长字符串(ANSIString类型)。长字符串是Delphi库中控件使用的字符串。 Delphi长字符串基于引用计数机制,通过引用计数追踪内存中引用同一字符串的字符串变量,当字符串不再使用时,也就是说引用计数为零时,释放内存。 如果你要增加字符串的长度,而该字符串邻近又没有空闲的内存,即在同一存储单元字符串已没有扩展的余地,这时字符串必须被完整地拷贝到另一个存储单元。当这种情况发生时,Delphi运行时间支持程序会以完全透明的方式为字符串重新分配内存。为了有效地分配所需的存储空间,你可以用SetLength过程设定字符串的最大长度值,如: SetLength(String1,200); SetLength过程只是完成一个内存请求,并没有实际分配内存。它只是把将来所需的内存预留出来,实际上并没有使用这段内存。这一技术源于Windows操作系统,现被Delphi用来动态分配内存。例如,当你请求一个很大的数组时,系统会将数组内存预留出来,但并没有把内存分配给数组。 一般不需要设置字符串的长度,不过当需要把长字符串作为参数传递给API函数时(经过类型转换后),你必须用SetLength为该字符串预留内存空间,这一点我会在后面进行说明。
看一看内存中的字符串 为了帮你更好地理解字符串的内存管理细节,我写了一个简例StrRef。在程序中我声明了两个全程字符串:Str1和Str2,当按下第一个按钮时,程序把一个字符串常量赋给第一个变量,然后把第一个变量赋给第二个: Str1 := 'Hello'; Str2 := Str1;
除了字符串操作外,程序还用下面的StringStatus函数在一个列表框中显示字符串的内部状态: function StringStatus(const Str: string):string; begin Result := 'Address: ' + IntToStr(Integer(Str)) + ', Length: ' + IntToStr(Length(Str)) +
', References: ' + IntToStr(PInteger(Integer(Str) - 8)^) + ', Value: ' + Str; end;
在StringStatus函数中,用常量参数传递字符串至关重要。用拷贝方式(值参)传递会引起副作用,因为函数执行过程中会产生一个对字符串的额外引用;与此相反,通过引用(var)或常量(const)参数传递不会产生这种情况。由于本例不希望字符串被修改,因此选用常量参数。 为获取字符串内存地址(有利于识别串的实际内容也有助于观察两个不同的串变量是否引用了同一内存区),我通过类型映射把字符串类型强行转换为整型。字符串实际上是引用,也就是指针:字符串变量保存的是字符串的实际内存地址。 为了提取引用计数信息,我利用了一个鲜为人知的事实:即字符串长度和引用计数信息实际上保存在字符串中,位于实际内容和字符串变量所指的内存位置之前,其负偏移量对字符串长度来说是-4(用Length函数很容易得到这个值),对引用记数来说是-8。 不过必须记住,以上关于偏移量的内部信息在未来的Delphi版本中可能会变,没有写入正式Delphi文档的特性很难保证将来不变。 通过运行这个例子,你会看到两个串内容相同、内存位置相同、引用记数为2,如图7.1中列表框上部所示。现在,如果你改变其中一个字符串的值,那么更新后字符串的内存地址将会改变。这是copy-on-write技术的结果。 第二个按钮(Change)的OnClick事件代码如下,结果如图7.1列表框第二部分所示: procedure TFormStrRef.BtnChangeClick(Sender: TObject); begin Str1[2] := 'a'; ListBox1.Items.Add('Str1[2] := ''a'''); ListBox1.Items.Add('Str1 - ' + StringStatus(Str1)); ListBox1.Items.Add('Str2 - ' + StringStatus(Str2)); end; 注意,BtnChangeClick只能在执行完BtnAssignClick后才能执行。
2012年12月20日 12点12分
1
为克服传统Pascal字符串的局限性,32位Delphi增加了对长字符串的支持。这样共有三种字符串类型: ShortString:短字符串类型也就是前面所述的传统Pascal字符串类型。这类字符串最多只能有255个字符,与16位Delphi中的字符串相同。短字符串中的每个字符都属于ANSIChar类型(标准字符类型)。 ANSIString:长字符串类型就是新增的可变长字符串类型。这类字符串由内存动态分配,引用计数,并使用了更新前拷贝(copy--on-write)技术。这类字符串长度没有限制(可以存储多达20亿个字符!),其字符类型也是ANSIChar类型。 WideString :长字符串类型与ANSIString 类型相似,只是它基于WideChar字符类型,WideChar字符为双字节Unicode字符。 使用长字符串
如果只简单地用String定义字符串,那么该字符串可能是短字符串也可能是ANSI长字符串,这取决于$H编译指令的值,$H+(确省)代表长字符串(ANSIString类型)。长字符串是Delphi库中控件使用的字符串。 Delphi长字符串基于引用计数机制,通过引用计数追踪内存中引用同一字符串的字符串变量,当字符串不再使用时,也就是说引用计数为零时,释放内存。 如果你要增加字符串的长度,而该字符串邻近又没有空闲的内存,即在同一存储单元字符串已没有扩展的余地,这时字符串必须被完整地拷贝到另一个存储单元。当这种情况发生时,Delphi运行时间支持程序会以完全透明的方式为字符串重新分配内存。为了有效地分配所需的存储空间,你可以用SetLength过程设定字符串的最大长度值,如: SetLength(String1,200); SetLength过程只是完成一个内存请求,并没有实际分配内存。它只是把将来所需的内存预留出来,实际上并没有使用这段内存。这一技术源于Windows操作系统,现被Delphi用来动态分配内存。例如,当你请求一个很大的数组时,系统会将数组内存预留出来,但并没有把内存分配给数组。 一般不需要设置字符串的长度,不过当需要把长字符串作为参数传递给API函数时(经过类型转换后),你必须用SetLength为该字符串预留内存空间,这一点我会在后面进行说明。
看一看内存中的字符串 为了帮你更好地理解字符串的内存管理细节,我写了一个简例StrRef。在程序中我声明了两个全程字符串:Str1和Str2,当按下第一个按钮时,程序把一个字符串常量赋给第一个变量,然后把第一个变量赋给第二个: Str1 := 'Hello'; Str2 := Str1;
除了字符串操作外,程序还用下面的StringStatus函数在一个列表框中显示字符串的内部状态: function StringStatus(const Str: string):string; begin Result := 'Address: ' + IntToStr(Integer(Str)) + ', Length: ' + IntToStr(Length(Str)) +
', References: ' + IntToStr(PInteger(Integer(Str) - 8)^) + ', Value: ' + Str; end;
在StringStatus函数中,用常量参数传递字符串至关重要。用拷贝方式(值参)传递会引起副作用,因为函数执行过程中会产生一个对字符串的额外引用;与此相反,通过引用(var)或常量(const)参数传递不会产生这种情况。由于本例不希望字符串被修改,因此选用常量参数。 为获取字符串内存地址(有利于识别串的实际内容也有助于观察两个不同的串变量是否引用了同一内存区),我通过类型映射把字符串类型强行转换为整型。字符串实际上是引用,也就是指针:字符串变量保存的是字符串的实际内存地址。 为了提取引用计数信息,我利用了一个鲜为人知的事实:即字符串长度和引用计数信息实际上保存在字符串中,位于实际内容和字符串变量所指的内存位置之前,其负偏移量对字符串长度来说是-4(用Length函数很容易得到这个值),对引用记数来说是-8。 不过必须记住,以上关于偏移量的内部信息在未来的Delphi版本中可能会变,没有写入正式Delphi文档的特性很难保证将来不变。 通过运行这个例子,你会看到两个串内容相同、内存位置相同、引用记数为2,如图7.1中列表框上部所示。现在,如果你改变其中一个字符串的值,那么更新后字符串的内存地址将会改变。这是copy-on-write技术的结果。 第二个按钮(Change)的OnClick事件代码如下,结果如图7.1列表框第二部分所示: procedure TFormStrRef.BtnChangeClick(Sender: TObject); begin Str1[2] := 'a'; ListBox1.Items.Add('Str1[2] := ''a'''); ListBox1.Items.Add('Str1 - ' + StringStatus(Str1)); ListBox1.Items.Add('Str2 - ' + StringStatus(Str2)); end; 注意,BtnChangeClick只能在执行完BtnAssignClick后才能执行。