Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Соболь Информатика.docx
Скачиваний:
294
Добавлен:
28.03.2015
Размер:
585.72 Кб
Скачать

1.3.2. Представление символьный

и текстовых данных в двоичном коде

Для передачи информации между собой люди используют знаки

и символы. Начав с простейших условных жестов, человек создал

целый мир знаков, где главным средством общения стал язык (т.е. речь

и письменность). Слово есть минимальная первичная единица

языка, представляющая собой специальный набор символов и служащая

для наименования понятий, предметов, действий и т.п. Следующим

по сложности элементом языка является предложение — конструкция,

выражающая законченную мысль. На основе предложений строится

текст. Текст (от лат. textus — ткань, соединение) - высказывание,

выходящее за рамки предложения и представляющее собой единое

и целое, наделенное внутренней структурой и организацией в

соответствии с правилами языка.

С появлением вычислительных машин стала задача

представления в цифровой форме нечисловых величин, и в первую очередь —

символов, слов, предложений и текста.

Символы. Для представления символов в числовой форме был

предложен метод кодирования, получивший в дальнейшем широкое

распространение и для других видов представления нечисловых дан-

36

ных (звуков, изображений и др.). Кодом называется уникальное

беззнаковое целое двоичное число, поставленное в соответствие

некоторому символу. Под алфавитом компьютерной системы понимают

совокупность вводимых и отображаемых символов. Алфавит

компьютерной системы включает в себя арабские цифры, буквы

латинского алфавита, знаки препинания, специальные символы и знаки,

буквы национального алфавита, символы псевдографики — растры,

прямоугольники, одинарные и двойные рамки, стрелки.

Первоначально для хранения кода одного символа отвели 1 байт (8 битов),

что позволяло закодировать алфавит из 256 различных символов.

Система, в которой каждому символу алфавита поставлен в

соответствие уникальный код, называется кодовой таблицей. Разные

производители средств вычислительной техники создавали для одного и

того же алфавита символов свои кодовые таблицы. Это приводило к

тому, что символы, набранные с помощью одной таблицы кодов,

отображались неверно при использовании другой таблицы. Для

решения проблемы многообразия кодовых таблиц в 1981 г. Институт

стандартизации США принял стандарт кодовой таблицы,

получившей название ASCII (American Standard Code of Information

Interchange — американский стандартный код информационного

обмена). Эту таблицу использовали программные продукты,

работающие под управлением операционной системы MS-DOS,

разработанной компанией Microsoft по заказу крупной фирмы — производителя

персональных компьютеров IBM (International Business Machine).

Широкое распространение персональных компьютеров фирмы IBM

привело к тому, что стандарт ASCII приобрел статус

международного.

В таблице ASCII содержится 256 символов и их кодов. Таблица

состоит из двух частей: основной и расширенной. Основная часть

(символы с кодами от 0 до 127 включительно) является базовой, она

в соответствии с принятым стандартом не может быть изменена. В

нее вошли: управляющие символы (им соответствуют коды с 1 по 31),

арабские цифры, буквы латинского алфавита, знаки препинания,

специальные символы (табл. 1.1).

Расширенная часть (символы с кодами от 128 до 255) отдана

национальным алфавитам, символам псевдографики и некоторым

специальным символам. В соответствии с утвержденными стандар-

37

Тоблица 1.1. Базовая часть тоблицы кодов ASCII

Код

32

33

34

35

36

37

38

39

40

41

42

43

пробел

1

щш

н

$

%

&

»

(

)

¦Ж

-•"

Коя

44

45

46

47

48

49

50

51

52

53

54

55

»

/

0

1

2

3

4

5

6

7

Код

56

57

58

59

60

61

62

63

64

65

66

67

8

9

*

*

<

>

?

¦

@

11

В

С

Код

68

69

70

71

72

73

74

75

76

77

78

79

D

Е

F

G

Н

I

J

К

L

М

N

0

Код

80

81

82

83

84

85

86

87

88

89

90

91

Р

0

R

S

Т

и

V

w

X

V

Z

[

Код

92

93

94

95

96

97

98

99

100

101

102

103

\

]

•л.

~

a

Ь

с

d

е

f

g

Код

104

105

106

107

108

109

110

111

112

113

114

115

h

1

3

к

1

m

п

о

Р

q

г

s

Код

116

117

118

119

120

121

122

123

124

125

126

127

t

и

V

W

X

У

Z

{

1

1

}

^"ш-

й

тами эта часть таблицы изменяется в зависимости от

национального алфавита той страны, где она используется, и способа

кодирования. Именно поэтому, при наименовании программ, документов и

других объектов желательно использовать латинские буквы,

содержащиеся в основной, неизменяемой части таблицы, так как

русскоязычные имена при несоответствии таблиц кодирования будут неверно

отображаться. Например, операционная система Windows

поддерживает большое число расширенных таблиц для различных

национальных алфавитов. В России наиболее распространенной кодовой

таблицей алфавита русского языка является «латиница Windows 1251»

(табл. 1.2).

В качестве другого примера рассмотрим расширенную таблицу

«ГОСТ—альтернативная» (табл. 1.3), на смену которой пришла

«латиница Windows 1251».

Во многих странах Азии 256 кодов явно не хватило для

кодирования их национальных алфавитов. В 1991 г. производители

программных продуктов и организации, утверждающие стандарты,

пришли к соглашению о выработке единого стандарта. Этот стандарт

построен по 16 битной схеме кодирования и получил название

UNICODE. Он позволяет закодировать 216= 65536 символов,

которых достаточно для кодирования всех национальных алфавитов в

одной таблице. Так как каждый символ этой кодировки занимает два

байта (вместо одного, как раньше), все текстовые документы, пред-

38

Таблииа 1.2. Расширенная таблица «латинииа Windows 1251»

Код

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

Символ

ъ

г

1

t

11

• • ¦

t

t

%0

Jb

<

ьь

ft

ъ

и

Код

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

Символ

?

И

»

D

ТМ

гь

>

ЬЬ

К

h

и

Код

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

Символ

У

у

J

п

г1

i

i

§

Ё

©

е

«

-I

®

if

Код

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

Chmboj

а

±

I

i

Г

Я

Я

ё

е

»

i

s

s

Т

Код

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

Симво;

А

Б

В

Г

д

Е

Ж

3

И

Й

к

л

м

н

о

п

Код

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

Chmboj

Р

С

т

У

ф

X

Ц

ч

ш

Щ

ъ

ы

ь

э

ю

я

Код

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

Симво;

a

б

в

г

Д

е

ж

3

и

й

к

л

м

н

о

п

Код

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

Симво.

Р

С

т

У

Ф

X

Ц

ч

ш

Щ

ъ

ы

ь

э

ю

я

Таблииа 1.3. Расширенная таблица «ГОСТ-альтернативная»

Код

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

А

И

Р

Ш

a

И

X

1

IL

JL

Т

Р

Ш

Ё

о

Код

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

Б

Й

С

щ

б

Й

it'll'

1

г

т

с

щ

е

Код

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

В

К

Т

Ъ

в

к

1

1

I

т

г

т

ъ

е

¦

Код

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

Г

Л

У

Ы

г

п

1

1

I

1

и

ы

е

S

Код

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

Д

М

Ф

Ь

д

м

J

t

¦

ф

ь

I

W

Код

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

Е

М

К

3

е

н

1

+

i=

i

X

э

• •

1

D

Код

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

Ж

0

Ц

ю

ж

о

]

1

Y

s

Ц

Ю

9

¦

Код

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

3

П

Ч

Я

3

п

1

}

i

ч

я

н

39

ставленные в UNICODE, стали длиннее в два раза. Современный

уровень технических средств нивелирует этот недостаток UNICODE.

Текстовые строки. Текстовая (символьная) строка — это

конечная последовательность символов. Это может быть осмысленный

текст или произвольный набор, короткое слово или целая книга.

Длина символьной строки — это количество символов в ней.

Записывается в память символьная строка двумя способами: либо число,

обозначающее длину текста, затем текст, либо текст, затем —

разделитель строк.

Текстовые документы. Текстовые документы используются для

хранения и обмена данными, но сплошной, не разбитый на

логические фрагменты текст воспринимается тяжело. Структурирование

теста достигается форматированием — специфическим расположением

текста при подготовке его к печати. Для анализа структуры текста

были разработаны языки разметки, которые устанавливают

текстовые метки (маркеры или теги), используемые для обозначения

частей документа, записывают вместе с основным текстом в текстовом

формате. Программы, анализирующие текст, структурируют его,

считывая теги.