вторник, 2 июня 2009 г.

И снова о данных

На просторах Интернета, нашел дополнительную информацию по определению и использованию данных в языке ассемблера. Хоть тут будут и небольшие повторения, но повторение - мать учения.

При программировании на языке ассемблера используются данные следующих типов:
  1. Непосредственные данные, представляющие собой числовые или символьные значения, являющиеся частью команды.
    Непосредственные данные формируются программистом в процессе написания программы для конкретной команды ассемблера.
  2. Данные простого типа, описываемые с помощью ограниченного набора директив описания данных или резервирования памяти, позволяющих выполнить самые элементарные операции по размещению и инициализации числовой и символьной информации. При обработке этих директив ассемблер сохраняет в своей таблице символов информацию о местоположении данных (значения сегментной составляющей адреса и смещения) и типе данных, то есть единицах памяти, выделяемых для размещения данных в соответствии с директивой резервирования и инициализации данных.

    Эти два типа данных являются элементарными, или базовыми; работа с ними поддерживается на уровне системы команд микропроцессора. Используя данные этих типов, можно формализовать и запрограммировать практически любую задачу. Но насколько это будет удобно — вот вопрос.

  3. Данные сложного типа, которые были введены в язык ассемблера с целью облегчения разработки программ. Сложные типы данных строятся на основе базовых типов, которые являются как бы кирпичиками для их построения. Введение сложных типов данных позволяет несколько сгладить различия между языками высокого уровня и ассемблером. У программиста появляется возможность сочетания преимуществ языка ассемблера и языков высокого уровня (в направлении абстракции данных), что в конечном итоге повышает эффективность конечной программы.
Понятие простого типа данных носит двойственный характер. С точки зрения размерности (физическая интерпретация), микропроцессор аппаратно поддерживает следующие основные типы данных (рис.1):
  • байт — восемь последовательно расположенных битов, пронумерованных от 0 до 7, при этом бит 0 является самым младшим значащим битом;
  • слово — последовательность из двух байт, имеющих последовательные адреса. Размер слова — 16 бит; биты в слове нумеруются от 0 до 15. Байт, содержащий нулевой бит, называется младшим байтом, а байт, содержащий 15-й бит - старшим байтом. Микропроцессоры Intel имеют важную особенность — младший байт всегда хранится по меньшему адресу. Адресом слова считается адрес его младшего байта. Адрес старшего байта может быть использован для доступа к старшей половине слова.
  • двойное слово — последовательность из четырех байт (32 бита), расположенных по последовательным адресам. Нумерация этих бит производится от 0 до 31. Слово, содержащее нулевой бит, называется младшим словом, а слово, содержащее 31-й бит, - старшим словом. Младшее слово хранится по меньшему адресу. Адресом двойного слова считается адрес его младшего слова. Адрес старшего слова может быть использован для доступа к старшей половине двойного слова.
  • учетверенное слово — последовательность из восьми байт (64 бита), расположенных по последовательным адресам. Нумерация бит производится от 0 до 63. Двойное слово, содержащее нулевой бит, называется младшим двойным словом, а двойное слово, содержащее 63-й бит, — старшим двойным словом. Младшее двойное слово хранится по меньшему адресу. Адресом учетверенного слова считается адрес его младшего двойного слова. Адрес старшего двойного слова может быть использован для доступа к старшей половине учетверенного слова.
Кроме трактовки типов данных с точки зрения их разрядности, микропроцессор на уровне команд поддерживает логическую интерпретацию этих типов (рис.2):
  • Целый тип со знаком — двоичное значение со знаком, размером 8, 16 или 32 бита. Знак в этом двоичном числе содержится в 7, 15 или 31-м бите соответственно. Ноль в этих битах в операндах соответствует положительному числу, а единица — отрицательному. Отрицательные числа представляются в дополнительном коде. Числовые диапазоны для этого типа данных следующие:
    • 8-разрядное целое — от –128 до +127;
    • 16-разрядное целое — от –32 768 до +32 767;
    • 32-разрядное целое — от –231 до +231–1.
  • Целый тип без знака — двоичное значение без знака, размером 8, 16 или 32 бита. Числовой диапазон для этого типа следующий:
    • байт — от 0 до 255;
    • слово — от 0 до 65 535;
    • двойное слово — от 0 до 232–1.
  • Указатель на память двух типов:
    • ближнего типа — 32-разрядный логический адрес, представляющий собой относительное смещение в байтах от начала сегмента. Эти указатели могут также использоваться в сплошной (плоской) модели памяти, где сегментные составляющие одинаковы;
    • дальнего типа — 48-разрядный логический адрес, состоящий из двух частей: 16-разрядной сегментной части — селектора, и 32-разрядного смещения.
  • Цепочка — представляющая собой некоторый непрерывный набор байтов, слов или двойных слов максимальной длины до 4 Гбайт.
  • Битовое поле представляет собой непрерывную последовательность бит, в которой каждый бит является независимым и может рассматриваться как отдельная переменная. Битовое поле может начинаться с любого бита любого байта и содержать до 32 бит.
  • Неупакованный двоично-десятичный тип — байтовое представление десятичной цифры от 0 до 9. Неупакованные десятичные числа хранятся как байтовые значения без знака по одной цифре в каждом байте. Значение цифры определяется младшим полубайтом.
  • Упакованный двоично-десятичный тип представляет собой упакованное представление двух десятичных цифр от 0 до 9 в одном байте. Каждая цифра хранится в своем полубайте. Цифра в старшем полубайте (биты 4–7) является старшей.
Отметим, что “Зн” на рис. 2 означает знаковый бит.

Для описания простых типов данных в программе используются специальные директивы описания и инициализации данных, которые, по сути, являются указаниями транслятору на выделение определенного объема памяти. Если проводить аналогию с языками высокого уровня, то директивы резервирования и инициализации данных являются определениями переменных.
Машинного эквивалента этим директивам нет; просто транслятор, обрабатывая каждую такую директиву, выделяет необходимое количество байт памяти и при необходимости инициализирует эту область некоторым значением.
Директивы резервирования и инициализации данных простых типов имеют формат, показанный на (рис.3).

На рис. 3 использованы следующие обозначения:
  • ? показывает, что содержимое поля не определено, то есть при задании директивы с таким значением выражения содержимое выделенного участка физической памяти изменяться не будет. Фактически, создается неинициализированная переменная;
  • значение инициализации — значение элемента данных, которое будет занесено в память после загрузки программы. Фактически, создается инициализированная переменная, в качестве которой могут выступать константы, строки символов, константные и адресные выражения в зависимости от типа данных. Подробная информация приведена в приложении 1;
  • выражение — Эта конструкция позволяет повторить последовательное занесение в физическую память выражения в скобках n раз.
  • имя — некоторое символическое имя метки или ячейки памяти в сегменте данных, используемое в программе.
Директивы описания и инициализации данных:
  • db — резервирование памяти для данных размером 1 байт.
    Директивой db можно задавать следующие значения:
    • выражение или константу, принимающую значение из диапазона:
      • для чисел со знаком –128...+127;
      • для чисел без знака 0...255;
    • 8-битовое относительное выражение, использующее операции HIGH и LOW;
    • символьную строку из одного или более символов. Строка заключается в кавычки. В этом случае определяется столько байт, сколько символов в строке.
  • dw — резервирование памяти для данных размером 2 байта.
    Директивой dw можно задавать следующие значения:
    • выражение или константу, принимающую значение из диапазона:
      • для чисел со знаком –32 768...32 767;
      • для чисел без знака 0...65 535;
    • выражение, занимающее 16 или менее бит, в качестве которого может выступать смещение в 16-битовом сегменте или адрес сегмента;
    • 1- или 2-байтовую строку, заключенная в кавычки.
  • dd — резервирование памяти для данных размером 4 байта.
    Директивой dd можно задавать следующие значения:
    • выражение или константу, принимающую значение из диапазона:
      • для i8086:
        • для чисел со знаком –32 768...+32 767;
        • для чисел без знака 0...65 535;
      • для i386 и выше:
        • для чисел со знаком –2 147 483 648...+2 147 483 647;
        • для чисел без знака 0...4 294 967 295;
    • относительное или адресное выражение, состоящее из 16-битового адреса сегмента и 16-битового смещения;
    • строку длиной до 4 символов, заключенную в кавычки.
  • df — резервирование памяти для данных размером 6 байт;
  • dp — резервирование памяти для данных размером 6 байт.
    Директивами df и dp можно задавать следующие значения:
    • выражение или константу, принимающую значение из диапазона:
      • для i8086:
        • для чисел со знаком –32 768...+32 767;
        • для чисел без знака 0...65 535;
      • для i386 и выше:
        • для чисел со знаком –2 147 483 648...+2 147 483 647;
        • для чисел без знака 0...4 294 967 295;
    • относительное или адресное выражение, состоящее из 32 или менее бит (для i80386) или 16 или менее бит (для младших моделей микропроцессоров Intel);
    • адресное выражение, состоящее из 16-битового сегмента и 32-битового смещения;
    • константу со знаком из диапазона –247...247–1;
    • константу без знака из диапазона 0...248-1;
    • строку длиной до 6 байт, заключенную в кавычки.
  • dq — резервирование памяти для данных размером 8 байт.
    Директивой dq можно задавать следующие значения:
    • выражение или константу, принимающую значение из диапазона:
      • для МП i8086:
        • для чисел со знаком –32 768...+32 767;
        • для чисел без знака 0...65 535;
      • для МП i386 и выше:
        • для чисел со знаком –2 147 483 648...+2 147 483 647;
        • для чисел без знака 0...4 294 967 295;
    • относительное или адресное выражение, состоящее из 32 или менее бит (для i80386) или 16 или менее бит (для младших моделей микропроцессоров Intel);
    • константу со знаком из диапазона –263...263–1;
    • константу без знака из диапазона 0...264–1;
    • строку длиной до 8 байт, заключенную в кавычки.
  • dt — резервирование памяти для данных размером 10 байт.
    Директивой dt можно задавать следующие значения:
    • выражение или константу, принимающую значение из диапазона:
      • для МП i8086:
        • для чисел со знаком –32 768...+32 767;
        • для чисел без знака 0...65 535;
      • для МП i386 и выше:
        • для чисел со знаком –2 147 483 648...+2 147 483 647;
        • для чисел без знака 0...4 294 967 295;
    • относительное или адресное выражение, состоящее из 32 или менее бит (для i80386) или 16 или менее бит (для младших моделей);
    • адресное выражение, состоящее из 16-битового сегмента и 32-битового смещения;
    • константу со знаком из диапазона –279...279-1;
    • константу без знака из диапазона 0...280-1;
    • строку длиной до 10 байт, заключенную в кавычки;
    • упакованную десятичную константу в диапазоне 0...99 999 999 999 999 999 999.

Очень важно уяснить себе порядок размещения данных в памяти. Он напрямую связан с логикой работы микропроцессора с данными. Микропроцессоры Intel требуют следования данных в памяти по принципу: младший байт по младшему адресу.

А теперь примерчик для лучшего усвоения прочитанного:

А так же его листинг:

Ну и теперь медитация в дебагере...

Внимательно медитируем и прозреваем...
Еще раз видим, что данные располагаются в памяти в "обратной" последовательности, то есть принцип - младший байт, по младшему адресу.
В дампе памяти видим данные вашего сегмента в двух представлениях: шестнадцатеричном и символьном. Видно, что со смещением 0000 расположены символы, входящие в строку message. Она занимает 34 байта. После нее следует байт, имеющий в сегменте данных символическое имя perem_1, содержимое этого байта offh.
Теперь обратите внимание на то, как размещены в памяти байты, входящие в слово, обозначенное символическим именем perem_2. Сначала следует байт со значением 7fh, а затем со значением 3ah. Как видите, в памяти действительно сначала расположен младший байт значения, а затем старший. Та же история и с данными обозначенными символическим именем perem_3.
Оставшуюся часть сегмента данных вы можете теперь проанализировать самостоятельно.
Остановимся лишь на двух специфических особенностях использования директив резервирования и инициализации памяти. Речь идет о случае использования в поле операндов директив dw и dd символического имени из поля имя этой или другой директивы резервирования и инициализации памяти. В нашем примере сегмента данных это директивы с именами adr и adr_full.
Когда транслятор встречает директивы описания памяти с подобными операндами, то он формирует в памяти значения адресов тех переменных, чьи имена были указаны в качестве операндов. В зависимости от директивы, применяемой для получения такого адреса, формируется либо полный адрес (директива dd) в виде двух байтов сегментного адреса и двух байтов смещения, либо только смещение (директива dw).

Любой переменной, объявленной с помощью директив описания простых типов данных, ассемблер присваивает три атрибута:

  1. Сегмент (seg) — адрес начала сегмента, содержащего переменную;
  2. Смещение (offset) в байтах от начала сегмента с переменной;
  3. Тип (type) — определяет количество памяти, выделяемой переменной в соответствии с директивой объявления переменной.

Комментариев нет: