Добавил:

star Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Уфимский Государственный Авиационный Технический Университет

Предмет:

Структуры и алгоритмы обработки данных

Файл:

Отчет ЛР1 МО-

.docx

Скачиваний:

Добавлен:

22.08.2023

Размер:

87.8 Кб

Скачать

☆

Федеральное государственное бюджетное образовательное учреждение

высшего образования

Уфимский государственный авиационный технический университет

Кафедра вычислительной математики и кибернетики

Лабораторная работа №1

« Построение Хэш-таблицы»

Выполнил:

студент группы МО-.

Проверил:

Рипатти А.В.

Уфа – 2020

1. Постановка задачи.

Задача: Построить хеш - таблицу, содержащую последовательность из m = 64 элементов размерности n = 6. Элементы генерируются с помощью датчика случайных чисел.

Хеш - функция - f(k) = (k +7) / 41)mod t.

Метод разрешения конфликта - линейные пробы.

2.Теоретическая часть.

Хеширование является самым быстродействующим из известных методов программного поиска. Это его качество особенно проявляется при работе с наборами данных большого размера. Данный метод весьма удобен тем, что не требует никакого упорядочивания, ни сортировки ключевых слов. Высокая скорость выполнения операций хеширования обусловлена тем, что элементы данных запоминаются, и впоследствии выбираются из ячеек памяти, адреса которых являются простыми арифметическими функциями содержимого соответствующих ключевых слов. Адреса, получаемые из ключевых слов методом хеширования, называются хешадресами. Таким образом, идея хеширования состоит в том, чтобы взять некоторые характеристики ключа и использовать полученную частичную информацию в качестве основы поиска. Мы вычисляем хеш-функцию f(k) и берем это значение в качестве адреса начала поиска, т.е. чтобы при поиске не рыскать вокруг да около, производим над ключом k некоторое арифметическое вычисление и получаем функцию f(k), указывающую адрес в таблице, где хранится k и ассоциированная с ним информация. С хеш-функцией связана так называемая хеш-таблица, ячейки которой пронумерованы и хранят сами данные или ссылки на данные. Часто отображение, осуществляемое хеш-функцией, является отображением "многие к одному" и приводит к коллизиям. При возникновении коллизии два или более ключа ассоциируются с одной и той же ячейкой хеш-таблицы. Поскольку два ключа не могут занимать одну и ту же ячейку в таблице, мы должны разработать стратегию разрешения коллизий, т.е. использовать какой-нибудь метод, указывающий альтернативное местоположение. Следовательно, чтобы использовать хеш-таблицу, программист должен выбрать хеш-функцию f(k) и метод разрешения коллизий.

Хеш-функция должна отображать ключ в целое число. При этом количество коллизий должно быть ограниченным, а вычисление самой хеш-функции - очень быстрым. Некоторые методы удовлетворяют этим требованиям.

Несмотря на то, что два или более ключей могут хешироваться одинаково, они не могут занимать в хеш-таблице одну и ту же ячейку. Нам остаются два пути: либо найти для нового ключа другую позицию в таблице, либо создать для каждого значения хеш-функции отдельный список, в котором будут все ключи, отображающиеся при хешировании в это значение. Оба варианта представляют собой две классические стратегии разрешения коллизий - открытую адресацию с линейным или квадратичным опробованием и метод цепочек.

Открытая адресация с линейным или квадратичным опробованием. Эта методика предполагает, что каждая ячейка таблицы помечена как незанятая. Поэтому при добавлении нового ключа всегда можно определить, занята ли данная ячейка таблицы или нет. Если да, алгоритм осуществляет "опробование" по кругу, пока не встретится "открытый адрес" (свободное место). Отсюда и название метода. Если размер таблицы велик относительно числа хранимых там ключей, метод работает хорошо, поскольку хеш-функция будет равномерно рассеивать ключи по всему диапазону и число коллизий будет минимальным. По мере того как коэффициент заполнения таблицы приближается к 1, эффективность процесса заметно падает.

В линейном пробинге к хеш-адресу прибавляется (или вычитается) по единице до тех пор, пока не обнаружится незанятая ячейка.

a0 =f(k) - первичный адрес,

ai =(a0 + i) mod t, i = 1÷ (t -1),

где t ≥ 1.5 N; t - размер таблицы, N - общее количество элементов.

Недостаток линейных проб заключается в том, что вычисленные адреса имеют тенденцию группироваться вокруг первичных адресов. Первичное группирование ячеек можно устранить, применяя нелинейные методы, в частности квадратичный пробинг, при котором

последовательность резервных адресов строится с использованием некоторой квадратичной функции.

a0 =f(k) - первичный адрес,

ai =(a0 + i2) mod t, i = 1÷(t -1).

Небольшой недостаток квадратичных проб заключается в том, что при поиске пробуются не все строки таблицы, т.е. при включении элемента может не найтись свободного места, хотя на самом деле оно есть. Если размер t - простое число, то при квадратичных пробах просматривается по крайней мере половина таблицы.

3. Реализация (язык программирования-С++)

#include <iomanip>

#include <iostream>

using namespace std;

const int AllElem = 64;

const int HshElem = AllElem * 1.5;

void out(int a[], int b)

{

for (int i = 0; i < b; i++)

{

cout << setw(10) << i << setw(10) << a[i];

}

cout << endl << endl;

}

int main()

{

setlocale(LC_ALL, "Rus");

int mas[AllElem] = { 0 };

int hash[HshElem] = { 0 };

int adress;

for (int i = 0; i < AllElem; i++) {

int flag = 0;

int elem = (rand() % 9) * 100000 + 100000 +

(rand() % 10) * 10000 +

(rand() % 10) * 1000 +

(rand() % 10) * 100 +

(rand() % 10) * 10 +

(rand() % 10) * 1;

for (int j = 0; j < i; j++) { //чтобы не было повторяющихся

if (mas[j] == elem)

{

flag = 1;

break;

}

if (!flag)

{

mas[i] = elem;

}

cout << "Генерация неповторяющихся чисел: " << endl;

out(mas, AllElem);

int prob = 0;

int NumPr = 1;

for (int ht = 0; ht < AllElem; ht++)

{

adress = ((mas[ht] + 7) / 41) % HshElem;

prob++;

int adress0 = adress;

if (hash[adress] == 0) { //Если есть свободная ячейка

hash[adress] = mas[ht];

}

else {

while (hash[adress]) {

adress = (adress0 + NumPr) % HshElem;

NumPr++;

prob++;

}

hash[adress] = mas[ht];

}

NumPr = 1;

}

cout << "Хэш-таблица: " << endl;

out(hash, HshElem);

cout << "Коэффициент заполнения таблицы: " << double(AllElem) / double(HshElem) << endl;

cout << "Среднее число проб:" << double(prob) / double(AllElem) << endl;

return 0;

}

Результат работы программы.

Вывод:

В ходе лабораторной работы я познакомилась со следующими понятиями: хеш-таблица, хеш-функция, ключ, адрес, коллизия. Научилась применять их для решения такого типа задач.

Соседние файлы в предмете Структуры и алгоритмы обработки данных

#
22.08.2023309.55 Кб1Билеты к экзу МО и ПРО.pdf
#
22.08.202390.38 Кб1Вопросы к экзамену МО-2.pdf
#
22.08.202387.8 Кб2Отчет ЛР1 МО-.docx
#
22.08.2023290.13 Кб3Отчет ЛР2 МО-.docx
#
22.08.202363.95 Кб0Отчет ЛР3 МО-.docx
#
22.08.20234.52 Mб0Практика №1 МО-.docx
#
22.08.2023333.15 Кб0Практика №2 МО.docx
#
22.08.2023515.53 Кб1РГР Сиакод новый.docx