Data Reduction
Hash Databases:
National Software Reference Library (NSRL) – Reference Data Sets (RDS) - NIST
HashKeeper (LE, Military and Government only) -
NDIC
Known File Filter (KFF) – AccessData, Inc.
Self-generated or shared databases
Особенности и ограничения
Отличающиеся hash-значения только говорят, что что-то изменено, но не указываю ЧТО именно!
Когда используются MD5, SHA-1 или другие стандартные алгоритмы для выделения известных файлов, только ТОЧНЫЕ совпадения приведут к успеху.
Когда файлы немного изменены, стандартное хеширование не сможет показать «похожесть» файлов
“Нечеткое хеширование” использует концепцию, заключающуюся в поиске подобным частей в подмножестве.
Из-за «коллизий» необходимо более тщательно подходить к выбору алгоритмов хеширования