Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

BiometriaKnuga

.pdf
Скачиваний:
40
Добавлен:
02.03.2016
Размер:
5.65 Mб
Скачать

Розділ 3.9 ЗастосуванняЕкологія комп'ютерної техніки для біометричних розрахунків

 

167

 

 

 

 

Розділ 9.

Застосування

комп'ютерної техніки для біометричних розрахунків

9.1. Можливість використання комп'ютерної техніки

Обрахування статистичних характеристик в біометрії – це в більшості випадків трудомісткий процес, на який доводиться витрачати велику кількість часу. Це необхідно для виконання значної кількості взаємопов'язаних розра-хункових операцій з кожною варіантою ряду спостережень. Масштаби цієї роботи прямо залежать від кількості варіант та виду аналізу, що проводиться. Особлива складність обчислень із значною витратою часу притаманна кореляційному, регресивному та дисперсійному аналізам багатовимірних масивів спостережень, який інколи складається з декількох рядів по 100–200 варіант. Виконання таких розрахунків може зайняти багато годин.

Через монотонність однотипних операцій, що повторюються, збільшується вірогідність випадкових помилок, що може звести на ні всю працю дослідника і загрожує декількоразовим повторенням всього процесу заради перевірки.

Для спрощення процесу розрахунків статистичних характеристик в практику біометрії вже давно введено використання алгоритмованих розрахунків з заповненням спеціальних таблиць та матриць. Але це лише систематизує процес розрахунків, робить його більш організованим. Головні ж недоліки неавтоматизованих обчислень: трудомісткість та висока вірогідність помилки.

Структурованість алгоритмічних статис-тичних методів обробки біологічних даних створює передумови для використання обчислювальної техніки більш високого порядку, ніж звичайні

168

 

Біометрія

 

калькулятори. Висока швидкодія та великий об'єм пам'яті сучасних комп'ютерів обумовлюють доцільність створення та ефективність використання біометричного програмного забезпечення та збереження даних спостережень і результатів їх статистичного аналізу у цифровому вигляді на різноманітних машинночитних носіях.

Використання навіть складного професійного програмного забезпечення зводиться до вводу початкових даних, вибору методу аналізу та визначення необхідних додаткових параметрів. Вся рутинна розрахункова робота виконується ЕОМ максимум за пару секунд. Після чого досліднику залишається лише проаналізувати результати машинних розрахунків.

Збереження біометричної інформації на машинночитних носіях майже завжди відбувається у вигляді структурованого табличного або текстового файла у форматі системи управління базами даних, табличного процесору, текстового редактора. Такий рівень організації збережуваної біометричної інформації спрощує багаторазове використання одних і тих же наборів даних, як початкових для аналізу різними методами, за допомогою різного програмного забезпечення.

Так, припустимо, що ми маємо файл даних у вигляді таблиці, де в 50 стовпцях зафіксовано характеристики штучно створеного деревостану (кількість дерев, деревні породи, тип та хімічний склад грунту і інше), а в 20 рядках – умовні позначення, які визначають різні деревостани (всього 1000 клітинок). Спочатку ми можемо за допомогою спеціальної програми обрахувати весь спектр біометричних характеристик цього масиву і визначити статистично значимі кореляції, наприклад, показника вмісту калію в грунті загальної фітомаси деревостану. Другим кроком ми формулюємо запит на службовій мові, в результаті виконання якого відбувається відбір даних і будується нова таблиця з двома стовпцями: "Вміст калію" і "Загальна фітомаса" та декількома рядками, які відповідають декільком деревостанам в регіонах, що нас цікавлять. Третім кроком за допомогою нового запиту додаємо до таблиці стовпці з фізико-географічними характеристиками місць зростання деревостанів. Додавши необхідні коментарі, відправляємо отриману таблицю електронною поштою колезі, який вивчає аналогічні питання у географічно-віддаленому регіоні (наприклад, в Південній Америці).

Розділ 3.9 ЗастосуванняЕкологія комп'ютерної техніки для біометричних розрахунків

169

 

9.2. Програмне забезпечення

Така оперативність можлива лише за умов попереднього накопичення у банках та базах даних різноманітної інформації, що характеризує біологічні об'єкти, та при наявності розвинутих засобів їх автоматизованого аналізу.

Початок використання засобів автоматизованого аналізу статистичної інформації припадає на 60-70 рр. Далі еволюція цих засобів йшла разом з розвитком комп'ютерної техніки. Було створено велику кількість програм, чимало їх вже застаріли, на зміну їм прийшли інші.

Всі існуючі програмні продукти даного напрямку досить чітко розподіляються на 4 класи.

1.Найпростіші, найчисельніші та історично перші із статистичних програм – прикладні програми вузького профілю. Найбільш поширене їх використання – у складі прикладного інструментарію наукових досліджень. При цьому дослідник частіше за все водночас є і автором такої програми. Спектр дії такого програмного забезпечення, як правило, обмежується обчисленням декількох пов'язаних статистик, наприклад, середнього арифметичного із статистиками. Його створення обумовлено конкретними дослідницькими потребами.

Випадок самостійного створення дослідниками програм аналізу даних є найбільш трудомістким, але водночас ці продукти є найбільш гнучкими, пристосованими до конкретних результатів експериментальних досліджень з врахуванням властивостей певних біологічних об'єктів, якихось факторів, особливих саме для даного дослідження.

Некомерційна основа створення таких програм впливає на їх якість, вони мають спрощений інтерфейс, не застраховані від помилок, зроблених під час проектування або кодування.

Майже всі інші програмні засоби, що аналізуються нижче, належать до комерційних.

2.Насамперед, слід відмітити спеціалізовані біометричні пакети (типу BIOSYS). Вони реалізують більшість статистичних методів аналізу біологічної інформації, враховують специфіку живих об'єктів та їх досліджень. Ці пакети розраховані на використання їх фахівцями-біологами,

170

 

Біометрія

 

 

 

знайомими з методикою статистичного аналізу даних. Як правило, вони виконані з високою якістю, у зв'язку з чим мають високу ціну (порядка декількох тисяч доларів США), що робить їх малодосяжними в умовах фінансової кризи та незадовільного фінансування наукових досліджень в Україні.

3. Далі виділяються чисельні універсальні статистичні пакети як закордонні ("Statgraphics", "SPSS", "SAS", "Statistica"), так і країн СНД ("Stadia", "Эвриста", "Мезозавр", "Олимп", "Сани", "Класс-мастер") і інші. Вони також розраховані на користувачів, досвідчених в статистичному аналізі та націлені на автоматизацію якомога більш широкого кола статистичних операцій. З однаковим успіхом вони можуть використатись в різних сферах, в тому числі і в біометрії, за тією умовою, що дослідження припускає використання стандартних методів без врахування біологічної специфіки. Цінові рамки для статистичних пакетів цього класу – від декількох сот до 10–12 тис. доларів.

Розглянемо їх можливості на прикладі "Stadia" і "Statistica".

Пакет "Stadia" розроблено під Wіndows. Ним зручно користуватись, елементи керування мають надписи російською мовою. Функціонує допоміжна довідкова система.

"Stadia" дозволяє проводити такі види аналізу:

параметричні тести (описова статистика, гістограма / нормальність, кореляція по Стьюденту і Фішеру);

непараметричні тести (хі-квадрат, зміщення / положення, масштаб / розсіяння, вільні альтернативи, кореляції / незалежності, кростабуляції );

дисперсійний аналіз (одно-, двох-, багатофакторний, коваріаційцний);

аналіз часових рядів (кореляційний, спектральний, згладжування / фільтрація, Arima-модель, Фур'є модель);

регресивний аналіз (порівняння двох регресій, проста регресія / тренд, множинна регресія, покрокова регресія, загальна нелінійна модель);

багатовимірні методи (дискрімінантний, кластерний, факторний, шкалування);

розподіл і частоти (обчислення імовірностей, погодження розподілів

Розділ 3.9 ЗастосуванняЕкологія комп'ютерної техніки для біометричних розрахунків

171

 

та частот, послідовний аналіз);

контроль якості (гістограма, діаграма Паремо, контрольні карти).

"Stadia" має зручні засоби та механізми вводу-виводу, візуалізації рядів даних та результатів аналізу.

Пакет "Statistica" виготовлений фірмою StatSoft, Inc (США). Це універсальний програмний продукт з широким колом методів аналізу даних. Його побудовано за модульним принципом. "Statistica" містить такі модулі:

базові статистичні методи і таблиці;

кластерний аналіз;

аналіз часових рядів і прогнозування;

дискримінантний аналіз;

множинна регресія.

В"Statistica" інтегровано мову написання сценаріїв обробки даних Statistica Basic, що робить цей пакет гнучким та придатним до застосування в різних сферах з врахуванням їх специфіки.

Альтернатива комерційним пакетам – власні професійні розробки. Так, в Московському університеті ім. Н.П.Огарева розроблено пакет програм Stat2. Він реалізує найбільш вживані біометричні методи аналізу даних: знаходження середніх показників та їх характеристик, порівняння вибірок, кореляційний та регресивний аналіз. Використання пакету не потребує спеціальної підготовки.

ВТомському державному університеті розроблено навчальноорієнтований пакет MATSTAT. За його допомогою можна виконувати такі види аналізу, як побудова варіаційних рядів і емпіричних функцій розподілу, обчислення статистичних характеристик варіаційних рядів, побудова довірчих інтервалів, оцінка однорідностей дисперсій і перевірка нормальності розподілу, дисперсійний, кореляційний, послідовний аналізи та ін.

172

 

Біометрія

 

9.3. Використання табличних процесорів

Останній з описуваних класів – це різні табличні процесори типу Lotus, VisiCalc, Excel, SuperCalc, Quattro Pro (так звані "електронні таблиці") та ін. Вони спрямовані на виконання різноманітних розрахунків, в тому числі і статистичних. Вони популярні і широко використаються в усьому світі завдяки відносній дешевизні та зручності. Скоріш за все, сьогодні табличні процесори є найімовірнішим засобом автоматизації біометричного аналізу. З кожним роком аналітико-статистичні можливості цих пакетів стають дедалі досконалішими та різноманітними.

Найбільш поширеним та популярним табличним процесором сьогодні є MS Excel (Microsoft Corporation). Він ввібрав в себе більшість функцій всіх існуючих електронних таблиць та в найближчому майбутньому скоріш за все не зазнає корінних змін, окрім подальшого розширення та вдосконалення, тому доцільно розглянути його можливості для використання в біометричному аналізі.

Воснові MS Excel (далі в прикладах розглядається версія Microsoft ® Excel 97) лежить обчислювальний модуль, який відповідає за обробку чисел у таблицях. У вікні програми користувач бачить робоче поле, так званий "робочий лист". Декілька листів об'єднані в "робочу книгу", яка фізично є файлом. Робоче поле організовано у вигляді таблиці із 65536 рядками і 256 стовпцями. Рядки пронумеровані, а стовпці позначені літерами та сполученнями літер. На перехресті стовпців і рядків знаходяться клітинки. Кожна з них має власну адресу на листі (наприклад, А2 або ВН358). Користувач вводить дані в різному форматі (текстовому, числовому та ін.) в клітинки, після чого виконує над ними необхідні маніпуляції. На основі введених даних проводяться обчислення, які забезпечуються широким спектром функцій (фінансових, дати і часу, математично-тригонометричних, статистичних та інших), вбудованих в Excel, а також можливістю створення користувачем власних формул і функцій. Під час роботи використовується великий допоміжний інструментарій, який інтенсифікує процес проведення розрахунків, зменшує кількість дій, які повинні бути виконані.

ВExcel інтегровані деякі функції баз даних; сама програма може використати зовнішні файли баз даних (dBase, FoxPro, текстові файли) як джерела для отримання даних, з якими можна працювати в Excel, а Excel в

Розділ 3.9 ЗастосуванняЕкологія комп'ютерної техніки для біометричних розрахунків

 

173

 

 

 

 

свою чергу може зберігати файли у форматах баз даних. Передбачено можливість покрокового створення діаграм і графіків для візуалізації наборів даних: багато різновидів графіків вбудовано в Excel, є можливість створювати нові їх види. Excel має інтегровану мову програмування Visual Basic for Applications (VBA). Це створює умови для швидкої побудови на базі Excel прикладних програм для біометричного аналізу, використаючи як можливості Excel, так і нові, спеціально створені функції. До перших відносяться такі типи аналізу даних як кореляційний, регресивний, описові статистики, дисперсійний аналіз (ANOVA), аналіз залишків та імовірнісний аналіз, експоненціальне вирівнювання, t- та F-тести. Розглянемо можливості використання Excel для біометричного аналізу на прикладі знаходження середнього арифметичного та його характеристик для ряду спостережень. Для цього спочатку треба ввести дані в довільному порядку в клітинки робочого листа. Потім вибираємо пункт меню Tools /Data Analysis. Якщо цього пункту в меню немає, то це означає, що попередньо не встановлені необхідні настройки. В такому разі – оберіть пункт меню Add-Ins. В діалоговому вікні треба один раз клацнути по опціях Analysis ToolPak і Analysis ToolPak VBA. Після виконання цієї дії буде встановлено додаткова надбудова до МS Excel і стане доступним пункт меню Tools /Data Analysis. Після його вибору буде відкрито діалогове вікно Data Analysis. В ньому представлено список доступних видів аналізу даних. Потрібна нам опція – Descriptive Statistics (Описові статистики). Після вибору цього пункту відкривається діалогове вікно Descriptive Statistics. Тут за допомогою елемента управління Input Range необхідно вказати діапазон клітинок робочого листа, в яких містяться дані. Вивід результатів може бути здійснено на листі з початковими даними в обраному діапазоні (елемент управління Output Range), на новому листі (елемент управління New Worksheet Ply), або в новій робочій книзі (New Workbook) за бажанням користувача. Може проводитись одночасна обробка декількох масивів даних, які вводяться у клитинки різних рядків або стовпців. Для їх ідентифікації краще з самого початку ввести в першій клітинці діапазону назву виміряної характеристики (наприклад, "Височина в метрах") – це забезпечить зручність читання результатів та послужить коментарем для майбутніх користувачів введених даних у разі їх збереження. Якщо розрахунок проводиться водночас з декількома масивами і назви показників введені, то в діалоговому вікні треба

174

 

Біометрія

 

вибрати опцію Grouped By: Columns (дані згруповані по стовпцях таблиці) або Grouped By: Rows (дані згруповані по рядках таблиці), а також опцію Labels in First Row / Column (позначки у першому рядку / стовпці).

Далі треба вказати, які характеристики підлягають обрахуванню: Summary Statistics (Сумарні показники) та Confidence Level for Mean (Довірчий рівень для середнього. По умовчанню цей показник дорівнює 95 %, але можна ввести і інше значення). Після виконання вказаних дій натискається кнопка ОК в діалоговому вікні або клавіша Enter на клавіатурі. Як правило, розрахунки не займають помітного проміжку часу: їх результати виводяться практично відразу. Вивід результатів відбувається у вигляді таблиці. Її перший стовпець містить назви показників, а саме:

Mean – середнє арифметичне, Standard Error – помилка середнього, Median – медіана, Mode – мода, Standard Deviation – середньоквадратичне відхилення, Sample Variance – дисперсія вибірки, Kurtosis – коефіцієнт ексцесу, Skewness – коефіцієнт асиметрії, Range – розмах вибірки, Minimum та Maximum – мінімальне та максимальне значення варіаційного ряду, Sum – сума всіх варіант, Count – кількість варіант, Confidence Level (95,0 %) – довірчий інтервал для 95 %.

Як бачимо, тут відсутні такі важливі показники, як коефіцієнт варіації, точність експерименту та достовірність середнього. Для знаходження згаданих показників ми можемо використати обчислювальні функції робочого листа. Послідовність необхідних дій при цьому така:

1)ввести символ "=" в будь-яку клітинку листа, що означає бажання користувача розпочати ввід формули;

2)клацнути мишею на клітинці таблиці із значенням середньоквадратичного відхилення;

3)ввести знак "/" і клацнути на значенні середнього арифметичного;

4)з клавіатури ввести символи *100.

Формула в клітинці приймає такий вигляд: "= A##/B ##*100", де A## і B ## – адреси клітинок аркушу. Ця формула відповідає біометричній формулі

Розділ 93. ЗастосуванняЕкологія комп'ютерної техніки для біометричних розрахунків

 

175

 

 

 

 

Після натискання на Enter в клітинці з'являється значення коефіцієнту варіації С у відсотках. Формула може бути відредагована і перерахована в будь-який час. Для цього треба зробити подвійне клацання на клітинці, яка її

містить,

або

виділити

σ

клітинку

та

натиснути

клавішу

F2.

Аналогічно C =

100%. виглядає

і

обчислення

M

точності

експерименту Р

(біометрична формула P = m/

 

M•100, а формула аркуша: "= A##/B ##*100", де A## – адреса клітинки із значенням помилки середнього, а і B## – середнього арифметичного) та достовірності середнього (t = M/n; B##/А##).

Крім можливостей обчислення шляхом введення формул, на листі можна заздалегідь запрограмувати за допомогою мови VBA будь-яку функцію для її подальшого багаторазового використання. Наприклад, для програмування функції "Коефіцієнт_варіації" треба виконати наступну послідовність дій.

1.Вибрати пункт меню "Tools/Macro/Visual Basic Editor" або натиснути комбінацію клавіш Alt+F11.

2.У вікні редактора Visual Basic вибрати пункт меню "Insert/Module"

3. ... вибрати пункт меню Insert/Procedure.

4.У вікні Add Procedure ввести в поле Name текст "Коефіцієнт_варіації".

5.Позначити Type як Function (програмуємо функцію) і Scope як Public (приділи дії функції). Натиснути Enter.

6.У вікно програмного модулю будуть вставлені заголовок і закінчення функції

Function "Коефіцієнт_варіації" () End Function.

7.В дужках після назви функції треба ввести текст "СКв_відхилення, Сер_аріфм as Double", а в тілі функції (між її заголовком і закінченням) короткий текст макропрограми: "Коефіцієнт_варіації = СКв_відхилення / Сер_аріфм * 100", що відповідає вищенаведеній біометричній формулі знаходження коефіцієнту варіації.

8.Закрити вікно редактора Visual Basic.

Після цього функція "Коефіцієнт_варіації" з'являється у переліку функцій Excel в розділі User defined і нею можна постійно користуватись шляхом її введення в формули на робочому листі.

Серед функцій, які інтегровані в Excel, можна виділити такі корисні для біометричних розрахунків функції, як AVERAGE середнє значення ряду,

176

 

Біометрія

 

CONFIDENCE довірчий інтервал, CORREL коефіцієнт кореляції, COUNT

кількість варіант в ряді, COVAR коваріація, DEVSQ сума квадратів центральних відхилень, FORECAST прогноз на основі лінійної моделі регресії, GEOMEAN середнє геометричне, POISSON розподіл Пуассна, RANK ранг числа у ряді, RSQ квадрат коефіцієнту кореляції, STDEV середньоквадратичне відхилення по виборці (STDEVP по генеральній сукупності) і багато інших.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]