Біоінформатика — галузь обчислювальної біології, що застосовує машинні алгоритми і статистичні методи для аналізу великих наборів біологічних даних, які, як правило, складаються з великого числа нуклеотидних (ДНК і РНК) та пептидних (білки) послідовностей і даних структури білків. Головні напрямки досліджень біоінформатики включають вирівнювання послідовностей, пошук генів, збірку геномів, вирівнювання структур білків, передбачення структури білків, передбачення експресії генів та білок-білкової взаємодії та реконструювання процесу еволюції. Великим напрямком досліджень біоінформатики — отримання високоякісних послідовностей геномів з фрагментів послідовнотей, отриманих за допомогою традиційних методів секвенування ДНК та конструювання сигнальних мереж за даними ДНК-мікрочіпів. В останньому випадку біоінформатика нерідко перетинається з системною біологією.

Мапа X-хромосоми людини (дані з сайту NCBI). Розшифрування геному людини — одне з найбільших досягнень біоінформатики.

Хоча терміни біоінформатика і обчислювальна біологія часто взаємозамінюються, останній указує на більш широку галузь, що також включає розробку алгоритмів і конкретні обчислювальні методи та моделювання біологічних (математична біологія) і біохімічних (обчислювальна хімія, молекулярне моделювання) процесів[1]. Часто також біофінформатику розглядають як галузь біомедичної інформатики.

Основні області досліджень

Аналіз генетичних послідовностей

З тих пір, як в 1977 році був секвенований геном фагу Phi-X174, послідовності ДНК все більшого числа організмів були розшифровані і збережені в базах даних. Ці дані використовуються для визначення послідовностей білків і регуляторних ділянок. Порівняння генів в рамках одного або різних видів може продемонструвати схожість функцій білків або відношення між видами (таким чином, можуть бути складені філогенетичні дерева).

Із зростанням кількості даних вже давно стало неможливим вручну аналізувати послідовності. В наші дні для пошуку по геномам тисяч організмів, що складаються з мільярдів пар основ, використовуються комп'ютерні програми. Програми можуть однозначно зіставити («вирівняти») схожі послідовності ДНК в геномах різних видів, часто такі послідовності несуть схожі функції, а відмінності виникають в результаті дрібних мутацій, таких як заміни окремих нуклеотидів, вставки нуклеотидів, і їх «випадання» (делецій).

Один з варіантів такого вирівнювання застосовується при самому процесі секвенування. Так звана техніка «дробового секвенування» (яка, наприклад, використовувалася Інститутом генетичних досліджень або TIGR для секвенування першого бактерійального геному Haemophilus influenzae) замість повної послідовності нуклеотидів дає послідовності коротких фрагментів ДНК (кожен завдовжки біля 600—800 нуклеотидів). Кінці фрагментів накладаються один на одного і, суміщені належним чином, дають повний геном. Такий метод швидко дає результати секвенування, але збірка фрагментів може бути досить складним завданням для великих геномів. У проекті по розшифруванню генома людини збірка зайняла декілька місяців часу суперкомп'ютерів. Зараз цей метод застосовується для практично всіх геномів, і алгоритми збірки геномів є однією з щонайгостріших проблем біоінформатики на сьогоднішній момент.

Іншим прикладом застосування комп'ютерного аналізу послідовностей є автоматичний пошук генів і регуляторних послідовностей в геномі. Не все нуклеотиди в геномі використовуються для завдання послідовностей білків. Наприклад, в геномах еукаріотів існують великі сегменти некодуючої ДНК, які явно не кодують білки, а їх функціональна роль в багатьох випадках невідома. Розробка алгоритмів виявлення ділянок геному, що кодують білки, є важливим завданням сучасної біоінформатики.

Біоінформатика допомагає зв'язати геномні та протеомні проекти, наприклад, допомагаючи у використанні послідовності ДНК для ідентифікації білків.

Анотація геномів

У контексті геноміки анотація — процес маркіровки генів і інших об'єктів в послідовності ДНК. Перша програмна система анотації геномів була створена в 1995 році Оуеном Вайтом (Owen White), що працював в команді, яка секвенувала і проаналізувала перший декодований геном вільноживучого організму, бактерії Haemophilus influenzae. Доктор Вайт побудував систему знаходження генів, тРНК і інших об'єктів в геномі, і зробив перші позначення функцій цих генів. Більшість сучасних систем працюють схожим чином, але ці програми постійно розвиваються і поліпшуються.

Обчислювальна еволюційна біологія

Еволюційна біологія досліджує походження і появу видів, також як їх розвиток з часом. Інформатика допомагає еволюційним біологам в декількох аспектах:

  • вивчення еволюції великого числа організмів, вимірюючи зміни в їх ДНК, а не тільки в будові або фізіології
  • порівняння цілих геномів (див. BLAST), що дозволяє вивчати більш комплексні еволюційні події, такі як дуплікація генів, горизонтальний перенос генів і передбачати фактори спуціалізації організмів
  • будування комп'ютерних моделей популяцій, щоб передбачити поведінку системиз часом
  • відстеження появи публікацій, що містять інформацію про велику кількість видів

Область інформатики, що використовує генетичні алгоритми, часто плутають з комп'юьютерною еволюційною біологією. Робота в цій області використовує спеціалізоване програмне забезпечення для поліпшення алгоритмів і обчислень і грунтується на еволюційних принципах, таких, як реплікація, діферсифікация через рекомбінацію або мутації, і виживання за умовами природного відбору.

Оцінка біологічного різноманіття

Бірізноманіття екосистеми може бути визначено як повна генетична сукупність певного середовища, що складається зі всіх видів, що мешкають в ньому, чи це біофільм в покинутій шахті, крапля морської води, жменя землі або вся біосфера планети Земля. Для збору видових назв, описів, ареалу розповсюдження і генетичній інформації використовуються бази даних. Спеціалізоване програмне забезпечення застосовується для пошуку, візуалізації і аналізу інформації, і, що важливіше, її доступності іншим людям. Комп'ютерні симуляції моделюють такі речі, як популяційна динаміка, або обчислюють загальне генетичне здоров'я культури в агрономії. Один з найважливіших потенціалів цієї області полягає в аналізі послідовностей ДНК організмів або повних геномів цілих вимираючих видів, дозволяючи запам'ятати результати генетичного експерименту природи в комп'ютері і можливо використовувати знову в майбутнему, навіть якщі ці види повністю вимруть.

Аналіз експресії генів

Експресія багатьох генів може досліджуватися за допомогою вимірювання рівнів багатьох мРНК з використанням методів ДНК-мікрочіпів, експресії міток послідовностей (EST), серійного аналізу експресії генів (SAGE) або інших варіантів мультиплексної гібридизації in-situ. Всі ці методи надзвичайно сприятливі до шуму і схильні до упередженності в отриманих значеннях, тому важлива область досліджень в біофнформатиці займається розробкою статистичних інструментів для розділення сигналу і шуму в генетичних дослідженнях. Ці дослідження часто використовуються для виявлення генів, залучених у хвороби: наприклад, дані мікрочіпів ракових епітеліальних клітин порівнюють з нормальними для визначення підвищуючої та понижчуючої регуляції генів.

Примітки

Шаблон:Link FA