Курс ставит своей целью ознакомление студентов с базовыми методами, встре-чающимися при решении задач по анализу данных, таких как классификация и кластери-зация, регрессия, прогнозирование, определение отклонений и взаимосвязей.
Data Мining широко используется во многих областях с большим объемом данных: в науке – астрономии, биологии, биоинформатике, медицине, физике и других областях; в бизнесе – торговле, телекоммуникациях, банковском деле, промышленном производст-ве и т. д. Новая и быстро растущая часть Data Mining – это анализ связей между данными (link analysis), который имеет приложения в таких разных областях, как биоинформатика, цифровые библиотеки и защита от терроризма.
Например, астрономические базы данных насчитывают терабайты информации, по сведениям CERN, один миллиард столкновений в секунду на большом адронном коллай-дере генерирует около петабайта данных (расшифровать удается менее одного процента, и это актуальная проблема), рентгеновский лазер на свободных электронах XFEL, за одну секунду работы производит 27 тысяч снимков, это 2,3 миллиарда снимков всего за 24 ча-са. Также петабайты информации содержатся в базах данных социальных сетей, банков, различных интернет-служб, и этот объем постоянно растет.
Найти и понять что-то полезное в этом океане информации позволяет широкое применение методов Data Mining. В задачи курса входит изучение проблематики анализа больших данных в различных областях, рассмотрение принципов работы базовых мето-дов, методики их применения на конкретных примерах.
Цели и задачи курса отвечают задачам компетентностной подготовки бакалавров по направлению 03.04.02 «Физика» по освоению методов интеллектуального анализа.
Трудоемкость дисциплины - 4 зачетных единицы (144 часа). Промежуточная аттестация - экзамен.
Основы интеллектуального анализа данных
Файл рабочей программы (очная форма):