Data Mining — развитие методов анализа, не апеллирующих к их вероятностной природе.Изначально Data Mining использовался для решения задач медицины, биологии, космоса; сегодня эта наука получила широкое распространение и может применяться в любой области, например, экономике, техническом анализе и др. Практически любая информация может быть предметом Data Mining.
Данные, с которыми работает Data Mining могут быть двух типов:
- таблицы объект-свойства
- временные рядыВообще, любое существо, наделенное интеллектом, решает в своей жизни только три задачи:
Запоминание по ассоциациям
Распознавание образов
Принятие решений, задача оптимизацииData Mining включает в себя ряд наук:
Базы данных
Искусственный интеллект
Статистика
Машинное обучение
Визуализация
Оптимизация
Вычислительный интеллект (нейро-фаззи системы, нейронные сети, эволюционные вычисления)
Распознавание образовТаким образом, Интеллектуальный анализ данных по-русски — это наука об извлечении из сырых, грязных, необработанных, неструктурированных данных любой природы заранее неизвестных, нетривиальных знаний, с целью принятия полезных решений.Например, Статистика требует больших выборок и законов распределения, Интеллектуальный анализ данных может работать с:
- данными в реальном времени (так называемый OLAP)
- сверхмалыми выборками (от 3-х элементов)
- порядковыми шкалами
- информацией любой другой природыОсновными задачами, решение которых может быть найдено в Data Mining являются:1. Ассоциации (нахождение правил, характерных для некоторых данных)
2. Последовательность (задача распознавания образов)
3. Классификация (по имеющимся знаниям о принадлежности некоторых объектов классам требуется определить принадлежность нового объекта)
4. Кластеризация (без априорных знаниях о принадлежностях и признаках разбиения требуется разбить множество объектов на некоторые схожие группы)
5. Экстраполяция (прогнозирование)Мифы Data Mining:1. Позволяет получать неожиданные результаты, новые законы.
— Нет, новые законы на основе этой науки открыты быть не могут, однако некоторые гипотезы могут найти подтверждение с помощью этой области.2. Может компенсировать недостатки знаний в предметной области.
— Хороший эксперт всегда примет решение лучше аппарата.3. Может применяться только в конкретной области.
— Нет, любая информация может быть предметом Data Mining.4. Аппарат Data Mining радикально отличается от других.
— Это одна из немногих наук, которая не имеет своего собственного аппарата; все притянуто из других наук; Data Mining — наука сама по себе прикладная.5. Data Mining — это очень сложно.
— ???6. Годится только для анализа больших объемов данных.
— Data Mining может начинаться с трех точек.7. Если у Вас есть большая выборка, ее нужно использовать в полном объеме.
— Нет, лучше разделить ее на две части (+ тестовая) или даже три (кросс-валидация).8. Строит модели на основе конкретных данных, не используя новые наблюдения.
— Может работать с процессами в реальном времени, перманентно обновляя входящие сигналы.
Комментарии
Я думаю, тут важно подчеркнуть, что эти системы должны заменять лишь рутинные, однообразные и многочисленные операции (а точнее - человеческий труд).
согласитесь - ведь удобно иметь такую программу, которая будет оптимизировать и автоматизировать поиск в интернете...
загружаете клиентскую программку, указываете что вы хотите узнать, и весь интернет просматривается на предмет наличия вашей информации...
ПЛЮС благодаря использованию математических аппаратов нейросетей, генетических алгоритмов, и др., информация примет для вас вид того, и именно того что вы хотели найти...
Где будет использоваться?
Онлайн-энциклопедии для детей, справки по товарам и услугам, поиск книг, программ, информации в интернете...
Только благодаря Data Mining этот процесс станет несоизмеримо короче чем простой просмотр и перебор страниц, выданных поисковыми машинами...
А это просто новая методика обработки информации, не более.
Все эти способы существовали и раньше, просто развивались хаотично. А теперь придумали название и стараются систематизировано развивать направление.Хочется чтобы все разработчики находили природу новых обнаруженных взаимосвязей, и не делали из этого "протеза головного мозга", а старались понять, как это поможет в развитии человеческих возможностей.Я в первом комментарии не зря давал ссылку на книгу. Там человек описывает механизм работы мозга, и мне кажется, там все схоже с методиками самого Data Mining.