Персональные инструменты
Вы здесь: Главная Блог Критерий Поппера и исследования в области сетевой безопасности

Критерий Поппера и исследования в области сетевой безопасности

Автор: Денис Гамаюнов at 2011-04-03 19:08 |

Тезисы доклада на конференции РусКрипто 2011. Доклад посвящен вопросу применимости критерия Поппера к исследованиям в области защиты информации. В частности, рассматривается направление сетевой безопасности и борьбы с компьютерными атаками и вредоносным программным обеспечением. Констатируется отсутствие необходимых условий фальсифицируемости теорий, в частности, отсутствие практики опубликования экспериментальных данных. Существующие открытые наборы данных по компьютерным атакам (KDD Cup’99 dataset, VX Heavens dataset) значительно устарели. Новые и активно обновляющиеся банки данных являются де-факто закрытыми. Представляется целесообразным создание и поддержка сообществом исследователей открытого банка данных с актуальными наборами как вредоносного программного обеспечения, так и частично обработанных результатов его анализа.

В 1935 году Карл Поппер предложил критерий научности эмпирической теории, который определяет научность, исходя из принципа фальсифицируемости. Согласно данному принципу, научная теория не может быть принципиально неопровержимой [1], всегда должна существовать методологическая возможность экспериментального опровержения этой теории. На уровне отдельного исследования следование критерию фальсифицируемости превращается в практику опубликования исходных экспериментальных данных вместе с результатами их анализа.

Область информационной безопасности является частью намного более крупной области Computer Science, если следовать принятой на Западе классификации. И если в части направлений данной области дела с фальсифицируемостью обстоят вполне неплохо – а именно в криптографии и криптоанализе, то в области обнаружения компьютерных атак и анализа вредоносного программного обеспечения ситуация сложилась несколько иная: в настоящее время практика такова, что даже на самых высокоранговых конференциях публикуются только конечные численные результаты, а исходные экспериментальные данные не публикуются почти никогда. В результате, у стороннего исследователя нет возможности воспроизвести заявленные в работе результаты, и остаётся лишь верить результатам на слово, либо пытаться получить похожие результаты на собственных данных. Таким образом, можно утверждать, что критерий Поппера в области сетевой безопасности в настоящее время не выполняется.

Теоретически, данную проблему могли бы решить общедоступные наборы данных, которые большинство исследователей считали бы достаточно доверенными, чтобы их можно было использовать для сравнения результатов исследований. За последние пятнадцать лет несколько раз предпринимались попытки создания подобных наборов данных. В качестве примеров можно привести KDD Cup’99 Dataset [2] – набор, сформированный на основе дампов трафика в реальной сети, в которой тестировались несколько систем обнаружения атак в 1999-м году – и набор вирусов и вредоносного программного обеспечения VX Heavens [3]. К сожалению, к настоящему моменту первый из них устарел настолько, что его использование в исследовании не просто бесполезно, но более того, гарантирует негативную оценку исследования в научном сообществе с вероятностью, близкой к 100%. Использование набора VX Heavens ещё возможно в работах студенческого уровня, то также не может считаться хорошей постановкой эксперимента.

В настоящее время существует несколько исследовательских проектов, которые осуществляют сбор экземпляров вредоносного программного обеспечения, как бинарных исполнимых файлов, так и сценариев JavaScript – это проекты CWSandbox [4], Anubis [5], Wepawet [6]. По каким-то причинам, ни один из них не предоставляет свободный доступ исследователей к собранным данным – авторами проектов публикуются лишь результаты анализа. В случае CWSandbox такое поведение вполне понятно, т.к. проект стал основой для бизнеса компании Sunbelt Software, и накопленная коллекция вредоносных файлов составляет немалую часть её активов. Возможно, аналогичные соображения движут и авторами проектов Anubis и Wepawet. Но в результате научное сообщество получает лишь набор исследовательских работ, которые не удовлетворяют попперовскому критерию научности.

Можно отметить ещё один немаловажный фактор – наличие публичного и общепризнанного набора экспериментальных данных стимулирует исследовательскую активность само по себе. Сравним количество упоминаний упомянутых выше коллекций данных в научных работах, вычисленное по соответствующим запросам в Google Scholar:

 

Таблица 1. Цитируемость коллекций данных по Google Scholar

Название коллекции

Число упоминаний в научных статьях

Год публикации

Нормированное по годам число упоминаний

KDD Cup 99 dataset

2,850

1999

237

Vx heavens

9,530

1999

794

Anubis

115

2007

28

CWSandbox

243

2006

48

Wepawet

25

2008

8

 

Приведённые в таблице числа показывают, что количество работ, сделанных с использованием открытых наборов данных, по меньшей мере на порядок превышает количество работ с закрытыми данными, включая цитирования.

Существуют исследовательские работы, где основой полученных экспериментальных результатов является альтернативная реализация известного метода (к примеру, портированная на CUDA API версия известной библиотеки), либо реализация, иллюстрирующая основную идею работы. Т.е. когда реализация является существенным условием фальсифицируемости результата. Для таких работ также нередки случаи, когда единственным ответом на запрос о предоставлении исходных данных, даже под соглашение о неразглашении, единственным ответом будет:

«Thanks for writing.  We won't be releasing the implementation.  Sorry that I can't be more helpful»

Представляется целесообразным создание и поддержка сообществом исследователей, работающих в области сетевой безопасности, открытого банка данных с актуальными наборами как вредоносного программного обеспечения, так и частично обработанных результатов его анализа. И что особенно важно – необходимо восстановить практику опубликования тех экспериментальных данных, на которых базируются публикуемые результаты.  Накопленный опыт в нашей области и в смежных областях естественных наук показывает, что открытость подобного рода всегда способствует как количественному, так и качественному росту исследований.

Ссылки

1.      К. Поппер. Логика и рост научного знания. М.:Прогрес, 1983.

2.      KDD Cup 1999 Data. [WWW] http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

3.      VX Heavens. Computer virus collection. [WWW] http://vx.netlux.org/vl.php

4.      CWSandbox. Malware analysis system. [WWW] http://mwanalysis.org/

5.      Anubis: Analyzing Unknown Binaries [WWW] http://anubis.iseclab.org/

6.      Wepawet [WWW] http://wepawet.cs.ucsb.edu/

Действия с Документом