Ransomware jest jednym z tych zagrożeń, które dobrze pokazują różnicę między cyberbezpieczeństwem „na slajdach” a cyberbezpieczeństwem w praktyce. W teorii model uczenia maszynowego może nauczyć się rozpoznawać podejrzane zachowania programu. W praktyce potrzebuje danych, które przypominają realny ruch w systemie: nieuporządkowany, zmienny, pełen zwykłych działań użytkownika i tylko sporadycznie zawierający sygnały ataku.
Artykuł opublikowany w czasopiśmie Cybersecurity opisuje RADAR — nowy zbiór danych przygotowany z myślą o badaniach nad wykrywaniem ransomware. Jego autorzy nie proponują kolejnego „magicznego” algorytmu. Zwracają uwagę na coś bardziej podstawowego: bez realistycznych danych trudno uczciwie ocenić, czy algorytm rzeczywiście poradzi sobie poza laboratorium.
Dlaczego dane są tak ważne w walce z ransomware
Ransomware to złośliwe oprogramowanie, które zwykle szyfruje pliki lub blokuje dostęp do zasobów, a następnie żąda okupu. W ostatnich latach stało się problemem nie tylko dla pojedynczych użytkowników, lecz także dla firm, instytucji publicznych i infrastruktury krytycznej. Dla obrońców szczególnie trudne jest to, że ransomware stale się zmienia: pojawiają się nowe rodziny, nowe warianty i nowe techniki unikania wykrycia.
W badaniach nad wykrywaniem takich zagrożeń często wykorzystuje się uczenie maszynowe. Model może analizować ślady pozostawiane przez program w systemie: tworzenie procesów, modyfikacje plików, wpisy w rejestrze, połączenia sieciowe czy próby usuwania kopii zapasowych. Problem w tym, że model uczy się na przykładach. Jeśli przykłady są stare, sztucznie zrównoważone albo oderwane od realnego sposobu działania systemu, wyniki mogą wyglądać dobrze w publikacji, ale gorzej w rzeczywistej sieci.
Autorzy badania wskazują na kilka typowych słabości wcześniejszych zbiorów danych. Część z nich bazuje na próbkach ransomware sprzed kilku lat, które mogą nie oddawać dzisiejszych technik ataku. Inne nie mają postaci ciągłego strumienia zdarzeń, przez co trudno testować systemy działające „na żywo”. Jeszcze inne nie uwzględniają faktu, że w realnym środowisku ransomware jest rzadkim zdarzeniem wśród ogromnej liczby normalnych działań.
Czym jest RADAR
RADAR to zbiór danych obejmujący ponad 400 tysięcy zdarzeń systemowych. Według artykułu zebrano 413 556 zdarzeń, z czego 302 260 pochodziło z działań legalnego oprogramowania, a 111 296 zostało wywołanych przez ransomware. Dane dotyczą siedmiu rodzin ransomware: Akira, BlackBasta, CyberVolk, LockBit, Lynx, Medusa i Meow. Łącznie autorzy wykorzystali 50 próbek ransomware, dobranych tak, aby reprezentowały współczesne, obserwowane w praktyce zagrożenia.
Istotne jest źródło danych. Badacze wykorzystali Sysmon, czyli narzędzie z pakietu Sysinternals dla systemu Windows, które rejestruje szczegółowe zdarzenia systemowe. Sysmon może odnotowywać m.in. uruchomienie procesu, połączenie sieciowe, utworzenie pliku, zmianę w rejestrze czy aktywność związaną z nazwanymi potokami używanymi do komunikacji między procesami. Takie dane są szczególnie przydatne przy analizie zachowania programu, a nie tylko jego statycznego wyglądu.
W badaniu wykorzystano 48 atrybutów pochodzących z logów Sysmon oraz 19 dodatkowych cech opracowanych przez autorów. Te dodatkowe cechy miały pomóc uchwycić wzorce zachowania, np. wykonywanie pliku z podejrzanej lokalizacji, długość ścieżki pliku, podobieństwo rozszerzeń procesu i procesu nadrzędnego czy entropię nazwy pliku, która może wskazywać na losowo generowane nazwy.
Laboratorium, które miało przypominać zwykły komputer
Dane zebrano w kontrolowanym, wirtualnym środowisku opartym na Windows 11. Badacze uruchamiali próbki ransomware w odizolowanej maszynie wirtualnej, a po każdym eksperymencie przywracali system do wcześniejszego stanu. To praktyczne rozwiązanie, bo ransomware może zniszczyć lub zaszyfrować pliki, ale ma też znaczenie dla interpretacji wyników: środowisko badawcze nie jest tym samym, co złożona sieć firmowa z wieloma użytkownikami, zabezpieczeniami i wyjątkami konfiguracyjnymi.
Aby zebrać zdarzenia odpowiadające normalnej pracy, autorzy uruchamiali również legalne aplikacje i wykonywali typowe czynności: pracę z dokumentami, przeglądanie stron, komunikację, korzystanie z narzędzi deweloperskich, pobieranie i przesyłanie plików czy podstawowe czynności administracyjne. W środowisku umieszczono także różne typy plików, które mogły być celem szyfrowania.
Warto podkreślić, że autorzy odrzucali próbki ransomware, które nie wykazywały oczekiwanego działania, np. nie szyfrowały plików albo nie wyświetlały informacji o okupie. To zrozumiałe z punktu widzenia budowy zbioru danych, ale pokazuje też, jak trudne są takie badania: część złośliwego oprogramowania może nie działać bez dostępu do swojej infrastruktury, może wykryć maszynę wirtualną albo wymagać szczególnych warunków uruchomienia.
Dwa problemy: zmienność i nierównowaga
Najciekawszą częścią RADAR-u nie jest sama liczba zdarzeń, lecz próba odtworzenia dwóch zjawisk typowych dla realnych systemów bezpieczeństwa.
Pierwsze z nich to dryf danych. W cyberbezpieczeństwie oznacza to, że wzorce zagrożeń zmieniają się w czasie. Model, który dobrze rozpoznawał jedną rodzinę ransomware, może gorzej radzić sobie z inną, jeśli jej zachowanie w systemie wygląda inaczej. Autorzy przygotowali dane tak, aby symulować zarówno nagłe zmiany, jak i stopniową zmianę rozkładu rodzin ransomware w strumieniu zdarzeń.
Drugie zjawisko to nierównowaga klas. W realnym środowisku większość zdarzeń jest legalna, a zdarzenia związane z atakiem stanowią niewielki ułamek całości. Jeśli zestaw testowy ma sztucznie równą liczbę przykładów benignych i złośliwych, wynik modelu może być zbyt optymistyczny. Dlatego autorzy przygotowali również warianty danych, w których zdarzenia ransomware stanowią mniejszość, np. 10% albo 5% strumienia.
To ważne, ponieważ w bezpieczeństwie fałszywe negatywy — czyli przeoczone ataki — są szczególnie kosztowne. Jednocześnie zbyt wiele fałszywych alarmów może paraliżować pracę zespołów bezpieczeństwa. Dobry test modelu powinien więc pokazywać nie tylko ogólną skuteczność, ale też zachowanie w warunkach rzadkich i zmieniających się zagrożeń.
Co pokazały eksperymenty
Autorzy wykorzystali RADAR do sprawdzenia modeli uczenia przyrostowego, czyli takich, które mogą aktualizować się wraz z napływem nowych danych. To podejście pasuje do scenariusza monitorowania systemu w czasie rzeczywistym, gdzie dane nie pojawiają się jako gotowa tabela, lecz jako ciąg zdarzeń.
W eksperymentach pojawiły się m.in. Adaptive Random Forest, AdaBoost z drzewami Hoeffdinga oraz Gaussian Naive Bayes. Badacze sprawdzali je z mechanizmem wykrywania dryfu ADWIN i bez niego. Do oceny używali miary F2, która mocniej premiuje wykrywanie rzeczywistych przypadków ransomware niż precyzję. To rozsądny wybór dla badań nad takim zagrożeniem, choć sam dobór metryki zawsze wpływa na sposób interpretacji wyników.
Wyniki opisane w artykule sugerują, że mechanizm wykrywania dryfu pomagał modelom utrzymywać wysoką skuteczność w zmieniającym się strumieniu danych. W wariantach z ADWIN modele osiągały bardzo wysokie wartości F2, często powyżej 98%. Bez wykrywania dryfu część modeli, zwłaszcza Gaussian Naive Bayes, radziła sobie znacznie gorzej w scenariuszach zmiany rozkładu danych lub silnej nierównowagi.
To nie oznacza, że RADAR dowodzi gotowości konkretnego narzędzia do wdrożenia w każdej organizacji. Wynik należy czytać ostrożnie: eksperyment pokazuje użyteczność zbioru danych i znaczenie adaptacji modeli, ale nie zastępuje testów w realnej infrastrukturze, z konkretną konfiguracją, politykami bezpieczeństwa i zachowaniem użytkowników.
Co z tego wynika dla praktyki i badań
Najważniejszy wkład RADAR-u polega na tym, że daje badaczom bardziej wymagające środowisko testowe. Zamiast oceniać model na statycznym i wygodnym zestawie przykładów, można sprawdzać, jak zachowuje się w strumieniu zdarzeń, przy zmieniających się rodzinach ransomware i przy przewadze zwykłej aktywności nad złośliwą.
Dla praktyków cyberbezpieczeństwa wniosek jest bardziej ogólny: modele wykrywania zagrożeń nie powinny być oceniane wyłącznie na podstawie jednego, statycznego wyniku. Warto pytać, na jakich danych były testowane, czy uwzględniały zmianę zachowania zagrożeń, czy radziły sobie z nierównowagą klas i jak wyglądały fałszywe alarmy oraz przeoczenia. RADAR może pomóc w prowadzeniu takich porównań w sposób bardziej powtarzalny.
Jednocześnie zbiór ma ograniczenia. Dane pochodzą z kontrolowanego laboratorium, a nie z wielu rzeczywistych organizacji. Aktywność użytkownika była symulowana i choć obejmowała różne codzienne zadania, nie oddaje całej złożoności pracy firmowej sieci. Ransomware reprezentowało siedem rodzin i 50 próbek, co jest wartościowe, ale nie obejmuje pełnego krajobrazu zagrożeń. Dryf danych został zasymulowany, a nie zaobserwowany w naturalnym środowisku produkcyjnym.
Mimo tych zastrzeżeń RADAR wydaje się użytecznym krokiem w stronę bardziej realistycznych badań nad wykrywaniem ransomware. Pokazuje, że w tej dziedzinie nie wystarczy budować coraz bardziej złożonych modeli. Równie ważne jest pytanie, czy uczymy je i testujemy na danych, które choć trochę przypominają warunki, w jakich mają działać.
Źródła
- Jamil Ispahany, Oscar Blessed Deho, Md Rafiqul Islam, M. Arif Khan, Md Zahidul Islam, „Radar: a realistic dataset for advancing ransomware detection”, Cybersecurity, 2026, 9:68. DOI: 10.1186/s42400-025-00435-9. URL: https://doi.org/10.1186/s42400-025-00435-9
- RADAR dataset, Zenodo. DOI: 10.5281/zenodo.14564541.
- Microsoft Learn, Sysmon — Windows Sysinternals documentation: https://learn.microsoft.com/en-us/sysinternals/downloads/sysmon


