Przede wszystkim istnieje bardzo ważna różnica między możliwością wykrycia aktora podobnego do Snowdena a możliwością zapobieżenia mu. O ile widziałem, Beehive nie twierdzi, że zapobiega temu, ale raczej obiecuje możliwość wysyłania alertów, że w Twojej sieci ma miejsce podejrzana aktywność. Jasne, nie tak dobre, ale w niektórych społecznościach badawczych nadal uważane za „świętego Graala”.
Mając to na uwadze, bardzo wątpię, czy Beehive jest w stanie spełnić te oczekiwania. Uczenie maszynowe może całkiem nieźle radzić sobie z wyodrębnianiem złożonych wzorców z dużych stosów danych z niezawodnymi tożsamościami. Na przykład rozróżnianie zdjęć kotów i psów jest niezwykle wiarygodne; wszyscy możemy to zrobić w 99 +% przypadków, ale gdybym musiał powiedzieć, jaki jest dokładny algorytm pobierania w rozdzielczości 100x100 pikseli i określania kota vs psa, nie mam pojęcia, jak bym to zrobił. Mogę jednak dostarczyć 100 000 takich obrazów i pozwolić metodom ML opracować regułę, która niezawodnie rozróżnia te dwa obrazy na podstawie wartości 100x100 pikseli. Jeśli zrobię wszystko dobrze, reguły stworzone przez ML powinny działać nawet na nowych obrazach kotów i psów, zakładając brak dużych zmian w nowych danych (tj. Jeśli w danych treningowych korzystałem tylko z laboratoriów i pręgowanych kotów, to spróbuj uzyskać aby zidentyfikować teriera ... powodzenia). To jest siła ML.
Określenie „podejrzanego zachowania” jest znacznie trudniejszym problemem. Nie mamy 100 000 próbek potwierdzonego złego zachowania, a tak naprawdę nie mamy nawet 100 000 próbek potwierdzonego dobrego zachowania! Co gorsza, to, co było dobrą metodą ML, która działała wczoraj, dziś nie działa; w przeciwieństwie do kotów i psów na zdjęciach, przeciwnicy bardzo się starają cię oszukać. Większość osób, które znam, pracując nad ML dla cyberbezpieczeństwa, zgodziło się, że idea czysto zautomatyzowanego wykrywania jest obecnie poza naszym zasięgiem, ale być może możemy zbudować narzędzia do automatyzacji bardzo konkretnych, powtarzalnych zadań, które analityk bezpieczeństwa musi wykonywać w kółko dzięki czemu są bardziej wydajne.
Wydaje się, że autorzy Beehive pominęli tę lekcję i twierdzą, że rozwiązali ten problem. Jestem wysoce podejrzliwy w stosunku do wyników, zwłaszcza biorąc pod uwagę, że metody, które sugerują, są pierwszymi, które badacz ML może pomyśleć, i są rutynowo odrzucane jako nieprzydatne. Na przykład sugerują użycie PCA do identyfikacji wartości odstających w dziennikach. To i jego odmiany były wypróbowywane setki razy, w wyniku czego analityk bezpieczeństwa zawsze wyłącza „automatyczne wykrywanie”, ponieważ otrzymuje tak wiele fałszywych alarmów, że kosztuje to dużo więcej czasu niż to oszczędza.
Oczywiście we wszystkich tych metodach diabeł tkwi w szczegółach, a szczegóły tego typu metod nigdy nie są ujawniane w opublikowanych pracach („użyliśmy PCA do wyszukania wartości odstających w dziennikach serwera”) skrajnie niejasne stwierdzenie). Zawsze jest możliwe, że mają jakiś super sprytny sposób na wstępne przetwarzanie danych przed zastosowaniem swoich metod, które nie znalazły się na papierze. Ale byłbym gotów założyć się o moją prawą rękę, że żaden użytkownik Beehive nie będzie w stanie w sposób wiarygodny rozróżnić zachowań „podobnych do Snowdena” od niekonkurencyjnego wykorzystania sieci w rzeczywistym świecie w czasie rzeczywistym.