Historia i definicja interfejsu mózg-komputer (BCI)





  Badania nad interfejsem mózg-komputer (BCI) rozpoczęto w latach 70-tych XX wieku na Uniwersytecie Kalofornijskim w Los Angeles. Za pierwszą publikację naukową opisującą BCI można uznać pracę: Jacque Vidala [149]: "Toward Direct Brain-Computer Communication", Annual Review of Biophysics and Bioengineering, Vol. 2, 1973. Pierwsza międzynarodowa konferencja poświęcona BCI miała miejsce w 1999 roku, w Nowym Jorku, gdzie Jonathan R. Wolpaw podał definicję interfejsu mózg-komputer: "A brain-computer interface (BCI) is a communication or control system in which the user’s messages or commands do not depend on the brain’s normal output channels. That is, the message is not carried by nerves and muscles, and, furthermore, neuromuscular activity is not needed to produce the activity that does carry the message". 
W ostatniej dekadzie ubiegłego wieku, w kilkunastu ośrodkach naukowych, rozpoczęto intensywne prace nad systemami BCI. Aktualny stan badań sprowadza się do wykorzystania pewnych właściwości fal elektromagnetycznych mózgu rejestrowanych za pomocą technik elektroencefalograficznych (sygnały EEG odczytane z elektrod przymocowanych do skóry głowy). W systemie BCI intencje użytkownika odczytywane są bezpośrednio z fal EEG. Pewne, wyekstrahowane cechy tych fal (sygnałów) są klasyfikowane i „tłumaczone” w czasie rzeczywistym na rozkazy wykorzystywane do sterowania komputerem, protezą, wózkiem inwalidzkim lub też innym urządzeniem. Schemat najważniejszych etapów działania interfejsu mózg-komputer przedstawiono na rys. 2.4.
Rys 2. 1.   Zasada pracy interfejsu mózg-komputer
Warto pamiętać, że systemy BCI funkcjonują również pod nazwą interfejs mózg-maszyna (Brain-Machine Interface - BMI). Jednak najczęściej w literaturze spotyka się określenie „interfejs mózg-komputer”. Spowodowane jest to faktem, że nawet podczas sterowania robotem, wózkiem inwalidzkim czy protezą zwykle korzysta się z pośrednictwa komputera. Komputer jest tutaj nieodzownym elementem, którego zadaniem jest przetwarzanie i klasyfikacja sygnału. To właśnie ten etap jest krytycznym elementem działania interfejsu i od niego zależy w dużej mierze jego sprawność.
1.2           Metody badania aktywności mózgu
Istnieje wiele metod badania aktywności mózgu. Najbardziej znane są metody
inwazyjne:
·       implantowane elektrody domózgowe (IntraCortical Recordings, IR),
częściowo inwazyjne:
·       elektrokortykografia, (Electrocorticography, ECoG),
nieinwazyjne:
·       magnetoencefalografia, (Magnetoencephalography, MEG),
·       funkcjonalny magnetyczny rezonans jądrowy (functional Magnetic Resonance Imaging, fMRI),
·       tomografia optyczna światła rozproszonego (Near InfraRed Spectroscopy, NIRS),
·       pozytronowa emisyjna tomografia komputerowa (Positron emission tomography, PET),
·       elektroencefalografia (Electroencefalography, EEG).
Jednak, jak już wspomniano, najczęściej wykorzystywaną techniką w systemach BCI jest elektroencefalografia (EEG). Spowodowane jest to kilkoma czynnikami. Po pierwsze MEG, PET, fMRI i metody optyczne są stosunkowo drogie. Dodatkowo metody te są skomplikowane pod względem technicznym i stąd nie znajdą zastosowania w urządzeniach powszechnego użytku. Metody obrazowe, z kolei, charakteryzują się lepszą lokalizacją aktywności mózgu, ale aktywność ta jest zależna od przepływu krwi, który charakteryzuje się dużą stałą czasową i uniemożliwia szybką komunikację [152]. Do największych zalet elektroencefalografii, w zastosowaniu do BCI należą: ocena aktywności mózgu występującej dokładnie w chwili rejestracji sygnału, praca w wielu warunkach środowiskowych, niski koszt realizacji w porównaniu z innymi metodami. Bardzo znaczącym atutem elektroencefalografii jest stosunkowa łatwość w użytkowaniu. Po krótkim przeszkoleniu użytkownika może być stosowana w warunkach domowych.
Do zebrania sygnału EEG wykorzystywane są elektrody (od kilku do 128 elektrod) naklejane na skórę głowy za pomocą żelu. Następnie sygnał przekazywany jest do elektroencefalografu, gdzie sygnały są wzmocnione i w postaci cyfrowej przekazywane do komputera. Zapis tych sygnałów tworzy tak zwany elektroencefalogram.
Rejestrowane sygnały pochodzą ze zbiorowej aktywności neuronów i są efektem tzw. pomiaru biologicznego. Przy pomiarze technicznym badacz ma świadomość, że wyznaczany parametr obiektywnie istnieje, a niedokładności jego określenia wynikają z niedoskonałości metody i aparatury pomiarowej.  W biologii i medycynie samo mierzone zjawisko często nie jest do końca zdefiniowane. Ponadto, na pomiar składa się wiele czynników ubocznych, które niejednokrotnie mają ogromny wpływ na wynik pomiaru. Dlatego pojedyncza obserwacja nie jest miarodajna. Wszystkie eksperymenty i obserwacje medyczne muszą odnosić się do zbiorowości, a obserwacje trzeba powtarzać wielokrotnie [144]. Stąd też wynika zasadnicza trudność w konstruowaniu sprawnych interfejsów mózg-komputer.
Z pomocą przychodzi statystyczne uczenie maszynowe (statistical machine learning) oraz techniki eksploracji danych (data-mining). To dzięki tym metodom można wydobyć użyteczną informację z sygnału EEG i poddać ją klasyfikacji. Jak pokazano na rysunku 2.6 przetwarzanie sygnału obejmuje: przetwarzanie wstępne, ekstrakcję cech (w procesie eksperymentu i nauki także selekcję cech) oraz klasyfikację. Zadania te realizowane są przy pomocy komputera, w czasie rzeczywistym.
Przetwarzanie wstępne najczęściej obejmuje filtrację sygnału i inne metody usuwania szumów i zakłóceń (np. artefaktów fizjologicznych). Na tym etapie wykorzystywane są: filtry cyfrowe, filtry przestrzenne, metody wybielania sygnału (np. analiza składowych niezależnych - ICA) czy ślepa separacja. Po tym etapie otrzymuje się sygnały, z których można dokonywać ekstrakcji cech.
Ekstrakcja cech jest procesem, który umożliwia wydobycie z zapisu EEG najbardziej użytecznych informacji. Stosuje się całą gamę metod analizy sygnału na przykład: statystyki wyższych rzędów (HOS), analizę czas-częstotliwość (t/f), modele autoregresyjne (AR), analizę falkową (DWT). W wyniku ekstrakcji powstają wektory cech. Dysponując wiedzą o przynależności cech do danej klasy można przystąpić do budowy (i trenowania) klasyfikatora.
Zadaniem klasyfikatora jest przydzielenie nowo zarejestrowanego zapisu EEG do konkretnej, uprzednio zdefiniowanej klasy. Najczęściej na tym etapie wykorzystuje się sztuczne sieci neuronowe (ANN), liniową analizę dyskryminacyjną (LDA), naiwny klasyfikator Bayesa (NBC), maszynę wektorów wspierających (SVM) oraz drzewa decyzyjne (DT).
Sklasyfikowane sygnały EEG wykorzystywane są najczęściej do sterowania wirtualną klawiaturą (komunikacja z otoczeniem za pośrednictwem tekstu). Podejmowane są również próby stosowania systemów BCI do sterowania robotem, protezą, a nawet inteligentnym budynkiem. Warto zauważyć, że obiekty sterowane przez interfejsy mózg-komputer mogą mieć wbudowaną „własną inteligencję”. Na przykład wózek inwalidzki lub robot ma wbudowane czujniki i elementy wykonawcze, które nie pozwalają na zderzenie z przeszkodą.
Bardzo ważnym elementem pełnego systemu BCI jest sprzężenie zwrotne (feedback). Użytkownik interfejsu mózg-komputer nieustannie obserwuje efekty swoich działań poprzez obserwację działania wirtualnej klawiatury, protezy czy robota. Pomaga mu to wygenerować nowe, odpowiednie sygnały EEG. Jest to jeden z ważnych elementów systemu, bowiem niektóre interfejsy wymagają świadomego generowania konkretnych stanów mózgu. Poprzez obserwację efektów użytkownik może uczyć się lepszej kontroli nad aktywnością własnego mózgu. 

INTERFEJS MÓZG-KOMPUTER na poważnie


Fragment pochodzi z : Interfejs mózg-komputer BCI

Na przestrzeni dziejów, obsługa różnego rodzaju maszyn odbywała się na bardzo różne sposoby. Najstarsze maszyny sterowano za pomocą dźwigni i korb. Kolejnym etapem było zastosowanie kart perforowanych. Za twórcę tej koncepcji uważa się Joseph Jacquarda. W 1805 roku użył on tabliczek do sterowania nićmi podczas tkania, co pozwalało tworzyć tkaninę o powtarzalnym wzorze.
Obecnie najczęściej komputer, użyty do sterowania maszyną, stanowi ogniwo pośrednie w kontakcie człowiek-maszyna. Stąd komunikacja człowiek-komputer (Humman-Computer Interaction - HCI) nabiera nowego znaczenia i jest elementem nieodzownym naszego życia.
Początkowo, aż do lat 80. XX wieku, do programowania komputerów używane były karty perforowane.  Dopiero w 1984 roku wynaleziona została przez Douglasa Engelbarta, dobrze wszystkim znana mysz komputerowa. Stosowana do tej pory umożliwia poruszanie kursorem po ekranie monitora poprzez przesuwanie jej po płaskiej powierzchni. Oczywiście nieodzownym elementem jest klawiatura, którą posługujemy się w celu wprowadzania poleceń i tekstu.



Aktualnie, coraz większą popularność zdobywa interfejs dotykowy (touchscreen). Najczęściej, interfejs taki kojarzony jest z ekranami dotykowymi stosownymi w urządzeniach przenośnych. Istnieje kilka typów konstrukcji takich ekranów. Zwykle do ich budowy wykorzystywane są nakładki pojemnościowe i rezystancyjne. W innych typach ekranów dotykowych wykorzystuje się na przykład fakt przerwania strumienia światła podczerwonego emitowanego przez diody LED. Istnieją również konstrukcje, które działają na zasadzie zaburzania fali akustycznej, rozchodzącej się na powierzchni ekranu wskutek dotyku użytkownika.
Zupełnie innym podejściem, jest interfejs wielodotykowy lub wielopunktowy (multi-touch). Technologia ta pozwala na obsługę interfejsów graficznych więcej niż jednym palcem. Takie podejście umożliwia tworzenie interaktywnych interfejsów, ale zmusza programistów do pisania aplikacji w inny niż dotychczas sposób. Twórca programowania oprócz wykrycia samego miejsca dotyku ekranu, musi brać również pod uwagę sposób zmiany jego położenia. Takie wykonywanie gestów na powierzchni ekranu jest bardzo naturalne i umożliwia na przykład przeglądanie zdjęć czy grę zespołową.
Bardzo ciekawym podejściem jest wykorzystanie interfejsów z rozpoznawaniem gestów użytkownika przez analizę obrazu zarejestrowanego za pomocą kamery. Zasadniczą rolę, w jakości takiego systemu odgrywa przetwarzanie i analiza obrazu. Jedną z największych trudności w tym przypadku, jest odróżnienie obiektu jako źródła gestów od otoczenia zmieniającego się w czasie. Istnieją już systemy, które wykonywane gesty, na przykład ruch rąk, dłoni, czy palców, odczytują jako odpowiednie polecenia. Trwają prace nad zastosowaniem tej technologii do rozpoznawania języka migowego. Już opracowano i wdrożono systemy pozwalające na zdalne sterowanie za pomocą gestów urządzeniami domowymi, na przykład odbiornikiem TV.
Kilka firm komercyjnych już opracowało i z powodzeniem zastosowało technologię eyetrackingu. Zasada działania takich systemów sprowadza się do analizy obrazu oczu i „wskazania” miejsca, na które patrzy użytkownik. Opracowane systemy są nadal zbyt drogie by mogły doczekać się powszechnego zastosowania. Kilka ośrodków naukowych z krajów UE połączyło siły w ramach projektu pod nazwą COGAIN. Celem projektu jest opracowanie efektywnych i ekonomicznych technologii opartych na eyetrackingu, przeznaczonych do wspomagania osób niepełnosprawnych. Zostanie opracowany system, składający się z niezależnych od siebie komponentów (na przykład kamer i oprogramowania). Użytkownik końcowy zaś będzie mógł złożyć „z klocków”, użyteczną dla niego konfigurację sprzętowo-programową, bez konieczności zakupu pełnego wyposażenia od jednego producenta.
Najbardziej naturalną dla człowieka formą komunikacji z otoczeniem jest mowa. Stąd pomysł wykorzystania mowy do sterowania komputerem. Próby związane z rozpoznawaniem mowy rozpoczęto już w roku 1952, kiedy to K. H. Davis, R. Biddulph, i S. Balashek opracowali system rozpoznawania wypowiadanych cyfr. Rozpoznawanie mowy potocznej, pochodzącej od dowolnej osoby, jest bardzo złożonym problemem. Dlatego też stosuje się pewne uproszczenia polegające na rozpoznawaniu mowy konkretnej osoby lub zawężeniu rozpoznawanego zbioru słów [139]. W pierwszym przypadku poprzez sesję wstępną, algorytm uczy się rozpoznawać słowa czy też zwroty wypowiadane przez konkretnego użytkownika. Taka sesja polega najczęściej na wielokrotnym powtarzaniu konkretnych fraz. W drugim przypadku tematyka rozpoznawanej mowy jest zawężana do konkretnej problematyki na przykład medycznej (zmniejszenie zasobu słów). Najczęściej rozpoznawanie mowy stosuje się do sterowania obiektami (wydawanie krótkich poleceń - rozkazów) lub do transkrypcji (zapis tekstu mówionego). Większość oprogramowania komercyjnego dla mowy angielskiej osiąga trafność rzędu 98% a nawet 99%. Oczywiście tak duża skuteczność jest możliwa, gdy spełnione są pewne warunki zewnętrzne, na przykład brak szumów (tła) podczas rejestracji sygnału. Dla języka polskiego istnieją programy umożliwiające rozpoznanie od 50% do 90% słów.
Zupełnie inną formą komunikacji jest wykorzystanie biopotencjałów np. do sterowania protezą czy klawiaturą wirtualną. Najczęściej wykorzystywanymi, w tym przypadku, potencjałami są elektromiogram oraz elektrookulogram. Elektromiogram (electromyogram, EMG) to zapis sygnałów elektrycznych związanych z pracą mięśni. Elektrookulogram (electrooculogram, EOG) to zapis przebiegu napięcia występującego między przednim (dodatnim) a tylnym (ujemnym) biegunem gałki ocznej. Pobudzanie mięśni wywołuje zmianę biopotencjałów. W ten sposób, po odpowiednim treningu, można nauczyć się „generować” właściwe biosygnały i komunikować z komputerem. Interfejsy takie najczęściej przeznaczone są dla osób niepełnosprawnych. Najbardziej znaną na świecie osobą dotkniętą tym problemem jest Stephen Hawking. Cierpi on na stwardnienie zanikowe boczne. Choroba ta sprawiła, że jest on prawie całkowicie sparaliżowany, porusza się na wózku inwalidzkim. Komunikację ze światem umożliwia mu generator mowy sterowany ruchami gałek oczu (EOG).
Jak można zauważyć dysponujemy już całkiem szeroką gamą interfejsów człowiek-komputer. Nie ma jednego uniwersalnego interfejsu, który może spełnić wymagania i oczekiwania wszystkich użytkowników. Większość z dostępnych systemów zdaje egzamin w szczególnych przypadkach. Niektóre z nich, choć cechują się niskim poziomem transferu informacji człowiek-komputer (małą przepływnością danych), są używane, gdyż stanowią jedyną drogę komunikacji ze światem dla konkretnego użytkownika. Łatwo zauważyć, że może dochodzić do błędów w procesie komunikacji człowieka z maszyną. Z tego powodu często wymagany jest od użytkownika trening.
Ideałem interfejsu HCI byłaby komunikacja człowieka z maszyną „za pomocą myśli”. Jak dotychczas taki interfejs kojarzył się raczej z literaturą science-ficton. Obecne systemy BCI pracujące z wykorzystaniem sygnału EEG nie pozwalają na swobodną komunikację za pomocą "bezpośrednich myśli". Zasadniczym ograniczeniem tych interfejsów jest szybkość komunikacji. Zatem dlaczego podejmowane są tak olbrzymie wysiłki sporych zespołów badawczych do usprawnienia ich działania? Do czego wykorzystujemy bezpośrednia informacje o pracy mózgu?
Możliwość bezpośredniej interakcji człowieka z komputerem (bez manualnej obsługi urządzeń peryferyjnych) otwiera nowe kanały przekazu informacji w medycynie, psychologii, technikach multimedialnych i wojskowych. Szczególne znaczenie mają tutaj zastosowania tego interfejsu w medycynie zarówno w aspekcie poznawczym, funkcjonowania ludzkiego mózgu, jak i praktycznym jako jedyna szansa rozwoju dla osób dotkniętych chorobami neurologicznymi. Interfejs mózg-komputer może pomóc w komunikacji ze światem zewnętrznym osobom w ciężkich stadiach chorób neurologicznych jak stwardnienie zanikowe boczne, udar mózgowy podkorowy, zespół Guillain-Barre’a, mózgowe porażenie dziecięce czy stwardnienie rozsiane [131]. Rocznie około dwa tysiące osób w Polsce (a we wszystkich krajach Unii Europejskiej około 24 tysiące) zapada na stwardnienie zanikowe boczne, neurodegeneracyjną chorobę układu nerwowego, która niszczy część centralnego układu nerwowego odpowiedzialną za ruch, nie zaburza natomiast czucia, zdolności poznawczych i intelektu. Osoby, które na nią zapadają, stopniowo tracą kontrolę nad własnym ciałem i w ciągu 2 do 3 lat osiągają stan, w którym nie mają żadnej możliwości komunikacji z otoczeniem. Kolejną grupą ludzi, którym należy zapewnić możliwość porozumiewania się z otoczeniem za pomocą BCI, jest ok. 14 tysięcy osób, jakie w ciągu roku w Polsce zapada na udary mózgu, a w szczególności udary pnia mózgu. Do wymienionych grup należałoby dołączyć ok. 1,2 tysiąca ofiar wypadków komunikacyjnych, w wyniku których doszło do uszkodzenia szyjnego odcinka rdzenia kręgowego [36]. W takich wypadkach interfejs mózg-komputer ma umożliwić prostą komunikację z otoczeniem, sterowanie protezami, wózkiem inwalidzkim czy wręcz inteligentnym budynkiem.

Inną formą komunikacji bezpośredniej mózg-komputer jest również neurofeedback. Jest to jeden z rodzajów biofeedbacku, czyli biologicznego sprzężenia zwrotnego, pomagającego uzyskać samokontrolę nad funkcjami organizmu. Obejmuje on różnorodne techniki treningowe i terapeutyczne, usprawniające funkcje mózgu (koncentracja uwagi, opanowanie emocji, usprawnienie procesów myślowych, szybka nauka, pamięć, twórczość, sen). W neurofeedbacku wykorzystuje się sygnał EEG do oceny funkcji mózgu, zaś sprzężenie zwrotne do przesłania informacji o tym - do pacjenta.


Sygnał EEG można również wykorzystać w konstrukcji wariografu. Z powodzeniem podjęto takie próby. Standardowo wariografy służą do analizy fizjologicznych reakcji organizmu człowieka, które są wykładnią emocji, jako reakcji na pewne bodźce zewnętrzne. Najczęściej rejestruje się takie wielkości jak ciśnienie krwi, puls, częstość oddechu, reakcję skórno-galwaniczną lub aktywność ruchową. Badania za pomocą wariografu muszą być przeprowadzane przez wykwalifikowane osoby. Alternatywą dla tego typu badań jest właśnie rejestracja tak zwanych potencjałów wywołanych (najczęściej P300), pojawiających się w sygnale EEG jako odpowiedź na wystąpienie określonego bodźca [94]. Zaobserwowano, że bodźce, rodzące skojarzenia z pewnymi zdarzeniami wywołującymi emocje (na przykład zdjęcia z miejsca zbrodni, uprzednio oglądanego), powodują silną reakcję, mającą wyraźne odzwierciedlenie w rejestrowanych sygnałach EEG.
Bezpośrednie reakcje mózgu na bodźce zewnętrzne wykorzystywane są również w neuromarketingu [97]. Stosuje się tam narzędzia stosowane w badaniach psychofizjologicznych. Dzięki nim można dobierać i optymalizować bodźce marketingowe, na przykład bilbordy czy sekwencje filmowe. W praktyce, sprowadza się to do kilkukrotnego skrócenie czasu trwania ujęcia z filmu reklamowego.
Trwają prace nad wykorzystaniem sygnału EEG do predykcji napadów epileptycznych [141,142,143]. W szczególności chodzi o miary chaotyczności sygnału (na przykład wykładniki Lapunowa czy entropię). Specjalistyczny analizator EEG, po wystąpieniu charakterystycznych zmian w sygnale, mógłby generować odpowiedni sygnał ostrzegawczy przed zbliżającym się napadem padaczki. Umożliwiłoby to stosowne przygotowanie się do napadu, zażycie odpowiednich leków itp.
Zauważono, że zapis sygnału EEG wykonany podczas snu (polisomnografia) może zawierać cechy świadczące o predyspozycji do choroby alkoholowej [78]. W ocenie predyspozycji do nałogu posłużyć mogą również potencjały wywołane w szczególności załamek P300. Stwierdzono, że u osób z predyspozycją do alkoholizmu oraz innych nałogów jest on znacznie słabszy [111,24].
Zapis sygnału EEG, z powodzeniem wykorzystać też można w biometrii. Typowe biometryki takie jak: odciski palca, brzmienie głosu, wzór siatkówki oka nie są uniwersalne i mogą ulec zniszczeniu (otarcia skóry, rany, utrata głosu). Ponadto stwierdzono, że około 2-4% populacji nie ma tych biometryk (brak organów lub ich uszkodzenie) lub są one słabej jakości, co uniemożliwia rozpoznanie tych osób. Z drugiej strony wiadomo, że u każdego człowieka zawsze występuje praca mózgu (sygnał EEG) oraz serca (sygnał EKG). Ważny jest również fakt, że sygnał EEG występuje cały czas od narodzin do śmierci - bez przerwy. Co najważniejsze, każdy osobnik ma inną „konfigurację mózgu” (mózg ludzki składa się z około 1011 neuronów i 1015 synaps). Spontaniczna aktywność mózgu jest bardzo różna dla różnych osobników. Stąd sygnał EEG jest charakterystyczny, zawiera cechy indywidualne dla każdej osoby i pozwala na użycie go jako biometryki [121,112]. W tym kontekście warto wspomnieć, że trwają również zaawansowane prace nad zastosowaniem potencjałów wywołanych w procesie identyfikacji osób. Pod uwagę bierze się wtedy kształt i amplitudę załamka.
Należy jednak stwierdzić, że biometria EEG rozwija się powoli. Spowodowane jest to między innymi skomplikowanym pomiarem sygnału EEG w porównaniu z innymi metodami (zdejmowanie odcisków palca, skanowaniem tęczówki). Podejmowane są jednak próby wykorzystania znacznie łatwiejszych w użyciu, suchych elektrod - na przykład wykonanych z nanorurek zamocowanych na wygodnej czapce [7,122].


Trwają też intensywne próby zastosowania technologii BCI do celów militarnych. Docelowo systemy wspomagać mają sterowanie myśliwcami czy ułatwiać komunikację na polu walki. Jednak zaznaczyć należy, że są to zaledwie próby i do końcowego rezultatu jeszcze daleka droga. Na chwilę obecną istnieje możliwość realizacji systemów, które wspomagają proces sterowania.
Duże nadzieje z interfejsami mózg-komputer wiąże przemysł rozrywkowy. Już udało się zastosować systemy BCI do sterowania avatarem (uczestnik świata wirtualnego). Finalnym efektem prac ma być ergonomiczny i przyjazny interfejs dla każdego użytkownika.