Interfejs mózg-komputer.. To i Owo Naukowo..: INTERFEJS MÓZG-KOMPUTER na poważnie

Fragment pochodzi z : Interfejs mózg-komputer BCI

Na przestrzeni dziejów, obsługa różnego rodzaju maszyn odbywała się na bardzo różne sposoby. Najstarsze maszyny sterowano za pomocą dźwigni i korb. Kolejnym etapem było zastosowanie kart perforowanych. Za twórcę tej koncepcji uważa się Joseph Jacquarda. W 1805 roku użył on tabliczek do sterowania nićmi podczas tkania, co pozwalało tworzyć tkaninę o powtarzalnym wzorze.

Obecnie najczęściej komputer, użyty do sterowania maszyną, stanowi ogniwo pośrednie w kontakcie człowiek-maszyna. Stąd komunikacja człowiek-komputer (Humman-Computer Interaction - HCI) nabiera nowego znaczenia i jest elementem nieodzownym naszego życia.

Początkowo, aż do lat 80. XX wieku, do programowania komputerów używane były karty perforowane. Dopiero w 1984 roku wynaleziona została przez Douglasa Engelbarta, dobrze wszystkim znana mysz komputerowa. Stosowana do tej pory umożliwia poruszanie kursorem po ekranie monitora poprzez przesuwanie jej po płaskiej powierzchni. Oczywiście nieodzownym elementem jest klawiatura, którą posługujemy się w celu wprowadzania poleceń i tekstu.

1.1 Nowoczesne interfejsy człowiek-komputer

Aktualnie, coraz większą popularność zdobywa interfejs dotykowy (touchscreen). Najczęściej, interfejs taki kojarzony jest z ekranami dotykowymi stosownymi w urządzeniach przenośnych. Istnieje kilka typów konstrukcji takich ekranów. Zwykle do ich budowy wykorzystywane są nakładki pojemnościowe i rezystancyjne. W innych typach ekranów dotykowych wykorzystuje się na przykład fakt przerwania strumienia światła podczerwonego emitowanego przez diody LED. Istnieją również konstrukcje, które działają na zasadzie zaburzania fali akustycznej, rozchodzącej się na powierzchni ekranu wskutek dotyku użytkownika.

Zupełnie innym podejściem, jest interfejs wielodotykowy lub wielopunktowy (multi-touch). Technologia ta pozwala na obsługę interfejsów graficznych więcej niż jednym palcem. Takie podejście umożliwia tworzenie interaktywnych interfejsów, ale zmusza programistów do pisania aplikacji w inny niż dotychczas sposób. Twórca programowania oprócz wykrycia samego miejsca dotyku ekranu, musi brać również pod uwagę sposób zmiany jego położenia. Takie wykonywanie gestów na powierzchni ekranu jest bardzo naturalne i umożliwia na przykład przeglądanie zdjęć czy grę zespołową.

Bardzo ciekawym podejściem jest wykorzystanie interfejsów z rozpoznawaniem gestów użytkownika przez analizę obrazu zarejestrowanego za pomocą kamery. Zasadniczą rolę, w jakości takiego systemu odgrywa przetwarzanie i analiza obrazu. Jedną z największych trudności w tym przypadku, jest odróżnienie obiektu jako źródła gestów od otoczenia zmieniającego się w czasie. Istnieją już systemy, które wykonywane gesty, na przykład ruch rąk, dłoni, czy palców, odczytują jako odpowiednie polecenia. Trwają prace nad zastosowaniem tej technologii do rozpoznawania języka migowego. Już opracowano i wdrożono systemy pozwalające na zdalne sterowanie za pomocą gestów urządzeniami domowymi, na przykład odbiornikiem TV.

Kilka firm komercyjnych już opracowało i z powodzeniem zastosowało technologię eyetrackingu. Zasada działania takich systemów sprowadza się do analizy obrazu oczu i „wskazania” miejsca, na które patrzy użytkownik. Opracowane systemy są nadal zbyt drogie by mogły doczekać się powszechnego zastosowania. Kilka ośrodków naukowych z krajów UE połączyło siły w ramach projektu pod nazwą COGAIN. Celem projektu jest opracowanie efektywnych i ekonomicznych technologii opartych na eyetrackingu, przeznaczonych do wspomagania osób niepełnosprawnych. Zostanie opracowany system, składający się z niezależnych od siebie komponentów (na przykład kamer i oprogramowania). Użytkownik końcowy zaś będzie mógł złożyć „z klocków”, użyteczną dla niego konfigurację sprzętowo-programową, bez konieczności zakupu pełnego wyposażenia od jednego producenta.

Najbardziej naturalną dla człowieka formą komunikacji z otoczeniem jest mowa. Stąd pomysł wykorzystania mowy do sterowania komputerem. Próby związane z rozpoznawaniem mowy rozpoczęto już w roku 1952, kiedy to K. H. Davis, R. Biddulph, i S. Balashek opracowali system rozpoznawania wypowiadanych cyfr. Rozpoznawanie mowy potocznej, pochodzącej od dowolnej osoby, jest bardzo złożonym problemem. Dlatego też stosuje się pewne uproszczenia polegające na rozpoznawaniu mowy konkretnej osoby lub zawężeniu rozpoznawanego zbioru słów [139]. W pierwszym przypadku poprzez sesję wstępną, algorytm uczy się rozpoznawać słowa czy też zwroty wypowiadane przez konkretnego użytkownika. Taka sesja polega najczęściej na wielokrotnym powtarzaniu konkretnych fraz. W drugim przypadku tematyka rozpoznawanej mowy jest zawężana do konkretnej problematyki na przykład medycznej (zmniejszenie zasobu słów). Najczęściej rozpoznawanie mowy stosuje się do sterowania obiektami (wydawanie krótkich poleceń - rozkazów) lub do transkrypcji (zapis tekstu mówionego). Większość oprogramowania komercyjnego dla mowy angielskiej osiąga trafność rzędu 98% a nawet 99%. Oczywiście tak duża skuteczność jest możliwa, gdy spełnione są pewne warunki zewnętrzne, na przykład brak szumów (tła) podczas rejestracji sygnału. Dla języka polskiego istnieją programy umożliwiające rozpoznanie od 50% do 90% słów.

Zupełnie inną formą komunikacji jest wykorzystanie biopotencjałów np. do sterowania protezą czy klawiaturą wirtualną. Najczęściej wykorzystywanymi, w tym przypadku, potencjałami są elektromiogram oraz elektrookulogram. Elektromiogram (electromyogram, EMG) to zapis sygnałów elektrycznych związanych z pracą mięśni. Elektrookulogram (electrooculogram, EOG) to zapis przebiegu napięcia występującego między przednim (dodatnim) a tylnym (ujemnym) biegunem gałki ocznej. Pobudzanie mięśni wywołuje zmianę biopotencjałów. W ten sposób, po odpowiednim treningu, można nauczyć się „generować” właściwe biosygnały i komunikować z komputerem. Interfejsy takie najczęściej przeznaczone są dla osób niepełnosprawnych. Najbardziej znaną na świecie osobą dotkniętą tym problemem jest Stephen Hawking. Cierpi on na stwardnienie zanikowe boczne. Choroba ta sprawiła, że jest on prawie całkowicie sparaliżowany, porusza się na wózku inwalidzkim. Komunikację ze światem umożliwia mu generator mowy sterowany ruchami gałek oczu (EOG).

Jak można zauważyć dysponujemy już całkiem szeroką gamą interfejsów człowiek-komputer. Nie ma jednego uniwersalnego interfejsu, który może spełnić wymagania i oczekiwania wszystkich użytkowników. Większość z dostępnych systemów zdaje egzamin w szczególnych przypadkach. Niektóre z nich, choć cechują się niskim poziomem transferu informacji człowiek-komputer (małą przepływnością danych), są używane, gdyż stanowią jedyną drogę komunikacji ze światem dla konkretnego użytkownika. Łatwo zauważyć, że może dochodzić do błędów w procesie komunikacji człowieka z maszyną. Z tego powodu często wymagany jest od użytkownika trening.

1.2 Potrzeba i zastosowanie komunikacji bezpośredniej: mózg-komputer

Ideałem interfejsu HCI byłaby komunikacja człowieka z maszyną „za pomocą myśli”. Jak dotychczas taki interfejs kojarzył się raczej z literaturą science-ficton. Obecne systemy BCI pracujące z wykorzystaniem sygnału EEG nie pozwalają na swobodną komunikację za pomocą "bezpośrednich myśli". Zasadniczym ograniczeniem tych interfejsów jest szybkość komunikacji. Zatem dlaczego podejmowane są tak olbrzymie wysiłki sporych zespołów badawczych do usprawnienia ich działania? Do czego wykorzystujemy bezpośrednia informacje o pracy mózgu?

Możliwość bezpośredniej interakcji człowieka z komputerem (bez manualnej obsługi urządzeń peryferyjnych) otwiera nowe kanały przekazu informacji w medycynie, psychologii, technikach multimedialnych i wojskowych. Szczególne znaczenie mają tutaj zastosowania tego interfejsu w medycynie zarówno w aspekcie poznawczym, funkcjonowania ludzkiego mózgu, jak i praktycznym jako jedyna szansa rozwoju dla osób dotkniętych chorobami neurologicznymi. Interfejs mózg-komputer może pomóc w komunikacji ze światem zewnętrznym osobom w ciężkich stadiach chorób neurologicznych jak stwardnienie zanikowe boczne, udar mózgowy podkorowy, zespół Guillain-Barre’a, mózgowe porażenie dziecięce czy stwardnienie rozsiane [131]. Rocznie około dwa tysiące osób w Polsce (a we wszystkich krajach Unii Europejskiej około 24 tysiące) zapada na stwardnienie zanikowe boczne, neurodegeneracyjną chorobę układu nerwowego, która niszczy część centralnego układu nerwowego odpowiedzialną za ruch, nie zaburza natomiast czucia, zdolności poznawczych i intelektu. Osoby, które na nią zapadają, stopniowo tracą kontrolę nad własnym ciałem i w ciągu 2 do 3 lat osiągają stan, w którym nie mają żadnej możliwości komunikacji z otoczeniem. Kolejną grupą ludzi, którym należy zapewnić możliwość porozumiewania się z otoczeniem za pomocą BCI, jest ok. 14 tysięcy osób, jakie w ciągu roku w Polsce zapada na udary mózgu, a w szczególności udary pnia mózgu. Do wymienionych grup należałoby dołączyć ok. 1,2 tysiąca ofiar wypadków komunikacyjnych, w wyniku których doszło do uszkodzenia szyjnego odcinka rdzenia kręgowego [36]. W takich wypadkach interfejs mózg-komputer ma umożliwić prostą komunikację z otoczeniem, sterowanie protezami, wózkiem inwalidzkim czy wręcz inteligentnym budynkiem.

Inną formą komunikacji bezpośredniej mózg-komputer jest również neurofeedback. Jest to jeden z rodzajów biofeedbacku, czyli biologicznego sprzężenia zwrotnego, pomagającego uzyskać samokontrolę nad funkcjami organizmu. Obejmuje on różnorodne techniki treningowe i terapeutyczne, usprawniające funkcje mózgu (koncentracja uwagi, opanowanie emocji, usprawnienie procesów myślowych, szybka nauka, pamięć, twórczość, sen). W neurofeedbacku wykorzystuje się sygnał EEG do oceny funkcji mózgu, zaś sprzężenie zwrotne do przesłania informacji o tym - do pacjenta.

Sygnał EEG można również wykorzystać w konstrukcji wariografu. Z powodzeniem podjęto takie próby. Standardowo wariografy służą do analizy fizjologicznych reakcji organizmu człowieka, które są wykładnią emocji, jako reakcji na pewne bodźce zewnętrzne. Najczęściej rejestruje się takie wielkości jak ciśnienie krwi, puls, częstość oddechu, reakcję skórno-galwaniczną lub aktywność ruchową. Badania za pomocą wariografu muszą być przeprowadzane przez wykwalifikowane osoby. Alternatywą dla tego typu badań jest właśnie rejestracja tak zwanych potencjałów wywołanych (najczęściej P300), pojawiających się w sygnale EEG jako odpowiedź na wystąpienie określonego bodźca [94]. Zaobserwowano, że bodźce, rodzące skojarzenia z pewnymi zdarzeniami wywołującymi emocje (na przykład zdjęcia z miejsca zbrodni, uprzednio oglądanego), powodują silną reakcję, mającą wyraźne odzwierciedlenie w rejestrowanych sygnałach EEG.

Bezpośrednie reakcje mózgu na bodźce zewnętrzne wykorzystywane są również w neuromarketingu [97]. Stosuje się tam narzędzia stosowane w badaniach psychofizjologicznych. Dzięki nim można dobierać i optymalizować bodźce marketingowe, na przykład bilbordy czy sekwencje filmowe. W praktyce, sprowadza się to do kilkukrotnego skrócenie czasu trwania ujęcia z filmu reklamowego.

Trwają prace nad wykorzystaniem sygnału EEG do predykcji napadów epileptycznych [141,142,143]. W szczególności chodzi o miary chaotyczności sygnału (na przykład wykładniki Lapunowa czy entropię). Specjalistyczny analizator EEG, po wystąpieniu charakterystycznych zmian w sygnale, mógłby generować odpowiedni sygnał ostrzegawczy przed zbliżającym się napadem padaczki. Umożliwiłoby to stosowne przygotowanie się do napadu, zażycie odpowiednich leków itp.

Zauważono, że zapis sygnału EEG wykonany podczas snu (polisomnografia) może zawierać cechy świadczące o predyspozycji do choroby alkoholowej [78]. W ocenie predyspozycji do nałogu posłużyć mogą również potencjały wywołane w szczególności załamek P300. Stwierdzono, że u osób z predyspozycją do alkoholizmu oraz innych nałogów jest on znacznie słabszy [111,24].

Zapis sygnału EEG, z powodzeniem wykorzystać też można w biometrii. Typowe biometryki takie jak: odciski palca, brzmienie głosu, wzór siatkówki oka nie są uniwersalne i mogą ulec zniszczeniu (otarcia skóry, rany, utrata głosu). Ponadto stwierdzono, że około 2-4% populacji nie ma tych biometryk (brak organów lub ich uszkodzenie) lub są one słabej jakości, co uniemożliwia rozpoznanie tych osób. Z drugiej strony wiadomo, że u każdego człowieka zawsze występuje praca mózgu (sygnał EEG) oraz serca (sygnał EKG). Ważny jest również fakt, że sygnał EEG występuje cały czas od narodzin do śmierci - bez przerwy. Co najważniejsze, każdy osobnik ma inną „konfigurację mózgu” (mózg ludzki składa się z około 10¹¹ neuronów i 10¹⁵ synaps). Spontaniczna aktywność mózgu jest bardzo różna dla różnych osobników. Stąd sygnał EEG jest charakterystyczny, zawiera cechy indywidualne dla każdej osoby i pozwala na użycie go jako biometryki [121,112]. W tym kontekście warto wspomnieć, że trwają również zaawansowane prace nad zastosowaniem potencjałów wywołanych w procesie identyfikacji osób. Pod uwagę bierze się wtedy kształt i amplitudę załamka.

Należy jednak stwierdzić, że biometria EEG rozwija się powoli. Spowodowane jest to między innymi skomplikowanym pomiarem sygnału EEG w porównaniu z innymi metodami (zdejmowanie odcisków palca, skanowaniem tęczówki). Podejmowane są jednak próby wykorzystania znacznie łatwiejszych w użyciu, suchych elektrod - na przykład wykonanych z nanorurek zamocowanych na wygodnej czapce [7,122].

Trwają też intensywne próby zastosowania technologii BCI do celów militarnych. Docelowo systemy wspomagać mają sterowanie myśliwcami czy ułatwiać komunikację na polu walki. Jednak zaznaczyć należy, że są to zaledwie próby i do końcowego rezultatu jeszcze daleka droga. Na chwilę obecną istnieje możliwość realizacji systemów, które wspomagają proces sterowania.

Duże nadzieje z interfejsami mózg-komputer wiąże przemysł rozrywkowy. Już udało się zastosować systemy BCI do sterowania avatarem (uczestnik świata wirtualnego). Finalnym efektem prac ma być ergonomiczny i przyjazny interfejs dla każdego użytkownika.

INTERFEJS MÓZG-KOMPUTER na poważnie

Brak komentarzy: