Fragment pochodzi z : Interfejs mózg-komputer BCI
Na przestrzeni dziejów, obsługa różnego rodzaju maszyn odbywała
się na bardzo różne sposoby. Najstarsze maszyny sterowano za pomocą dźwigni i
korb. Kolejnym etapem było zastosowanie kart perforowanych. Za twórcę tej
koncepcji uważa się Joseph Jacquarda. W 1805 roku użył on tabliczek do
sterowania nićmi podczas tkania, co pozwalało tworzyć tkaninę o powtarzalnym
wzorze.
Obecnie najczęściej komputer, użyty do sterowania maszyną,
stanowi ogniwo pośrednie w kontakcie człowiek-maszyna. Stąd komunikacja
człowiek-komputer (Humman-Computer
Interaction - HCI) nabiera nowego znaczenia i jest elementem nieodzownym
naszego życia.
Początkowo, aż do lat 80. XX wieku, do programowania komputerów
używane były karty perforowane. Dopiero
w 1984 roku wynaleziona została przez Douglasa Engelbarta, dobrze wszystkim
znana mysz komputerowa. Stosowana do tej pory umożliwia poruszanie kursorem po
ekranie monitora poprzez przesuwanie jej po płaskiej powierzchni. Oczywiście
nieodzownym elementem jest klawiatura, którą posługujemy się w celu
wprowadzania poleceń i tekstu.
Aktualnie, coraz większą popularność zdobywa interfejs dotykowy
(touchscreen). Najczęściej, interfejs
taki kojarzony jest z ekranami dotykowymi stosownymi w urządzeniach
przenośnych. Istnieje kilka typów konstrukcji takich ekranów. Zwykle do ich
budowy wykorzystywane są nakładki pojemnościowe i rezystancyjne. W innych
typach ekranów dotykowych wykorzystuje się na przykład fakt przerwania
strumienia światła podczerwonego emitowanego przez diody LED. Istnieją również
konstrukcje, które działają na zasadzie zaburzania fali akustycznej,
rozchodzącej się na powierzchni ekranu wskutek dotyku użytkownika.
Zupełnie innym podejściem, jest interfejs wielodotykowy lub
wielopunktowy (multi-touch).
Technologia ta pozwala na obsługę interfejsów graficznych więcej niż jednym
palcem. Takie podejście umożliwia tworzenie interaktywnych interfejsów, ale
zmusza programistów do pisania aplikacji w inny niż dotychczas sposób. Twórca
programowania oprócz wykrycia samego miejsca dotyku ekranu, musi brać również
pod uwagę sposób zmiany jego położenia. Takie wykonywanie gestów na powierzchni
ekranu jest bardzo naturalne i umożliwia na przykład przeglądanie zdjęć czy grę
zespołową.
Bardzo ciekawym podejściem jest wykorzystanie interfejsów z
rozpoznawaniem gestów użytkownika przez analizę obrazu zarejestrowanego za
pomocą kamery. Zasadniczą rolę, w jakości takiego systemu odgrywa
przetwarzanie i analiza obrazu. Jedną z największych trudności w tym przypadku,
jest odróżnienie obiektu jako źródła gestów od otoczenia zmieniającego się w
czasie. Istnieją już systemy, które wykonywane gesty, na przykład ruch rąk,
dłoni, czy palców, odczytują jako odpowiednie polecenia. Trwają prace nad
zastosowaniem tej technologii do rozpoznawania języka migowego. Już opracowano
i wdrożono systemy pozwalające na zdalne sterowanie za pomocą gestów
urządzeniami domowymi, na przykład odbiornikiem TV.
Kilka firm komercyjnych już opracowało i z powodzeniem
zastosowało technologię eyetrackingu.
Zasada działania takich systemów sprowadza się do analizy obrazu oczu i „wskazania”
miejsca, na które patrzy użytkownik. Opracowane systemy są nadal zbyt drogie by
mogły doczekać się powszechnego zastosowania. Kilka ośrodków naukowych z krajów
UE połączyło siły w ramach projektu pod nazwą COGAIN. Celem projektu jest
opracowanie efektywnych i ekonomicznych technologii opartych na eyetrackingu, przeznaczonych do
wspomagania osób niepełnosprawnych. Zostanie opracowany system, składający się
z niezależnych od siebie komponentów (na przykład kamer i oprogramowania).
Użytkownik końcowy zaś będzie mógł złożyć „z klocków”, użyteczną dla niego
konfigurację sprzętowo-programową, bez konieczności zakupu pełnego wyposażenia
od jednego producenta.
Najbardziej naturalną dla człowieka formą komunikacji z
otoczeniem jest mowa. Stąd pomysł wykorzystania mowy do sterowania komputerem.
Próby związane z rozpoznawaniem mowy rozpoczęto już w roku 1952, kiedy to K. H.
Davis, R. Biddulph, i S. Balashek opracowali system rozpoznawania wypowiadanych
cyfr. Rozpoznawanie mowy potocznej, pochodzącej od dowolnej osoby, jest bardzo
złożonym problemem. Dlatego też stosuje się pewne uproszczenia polegające na
rozpoznawaniu mowy konkretnej osoby lub zawężeniu rozpoznawanego zbioru słów
[139]. W pierwszym przypadku poprzez sesję wstępną, algorytm uczy się
rozpoznawać słowa czy też zwroty wypowiadane przez konkretnego użytkownika.
Taka sesja polega najczęściej na wielokrotnym powtarzaniu konkretnych fraz. W
drugim przypadku tematyka rozpoznawanej mowy jest zawężana do konkretnej
problematyki na przykład medycznej (zmniejszenie zasobu słów). Najczęściej
rozpoznawanie mowy stosuje się do sterowania obiektami (wydawanie krótkich
poleceń - rozkazów) lub do transkrypcji (zapis tekstu mówionego). Większość
oprogramowania komercyjnego dla mowy angielskiej osiąga trafność rzędu 98% a
nawet 99%. Oczywiście tak duża skuteczność jest możliwa, gdy spełnione są pewne
warunki zewnętrzne, na przykład brak szumów (tła) podczas rejestracji sygnału.
Dla języka polskiego istnieją programy umożliwiające rozpoznanie od 50% do 90%
słów.
Zupełnie inną formą komunikacji jest wykorzystanie
biopotencjałów np. do sterowania protezą czy klawiaturą wirtualną. Najczęściej
wykorzystywanymi, w tym przypadku, potencjałami są elektromiogram oraz
elektrookulogram. Elektromiogram (electromyogram,
EMG) to zapis sygnałów elektrycznych związanych z pracą mięśni.
Elektrookulogram (electrooculogram,
EOG) to zapis przebiegu napięcia występującego między przednim (dodatnim) a
tylnym (ujemnym) biegunem gałki ocznej. Pobudzanie mięśni wywołuje zmianę
biopotencjałów. W ten sposób, po odpowiednim treningu, można nauczyć się
„generować” właściwe biosygnały i komunikować z komputerem. Interfejsy takie
najczęściej przeznaczone są dla osób niepełnosprawnych. Najbardziej znaną na
świecie osobą dotkniętą tym problemem jest Stephen Hawking. Cierpi on na
stwardnienie zanikowe boczne. Choroba ta sprawiła, że jest on prawie całkowicie
sparaliżowany, porusza się na wózku inwalidzkim. Komunikację ze światem
umożliwia mu generator mowy sterowany ruchami gałek oczu (EOG).
Jak można zauważyć dysponujemy już całkiem szeroką gamą
interfejsów człowiek-komputer. Nie ma jednego uniwersalnego interfejsu, który
może spełnić wymagania i oczekiwania wszystkich użytkowników. Większość z
dostępnych systemów zdaje egzamin w szczególnych przypadkach. Niektóre z nich,
choć cechują się niskim poziomem transferu informacji człowiek-komputer (małą
przepływnością danych), są używane, gdyż stanowią jedyną drogę komunikacji ze
światem dla konkretnego użytkownika. Łatwo zauważyć, że może dochodzić do
błędów w procesie komunikacji człowieka z maszyną. Z tego powodu często
wymagany jest od użytkownika trening.
Ideałem interfejsu HCI byłaby komunikacja człowieka z maszyną
„za pomocą myśli”. Jak dotychczas taki interfejs kojarzył się raczej z
literaturą science-ficton. Obecne systemy BCI pracujące z
wykorzystaniem sygnału EEG nie pozwalają na swobodną komunikację za pomocą
"bezpośrednich myśli". Zasadniczym ograniczeniem tych interfejsów
jest szybkość komunikacji. Zatem dlaczego podejmowane są tak olbrzymie wysiłki
sporych zespołów badawczych do usprawnienia ich działania? Do czego
wykorzystujemy bezpośrednia informacje o pracy mózgu?
Możliwość bezpośredniej interakcji człowieka z komputerem (bez
manualnej obsługi urządzeń peryferyjnych) otwiera nowe kanały przekazu
informacji w medycynie, psychologii, technikach multimedialnych i wojskowych.
Szczególne znaczenie mają tutaj zastosowania tego interfejsu w medycynie zarówno
w aspekcie poznawczym, funkcjonowania ludzkiego mózgu, jak i praktycznym jako
jedyna szansa rozwoju dla osób dotkniętych chorobami neurologicznymi. Interfejs
mózg-komputer może pomóc w komunikacji ze światem zewnętrznym osobom w ciężkich
stadiach chorób neurologicznych jak stwardnienie zanikowe boczne, udar mózgowy
podkorowy, zespół Guillain-Barre’a, mózgowe porażenie dziecięce czy
stwardnienie rozsiane [131]. Rocznie około dwa tysiące osób w Polsce (a we
wszystkich krajach Unii Europejskiej około 24 tysiące) zapada na stwardnienie
zanikowe boczne, neurodegeneracyjną chorobę układu nerwowego, która niszczy
część centralnego układu nerwowego odpowiedzialną za ruch, nie zaburza
natomiast czucia, zdolności poznawczych i intelektu. Osoby, które na nią
zapadają, stopniowo tracą kontrolę nad własnym ciałem i w ciągu 2 do
3 lat osiągają stan, w którym nie mają żadnej możliwości komunikacji z otoczeniem.
Kolejną grupą ludzi, którym należy zapewnić możliwość porozumiewania się z otoczeniem
za pomocą BCI, jest ok. 14 tysięcy osób, jakie w ciągu roku w Polsce zapada na
udary mózgu, a w szczególności udary pnia mózgu. Do wymienionych grup
należałoby dołączyć ok. 1,2 tysiąca ofiar wypadków komunikacyjnych, w wyniku
których doszło do uszkodzenia szyjnego odcinka rdzenia kręgowego [36]. W takich
wypadkach interfejs mózg-komputer ma umożliwić prostą komunikację z otoczeniem,
sterowanie protezami, wózkiem inwalidzkim czy wręcz inteligentnym budynkiem.
Inną formą komunikacji bezpośredniej mózg-komputer jest również neurofeedback. Jest to jeden z rodzajów biofeedbacku,
czyli biologicznego sprzężenia zwrotnego, pomagającego uzyskać samokontrolę nad
funkcjami organizmu. Obejmuje on różnorodne techniki treningowe i
terapeutyczne, usprawniające funkcje mózgu (koncentracja uwagi, opanowanie
emocji, usprawnienie procesów myślowych, szybka nauka, pamięć, twórczość, sen).
W neurofeedbacku wykorzystuje
się sygnał EEG do oceny funkcji mózgu, zaś sprzężenie zwrotne do przesłania
informacji o tym - do pacjenta.
Sygnał EEG można również wykorzystać w konstrukcji wariografu. Z
powodzeniem podjęto takie próby. Standardowo wariografy służą do analizy
fizjologicznych reakcji organizmu człowieka, które są wykładnią emocji, jako
reakcji na pewne bodźce zewnętrzne. Najczęściej rejestruje się takie wielkości
jak ciśnienie krwi, puls, częstość oddechu, reakcję skórno-galwaniczną lub
aktywność ruchową. Badania za pomocą wariografu muszą być przeprowadzane przez
wykwalifikowane osoby. Alternatywą dla tego typu badań jest właśnie rejestracja
tak zwanych potencjałów wywołanych (najczęściej P300), pojawiających się
w sygnale EEG jako odpowiedź na wystąpienie określonego bodźca [94].
Zaobserwowano, że bodźce, rodzące skojarzenia z pewnymi zdarzeniami
wywołującymi emocje (na przykład zdjęcia z miejsca zbrodni, uprzednio oglądanego),
powodują silną reakcję, mającą wyraźne odzwierciedlenie w rejestrowanych
sygnałach EEG.
Bezpośrednie reakcje mózgu na bodźce zewnętrzne wykorzystywane
są również w neuromarketingu [97]. Stosuje się tam narzędzia stosowane w
badaniach psychofizjologicznych. Dzięki nim można dobierać i optymalizować
bodźce marketingowe, na przykład bilbordy czy sekwencje filmowe. W praktyce,
sprowadza się to do kilkukrotnego skrócenie czasu trwania ujęcia z filmu
reklamowego.
Trwają prace nad wykorzystaniem sygnału EEG do predykcji napadów
epileptycznych [141,142,143]. W szczególności chodzi o miary chaotyczności
sygnału (na przykład wykładniki Lapunowa czy entropię). Specjalistyczny
analizator EEG, po wystąpieniu
charakterystycznych zmian w sygnale, mógłby generować odpowiedni sygnał
ostrzegawczy przed zbliżającym się napadem padaczki. Umożliwiłoby to stosowne
przygotowanie się do napadu, zażycie odpowiednich leków itp.
Zauważono, że zapis sygnału EEG wykonany podczas snu (polisomnografia)
może zawierać cechy świadczące o predyspozycji do choroby alkoholowej [78]. W
ocenie predyspozycji do nałogu posłużyć mogą również potencjały wywołane w
szczególności załamek P300. Stwierdzono, że u osób z predyspozycją do
alkoholizmu oraz innych nałogów jest on znacznie słabszy [111,24].
Zapis sygnału EEG, z powodzeniem wykorzystać też można w
biometrii. Typowe biometryki takie jak: odciski palca, brzmienie głosu, wzór
siatkówki oka nie są uniwersalne i mogą ulec zniszczeniu (otarcia skóry,
rany, utrata głosu). Ponadto stwierdzono, że około 2-4% populacji nie ma tych
biometryk (brak organów lub ich uszkodzenie) lub są one słabej jakości, co
uniemożliwia rozpoznanie tych osób. Z drugiej strony wiadomo, że u każdego
człowieka zawsze występuje praca mózgu (sygnał EEG) oraz serca (sygnał EKG).
Ważny jest również fakt, że sygnał EEG występuje cały czas od narodzin do
śmierci - bez przerwy. Co najważniejsze, każdy osobnik ma inną „konfigurację
mózgu” (mózg ludzki składa się z około 1011 neuronów i 1015
synaps). Spontaniczna aktywność mózgu jest bardzo różna dla różnych osobników.
Stąd sygnał EEG jest charakterystyczny, zawiera cechy indywidualne dla każdej
osoby i pozwala na użycie go jako biometryki [121,112]. W tym kontekście warto
wspomnieć, że trwają również zaawansowane prace nad zastosowaniem potencjałów
wywołanych w procesie identyfikacji osób. Pod uwagę bierze się wtedy kształt i
amplitudę załamka.
Należy jednak stwierdzić, że biometria EEG rozwija się powoli.
Spowodowane jest to między innymi skomplikowanym pomiarem sygnału EEG w
porównaniu z innymi metodami (zdejmowanie odcisków palca, skanowaniem
tęczówki). Podejmowane są jednak próby wykorzystania znacznie łatwiejszych w
użyciu, suchych elektrod - na przykład wykonanych z nanorurek zamocowanych
na wygodnej czapce [7,122].
Trwają też intensywne próby zastosowania technologii BCI do
celów militarnych. Docelowo systemy wspomagać mają sterowanie myśliwcami czy
ułatwiać komunikację na polu walki. Jednak zaznaczyć należy, że są to zaledwie
próby i do końcowego rezultatu jeszcze daleka droga. Na chwilę obecną istnieje
możliwość realizacji systemów, które wspomagają proces sterowania.
Duże nadzieje z interfejsami mózg-komputer wiąże przemysł
rozrywkowy. Już udało się zastosować systemy BCI do sterowania avatarem (uczestnik świata wirtualnego).
Finalnym efektem prac ma być ergonomiczny i przyjazny interfejs dla każdego
użytkownika.
Brak komentarzy:
Prześlij komentarz