{"id":31112,"date":"2025-05-21T05:00:00","date_gmt":"2025-05-21T03:00:00","guid":{"rendered":"https:\/\/sii.pl\/blog\/?p=31112"},"modified":"2025-05-22T15:25:00","modified_gmt":"2025-05-22T13:25:00","slug":"kan-rewolucja-w-neuronach-nowa-generacja-sieci-glebokiego-uczenia","status":"publish","type":"post","link":"https:\/\/sii.pl\/blog\/kan-rewolucja-w-neuronach-nowa-generacja-sieci-glebokiego-uczenia\/","title":{"rendered":"KAN: rewolucja w neuronach \u2013 nowa generacja sieci g\u0142\u0119bokiego uczenia"},"content":{"rendered":"\n<p>Sztuczna inteligencja rozwija si\u0119 w zawrotnym tempie, jednak podstawowa jednostka sieci neuronowych \u2013 sztuczny neuron \u2013 pozosta\u0142a w du\u017cej mierze niezmieniona. Nowo wprowadzona sie\u0107 Kolmogorova-Arnolda (KAN) kwestionuje ten stan rzeczy, redefiniuj\u0105c spos\u00f3b wykorzystania i uczenia si\u0119 funkcji aktywacji. Dzi\u0119ki swojej innowacyjnej strukturze, KAN oferuje lepsz\u0105 wydajno\u015b\u0107, interpretowalno\u015b\u0107 i skuteczno\u015b\u0107, potencjalnie zmieniaj\u0105c kierunek rozwoju g\u0142\u0119bokiego uczenia.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Podstawy dzia\u0142ania klasycznego neuronu<\/strong><\/h2>\n\n\n\n<p>Rola sztucznej inteligencji szybko rozszerza si\u0119 w naszym codziennym \u017cyciu, wp\u0142ywaj\u0105c na wszystko \u2013 od asystent\u00f3w g\u0142osowych i system\u00f3w rekomendacyjnych, po zaawansowane dziedziny takie jak diagnostyka medyczna, pojazdy autonomiczne czy przetwarzanie j\u0119zyka naturalnego. Opracowano liczne architektury i typy warstw, takie jak warstwy konwolucyjne czy warstwy \u201eembeddingowe\u201d. Jednak pomimo tych prze\u0142omowych osi\u0105gni\u0119\u0107, fundamentalna jednostka nap\u0119dzaj\u0105ca te sieci \u2013 sztuczny neuron \u2013 pozosta\u0142a w swojej pierwotnej formie od czasu powstania.<\/p>\n\n\n\n<p>Podstawowa koncepcja neuronu, inspirowana biologicznymi neuronami w ludzkim m\u00f3zgu, wci\u0105\u017c opiera si\u0119 na stosunkowo prostym r\u00f3wnaniu matematycznym: <strong>sumowaniu warto\u015bci wej\u015bciowych, przemno\u017ceniu ich przez wagi, dodaniu biasu, a nast\u0119pnie przepuszczeniu wyniku przez funkcj\u0119 aktywacji<\/strong>.<\/p>\n\n\n\n<p>Ta prostota stanowi klucz do elastyczno\u015bci i si\u0142y sieci neuronowych, umo\u017cliwiaj\u0105c ich skalowanie do g\u0142\u0119bokich architektur bez konieczno\u015bci zmiany podstawowego budulca. W istocie, chocia\u017c krajobraz sieci neuronowych rozwija si\u0119 dynamicznie, neuron pozostaje taki sam.<\/p>\n\n\n\n<p>Poni\u017cej znajduje si\u0119 matematyczna reprezentacja sztucznego neuronu:<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large\"><img decoding=\"async\" width=\"1024\" height=\"255\" src=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/1-1024x255.jpg\" alt=\"matematyczna reprezentacja sztucznego neuronu\" class=\"wp-image-31113\" srcset=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/1-1024x255.jpg 1024w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/1-300x75.jpg 300w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/1-768x191.jpg 768w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/1.jpg 1236w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Matematyczna reprezentacja sztucznego neuronu<\/figcaption><\/figure>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large\"><img decoding=\"async\" width=\"1024\" height=\"520\" src=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/ryc.-1-1024x520.jpg\" alt=\"Graficzna reprezentacja sztucznego neuronu z n warto\u015bci wej\u015bciowych (\u017ar\u00f3d\u0142o: Wikipedia)\" class=\"wp-image-31115\" srcset=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/ryc.-1-1024x520.jpg 1024w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/ryc.-1-300x152.jpg 300w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/ryc.-1-768x390.jpg 768w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/ryc.-1.jpg 1220w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Ryc. 1 Graficzna reprezentacja sztucznego neuronu z n warto\u015bci wej\u015bciowych (\u017ar\u00f3d\u0142o: <a href=\"https:\/\/pl.wikipedia.org\/wiki\/Sztuczny_neuron\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >Wikipedia<\/a>)<\/figcaption><\/figure>\n\n\n\n<p>Sieci neuronowe opieraj\u0105 si\u0119 na funkcjach aktywacji, aby wprowadzi\u0107 nieliniowo\u015b\u0107, co pozwala im rozwi\u0105zywa\u0107 z\u0142o\u017cone problemy. Podczas treningu dostosowywane s\u0105 wagi, natomiast biasy i funkcje aktywacji zazwyczaj pozostaj\u0105 niezmienne. Zgodnie z <strong>Twierdzeniem o Uniwersalnej Aproksymacji<\/strong>, nawet jedna warstwa ukryta z wystarczaj\u0105c\u0105 liczb\u0105 neuron\u00f3w mo\u017ce aproksymowa\u0107 dowoln\u0105 funkcj\u0119 ci\u0105g\u0142\u0105.<\/p>\n\n\n\n<p>Jednak\u017ce, aby rozwi\u0105za\u0107 bardziej z\u0142o\u017cone zadania, cz\u0119sto wymagane s\u0105 g\u0142\u0119bokie sieci neuronowe \u2013 perceptrony wielowarstwowe (MLP) \u2013 kt\u00f3re sk\u0142adaj\u0105 si\u0119 z wielu warstw neuron\u00f3w i s\u0105 zdolne do rozwi\u0105zywania takich wyzwa\u0144 jak rozpoznawanie obraz\u00f3w czy t\u0142umaczenie j\u0119zyk\u00f3w.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Twierdzenie Kolmogorova-Arnolda jako inspiracja<\/strong><\/h2>\n\n\n\n<p>Ostatnio wprowadzono nowy typ algorytmu znany jako <strong>Sie\u0107 Kolmogorova-Arnolda<\/strong> (Kolmogorov-Arnold Network \u2013 KAN), co stanowi istotny post\u0119p w architekturze sieci neuronowych. To nowatorskie podej\u015bcie wykazuje du\u017cy potencja\u0142 do przewy\u017cszania tradycyjnych MLP, oferuj\u0105c nowe mo\u017cliwo\u015bci w zakresie poprawy wydajno\u015bci i efektywno\u015bci przy rozwi\u0105zywaniu skomplikowanych zada\u0144. Jego <strong>innowacyjna struktura mo\u017ce pom<\/strong><strong>\u00f3<\/strong><strong>c pokona\u0107 niekt<\/strong><strong>\u00f3<\/strong><strong>re ograniczenia obecnych modeli g\u0142\u0119bokiego uczenia<\/strong>, potencjalnie zmieniaj\u0105c krajobraz bada\u0144 i zastosowa\u0144 sieci neuronowych.<\/p>\n\n\n\n<p>Nowy algorytm inspirowany jest <strong>Twierdzeniem Reprezentacyjnym Kolmogorova-Arnolda<\/strong>, kt\u00f3re m\u00f3wi, \u017ce ka\u017cd\u0105 z\u0142o\u017con\u0105 funkcj\u0119 wielu zmiennych mo\u017cna roz\u0142o\u017cy\u0107 na prostsze funkcje, z kt\u00f3rych ka\u017cda zale\u017cy tylko od jednej zmiennej. Takie rozbicie u\u0142atwia rozwi\u0105zywanie trudnych problem\u00f3w poprzez skupienie si\u0119 na jednym czynniku naraz.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>KAN \u2013 nowa architektura sieci neuronowej<\/strong><\/h2>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"963\" height=\"596\" src=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-2.png\" alt=\"KAN \u2013 uproszczenie z\u0142o\u017conej zale\u017cno\u015bci mi\u0119dzy cech\u0105 a etykiet\u0105 (\u017ar\u00f3d\u0142o: KAN: Kolmogorov-Arnold Networks)\" class=\"wp-image-31117\" srcset=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-2.png 963w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-2-300x186.png 300w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-2-768x475.png 768w\" sizes=\"(max-width: 963px) 100vw, 963px\" \/><figcaption class=\"wp-element-caption\">Ryc. 2 KAN \u2013 uproszczenie z\u0142o\u017conej zale\u017cno\u015bci mi\u0119dzy cech\u0105 a etykiet\u0105 (\u017ar\u00f3d\u0142o: <a href=\"https:\/\/arxiv.org\/abs\/2404.19756\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >KAN: Kolmogorov-Arnold Networks<\/a>)<\/figcaption><\/figure>\n\n\n\n<p>W algorytmie koncepcja ta jest stosowana poprzez rozbicie z\u0142o\u017conego, nieliniowego problemu uczenia maszynowego na mniejsze, \u0142atwiejsze do opanowania komponenty. Ka\u017cda niestandardowa funkcja aktywacji upraszcza z\u0142o\u017con\u0105 zale\u017cno\u015b\u0107 mi\u0119dzy cech\u0105 a etykiet\u0105. Jest to pokazane na grafice powy\u017cej.<\/p>\n\n\n\n<p>Sumuj\u0105c wyniki wszystkich tych uproszczonych funkcji, otrzymujemy ko\u0144cow\u0105 predykcj\u0119 dla ca\u0142ego problemu.<\/p>\n\n\n\n<p>Matematycznie mo\u017cna to wyrazi\u0107 w nast\u0119puj\u0105cy spos\u00f3b:<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large\"><img decoding=\"async\" width=\"1024\" height=\"333\" src=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/2-1024x333.jpg\" alt=\"ko\u0144cowa predykcja\" class=\"wp-image-31119\" srcset=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/2-1024x333.jpg 1024w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/2-300x98.jpg 300w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/2-768x250.jpg 768w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/2.jpg 1217w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Ko\u0144cowa predykcja<\/figcaption><\/figure>\n\n\n\n<p>W implementacji KAN funkcja \u03c8 jest operacj\u0105 to\u017csamo\u015bciow\u0105 \u03c8(x)=x.<\/p>\n\n\n\n<p>Bardziej intuicyjn\u0105 reprezentacj\u0105 sieci neuronowej by\u0142aby forma macierzowa. Poni\u017csza macierz ilustruje, jak wygl\u0105da\u0142aby warstwa z n wej\u015bciami w algorytmie Kolmogorov-Arnold Network (KAN).<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large\"><img decoding=\"async\" width=\"1024\" height=\"136\" src=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/3-1024x136.jpg\" alt=\"macierz\" class=\"wp-image-31121\" srcset=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/3-1024x136.jpg 1024w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/3-300x40.jpg 300w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/3-768x102.jpg 768w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/3.jpg 1218w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Macierz<\/figcaption><\/figure>\n\n\n\n<p>Gdzie do ka\u017cdej warto\u015bci wej\u015bciowej jest osobna funkcja aktywacji \u03d5.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Funkcje aktywacji jako parametry ucz\u0105ce si\u0119<\/strong><\/h2>\n\n\n\n<p>W por\u00f3wnaniu do standardowej sieci MLP, w kt\u00f3rej funkcje aktywacji s\u0105 sta\u0142e i znajduj\u0105 si\u0119 w w\u0119z\u0142ach, a jedynymi ucz\u0105cymi si\u0119 parametrami s\u0105 wagi na kraw\u0119dziach, sie\u0107 Kolmogorov-Arnold Network (KAN) przyjmuje inne podej\u015bcie.<\/p>\n\n\n\n<p>W KAN funkcje aktywacji te\u017c s\u0105 parametrami ucz\u0105cymi si\u0119 i umieszczone s\u0105 na kraw\u0119dziach, natomiast w\u0119z\u0142y wykonuj\u0105 operacj\u0119 sumowania wynik\u00f3w tych funkcji aktywacji. Takie podej\u015bcie <strong>zapewnia wi\u0119ksz\u0105 elastyczno\u015b\u0107 w modelowaniu z\u0142o\u017conych zale\u017cno\u015bci<\/strong>.<\/p>\n\n\n\n<p>Koncepcja ta zosta\u0142a zilustrowana na wykresie przedstawionym na Ryc. 3.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large\"><img decoding=\"async\" width=\"1024\" height=\"221\" src=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-3-1024x221.jpg\" alt=\"Ryc. 3 KAN \u2013 funkcje aktywacji i w\u0119z\u0142y (\u017ar\u00f3d\u0142o: KAN: Kolmogorov-Arnold Networks)\" class=\"wp-image-31125\" srcset=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-3-1024x221.jpg 1024w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-3-300x65.jpg 300w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-3-768x165.jpg 768w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-3.jpg 1221w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Ryc. 3 KAN \u2013 funkcje aktywacji i w\u0119z\u0142y (\u017ar\u00f3d\u0142o: <a href=\"https:\/\/arxiv.org\/abs\/2404.19756\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >KAN: Kolmogorov-Arnold Networks<\/a>)<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Jak stworzy\u0107 w\u0142asn\u0105 funkcj\u0119 aktywacji?<\/strong><\/h2>\n\n\n\n<p>Wszystko w tym algorytmie brzmi logicznie i intuicyjnie, ale pozostaje pytanie \u2013 jak oszacowa\u0107 funkcj\u0119 aktywacji dla ka\u017cdego wej\u015bcia i zastosowa\u0107 j\u0105 wielokrotnie w ka\u017cdej warstwie? <strong>Odpowied\u017a kryje si\u0119 w B-splainach.<\/strong> B-splain (ang. B-spline, czyli basis spline) to elastyczna krzywa z\u0142o\u017cona z kilku po\u0142\u0105czonych segment\u00f3w, co pozwala na tworzenie g\u0142adkich i z\u0142o\u017conych kszta\u0142t\u00f3w.<\/p>\n\n\n\n<p>M\u00f3wi\u0105c pro\u015bciej, B-splain to krzywa okre\u015blana przez punkty kontrolne, dzi\u0119ki kt\u00f3rym mo\u017cna j\u0105 formowa\u0107 w r\u00f3\u017cnorodne kszta\u0142ty w celu aproksymacji r\u00f3\u017cnych funkcji. Jedn\u0105 z jej g\u0142\u00f3wnych zalet jest mo\u017cliwo\u015b\u0107 stosowania B-splain\u00f3w do r\u00f3\u017cniczkowania numerycznego, co czyni je idealnymi do stosowania w propagacji wstecznej podczas trenowania sieci Kolmogorowa-Arnolda (KAN).<\/p>\n\n\n\n<p>Charakterystyczn\u0105 cech\u0105 B-splain jest to, \u017ce modyfikacja pojedynczego punktu kontrolnego wp\u0142ywa tylko na lokaln\u0105 cz\u0119\u015b\u0107 krzywej, pozostawiaj\u0105c reszt\u0119 bez zmian. Poprzez manipulacj\u0119 tymi punktami kontrolnymi w celu dopasowania kszta\u0142tu B-splaina, efektywnie trenujemy sie\u0107. Punkty kontrolne dzia\u0142aj\u0105 jako g\u0142\u00f3wne parametry ucz\u0105ce si\u0119 i stanowi\u0105 podstaw\u0119 dzia\u0142ania sieci Kolmogorowa-Arnolda.<\/p>\n\n\n\n<p>Poni\u017cej, na Ryc. 4, przedstawiono przyk\u0142ad krzywej utworzonej przez kilka punkt\u00f3w kontrolnych. Bardziej szczeg\u00f3\u0142owe informacje mo\u017cna znale\u017a\u0107 <a href=\"https:\/\/en.wikipedia.org\/wiki\/B-spline\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >na \u0142amach Wikipedii<\/a>.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large\"><img decoding=\"async\" width=\"1024\" height=\"565\" src=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-4-1024x565.jpg\" alt=\"Krzywa utworzona przez kilka punkt\u00f3w kontrolnych (\u017ar\u00f3d\u0142o: Wikipedia)\" class=\"wp-image-31127\" srcset=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-4-1024x565.jpg 1024w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-4-300x165.jpg 300w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-4-768x423.jpg 768w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/Ryc.-4.jpg 1197w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Ryc. 4 Krzywa utworzona przez kilka punkt\u00f3w kontrolnych (\u017ar\u00f3d\u0142o: <a href=\"https:\/\/en.wikipedia.org\/wiki\/B-spline\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >Wikipedia<\/a>)<\/figcaption><\/figure>\n\n\n\n<p>Rozumiej\u0105c ju\u017c podstawow\u0105 ide\u0119 sieci KAN, nasza sztuczna sie\u0107 neuronowa b\u0119dzie mia\u0142a nieco inny kszta\u0142t. W tradycyjnym MLP (wielowarstwowym perceptronie) ucz\u0105cymi si\u0119 parametrami s\u0105 wagi, natomiast w KAN parametrami ucz\u0105cymi si\u0119 s\u0105 r\u00f3wnie\u017c punkty kontrolne B-splainach.<\/p>\n\n\n\n<p>Pojedyncz\u0105 warstw\u0119 wielowarstwowego perceptronu (MLP) mo\u017cna opisa\u0107 za pomoc\u0105 wektor\u00f3w i macierzy:<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large\"><img decoding=\"async\" width=\"1024\" height=\"133\" src=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/4-1-1024x133.jpg\" alt=\"\" class=\"wp-image-31129\" srcset=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/4-1-1024x133.jpg 1024w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/4-1-300x39.jpg 300w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/4-1-768x100.jpg 768w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/4-1.jpg 1208w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Pojedyncz\u0105 warstw\u0119 wielowarstwowego perceptronu (MLP)<\/figcaption><\/figure>\n\n\n\n<ol class=\"wp-block-list\">\n<li><code>Wej\u015bciowy Wektor: Cechy wej\u015bciowe tworz\u0105 wektor x <\/code><\/li>\n\n\n\n<li><code>Macierz Wag: Wagi \u0142\u0105cz\u0105ce wej\u015bcia z neuronami s\u0105 reprezentowane przez macierz <\/code><\/li>\n\n\n\n<li><code>Wektor Biasu: Ka\u017cdy neuron ma bias, reprezentowany jako wektor b <\/code><\/li>\n\n\n\n<li><code>Transformacja Liniowa: Wej\u015bcie przechodzi przez transformacj\u0119 liniow\u0105 z=Wx+b <\/code><\/li>\n\n\n\n<li><code>Funkcja Aktywacji: Funkcja aktywacji jest stosowana do wynik\u00f3w, produkuj\u0105c wektor wyj\u015bciowy a=f(z)<\/code><\/li>\n<\/ol>\n\n\n\n<p>Jedna warstwa dla KAN b\u0119dzie troch\u0119 si\u0119 r\u00f3\u017cni\u0142a<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"1024\" height=\"147\" src=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/5-1024x147.jpg\" alt=\"jedna warstwa dla KAN\" class=\"wp-image-31131\" srcset=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/5-1024x147.jpg 1024w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/5-300x43.jpg 300w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/5-768x110.jpg 768w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/5.jpg 1199w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Jedna warstwa dla KAN<\/figcaption><\/figure>\n\n\n\n<p>Gdzie \u03d5_mn s\u0105 funkcjami aktywacji. <a href=\"https:\/\/arxiv.org\/abs\/2404.19756\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >W publikacji [1]<\/a> funkcja aktywacji ma nast\u0119puj\u0105cy wygl\u0105d<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large\"><img decoding=\"async\" width=\"1024\" height=\"471\" src=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/6-1024x471.jpg\" alt=\"funkcja aktywacji\" class=\"wp-image-31133\" srcset=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/6-1024x471.jpg 1024w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/6-300x138.jpg 300w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/6-768x353.jpg 768w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/6.jpg 1221w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Funkcja aktywacji<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Por\u00f3wnanie KAN i MLP: wydajno\u015b\u0107 i interpretowalno\u015b\u0107<\/strong><\/h2>\n\n\n\n<p>Na podstawie powy\u017cszych wzor\u00f3w mo\u017cna zauwa\u017cy\u0107, \u017ce MLP maj\u0105 mniej ucz\u0105cych si\u0119 parametr\u00f3w ni\u017c KAN, co oznacza, \u017ce KAN wymaga wi\u0119kszej mocy obliczeniowej i wi\u0119cej czasu na trening.<\/p>\n\n\n\n<p>Jednak innowacj\u0105 w tym nowym algorytmie jest to, \u017ce mo\u017cemy u\u017cywa\u0107 mniejszej liczby neuron\u00f3w i warstw, optymalizuj\u0105c nie tylko wagi w neuronach, ale tak\u017ce funkcje aktywacji. Podczas treningu wykorzystywana jest optymalizacja oparta na gradientach do dostosowywania pozycji punkt\u00f3w kontrolnych splain\u00f3w \u2013 podobnie jak wagi w tradycyjnych sieciach. W artykule opisano, w jaki spos\u00f3b model KAN z mniejsz\u0105 liczb\u0105 warstw przewy\u017csza standardowe sieci MLP.<\/p>\n\n\n\n<p>Opr\u00f3cz mniejszego rozmiaru i zoptymalizowanych funkcji aktywacji, KAN oferuje du\u017c\u0105 zalet\u0119 w zakresie interpretowalno\u015bci. Dzi\u0119ki analizie wyuczonych B-splain\u00f3w mo\u017cemy uzyska\u0107 wgl\u0105d w spos\u00f3b dzia\u0142ania modelu, w przeciwie\u0144stwie do MLP, kt\u00f3re dzia\u0142aj\u0105 jako ca\u0142kowicie czarna skrzynka. Kolejn\u0105 mocn\u0105 stron\u0105 KAN jest jego zdolno\u015b\u0107 do uczenia ci\u0105g\u0142ego \u2013 podczas dostrajania model zachowuje wiedz\u0119 z pierwotnego zadania. Jest to mo\u017cliwe dzi\u0119ki w\u0142a\u015bciwo\u015bciom B-splain\u00f3w, gdzie dostosowanie jednego punktu kontrolnego wp\u0142ywa jedynie na lokalny fragment krzywej.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Zastosowanie i potencja\u0142 praktyczny<\/strong><\/h2>\n\n\n\n<p><a href=\"https:\/\/arxiv.org\/abs\/2404.19756\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >Oryginalna publikacja o KAN [1]<\/a> przedstawia kilka przyk\u0142ad\u00f3w r\u00f3\u017cnych zada\u0144, w kt\u00f3rych model KAN osi\u0105gn\u0105\u0142 lepsze wyniki przy mniejszej liczbie parametr\u00f3w w por\u00f3wnaniu z tradycyjnymi modelami MLP. Na przyk\u0142ad w zadaniu klasyfikacji podpis\u00f3w(signature classification) model KAN osi\u0105gn\u0105\u0142 dok\u0142adno\u015b\u0107 81,6%, podczas gdy tradycyjny model MLP osi\u0105gn\u0105\u0142 78% (<a href=\"https:\/\/arxiv.org\/abs\/2404.19756\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >Tabela 3 z [1]<\/a>).<\/p>\n\n\n\n<p>Ponadto, artyku\u0142 pokazuje, \u017ce w zadaniach wymagaj\u0105cych regresji symbolicznej oraz odkrywania wielomianowych zale\u017cno\u015bci wy\u017cszego rz\u0119du (np. dopasowywanie danych do z\u0142o\u017conych funkcji), sieci KAN konsekwentnie przewy\u017csza\u0142y MLP, lepiej uchwytuj\u0105c te zale\u017cno\u015bci bez potrzeby stosowania g\u0142\u0119bokich architektur lub d\u0142ugiego czasu treningu.<\/p>\n\n\n\n<p>Publikacje naukowe jednak wskazuj\u0105, \u017ce cho\u0107 KAN nie jest uniwersalnie lepszy od innych modeli, to mo\u017ce przewy\u017csza\u0107 klasyczne modele w okre\u015blonych zadaniach i dziedzinach.<\/p>\n\n\n\n<p>Bardziej kompleksowe por\u00f3wnanie przeprowadzono w artykule <em><a href=\"https:\/\/arxiv.org\/pdf\/2407.16674\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >KAN or MLP: A Fairer Comparison [4]<\/a><\/em>, w kt\u00f3rym oceniano wydajno\u015b\u0107 modelu KAN w zadaniach z zakresu uczenia maszynowego (na o\u015bmiu zbiorach danych), wizji komputerowej, przetwarzania j\u0119zyka naturalnego (NLP) oraz przetwarzania d\u017awi\u0119ku. Badanie wykaza\u0142o, \u017ce standardowe modele MLP nieznacznie przewy\u017csza\u0142y modele KAN, a r\u00f3\u017cnice w dok\u0142adno\u015bci wynosi\u0142y od 0,2% (dla zada\u0144 ML) do 8% (dla zada\u0144 z obszaru wizji komputerowej).<\/p>\n\n\n\n<p>Dodatkowo, kilka kolejnych bada\u0144 analizowa\u0142o adaptacje KAN w wyspecjalizowanych dziedzinach. Jednym z takich przyk\u0142ad\u00f3w jest publikacja <em><a href=\"https:\/\/arxiv.org\/abs\/2408.08803\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >FourierKAN outperforms MLP on Text Classification Head Fine-tuning [5]<\/a><\/em>, w kt\u00f3rej zaproponowano zmodyfikowan\u0105 wersj\u0119 KAN o nazwie Fourier KAN (FR-KAN). W badaniu tym FR-KAN zosta\u0142 u\u017cyty jako alternatywa dla ostatniej warstwy do klasyfikacji opartej na MLP w zadaniach klasyfikacji tekstu i wykaza\u0142 znacz\u0105ce ulepszenia \u2013 \u015bredni wzrost dok\u0142adno\u015bci o 10% oraz popraw\u0119 wska\u017anika F1 o 11% w siedmiu wst\u0119pnie wytrenowanych modelach transformer\u00f3w i czterech zadaniach do klasyfikacji.<\/p>\n\n\n\n<p>Obecnie nie ma jeszcze znanych wdro\u017ce\u0144 KAN na poziomie produkcyjnym, jednak model wzbudzi\u0142 du\u017ce zainteresowanie w \u015brodowisku naukowym. Liczne badania proponuj\u0105 modyfikacje i adaptacje KAN, pokazuj\u0105c jego potencja\u0142 do osi\u0105gania wy\u017cszej wydajno\u015bci w okre\u015blonych przypadkach u\u017cycia. Prace te podkre\u015blaj\u0105 jednak, \u017ce <strong>KAN nie jest rozwi\u0105zaniem uniwersalnym \u2013 aby uzyska\u0107 przewag\u0119 nad innymi modelami, wymaga starannego dostrojenia i przemy\u015blanego zastosowania.<\/strong><strong><\/strong><\/p>\n\n\n\n<p>Dotychczas KAN wykazuje najwi\u0119kszy potencja\u0142 w zadaniach wymagaj\u0105cych rozumowania symbolicznego, analizy szereg\u00f3w czasowych oraz aproksymacji funkcji.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><a href=\"https:\/\/sii.pl\/oferty-pracy\/\" target=\"_blank\" rel=\"noreferrer noopener\"><img decoding=\"async\" width=\"737\" height=\"170\" src=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/praca-PL-k-3.jpg\" alt=\"oferty pracy\" class=\"wp-image-31136\" srcset=\"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/praca-PL-k-3.jpg 737w, https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/praca-PL-k-3-300x69.jpg 300w\" sizes=\"(max-width: 737px) 100vw, 737px\" \/><\/a><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Wnioski i przysz\u0142o\u015b\u0107 KAN<\/strong><\/h2>\n\n\n\n<p>Kolmogorov-Arnold Network wprowadza nowe spojrzenie na od dawna stosowane zasady w sieciach neuronowych, w szczeg\u00f3lno\u015bci na funkcj\u0119 aktywacji, kt\u00f3ra przez lata pozostawa\u0142a praktycznie niezmieniona. Chocia\u017c podstawowa struktura sztucznego neuronu pozostaje taka sama, KAN pozwala na precyzyjne dostrajanie funkcji aktywacji, umo\u017cliwiaj\u0105c sieci lepsze modelowanie z\u0142o\u017conych zale\u017cno\u015bci mi\u0119dzy cechami a etykietami. Ta elastyczno\u015b\u0107 mo\u017ce prowadzi\u0107 do lepszej skuteczno\u015bci w rozumieniu skomplikowanych wzorc\u00f3w danych.<\/p>\n\n\n\n<p>Jednak pojawia si\u0119 kilka istotnych pyta\u0144:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Czy ten algorytm oka\u017ce si\u0119 r\u00f3wnie skuteczny w rzeczywistych zastosowaniach, jak w przyk\u0142adach zabawkowych lub testach kontrolnych opisanych w artykule?<\/li>\n\n\n\n<li>Czy warstwy KAN mo\u017cna skutecznie \u0142\u0105czy\u0107 z tradycyjnymi warstwami MLP, aby zmniejszy\u0107 liczb\u0119 uczonych parametr\u00f3w? Jaki wp\u0142yw mia\u0142oby to na og\u00f3ln\u0105 dok\u0142adno\u015b\u0107 i wydajno\u015b\u0107 modelu?<\/li>\n<\/ul>\n\n\n\n<p>Te otwarte pytania podkre\u015blaj\u0105 potencja\u0142 KAN, a jednocze\u015bnie wskazuj\u0105 na potrzeb\u0119 dalszych bada\u0144 i eksperyment\u00f3w, aby w pe\u0142ni zrozumie\u0107 jego praktyczne korzy\u015bci.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Literatura<\/strong><\/h2>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Chen, Z., Choi, H., Poggio, T., Balestriero, R., &amp; Baraniuk, R. (2024). <em><a href=\"https:\/\/arxiv.org\/abs\/2404.19756\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >KAN: Kolmogorov-Arnold Networks<\/a><\/em>. arXiv preprint arXiv:2404.07143<\/li>\n\n\n\n<li>Schoenberg, I. J. (1946). Contributions to the problem of approximation of equidistant data by analytic functions. <em>Quarterly of Applied Mathematics<\/em>, <strong>4<\/strong>, 45\u201399 and 112\u2013141.<\/li>\n\n\n\n<li><a href=\"https:\/\/medium.com\/@mryasinusif\/why-is-the-kan-kolmogorov-arnold-networks-so-promising-8494242a8bdd\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >Why is the (KAN) Kolmogorov-Arnold Networks so promising<\/a><\/li>\n\n\n\n<li>Runpeng Yu, Weihao Yu, and Xinchao Wang (2024). <em><a href=\"https:\/\/arxiv.org\/pdf\/2407.16674\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >KAN or MLP: A Fairer Comparison<\/a><\/em>. National University of Singapore<\/li>\n\n\n\n<li>Abdullah Al Imran, &amp; Md Farhan Ishmam (2024). <a href=\"https:\/\/arxiv.org\/abs\/2408.08803\" target=\"_blank\" rel=\"noopener\" title=\"\" rel=\"nofollow\" >FourierKAN outperforms MLP on Text Classification Head Fine-tuning<\/a><\/li>\n<\/ol>\n\n\n\n<p>***<\/p>\n\n\n\n<p>Je\u017celi interesuje Ci\u0119 tematyka sieci neuronowych, zajrzyj koniecznie r\u00f3wnie\u017c <a href=\"https:\/\/sii.pl\/blog\/wyszukiwarka\/neuron\/\" target=\"_blank\" rel=\"noopener\" title=\"\">do innych artyku\u0142\u00f3w naszych ekspert\u00f3w<\/a>. <\/p>\n\n\n<div class=\"kk-star-ratings kksr-auto kksr-align-left kksr-valign-bottom\"\n    data-payload='{&quot;align&quot;:&quot;left&quot;,&quot;id&quot;:&quot;31112&quot;,&quot;slug&quot;:&quot;default&quot;,&quot;valign&quot;:&quot;bottom&quot;,&quot;ignore&quot;:&quot;&quot;,&quot;reference&quot;:&quot;auto&quot;,&quot;class&quot;:&quot;&quot;,&quot;count&quot;:&quot;3&quot;,&quot;legendonly&quot;:&quot;&quot;,&quot;readonly&quot;:&quot;&quot;,&quot;score&quot;:&quot;5&quot;,&quot;starsonly&quot;:&quot;&quot;,&quot;best&quot;:&quot;5&quot;,&quot;gap&quot;:&quot;11&quot;,&quot;greet&quot;:&quot;&quot;,&quot;legend&quot;:&quot;5\\\/5 ( votes: 3)&quot;,&quot;size&quot;:&quot;18&quot;,&quot;title&quot;:&quot;KAN: rewolucja w neuronach \u2013 nowa generacja sieci g\u0142\u0119bokiego uczenia&quot;,&quot;width&quot;:&quot;139.5&quot;,&quot;_legend&quot;:&quot;{score}\\\/{best} ( {votes}: {count})&quot;,&quot;font_factor&quot;:&quot;1.25&quot;}'>\n            \n<div class=\"kksr-stars\">\n    \n<div class=\"kksr-stars-inactive\">\n            <div class=\"kksr-star\" data-star=\"1\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"2\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"3\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"4\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"5\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n    <\/div>\n    \n<div class=\"kksr-stars-active\" style=\"width: 139.5px;\">\n            <div class=\"kksr-star\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n    <\/div>\n<\/div>\n                \n\n<div class=\"kksr-legend\" style=\"font-size: 14.4px;\">\n            5\/5 ( votes: 3)    <\/div>\n    <\/div>\n","protected":false},"excerpt":{"rendered":"<p>Sztuczna inteligencja rozwija si\u0119 w zawrotnym tempie, jednak podstawowa jednostka sieci neuronowych \u2013 sztuczny neuron \u2013 pozosta\u0142a w du\u017cej mierze &hellip; <a class=\"continued-btn\" href=\"https:\/\/sii.pl\/blog\/kan-rewolucja-w-neuronach-nowa-generacja-sieci-glebokiego-uczenia\/\">Continued<\/a><\/p>\n","protected":false},"author":714,"featured_media":31139,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"_editorskit_title_hidden":false,"_editorskit_reading_time":0,"_editorskit_is_block_options_detached":false,"_editorskit_block_options_position":"{}","inline_featured_image":false,"footnotes":""},"categories":[1314],"tags":[2818,2794,1710,1512,680],"class_list":["post-31112","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-development-na-twardo","tag-kan","tag-da","tag-sieci-neuronowe","tag-poradnik","tag-ai"],"acf":[],"aioseo_notices":[],"republish_history":[],"featured_media_url":"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2025\/05\/AI_2-1.jpg","category_names":["Development na twardo"],"_links":{"self":[{"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/posts\/31112"}],"collection":[{"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/users\/714"}],"replies":[{"embeddable":true,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/comments?post=31112"}],"version-history":[{"count":3,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/posts\/31112\/revisions"}],"predecessor-version":[{"id":31219,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/posts\/31112\/revisions\/31219"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/media\/31139"}],"wp:attachment":[{"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/media?parent=31112"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/categories?post=31112"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/tags?post=31112"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}