{"id":10475,"date":"2021-04-19T16:59:48","date_gmt":"2021-04-19T14:59:48","guid":{"rendered":"https:\/\/sii.pl\/blog\/?p=10475"},"modified":"2023-10-25T09:33:55","modified_gmt":"2023-10-25T07:33:55","slug":"sztuczna-inteligencja-w-silnikach-wyszukiwania","status":"publish","type":"post","link":"https:\/\/sii.pl\/blog\/sztuczna-inteligencja-w-silnikach-wyszukiwania\/","title":{"rendered":"Sztuczna inteligencja w silnikach wyszukiwania"},"content":{"rendered":"\n<p>Cyfryzacja otaczaj\u0105cego nas \u015bwiata pozwoli\u0142a uzyska\u0107 dost\u0119p do informacji w ilo\u015bciach niemo\u017cliwych do osi\u0105gni\u0119cia dla wcze\u015bniejszych pokole\u0144. <\/p>\n\n\n\n<p>Sprawc\u0105 takiego stanu rzeczy jest nie tylko powszechny dost\u0119p do Internetu, ale r\u00f3wnie\u017c procesy zachodz\u0105ce w takich instytucjach jak urz\u0119dy, korporacje czy centra naukowe. Ogromna ilo\u015b\u0107 danych utrzymywana wcze\u015bniej jako fizyczne, papierowe kopie jest obecnie przechowywana w bazach danych i dost\u0119pna z poziomu osobistego komputera, bez konieczno\u015bci wstawania od biurka.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Jak nie uton\u0105\u0107 w morzu danych?<\/h2>\n\n\n\n<p>Sam dost\u0119p do informacji nie jest jednak wystarczaj\u0105cy. Fizycznie niemo\u017cliwe jest r\u0119czne przejrzenie setek czy tysi\u0119cy potencjalnych dokument\u00f3w, w kt\u00f3rych mo\u017ce znajdowa\u0107 si\u0119 poszukiwana przez nas informacja. W parze z systemami przechowuj\u0105cymi informacje id\u0105 wi\u0119c algorytmy wyszukiwania.<\/p>\n\n\n\n<p>Najcz\u0119\u015bciej wyst\u0119puj\u0105cym rodzajem informacji jest informacja nieprzetworzona np. w formie dokument\u00f3w tekstowych, takich jak orzeczenia s\u0105d\u00f3w, faktury czy umowy. O ile bardzo \u0142atwo mo\u017cemy wyszuka\u0107 dokumenty utworzone b\u0105d\u017a zmodyfikowane w zakresie okre\u015blonych dat, lub posiadaj\u0105ce ustalonego autora, to ju\u017c wyszukiwanie w samej tre\u015bci b\u0119dzie zdecydowanie wi\u0119kszym wyzwaniem.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Potrzeba wiedzy<\/h2>\n\n\n\n<p>Wyobra\u017amy sobie, \u017ce mamy do dyspozycji baz\u0119 orzecze\u0144 s\u0105d\u00f3w z kilkunastu ostatnich lat, oraz prawnika o imieniu Harvey, kt\u00f3ry chcia\u0142by wiedzie\u0107, jak wyrokowa\u0142 s\u0105d w sprawach podobnych do tej obecnie przez niego prowadzonej. Za\u0142\u00f3\u017cmy, \u017ce chodzi o niep\u0142acenie podatk\u00f3w. Harvey loguje si\u0119 wi\u0119c do naszego systemu i wpisuje w wyszukiwark\u0119 nast\u0119puj\u0105c\u0105 fraz\u0119: \u201ewyroki s\u0105d\u00f3w w sprawach uchylania si\u0119 od p\u0142acenia podatk\u00f3w\u201d. Jak zadzia\u0142a system wyszukiwania?<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Wyszukiwanie leksykalne<\/h2>\n\n\n\n<p>Wi\u0119kszo\u015b\u0107 obecnych system\u00f3w wyszukiwania pe\u0142no-tekstowego indeksuje dokumenty z wykorzystaniem cz\u0119stotliwo\u015bci wyst\u0119powania s\u0142\u00f3w. Wi\u0105\u017ce si\u0119 to jednak z problemem jakim s\u0105 synonimy oraz r\u00f3\u017cne sposoby tekstowego wyra\u017cania informacji. Je\u015bli zapytanie, kt\u00f3rego u\u017cy\u0142 Harvey to \u201ewyroki s\u0105d\u00f3w w sprawach uchylania si\u0119 od p\u0142acenia podatk\u00f3w\u201d, a w dokumencie znajduje si\u0119 \u201eunikanie VATu\u201d, to taki dokument prawdopodobnie nie zostanie znaleziony z racji na inne s\u0142ownictwo u\u017cyte w dokumencie \u2013 nawet je\u015bli koncepcyjnie jest to dok\u0142adnie to samo.<\/p>\n\n\n\n<p>System wyszukiwania opisany w poprzednim paragrafie to tzw. system wyszukiwania leksykalnego. Opiera si\u0119 on na prostym mechanizmie i nie jest w stanie zrozumie\u0107 intencji wyszukuj\u0105cego, ani kontekstu w jakim dana informacja jest przedstawiona. Je\u015bli np. w dokumencie pojawi si\u0119 nast\u0119puj\u0105ce zdanie \u201efirma zap\u0142aci\u0142a podatek\u201d a w innym miejscu tego samego dokumentu \u201etechniki uchylania si\u0119 od podatk\u00f3w\u201d, to taki dokument wci\u0105\u017c b\u0119dzie odpowiedzi\u0105 systemu na zapytanie Kevina, poniewa\u017c pojawiaj\u0105 si\u0119 tam zar\u00f3wno s\u0142owa \u201epodatek\u201d jak i \u201euchylanie si\u0119\u201d.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Sztuczna inteligencja przychodzi z pomoc\u0105<\/h2>\n\n\n\n<p>Post\u0119p w dziedzinie sztucznej inteligencji w zakresie przetwarzania j\u0119zyka naturalnego, kt\u00f3ry nast\u0105pi\u0142 na przestrzeni ostatnich lat, pozwala na rozwi\u0105zanie obu powy\u017cszych problem\u00f3w poprzez tzw. wyszukiwanie semantycznego. W ten spos\u00f3b system jest w stanie nie tylko zrozumie\u0107 intencje u\u017cytkownika, ale te\u017c kontekst w jakim dana informacja jest podana.<\/p>\n\n\n\n<p>Podstaw\u0119 wyszukiwania semantycznego stanowi\u0105 zwykle g\u0142\u0119bokie sieci neuronowe trenowane na ogromnych ilo\u015bciach danych. Przyk\u0142adowo model GPT-3 zosta\u0142 wytrenowany na niemal 500 miliardach s\u0142\u00f3w z tekst\u00f3w pochodz\u0105cych ze stron internetowych, ksi\u0105\u017cek oraz Wikipedii! Trening modelu AI ma za zadanie uchwyci\u0107 znaczenie poszczeg\u00f3lnych s\u0142\u00f3w na podstawie kontekstu ich wyst\u0119powania.<\/p>\n\n\n\n<p>J\u0119zyk naturalny mo\u017ce si\u0119 r\u00f3\u017cni\u0107 od j\u0119zyka domenowego, u\u017cywanego np. w\u015br\u00f3d prawnik\u00f3w, architekt\u00f3w czy medyk\u00f3w, dlatego dla poprawy skuteczno\u015bci wyszukiwania taki model warto dostroi\u0107 na zbiorze dokument\u00f3w specyficznych dla danego zagadnienia.<\/p>\n\n\n\n<p>Utworzony w ten spos\u00f3b model AI jest u\u017cywany do indeksowania dokument\u00f3w i pozwala na przeszukiwanie z wykorzystaniem znaczenia informacji, a nie tylko na podstawie dopasowania poszczeg\u00f3lnych s\u0142\u00f3w.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Pytanie = odpowied\u017a?<\/h2>\n\n\n\n<p>Silnik wyszukiwania semantycznego jest w stanie bardzo precyzyjnie znale\u017a\u0107 poszukiwan\u0105 informacje po\u015br\u00f3d setek tysi\u0119cy r\u00f3\u017cnych dokument\u00f3w i wskaza\u0107 fragment, kt\u00f3ry dan\u0105 informacj\u0119 zawiera. Czy da\u0142oby si\u0119 jednak p\u00f3j\u015b\u0107 krok dalej i wydoby\u0107 dok\u0142adn\u0105 odpowied\u017a na zadane pytanie?<\/p>\n\n\n\n<p>Za\u0142\u00f3\u017cmy, \u017ce tym razem zapytanie prawnika brzmi \u201eJakie s\u0105 koszty post\u0119powania s\u0105dowego w sprawie przekroczenia pr\u0119dko\u015bci?\u201d i oczekuje on dok\u0142adnej odpowiedzi, np. 500 PLN. Maj\u0105c na uwadze, \u017ce silnik semantyczny zwraca nam ju\u017c dok\u0142adny fragment tekstu zawieraj\u0105cy odpowied\u017a, kolejnym krokiem by\u0142oby wydobycie z tego fragmentu odpowiedniej warto\u015bci.<\/p>\n\n\n\n<p>Okazuje si\u0119, \u017ce r\u00f3wnie\u017c w tym przypadku z pomoc\u0105 przychodzi sztuczna inteligencja i opisywany system jest mo\u017cliwy do zbudowania, pod warunkiem posiadania odpowiedniego, zbioru danych treningowych, specyficznego dla danej domeny.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Nieoczywiste mo\u017cliwo\u015bci wyszukiwania semantycznego<\/h2>\n\n\n\n<p>W poprzednich paragrafach opisano klasyczne silniki wyszukiwania, gdzie na zadane zapytanie pojawiaj\u0105 si\u0119 potencjalne odpowiedzi. Jednak jest to tylko namiastka niesamowitych narz\u0119dzi, jakie mo\u017cna zbudowa\u0107 na podstawie modelu AI rozumiej\u0105cego dane tekstowe.<\/p>\n\n\n\n<p>Za\u0142\u00f3\u017cmy, \u017ce chcieliby\u015bmy ustali\u0107, czy nasze dokumenty s\u0105 poprawne wzgl\u0119dem pewnych regulacji i czy spe\u0142niaj\u0105 wszystkie wymagania, jakie s\u0105 stawiane przed tego typu dokumentami. Maj\u0105c zdefiniowan\u0105 list\u0119 regulacji i wymaga\u0144 model AI jest w stanie nauczy\u0107 si\u0119 ich, a nast\u0119pnie sprawdza\u0107 poprawno\u015b\u0107 dokument\u00f3w u\u017cytkownika. Co wi\u0119cej, pozwoli r\u00f3wnie\u017c na sprawdzenie sp\u00f3jno\u015bci dokumentu wzgl\u0119dem grupy innych dokument\u00f3w \u2013 np. wzgl\u0119dem poprawno\u015bci dat, sum pieni\u0119\u017cnych lub dowolnych innych warto\u015bci. Pozwala to w znacz\u0105cy spos\u00f3b zmniejszy\u0107 ilo\u015b\u0107 czasu potrzebnego na manualn\u0105 weryfikacj\u0119 poprawno\u015bci danych oraz unikn\u0105\u0107 wielu potencjalnych pomy\u0142ek trudnych do zauwa\u017cenia dla cz\u0142owieka.<\/p>\n\n\n\n<p>Rozwi\u0105zanie takie mo\u017ce by\u0107 przydatne np. w bran\u017cy healthcare, gdzie niejednokrotnie wymagana jest weryfikacja, czy dany dokument medyczny spe\u0142nia regulacyjne normy przedstawiania informacji, czy te\u017c sprawdzenie poprawno\u015bci takiego dokumentu wzgl\u0119dem innych zatwierdzonych ju\u017c przez regulatora dokument\u00f3w. Podobny mechanizm mo\u017cna zastosowa\u0107 w innych obszarach (jak chocia\u017cby Utilities), w kt\u00f3rych istnieje bardzo wiele regulacji prawnych, procedur i norm, kt\u00f3rych stosowanie konieczne jest w codziennej pracy, a ich wyszukiwanie sprawia sporo trudno\u015bci.<\/p>\n\n\n\n<p>Kolejnym zagadnieniem jest ekstrakcja kluczowych informacji z dokument\u00f3w, takich jak nazwiska, daty, warto\u015bci pieni\u0119\u017cne, przepisy prawne, itd. Ma to znaczenie zw\u0142aszcza przy du\u017cej ilo\u015bci d\u0142ugich tekstowych dokument\u00f3w, gdzie u\u017cytkownik chcia\u0142by szybko uzyska\u0107 kluczowe informacje bez konieczno\u015bci czytania wszystkiego. R\u00f3wnie\u017c i w tym przypadku mamy do czynienia z problemem zbli\u017conym do wyszukiwania. Pozwala to np. na szybkie znalezienie i dopasowanie ofert, kt\u00f3re mog\u0105 zosta\u0107 przedstawione potencjalnym klientom w postaci ekstraktu najwa\u017cniejszych informacji. Dzi\u0119ki temu klienci nie tylko dostan\u0105 najlepiej dopasowan\u0105 ofert\u0119, ale te\u017c b\u0119d\u0105 w stanie szybciej si\u0119 z ni\u0105 zapozna\u0107 i por\u00f3wna\u0107 z innymi propozycjami.<\/p>\n\n\n\n<p>Co ciekawe z technicznego punktu widzenia, opisane problemy s\u0105 bardzo zbli\u017cone do problemu wyszukiwania semantycznego.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Nasze do\u015bwiadczenie<\/h2>\n\n\n\n<p>Powy\u017csze przypadki u\u017cycia nie s\u0105 jedynie czysto teoretycznymi dywagacjami. Opisuj\u0105 one do\u015bwiadczenia zebrane przez nasz zesp\u00f3\u0142 AI w rzeczywistych projektach adresuj\u0105cych rzeczywiste problemy naszych klient\u00f3w. Artyku\u0142 nie wyczerpuje jednak nawet w niewielkim stopniu potencjalnych mo\u017cliwo\u015bci oferowanych przez sztuczn\u0105 inteligencj\u0119. Je\u015bli stoisz wi\u0119c przed wyzwaniem, kt\u00f3re wymaga efektywnego przetwarzania du\u017cej ilo\u015b\u0107 dokument\u00f3w tekstowych, ale nie odnajdujesz swojego przypadku u\u017cycia w tym artykule, skontaktuj si\u0119 z nami. Ch\u0119tnie przedyskutujemy i pomo\u017cemy dobra\u0107 odpowiednie rozwi\u0105zanie.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Podsumowanie<\/h2>\n\n\n\n<p>Nowoczesne, oparte o sztuczn\u0105 inteligencj\u0119 silniki wyszukiwania, pozwalaj\u0105 na niemal pe\u0142n\u0105 dowolno\u015b\u0107 w formu\u0142owaniu zapyta\u0144 i indeksowaniu dokument\u00f3w. Potrafi\u0105 zrozumie\u0107 zar\u00f3wno znaczenie, jak i kontekst w jakim prezentowane s\u0105 informacje, przez co wyniki wyszukiwania id\u0105 w parze z intencjami u\u017cytkownika. Dost\u0119pne na rynku narz\u0119dzia pozwalaj\u0105 zbudowa\u0107 niezawodne i skalowalne rozwi\u0105zania, a modele AI mo\u017cna dopasowa\u0107 do danego zagadnienia.<\/p>\n\n\n\n<p>Szybki dost\u0119p do w\u0142a\u015bciwej informacji jest kluczowy w wielu dziedzinach \u017cycia i pozwala podejmowa\u0107 w\u0142a\u015bciwe decyzje, kt\u00f3re niejednokrotnie przek\u0142adaj\u0105 si\u0119 na kondycje finansow\u0105 przedsi\u0119biorstwa, lub decyzje inwestycyjne. Przeszukiwanie setek rezultat\u00f3w wyszukiwania mo\u017cna por\u00f3wna\u0107 do szukania ig\u0142y w stogu siana. Sztuczna inteligencja mo\u017ce by\u0107 tutaj por\u00f3wnana do silnego magnesu, kt\u00f3ry z \u0142atwo\u015bci\u0105 odnajdzie poszukiwan\u0105 ig\u0142\u0119.<\/p>\n\n\n<div class=\"kk-star-ratings kksr-auto kksr-align-left kksr-valign-bottom\"\n    data-payload='{&quot;align&quot;:&quot;left&quot;,&quot;id&quot;:&quot;10475&quot;,&quot;slug&quot;:&quot;default&quot;,&quot;valign&quot;:&quot;bottom&quot;,&quot;ignore&quot;:&quot;&quot;,&quot;reference&quot;:&quot;auto&quot;,&quot;class&quot;:&quot;&quot;,&quot;count&quot;:&quot;4&quot;,&quot;legendonly&quot;:&quot;&quot;,&quot;readonly&quot;:&quot;&quot;,&quot;score&quot;:&quot;5&quot;,&quot;starsonly&quot;:&quot;&quot;,&quot;best&quot;:&quot;5&quot;,&quot;gap&quot;:&quot;11&quot;,&quot;greet&quot;:&quot;&quot;,&quot;legend&quot;:&quot;5\\\/5 ( votes: 4)&quot;,&quot;size&quot;:&quot;18&quot;,&quot;title&quot;:&quot;Sztuczna inteligencja w silnikach wyszukiwania&quot;,&quot;width&quot;:&quot;139.5&quot;,&quot;_legend&quot;:&quot;{score}\\\/{best} ( {votes}: {count})&quot;,&quot;font_factor&quot;:&quot;1.25&quot;}'>\n            \n<div class=\"kksr-stars\">\n    \n<div class=\"kksr-stars-inactive\">\n            <div class=\"kksr-star\" data-star=\"1\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"2\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"3\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"4\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"5\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n    <\/div>\n    \n<div class=\"kksr-stars-active\" style=\"width: 139.5px;\">\n            <div class=\"kksr-star\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" style=\"padding-right: 11px\">\n            \n\n<div class=\"kksr-icon\" style=\"width: 18px; height: 18px;\"><\/div>\n        <\/div>\n    <\/div>\n<\/div>\n                \n\n<div class=\"kksr-legend\" style=\"font-size: 14.4px;\">\n            5\/5 ( votes: 4)    <\/div>\n    <\/div>\n","protected":false},"excerpt":{"rendered":"<p>Cyfryzacja otaczaj\u0105cego nas \u015bwiata pozwoli\u0142a uzyska\u0107 dost\u0119p do informacji w ilo\u015bciach niemo\u017cliwych do osi\u0105gni\u0119cia dla wcze\u015bniejszych pokole\u0144. Sprawc\u0105 takiego stanu &hellip; <a class=\"continued-btn\" href=\"https:\/\/sii.pl\/blog\/sztuczna-inteligencja-w-silnikach-wyszukiwania\/\">Continued<\/a><\/p>\n","protected":false},"author":276,"featured_media":10483,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"_editorskit_title_hidden":false,"_editorskit_reading_time":0,"_editorskit_is_block_options_detached":false,"_editorskit_block_options_position":"{}","inline_featured_image":false,"footnotes":""},"categories":[1316],"tags":[680,681],"class_list":["post-10475","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-development-na-miekko","tag-ai","tag-sztuczna-inteligencja"],"acf":[],"aioseo_notices":[],"republish_history":[],"featured_media_url":"https:\/\/sii.pl\/blog\/wp-content\/uploads\/2021\/04\/SilnikWyszukiwan-Blog-A.jpg","category_names":["Development na mi\u0119kko"],"_links":{"self":[{"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/posts\/10475"}],"collection":[{"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/users\/276"}],"replies":[{"embeddable":true,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/comments?post=10475"}],"version-history":[{"count":2,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/posts\/10475\/revisions"}],"predecessor-version":[{"id":25219,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/posts\/10475\/revisions\/25219"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/media\/10483"}],"wp:attachment":[{"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/media?parent=10475"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/categories?post=10475"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/sii.pl\/blog\/wp-json\/wp\/v2\/tags?post=10475"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}