Modell-Alapú Szemantikus
Kereső Rendszer

Modell-Alapú Szemantikus Kereső Rendszer Alkalmazott Logikai Laboratórium Nemzeti Fejlesztési Ügynökség Szegedi Tudomány Egyetem Englishen Magyarhu

Hírek

2012. október 12.

Véget ért a MASZEKER projekt

A Modell Alapú Szemantikus Kereső Rendszer (MASZEKER) projekt zárására szeptember 30-án kerül sor. Az eredmények rövid összefoglalása:

Kidolgoztunk egy olyan technológiát, amely szemantikus információ-visszakereső rendszer létrehozását lehetővé teszi. A technológia által megvalósítható folyamat lépései:

  1. A felhasználó megad egy kontrollált nyelven megfogalmazott keresőkifejezést, amely mondatokból és főnévi csoportokból állhat.
  2. Szintaktikai és szemantikai elemzési folyamat előállítja a keresőkifejezés jelentésreprezentációját. A jelentésreprezentáció előállításának elméleti alapja a frame-szemantika.
  3. A keresőkifejezésben szereplő kifejezések és szinonimáik alapján egy kulcsszó alapú előkeresés kiválasztja a dokumentumokból azokat a szövegszegmenseket, amelyek a kulcsszavak előfordulása alapján találatok lehetnek.
  4. Egy illesztési folyamat megy végbe, amely a keresőkifejezés jelentésreprezentációját ráilleszti azokra a szövegszegmensekre, amelyekben a szavak szerinti előkeresés találatai vannak, és az illesztés alapján elbírálásra kerül a keresőkifejezés és az adott szövegrészlet hasonlósága.

Az eljárás eredményeként a keresőkifejezéssel hasonló jelentésű szöveg szegmenseket tartalmazó dokumentumok előre soroltatnak, s ha csak ezt vesszük figyelembe, a találati lista pontossága radikálisan megnövekszik.

Ennek alapján megvalósítottunk egy szabadalmi keresésre alkalmas programrendszert angol nyelvre, valamint egy néprajzi szövegekben való keresésre szolgáló programrendszert magyar nyelvre. Ez utóbbihoz webes felület is készült, amely a http://maszeker.huminf.u-szeged.hu címen hozzáférhető.


2011. január 15.

A Modell-Alapú Szemantikus Kereső Rendszer (MASZEKER) kifejlesztésének második éve – eredményösszefoglaló

A MASZEKER konzorcium a kutatás első évében egy olyan, új elveken (elsősorban az ún. sziget-ontológián) alapuló integrált keresőrendszer kifejlesztését indította el, amely létező (statisztikai és szimbolikus alapú) technológiák adaptálásán és újszerűek kifejlesztésén, azok kombinálásán keresztül a keresést végző felhasználó szemantikai kompetenciáját az eddigieknél nagyobb mértékben kiaknázva teszi lehetővé a természetes nyelvi dokumentumtárakban (szövegekben) történő valóban tartalmi keresést.

A második év eredményei elsősorban a szakemberek számára beszédesek: sikerült áttörést elérni a szinonimagenerálásban és a kémiai névelem-felismerésben, elkészült a szövegállományok téma szerinti válogatását, automatikus csoportokba sorolását végző tematikus osztályozó modul, valamint a szintaktikai elemző. A szemantikus lexikon alapelveit összeállítottuk. A készülő rendszer képes a különböző heurisztikákat folyamatosan beépíteni a feldolgozásba. Jól halad a felhasználói felület tervezése is, ami a megszokottnál jóval több vizuális elemet tartalmaz majd. Külön kiemelésre érdemes a jelentésreprezentáció generálására és keresésben való felhasználására kialakított innovatív eljárás. Kísérleti felhasználói területként két különleges igényű szövegvilág, a szabadalmak és a néprajzi korpuszok terén sikerült jelentős előrelépéseket tenni a korpuszok nyelvészeti feldolgozásában. A munka színvonalát az eddig megjelent 24 publikáció (közülük 7 nemzetközi) és 10 disszertáció fémjelzi.

A kutatás harmadik, befejező évére úgy készül a konzorcium, hogy közel félszáz szakember (köztük 21 kutató) összehangolt munkájával a szabadalmi és a néprajzi területen az eddigi keresők hatékonyságát messze felülmúló, működő megoldásokat kínál, megnyitva az utat az általános célú további fejlesztésekhez.


2010. november 22.

VII. Magyar Számítógépes Nyelvészeti Konferencia

Az Alkalmazott Logikai Laboratórium és a Szegedi Tudományegyetem kutatóiból álló konzorcium 2010-ben elérkezettnek látta az időt arra, hogy eddigi eredményeit a nagyközönség elé tárja egy tudományos konferencián. A VII. Magyar Számítógépes Nyelvészeti Konferencia külön szekció keretében kiemelt figyelmet szentel a számítógépes nyelvészet egyik legintenzívebben kutatott területe, a szemantikus keresés terén végzett kutatásoknak és az elért eredményeknek.

A MASZEKER projekt elsődleges célja egy szemantikus keresőrendszer kifejlesztése, amely egyrészről az angol és magyar nyelvű szabadalmakban való keresést célozza meg, másrészről pedig néprajzi szövegekben való keresést tesz lehetővé. Ugyanakkor a kifejlesztett technológia könnyen adaptálható lesz más területekre is.

A konzorcium kutatói több előadást, posztert és laptopos bemutatót tartanak a konferencián (lásd alább), melyekben beszámolnak a MASZEKER projekt keretében végzett fejlesztésekről, kutatásokról és az eddig elért eredményekről, továbbá a jövőbeli elvégzendő feladatokat és lehetséges továbblépési irányokat is megismertetik az érdeklődő közönséggel. A workshop remek lehetőséget biztosít arra is, hogy a hasonló érdeklődésű tudósok tapasztalatcseréje előmozdítsa a projekt eredményes megvalósítását, valamint lehetséges jövőbeli közös – a szemantikus keresési technikák továbbfejlesztését, illetve kiaknázását célzó – projektek előkészítésére is sor kerülhet.

Amennyiben felkeltette érdeklődését a projekt, kérjük, keresse fel a www.maszeker.hu honlapot, illetve a konferencián részt vevő kollégák is szívesen állnak rendelkezésére.

A konferencián az alábbi előadásokból és bemutatókból tájékozódhat a projekt részleteiről:

A MASZEKER projektet (TECH_08_A2/2-2008-0092) a Nemzeti Kutatási és Technológiai Hivatal támogatja.


2010. február 18.

Eredményes éven van túl a MASZEKER-konzorcium

Az Alkalmazott Logikai Laboratórium (ALL) és a Szegedi Tudományegyetem kutatóiból álló konzorcium jelentős előrelépéseket tett az ún. "sziget-ontológián" alapuló szemantikus keresőrendszer modelljének megalkotásában.

A szemantikus keresőfejlesztések legproblematikusabb vonása az, hogy a használt ontológia egy adott tudásterületet felölelő "nagy" ontológia, amelynek előállítása hosszú, kivételes erőforrásokat igénylő feladat. A MASZEKER konzorcium megközelítése viszont kis terjedelmű ontológiával oldja meg mind a jelentés, mind a háttértudás reprezentálását. Így esély nyílik egy olyan, új elveken alapuló integrált keresőrendszer kifejlesztése, amely létező (statisztikai és szimbolikus alapú) technológiák adaptálásán és újszerűek kifejlesztésén, azok kombinálásán keresztül a keresést végző felhasználó szemantikai kompetenciáját az eddigieknél nagyobb mértékben kiaknázva teszi lehetővé a természetes nyelvi dokumentumtárakban (szövegekben) történő valóban tartalmi keresést, angol és magyar nyelven.

Az egyes részterületein alapkutatás jellegű projekt során a legmodernebb számítógépes nyelvészeti, tudásábrázolási technológiák fejlesztése és egységes rendszerré integrálása valósul meg, amelynek lehetővé válik a jelentés-alapú tartalmi keresés természetes nyelvű nagy szövegtárakban. A projekt elméleti alapkutatási eredményeket, arra épülő szemantika reprezentációs és keresési technológiát valamint alkalmazói rendszert hoz létre.

A kutatók két speciális felhasználói területet választottak ki: a szabadalmi, valamint a néprajzi korpuszokban való keresést. A munka során sikeresen oldották meg a látens szemantikai módszerek (LSA - Latens Szemantikai Analízis és az ezen alapuló LSI - Latens Szemantikus Indexelés) integrálását, és eredményes tesztfolyamatot követően megoldást találtak a visszakeresés hatékonyságát nagymértékben megnövelő, keresés előtti, off-line időben történő tematikus osztályozásra.

Nagy tempóban folyik a szemantikai keresés nyelvészeti komponenseinek kialakítása. A magyar standard morfológiai elemzésre alkalmassá kellett tenni a Magyar Néprajzi Múzeum archívumától kapott népi hiedelmek és táltosszövegek anyagát, ehhez saját szoftver készült, és megkezdődött a szövegállomány elektronikusan is kezelhető nyelvi korpusszá (adatbázissá) fejlesztése. Elkészült egy új névelem-felismerő rendszer (JAVA nyelven, UIMA alá integrálva). A rendszer tanuló algoritmuson alapul, de explicit információkkal (parametrizálással) is segítheti a felismerést (például szóalaki és szövegkörnyezeti jellemzők adhatóak meg névelemekhez, statisztikai információk használhatóak fel, valamint névtípusokként listák (pl. vegyületnevek, génnevek stb. adhatóak meg.). Így akár 90 százalékos pontosság is elérhető. Jól halad a szintaktikai elemző és az új eszköz által igényelt speciális felhasználói felület kidolgozása.

Az eredmények iránt érdeklődő szakemberek a 2009 nyarán elindult www.maszeker.hu weboldalon tájékozódhatnak az elvégzett munka fontos állomásairól. A keresőfejlesztésekkel kapcsolatos friss nemzetközi és hazai eredményekről a konzorcium folyamatosan hírleveleket állít össze, és honlapján közzéteszi azokat. A honlapon a munkaszakaszok végén elkészült tanulmányok egy része is olvasható.

MASZEKER 2009. - Minden jog fenntartva