Kutatás
Rövid összefoglaló
A nagy tömegű dokumentumban tárolt információk kinyerése még napjainkban is elsősorban a korai időkben jól bevált vektortér-alapú megközelítésen alapul. Ez a megközelítés azonban ismert problémákkal küzd, elsősorban az alacsony találati pontosság problémájával: a felhasználónak a keresőmotor által visszaadott irreleváns dokumentumokat is át kell böngésznie ahhoz, hogy az általa keresett információt pontosan megtalálja. Egy másik, ezzel kapcsolatos probléma az, hogy a keresőmotorok felülete alapvetően a kulcsszavas keresést támogatja, ami eleve önmagában is súlyosan korlátozza a megfogalmazható kérdések pontosságát.
Az általunk javasolt ún. szigetontológiás keresés a keresés fogalmának mélyebb és általánosabb értelmezésére, valamint az ember-gép együttműködés sajátosságainak komolyabb figyelembe vételére épül. Minden keresés során van valamiféle előzetes képünk a keresett információról, amely gazdagabb, mint egy puszta hívószó-halmaz. Ez az előzetes tudás szemantikai jellegű és strukturált, továbbá a dolog természetéből adódóan sematikus. A szigetontológiára építő keresés a jelenleginél sokkal nagyobb mértékben támaszkodik a keresést végző ember szemantikai kompetenciájára. Az említett paradigmával ellentétben itt a keresőmotor a keresett információ egy részleges (lokális) leírását kapja meg egy célzottan elkészített modellként szolgáló ontológia fragmentum formájában. Ez az ontológia fragmentum vezérli azután a keresést, és nyelvészetileg megalapozott heurisztikák segítségével az eddigieknél pontosabb textuális információk megtalálását teszi lehetővé.
A rendszer másik, az ontológia fragmentum használatából eredő sajátossága, hogy túl kíván lépni a begépeléses keresőablakok világán, így a felhasználó számára felkínált keresési felülete az emberi gondolkodáshoz közelálló vizuális elvekre épít.
A prototípusként megvalósítandó rendszer elképzeléseink szerint angol és magyar nyelvű dokumentumokban elsődlegesen technikai szabadalmakban keresne, de a technológia magját egy olyan nyelv független eljáráscsomag fogja alkotni, amellyel a megfelelő nyelvi erőforrások megléte esetén tetszőleges nyelvű dokumentumok kezelése megoldható lesz.