Dienstag, 2. Juni 2009

Vorstellung neuer Suchtechnik in Datenbanken ...

Fraunhofer und IBM präsentieren intelligente Suchtechnologie Smart Semantics.

Das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS stellt seine intelligente Suchtechnologie „Smart Semantics“ vor. Sie basiert auf UIMA, der von IBM initiierten und entwickelten Architektur zur Analyse unstrukturierter Daten. In Kürze werden modellbasierte Komponenten für die maschinelle Klassifizierung von Dokumenten sowie für die automatische Schlagwortgenerierung und Namenserkennung zur Verfügung stehen. Durch die Verknüpfung der Smart Semantics mit dem UIMA-Framework wollen das Fraunhofer IAIS und IBM die hocheffizienten Suchtechnologien auch kleinen und mittelständischen Unternehmen zugänglich machen.

Das Fraunhofer IAIS erforscht und entwickelt innovative Systeme, um Daten zu analysieren und Informationen zu erschließen. Als jüngstes Ergebnis dieser Arbeit bringt das Fraunhofer IAIS jetzt Smart Semantics auf den Markt. Dabei handelt es sich um intelligente Softwarekomponenten, die die Bedeutung aus unstrukturierten Daten wie zum Beispiel Webseiten oder Dokumenten durch modellbasierte Inhaltsanalysen erkennen. Im Gegensatz zu stichwort- oder regelbasierten Verfahren, wie sie die bekannten Suchmaschinen im Internet nutzen, verwenden Smart Semantics lernende und mustererkennende Verfahren. Sie ersparen dem Nutzer somit aufwändiges Filtern seiner Suchergebnisse.

Smart Semantics sind vefügbar für UIMA. Das Fraunhofer IAIS entschied sich für die von IBM initierte Architektur aufgrund der Offenheit, der Integrationsfreundlichkeit, der kostengünstigen Testmöglichkeiten und der Zuverlässigkeit des Frameworks. Außerdem will das Institut die große Verbreitung von UIMA im Unternehmensumfeld nutzen, um seine Bausteine zur intelligenten Informationserschließung auch kleinen und mittelständischen Unternehmen verfügbar zu machen, die bisher die hohen Investitionskosten für semantische Technologien scheuten.

Die Smart Semantic Komponenten können als Plug-Ins auf UIMA basierenden Technologien wie der IBM Suchlösung IBM Omnifind eingebunden werden. UIMA steht für „Unstructured Information Management Architecture“ und bezeichnet ein maßgeblich im deutschen IBM Forschungs- und Entwicklungszentrum Böblingen entwickeltes Framework. UIMA ist ein offener OASIS Standard und zudem als Open Source Implementierung auf Apache verfügbar. Damit können beispielsweise Anwendungen zur Verarbeitung unstrukturierter Informationen erstellt werden, insbesondere natürlicher Sprache (Natural Language Processing, NLP).

Verfügbar sind bereits drei Smart Semantic Komponenten: „Site-Classifier“, „Named-Entity-Recognizer“ sowie der „Keyword-Extractor“. Der Site-Classifier erlaubt die maschinelle Klassifikation ganzer Dokumente wie z.B. Webseiten. Nach einer Trainingsphase sind auf diese Weise z.B. Projekt-, Mitarbeiter- oder Produktseiten automatisch als solche erkennbar und für die effizientere Suche nutzbar (z.B. „Zeige alle Seiten, die den Begriff X enthalten und als Produktseite klassifiziert wurden“). Gegenüber konventionellen Verfahren haben lernende Verfahren den Vorteil, dass auch unbekannte Dokumente mit alternativen Begrifflichkeiten aufgrund ihrer Ähnlichkeit zu einem gelernten Modell klassifizierbar sind. Da auf diese Weise die Pflege von Stichwort-Listen oder Heuristiken zur statischen Klassifikation entfällt, sparen Unternehmen umfangreichen Wartungsaufwand.

Der Named-Entity-Recognizer identifiziert benannte Entitäten wie Personen, Organisationen, Orte und ermöglicht dadurch die Filterung von Dokumenten nach bestimmten Entitäten (z.B. „Zeige alle Seiten, die X und zusätzlich Personennamen enthalten“). Im Gegensatz zu herkömmlichen Verfahren erkennt die Smart Semantic-Komponente Bedeutungsunterschiede gleichlautender Begriffe, wie etwa die den Unterschied zwischen „Vogel“ als Tier und „Vogel“ als Personenname, in dem der inhaltliche Kontext des Begriffs berücksichtigt wird.

Der Keyword-Extractor ist eine Komponente, die statistisch signifikante Wörter aus Dokumenten extrahiert und diese zum Beispielfür Tagclouds, für Wortvorschläge bei Suchanfragen oder als Zusatzinformationen in der Suchergebnisdarstellung bereitstellt.

Unternehmen können die Smart Semantics ab Herbst 2009 über IBM erwerben, weitere Komponenten sind bereits in Planung.
www.ibm.com/de
www.iais.fraunhofer.de

Quelle:

http://fkt.schiele-schoen.de

Posted via web from Superglide's Personal Blog ...

Keine Kommentare:

Kommentar veröffentlichen