„deecoob insight“ – Smart Data Plattform für verschiedene Anwendungsfälle

deecoob insight sammelt für sie automatisiert, fortlaufend Massendaten aus unterschiedlichen öffentlich zugänglichen oder geschlossenen, geschützten Quellen. Vor Übergabe der Daten an die manuelle Qualifizierung durch deecoob werden die Daten gefiltert, bereinigt oder um fehlende Daten ergänzt. Qualität und Quantität der Daten sowie Performance der Sachbearbeitung werden fortlaufend durch deecoob insight gemonitored, anhand von KPI´s (Key Performance Indikatoren) ausgewertet und mit Hilfe von Dashboards grafisch in Echtzeit dargestellt.

insight speichert und verarbeitet derzeit dauerhaft über 30 Mio. Datensätze. Fortlaufend werden Quellen wie Facebook, ePaper und Webseiten gescannt und daraus wöchentlich über 200.000 neue Datensätze gesammelt und evaluiert. Mehr als 30 Sachbearbeiter qualifizieren täglich über 10.000 Datensätze manuell und reduzieren diese auf mehrere hundert wirtschaftlich relevante Treffer-Datensätze für unsere Kunden.

Web-Crawler

Der Web-Crawler durchsucht beliebige Webseiten nach den für sie relevanten Daten und Informationen. Je nach Bedarf und Notwendigkeit können zum Beispiel komplette Webauftritte von kulturellen Einrichtungen, Hotels, Gaststätten, Behörden, Unternehmen, Vereinen und vieles mehr automatisiert durchforstet werden. Die Webseiten als Quelle der Daten können klassisch unstrukturiert (z.B. Home- oder Landingpage) oder strukturiert (z.B. Online-Katalog, Online-Shop, Veranstaltungskalender, etc.) sein. Der Crawler benötigt lediglich die Internet-Adressen (URLs) als Einstiegspunkte. Die URLs können sie uns aus ihren Kunden- oder Stammdaten zur Verfügung stellen. Der Crawler kann sie sich aber auch eigenständig anhand vordefinierter Kriterien aus Online-Verzeichnissen, von Google Places, Open-Streetmap, aus Domainverzeichnissen oder sonstigen, digitalen Quellen „besorgen“.

Der Crawler nimmt eine URL nach der anderen und sucht die gesamte Webseite der jeweiligen URL nach den vorab definierten, für den jeweiligen Kundenauftrag relevanten Informationen, Worten, Wortgruppen oder sonstigen Eigenschaften ab. Dabei kann der Crawler zeitgesteuert beliebig viele Webadressen nacheinander durchsuchen und auch in Intervallen die gleichen URLs immer wieder auf neue, geänderte oder zusätzliche Informationen absurfen. Findet er relevante Informationen auf einer Webseite, werden die Texte ggf. noch mit dem Referenzmaterial abgeglichen, um in Realtime zu entscheiden, ob die Daten lokal gespeichert werden müssen. Ist dies der Fall, übernimmt der Crawler die Informationen in die lokale Datenhaltung. Zusätzlich kann der Crawler gleich auch live ein pdf-Dokument oder Screenshot von der Quellseite als Beweismittel erstellen und speichern.

Im Anschluß an den Crawling-Prozess zur Beschaffung werden die Daten dann je nach Kundenauftrag in die weiteren Text- und Data-Mining-Prozesse, Qualifizierung und Modellierung für den Kunden gegeben (siehe Funktionen).

Social-Network-Crawler

Der Social Network Crawler arbeitet ähnlich wie der Web-Crawler. Anhand definierter „Einstiegspunkte“ (z.B. Facebook, Twitter, Xing, LinkedIn, Google+) und Kriterien durchsucht er die digitale Quelle nach den für sie relevanten Informationen. Für Facebook kann sogar noch differenziert werden, ob die Informationen in den Profilen oder der Timeline oder in beiden zu finden sind. Auf diese Weise „sammelt“ deecoob insight jeden Tag, jede Woche, jeden Monat Millionen Datensätze aus sozialen Netzen ein und gibt sie in die weitere Verarbeitung.

Auf insight werden die Daten dann je nach Kundenauftrag in die weiteren Text- und Data-Mining-Prozesse, Qualifizierung und Modellierung für den Kunden gegeben (siehe Funktionen).

ePaper-Crawler

Kernaufgabe des ePaper-Crawlers ist die automatisierte Analyse und Datenbeschaffung aus Zeitungen. Dies können beliebige Tages-, Wochen- oder Monatszeitungen sein. Entscheidend ist, dass sie vom Verlag in digitaler Form (z.B. als pdf) über das Internet zur Verfügung stehen. Die Zeitungen können kostenfrei oder kostenpflichtig sein. Bei Abonement-Zeitungen prüfen wir für sie, ob wir diese bereits auf deecoob insight im download und somit das Abo bereits abgeschlossen haben oder dieses zusätzlich noch abzuschliesen ist.

Die für ihre Datenbeschaffung relevanten Zeitungen werden gemeinsam definiert und von deecoob für den automatisierten Download konfiguriert. Je nach Erscheinungsintervall kann der Download täglich, wöchentlich oder monatlich erfolgen. Derzeit stehen auf deecoob insight bereits über 1.000 Zeitungen aus dem deutschsprachigen Raum mit allen Ausgaben für mehrere Jahre zur Verfügung. Nach dem Download werden die ePaper automatisch für deecoob insight gespeichert und indiziert. Je nach Kundenauftrag werden sie dann in die weiteren Text- und Data-Mining-Prozesse, Qualifizierung und Modellierung für den Kunden gegeben (siehe Funktionen).

Data Processing

Alleinstellungsmerkmal von deecoob insight und deecoob service ist die Kombination aus automatisierter Beschaffung und Verarbeitung von Massendaten und der manuellen Qualifizierung dieser Daten für die Kunden. insight allein kann viele Verarbeitungsschritte automatisiert ausführen, dabei sogar lernen und sich selbst optimieren. Die Ergebnisse der Software bedürfen aber immer noch einer umfangreichen Prüfung und Qualifizierung durch die Research-Profies von deecoob oder durch die Mitarbeiter der Kunden selber. Für die Benutzer steht dafür als Client der Data Processor zur Verfügung. Wesentliche Funktionen und Features des Clients sind:

  • Anzeige der relevanten Daten und Datensätze
  • Prüfung auf Vollständigkeit und Korrektheit
  • Zusammenführung, Duplizierung von Datensätzen
  • Prüfung der Zuordnung (z.B. Datensatz zu Nutzungsort, Partner)
  • Prüfung auf Relevanz bzw. Hoch- / Abstufung der Relevanz
  • Ergänzung fehlender Daten und Informationen
  • Erfassung zusätzlicher Datensätze aus manueller Recherche
  • Erfassung von Kommentaren, Status, Wiedervorlagen, Artikel-Nummern
  • Suche nach Datensätzen
  • Prüfung Beweismittel, Vornahme von Markierungen, Upload

Sie können mit dem Data Processor als Client-Anwendung mittels VPN-Verbindung zu deecoob insight von überall auf der Welt aus arbeiten. Die Benutzeroberfläche ist modern, strukturiert, aufgeräumt, ergonomisch und performant. Die Funktionen und Features können jederzeit für konkrete Kundenanwendungen und -nutzungen durch deecoob angepasst und erweitert werden.

Data Mapping

Bildhafte Darstellungen von Daten sind hilfreich, um große Datenmengen schnell zu erschließen, zu strukturieren, Häufungen von Daten zu erkennen oder geographische Verteilungen zu visualisieren. Dafür bietet die Plattform das Data Mapping. Mit dessen Hilfe können sie z.B. geographische Verbreitungsgebiete von ePaper durch Polygone auf digitalen Landkarten darstellen, um so Orte oder Einrichtungen im Verbreitungsgebiet oder Überschneidungen zu erkennen. Zu den im Verbreitungsgebiet liegenden Einrichtungen (z.B. Unternehmen) können anhand ihrer geographischen Zuordnung automatisiert Kontaktdaten und mehr aus Google Places oder Open Street Map beschafft werden.

Wollen sie die geographische Verteilung bestimmter Elemente (z.B. Einrichtungen einer Branche, Veranstaltungen einer Musikart, etc.) visualisieren und analysieren, nutzen sie die Option der Headmap von deecoob insight. So erkennen sie spielend leicht anhand von Markierungen, Farben oder anderen Eigenschaften, wo sehr viele der von ihnen gesuchten Einrichtungen oder Veranstaltungen zu finden sind. Mit gezieltem Drill Down arbeiten sie sich bei Bedarf von der Darstellung der Massendaten (Headmap) bis zum einzelnen relevanten Datensatz vor.

Data Discovery

Am Anfang jeder Recherche steht die Überlegung, welche Daten tatsächlich benötigt werden, wo und wie diese am effektivsten beschafft und auf welche Art sie analysiert und qualifiziert werden können. deecoob insight bietet bereits Millionen unterschiedlicher Datensätze, die seit vielen Jahren von der Plattform gesammelt und vorgehalten werden. Deshalb ist es sinnvoll, zunächst in diesem Datenbestand zu recherchieren. Sie werden feststellen, dass viele Informationen bereits vorhanden sind. Der Aufwand für die Implementierung zusätzlicher Datenbeschaffung kann dadurch reduziert werden. Data Discovery für konkrete Recherchen in unseren Massendaten ist die Grundlage für:

  • Data Management – Datenmodelle die zur Fragestellung passen
  • Knowledge Discovery – Unterschiedliche und flexible Sichten auf Daten
  • Statistical Analytics – z.B. zeit- oder ortsbezogene Betrachtungen
  • Predictive Analytics – Trends, Best and Worst Cases Szenarien
  • Data Interaction – Zoom-in/out, drill-down

Die Informationen aus der Textanalyse müssen je nach Anwendungsfall und kontext-sensitiv visualisiert werden. Hierzu bietet deecoob insight Möglichkeiten für Visual Analytics (z.B. Dashboards, direkt in Anwendungen). So sind sie mit Hilfe von deecoob in der Lage, Datenmodelle visuell zu interpretieren.

deecoob insight jetzt testen.