NLP

DBpedia Datasets voor Natuurlijke-Taal Verwerking (NLP)


Elke willekeurige dataset van DBpedia  is in principe bruikbaar voor taken in het kader van de Natuurlijke-Taal Verwerking (NLP) . Hier beschrijven wij enkele voorbeelden van de manier waarop deze datasets gebruikt kunnen worden. Ook beschrijven we een aantal verrijkte datasets die zijn gegenereerd in de loop van het project voor DBpedia Spotlight en andere NLP-gerelateerde projecten.

In de context van deze pagina wordt het woord "resource" — zoals in DBpedia Resource —  gebruikt om te verwijzen naar een entiteit of een concept die uniek wordt geïdentificeerd door een URI in DBpedia. 

 

1 DBpedia Kern Datasets

De kern datasets van DBpedia bestaan uit een ontologie waarmee de informatie wordt gemodelleerd die uit Wikipedia wordt geëxtraheerd, alsmede algemene feitelijkheden met betrekking tot geextraheerde resources. Ool inter-language links behoren tot de kern datasets. Meer informatie is te vibdeb op de Core Datasets Page.

 

2 DBpedia NLP Datasets

De NLP Datasets zijn gemaakt door het DBpedia Spotlight team met onder meer als doel het ondersteunen van Entity Recognition en om resources eenduidig te kunnen identificeren, Als je DBpedia NLP data sets gebruikt in onderzoek dat je gedaan hebt, citeer dit dan als:

  • Pablo N. Mendes, Max Jakob and Christian Bizer. DBpedia for NLP: A Multilingual Cross-domain Knowledge Base. Proceedings of the International Conference on Language Resources and Evaluation, LREC 2012, 21-27 May 2012, Istanbul, Turkey. ( preprint ) bibtex

2.1 DBpedia Lexicalizations Dataset

Contains mappings between surface forms and URIs. A surface form is term that has been used to refer to an entity in text. Names and nicknames of people are examples of surface forms. We store the number of times a surface form was used to refer to a DBpedia resource in Wikipedia, and we compute statistics from that.

Created by the DBpedia Spotlight team.
Authors: Pablo N. Mendes, Max Jakob

Download

Has been used by: DBpedia Lookup, DBpedia Spotlight

Example Data:

dbpedia:Apple_Inc. lexvo:label "Apple computer"@en graph:Apple_Inc.---Apple_computer .
graph:Apple_Inc.---Apple_computer :pmi "9.867346749590263"^^xsd:double :score .
dbpedia:Apple_Inc. lexvo:label "Apple, Inc"@en graph:Apple_Inc.---Apple,_Inc .
graph:Apple_Inc.---Apple,_Inc :pmi "9.867346749590263"^^xsd:double :score .

The data above describes the entity Apple_Inc. and two surface forms used to refer to it: "Apple Inc." and "Apple computer".

2.2 DBpedia Topic Signatures

We tokenize all Wikipedia paragraphs linking to DBpedia resources and aggregate them in a Vector Space Model of terms weighted by their co-occurrence with the target resource. We use those vectors to select the strongest related terms and build topic signatures for those entities.

Download

Created by the DBpedia Spotlight team.
Authors: Pablo N. Mendes

Example Data: 

Apple_Inc. +"Apple Inc." computer from mac
Apple_sauce +"Apple sauce" pudding butter pie
Apple_Records +"Apple Records" beatles album released

2.3 DBpedia Thematic Concepts

Thematic Concepts are DBpedia resources that are the main subject of a Wikipedia Category.

Created by the DBpedia Spotlight team.
Authors: Pablo N. Mendes, Max Jakob

Download

Example Data:

dbpedia:Adolescence rdf:type skos:Concept
dbpedia:Adoption rdf:type skos:Concept
dbpedia:Biodiversity rdf:type skos:Concept

2.4 DBpedia People's Grammatical Genders

Can be used for anaphora resolution and coreference resolution tasks.

Created by the DBpedia Spotlight team.
Authors: Pablo N. Mendes

Download

Example Data:

 

3 Example Queries

* Select all people with grammatical gender "female" related to the topic of "Politics"