DBpedia per taalgebied

Deze pagina gaat over de versies per taalgebied van DBpedia.

De software-ontwikkelaars achter DBpedia maken veel werk van het verbeteren van de samenwerkende software voor het extraheren van begrippen uit teksten in natuurlijke taal. Daardoor ontbreekt de tijd om aandacht te besteden aan kwesties die per land verschillend zijn. Deze pagina is gemaakt door 'internationale' ontwikkelaars die met hun kennis en ervaring willen bijdragen aan het oplossen van specifiek land- of taalgebonden problemen met betrekking tot de extractiesoftware..

De laatste stand van zaken aangaande inrernationalisatie is hier te vinden.

1 Software-ontwikkeling

Als je graag wilt helpen, zijn de eerste paar aanknopingspunten te vinden in de Getting Started guide. Als je een andere vraag hebt, stel die dan op de dbpedia-developers lijst. Let op: onlangs zijn nieuwe, striktere regels aangenomen om spam tegen te gaan.

2 Telco

De DBpedia Developers Telco is een maandelijkse Google Hangout teleconferentie, waar software-ontwikkelaars die met de Internationalisatie van DBpedia bezig zijn diverse ontwerp- en technische kwesties met elkaar bespreken. 
Dag: De eerste woensdag van de maand (meestal)

Kalender link: https://www.google.com/calendar/embed?src=l1ae8piofrnpk2ojkr3f34fuv4@gro...
Hangout link: http://tinyurl.com/DBpediaDevTelco
Verslagen: https://docs.google.com/docume[..]ov3_qRxKleMtq60/edit

3 Board en contactpersonen (alfabetisch)

4 Taalspecifieke afdelingen van DBpedia

Deze pagina geeft een lijst van de taalspecifieke chapters van DBpedia. Elk chapter (afdeling) is verantwoordelijk voor het onderhouden en hosten van de eigen data.

 

De huidige afdelingen (chapters) van DBpedia:

Language SPARQL Endpoint Resource Domain Resource Format Contact Page Contact Person
Arabisch http://ar.dbpedia.org/sparql http://ar.dbpedia.org/resource/ IRI  @ Haytham Al-Feel, Ahmed Slama
Baskisch http://eu.dbpedia.org/sparql http://eu.dbpedia.org/resource/ IRI  @ Jon Lazaro, Mikel Emaldi
Tsjechisch http://cs.dbpedia.org/sparql http://cs.dbpedia.org/resource/ URI 
@
Ivo Lasek, Vojtech Svatek
Nederlands http://nl.dbpedia.org/sparql http://nl.dbpedia.org/resource/ IRI  nl.dbpedia.org/web Enno Meijers, Gerard Kuys
Engels http://dbpedia.org/sparql http://dbpedia.org/resource/ URI  @ (long list)
Esperanto http://eo.dbpedia.org/sparql http://eo.dbpedia.org/resource/ IRI  @ Marco Fossati, Alessio Palmero Aprosio
Frans http://fr.dbpedia.org/sparql http://fr.dbpedia.org/resource/ IRI  @ Sylvain Boissel, Julien Cojan
Duits http://de.dbpedia.org/sparql http://de.dbpedia.org/resource/ IRI  @ Alexandru Todor
Grieks http://el.dbpedia.org/sparql http://el.dbpedia.org/resource/ IRI  @ Dimitris Kontokostas
Indonesisch http://id.dbpedia.org/sparql http://id.dbpedia.org/resource/ URI    Riko Adi Prasetya
Italiaans http://it.dbpedia.org/sparql http://it.dbpedia.org/resource/ IRI  @ Marco Fossati
Japans http://ja.dbpedia.org/sparql http://ja.dbpedia.org/resource/ IRI     
Koreaans http://ko.dbpedia.org/sparql http://ko.dbpedia.org/resource/ IRI     
Pools http://pl.dbpedia.org/sparql http://pl.dbpedia.org/resource/ URI     
Portugees http://pt.dbpedia.org/sparql http://pt.dbpedia.org/resource/ IRI  @ Regis P. Magalhães
Russisch http://ru.dbpedia.org/sparql http://ru.dbpedia.org/resource/ IRI     
Spaans http://es.dbpedia.org/sparql http://es.dbpedia.org/resource/ IRI  @ Mariano Rico
Zweeds http://sv.dbpedia.org/sparql http://sv.dbpedia.org/resource/ IRI  @ Marco Fossati, Alessio Palmero Aprosio
Oekraiens http://uk.dbpedia.org/sparql http://uk.dbpedia.org/resource/ IRI  @ Marco Fossati, Alessio Palmero Aprosio

Chapter statistics

This table states links between chapters and the LOD Cloud and the total size of a chapter in triples. In the future we shall provide more and better results.

Chapter LOD Size last extraction
Arabic
Basque
Czech
Dutch x 96M 19/07/2016
English 400M
Esperanto
French 134M 27/08/2013
German
Greek 4.5M
Indonesian
Italian 120M 21/01/2015
Japanese
Korean
Polish
Portuguese
Russian 80M
Spanish
Swedish
Ukranian
 


5 Issues

5.1 Internationalization Issues

This page is part of the DBpedia Internationalization effort.

If you think that something is missing, feel free to contact us, or join the committee.

High priority issues

Issues being discussed

5.2 Encoding Problems

Problem inserting \u-encoded characters
 
DEBUG 11-11 11:16:35,040 – Filter rows – Sending row to true :Ignore right triples : [<http://pt.dbpedia.org/resource[..]7s_Republic_of_China> <http://dbpedia.org/property/nomeNativo> "\u4E2D\u534E\u4EBA\u6C11\u5171\u548C\u56FD"@pt .], [infobox_properties_pt.nt], [200], [OK]
INFO 11-11 11:16:36,502 – Sparql Update Insert – Erro ao tentar inserir bloco: 400 Bad Request
INFO 11-11 11:16:36,502 – Sparql Update Insert – Server: Virtuoso/06.01.3126 (Linux) x86_64-pc-linux-gnu
INFO 11-11 11:16:36,502 – Sparql Update Insert – Connection: Keep-Alive
INFO 11-11 11:16:36,502 – Sparql Update Insert – Date: Fri, 11 Nov 2011 13:15:49 GMT
INFO 11-11 11:16:36,502 – Sparql Update Insert – Accept-Ranges: bytes
INFO 11-11 11:16:36,502 – Sparql Update Insert – Content-Type: text/plain
INFO 11-11 11:16:36,503 – Sparql Update Insert – Content-Length: 310
INFO 11-11 11:16:36,503 – Sparql Update Insert – 37000 Error SP030: SPARQL compiler, line 0: Invalid character in SPARQL expression at '\'
INFO 11-11 11:16:36,503 – Sparql Update Insert – 
INFO 11-11 11:16:36,503 – Sparql Update Insert – SPARQL query:
INFO 11-11 11:16:36,503 – Sparql Update Insert – INSERT DATA INTO <http://pt.dbpedia.org> {<http://pt.dbpedia.org/resource/Chimpanzee> <http://dbpedia.org/property/wikiPageUsesTemplate> <http://dbpedia.org/resource/Pr[..]E7\u00E3o:Correlatos> .
 
Options
Possible solutions for encoding identifiers in localized editions that contain non-ascii characters

1) Native: http://pt.dbpedia.org/resource[..]'s_Republic_of_China
Pro: easier to debug. 
How to achieve? native2ascii -reverse file.nt
2) \u-encoding: http://dbpedia.org/resource/Pr[..]E7\u00E3o:Correlatos
Pro: more formal? Con: there is an issue with Virtuoso.
3) %-encode: http://pt.dbpedia.org/resource[..]7s_Republic_of_China
Pro: also solves the ">" character issue, which we %-encode to avoid breaking nt/nq (they use <> to denote URI versus literal)

6 Publications

  • Dimitris Kontokostas, Charalampos Bratsas, Sören Auer, Sebastian Hellmann, Ioannis Antoniou, George Metakides, Internationalization of Linked Data: The case of the Greek DBpedia edition, Web Semantics: Science, Services and Agents on the World Wide Web, Volume 15, September 2012, Pages 51-61, ISSN 1570-8268, 10.1016/j.websem.2012.01.001.
    (http://dx.doi.org/10.1016/j.websem.2012.01.001)