Skip to content

Commit

Permalink
Address changes requested by reviewer
Browse files Browse the repository at this point in the history
  • Loading branch information
addie9800 committed Feb 5, 2024
1 parent 90cf541 commit b14dcda
Show file tree
Hide file tree
Showing 3 changed files with 31 additions and 20 deletions.
8 changes: 4 additions & 4 deletions src/fundus/publishers/de/__init__.py
Original file line number Diff line number Diff line change
Expand Up @@ -6,7 +6,7 @@

from .berliner_zeitung import BerlinerZeitungParser
from .bild import BildParser
from .braunschweiger_zeitung import BSZeitungParser
from .braunschweiger_zeitung import BSZParser
from .die_welt import DieWeltParser
from .die_zeit import DieZeitParser
from .dw import DWParser
Expand Down Expand Up @@ -176,7 +176,7 @@ class DE(PublisherEnum):
domain="https://www.taz.de/",
sources=[
NewsMap("https://taz.de/sitemap-google-news.xml"),
Sitemap("https://taz.de/sitemap-index.xml", reverse=True),
Sitemap("https://taz.de/sitemap-index.xml"),
],
parser=TazParser,
)
Expand All @@ -200,7 +200,7 @@ class DE(PublisherEnum):
domain="https://www.braunschweiger-zeitung.de/",
sources=[
RSSFeed("https://www.braunschweiger-zeitung.de/rss"),
Sitemap("https://www.braunschweiger-zeitung.de/sitemaps/news.xml"),
NewsMap("https://www.braunschweiger-zeitung.de/sitemaps/news.xml"),
],
parser=BSZeitungParser,
parser=BSZParser,
)
39 changes: 24 additions & 15 deletions src/fundus/publishers/de/braunschweiger_zeitung.py
Original file line number Diff line number Diff line change
Expand Up @@ -14,26 +14,35 @@
)


class BSZeitungParser(ParserProxy):
class BSZParser(ParserProxy):
class V1(BaseParser):
_author_substitution_pattern: Pattern[str] = re.compile(r"FUNKE Mediengruppe")
_paragraph_selector = XPath(
"//div[@class='article-body']//p[not(contains(strong, 'Meistgeklickte Nachrichten "
"aus der Region') or contains(strong, 'Keine wichtigen News mehr verpassen') or "
"@rel='author' or em[@class='print'] or contains(a, 'Jetzt Angebot und Vorteile "
"checken') or contains(text(), 'Lesen Sie mehr Geschichten aus') or contains("
"strong, 'Mehr wichtige Nachrichten aus') or contains(strong, 'Täglich wissen, "
"was in') or contains(strong, 'Auch interessant') or contains(strong, 'Das könnte "
"Sie auch interessieren') or contains(strong, 'Lesen Sie auch') or contains("
"strong, 'Mehr zu dem Thema') or contains(strong, 'Mehr zum Thema') or contains("
"strong, 'Lesen Sie dazu') or contains(strong, 'Lesen Sie hier'))]"
"//div[@class='article-body']//p[not("
"contains(strong, 'Meistgeklickte Nachrichten aus der Region')"
" or contains(strong, 'Keine wichtigen News mehr verpassen')"
" or @rel='author' or em[@class='print']"
" or contains(a, 'Jetzt Angebot und Vorteile checken')"
" or contains(text(), 'Lesen Sie mehr Geschichten aus')"
" or contains(strong, 'Mehr wichtige Nachrichten aus')"
" or contains(strong, 'Täglich wissen, was in')"
" or contains(strong, 'Auch interessant')"
" or contains(strong, 'Auch interessant')"
" or contains(strong, 'Das könnte Sie auch interessieren')"
" or contains(strong, 'Lesen Sie auch')"
" or contains(strong, 'Mehr zu dem Thema')"
" or contains(strong, 'Mehr zum Thema')"
" or contains(strong, 'Lesen Sie dazu')"
" or contains(strong, 'Lesen Sie hier'))]"
)
_summary_selector = XPath("//div[@class='article-body']//p[1]")
_subheadline_selector = XPath(
"//div[@class='article-body']//h3[not(contains(text(), 'Alle Artikel der "
"Serie') or contains(text(), 'Mehr zum Thema') or contains(text(), "
"'weitere Videos') or contains(text(), 'Auch interessant') or contains(text(), "
"'Weitere News'))]"
"//div[@class='article-body']//h3[not("
"contains(text(), 'Alle Artikel der Serie')"
" or contains(text(), 'Mehr zum Thema')"
" or contains(text(), 'weitere Videos')"
" or contains(text(), 'Auch interessant')"
" or contains(text(), 'Weitere News'))]"
)

@attribute
Expand All @@ -51,7 +60,7 @@ def title(self) -> Optional[str]:

@attribute
def topics(self) -> List[str]:
return generic_topic_parsing(self.precomputed.ld.bf_search("keywords"))
return generic_topic_parsing(self.precomputed.meta.get("news_keywords"))

@attribute
def authors(self) -> List[str]:
Expand Down
4 changes: 3 additions & 1 deletion tests/resources/parser/test_data/de/BSZ.json
Original file line number Diff line number Diff line change
Expand Up @@ -6,7 +6,9 @@
"publishing_date": "2024-01-29 18:09:51+00:00",
"title": "Heide-Park: Eröffnungstermin für neue Attraktion steht fest",
"topics": [
"Heide-Park Soltau Soltau Freizeitpark"
"Freizeitpark",
"Soltau",
"Heide-Park Soltau"
]
}
}

0 comments on commit b14dcda

Please sign in to comment.