[wdr] Extent subtitles extraction and improve overall extraction (clo…

…ses #22672, closes #22723)
2021-02-26 15:11:39 +01:00 · 2021-02-26 15:11:39 +01:00 · 85b2a459dd
parent ce1265ba8b
commit 85b2a459dd
1 changed files with 17 additions and 4 deletions
--- a/haruhi_dl/extractor/wdr.py
+++ b/haruhi_dl/extractor/wdr.py
@ -17,6 +17,7 @@ from ..utils import (
    unified_strdate,
    update_url_query,
    urlhandle_detect_ext,
+    url_or_none,
 )


@ -42,16 +43,20 @@ class WDRIE(InfoExtractor):
        is_live = metadata.get('mediaType') == 'live'

        tracker_data = metadata['trackerData']
+        title = tracker_data['trackerClipTitle']
+
        media_resource = metadata['mediaResource']

        formats = []

        # check if the metadata contains a direct URL to a file
-        for kind, media_resource in media_resource.items():
+        for kind, media in media_resource.items():
+            if not isinstance(media, dict):
+                continue
            if kind not in ('dflt', 'alt'):
                continue

-            for tag_name, medium_url in media_resource.items():
+            for tag_name, medium_url in media.items():
                if tag_name not in ('videoURL', 'audioURL'):
                    continue

@ -88,8 +93,16 @@ class WDRIE(InfoExtractor):
                'url': caption_url,
                'ext': 'ttml',
            }]
-
-        title = tracker_data['trackerClipTitle']
+        captions_hash = media_resource.get('captionsHash')
+        if isinstance(captions_hash, dict):
+            for ext, format_url in captions_hash.items():
+                format_url = url_or_none(format_url)
+                if not format_url:
+                    continue
+                subtitles.setdefault('de', []).append({
+                    'url': format_url,
+                    'ext': determine_ext(format_url, None) or ext,
+                })

        return {
            'id': tracker_data.get('trackerClipId', video_id),