Page MenuHomePhabricator

Recent update caused image title to appear in text extracts
Closed, ResolvedPublicBUG REPORT

Description

Steps to replicate the issue (include links if applicable):

What happens?:
The extract contains titles of the first two images on the page ("Banán a jeho řezBanány na banánovníkuBanán je protáhlé žluté ovoce (nesladké druhy s vyšším obsahem škrobu (plantain) zelenina) a plod banánovníku (epigeická bobule)." and so on).

{
  "batchcomplete": "",
  "query": {
    "pages": {
      "17462": {
        "pageid": 17462,
        "ns": 0,
        "title": "Banán",
        "extract": "Banán a jeho řezBanány na banánovníkuBanán je protáhlé žluté ovoce (nesladké druhy s vyšším obsahem škrobu (plantain) zelenina) a plod banánovníku (epigeická bobule). Jde o velice žádanou komoditu produkovanou zemědělci tropických zemí, kde tvoří významnou složku potravy. Banány mívají obvykle hmotnost mezi 115–200 g, ta je však významně závislá na konkrétním kultivaru. Z této váhy asi 80 % představuje jedlou část a zbývajících 20 % připadá na kožovitou slupku. Banán se (po kukuřici a rýži) stal třetí plodinou, u níž je znám celý její genom.Vůně, chuť a konzistence plodů je významně ovlivněna teplotou, při které dozrávají. Při nízkých teplotách šednou a kazí se. Banány dodávané na trh mírného pásma (tedy i k nám) jsou sklízené tak, že dozrávají během dopravy. Snížení teploty během této doby zvyšuje životnost plodů a taky kvalitu konečného produktu, ale, jak již bylo zmíněno výše, negativně ovlivňuje jejich kvalitu, proto při dopravě nikdy nebývají chlazeny pod 13,5 °C. Proto se také nedoporučuje ukládat nakoupené banány do lednice, protože jejich kvalita tím značně utrpí. Zajímavostí je, jak se nechávají banány dozrávat. Tento proces probíhá v tzv. tlakových komorách, do kterých se celé nerozbalené kartony s banánovými plody umístí. V tlakové komoře dojde „k omačkání plodů“ plynem (etylen), čímž se nastartuje zrychlený proces zrání. Zralost banánů (v obchodech, popř. skladech) se určuje speciální stupnicí dle podílu zahnědlých skvrn a ploch na slupce. S postupujícím zráním se banán také zakulacuje.Banány rostou ve visících trsech, od několika po mnoho kusů ve vrstvě (zvané též ruka) v mnohovrstevném svazku. Celek visících trsů se nazývá kmen.
V roce 2002 se celosvětově prodalo přes 12 miliónů tun banánů. Státy Ekvádor, Kostarika, Kolumbie a Filipíny exportovaly každý přes 1 milión tun banánů. Mezi nejhojněji pěstovaný kultivar banánu patří triploidní odrůda vzniklá zkřížením druhů Musa acuminata a Musa balbisiana. Tento druh je bez semen (kvůli konzumaci), takže se musí rozmnožovat pouze vegetativně, v důsledku čehož je velice náchylný k nemocem a různým plísním."
      }
    }
  }
}

What should have happened instead?:
The extract should read "Banán je protáhlé žluté ovoce (nesladké druhy s vyšším obsahem škrobu (plantain) zelenina) a plod banánovníku (epigeická bobule)." and so on.

Software version (skip for WMF-hosted wikis like Wikipedia):
N/A

Other information (browser name/version, screenshots, etc.):

  • On September 24 2022 everything was OK. On September 25 2022 the error occurred on this and many other pages (I can provide a list if needed).
  • Nothing changed on the wikipage itself (last time it was updated was in June 2022).

Event Timeline

I think this might be caused by T51097: Use figure and figcaption HTML5 elements when possible, and have been triggered more recently by a change related to T314318: Disable wgParserEnableLegacyMediaDOM on all wikis. I’ve tested the theory on enwikivoyage.

Otis (Massachusetts) is a random article I found, where the HTML still used the legacy media DOM (it’s in the parser cache):

<div class="thumb tright"><div class="thumbinner" style="width:222px;"><a href="/wiki/File:St._Paul%27s_Church,_Otis_MA.jpg" class="image"><img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/d/df/St._Paul%27s_Church%2C_Otis_MA.jpg/220px-St._Paul%27s_Church%2C_Otis_MA.jpg" decoding="async" class="thumbimage" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/d/df/St._Paul%27s_Church%2C_Otis_MA.jpg/330px-St._Paul%27s_Church%2C_Otis_MA.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/d/df/St._Paul%27s_Church%2C_Otis_MA.jpg/440px-St._Paul%27s_Church%2C_Otis_MA.jpg 2x" data-file-width="1716" data-file-height="2572" width="220" height="330"></a>  <div class="thumbcaption"><div class="magnify"><a href="/wiki/File:St._Paul%27s_Church,_Otis_MA.jpg" class="internal" title="Enlarge"></a></div>St. Paul's Church</div></div></div>

And the extracts didn’t include “St. Paul’s Church”, an image on the page:

{
    "batchcomplete": true,
    "query": {
        "pages": [
            {
                "pageid": 26248,
                "ns": 0,
                "title": "Otis (Massachusetts)",
                "extract": "Otis is a town in the Berkshires of Massachusetts.\n\n\n== Get in ==\n\n\n== Get around ==\n\n\n== See ==\n\n\n== Do ==\n\n\n== Buy ==\n\n\n== Eat ==\n\n\n== Drink ==\n\n\n== Sleep ==\n\n\n=== Campgrounds ===\nCamp Overflow, ☏ +1 413 269-4036. 150 sites. \nLaurel Ridge Camping Area, ☏ +1 413 269-4804, toll-free: +1-800-538-CAMP (2267). 180 sites. \nMountain View Campground, ☏ +1 413 269-8928. Route 8. 50 sites. \n\n\n== Go next =="
            }
        ]
    }
}

Then I purged the page from the parser cache (action=purge). Now it uses the new media DOM:

<figure class="mw-default-size" typeof="mw:File/Thumb"><a href="/wiki/File:St._Paul%27s_Church,_Otis_MA.jpg" class="mw-file-description"><img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/d/df/St._Paul%27s_Church%2C_Otis_MA.jpg/220px-St._Paul%27s_Church%2C_Otis_MA.jpg" decoding="async" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/d/df/St._Paul%27s_Church%2C_Otis_MA.jpg/330px-St._Paul%27s_Church%2C_Otis_MA.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/d/df/St._Paul%27s_Church%2C_Otis_MA.jpg/440px-St._Paul%27s_Church%2C_Otis_MA.jpg 2x" data-file-width="1716" data-file-height="2572" width="220" height="330"></a><figcaption>St. Paul's Church</figcaption></figure>

And St. Paul’s Church suddenly appears in the extracts:

{
    "batchcomplete": true,
    "query": {
        "pages": [
            {
                "pageid": 26248,
                "ns": 0,
                "title": "Otis (Massachusetts)",
                "extract": "St. Paul's ChurchOtis is a town in the Berkshires of Massachusetts.\n\n\n== Get in ==\n\n\n== Get around ==\n\n\n== See ==\n\n\n== Do ==\n\n\n== Buy ==\n\n\n== Eat ==\n\n\n== Drink ==\n\n\n== Sleep ==\n\n\n=== Campgrounds ===\nCamp Overflow, ☏ +1 413 269-4036. 150 sites. \nLaurel Ridge Camping Area, ☏ +1 413 269-4804, toll-free: +1-800-538-CAMP (2267). 180 sites. \nMountain View Campground, ☏ +1 413 269-8928. Route 8. 50 sites. \n\n\n== Go next =="
            }
        ]
    }
}

Change 835658 had a related patch set uploaded (by Arlolra; author: Arlolra):

[mediawiki/extensions/TextExtracts@master] Remove figures from text extracts

https://gerrit.wikimedia.org/r/835658

Change 835658 merged by jenkins-bot:

[mediawiki/extensions/TextExtracts@master] Remove figures from text extracts

https://gerrit.wikimedia.org/r/835658

Change 835593 had a related patch set uploaded (by Subramanya Sastry; author: Arlolra):

[mediawiki/extensions/TextExtracts@wmf/1.40.0-wmf.3] Remove figures from text extracts

https://gerrit.wikimedia.org/r/835593

Change 835594 had a related patch set uploaded (by Subramanya Sastry; author: Arlolra):

[mediawiki/extensions/TextExtracts@wmf/1.40.0-wmf.2] Remove figures from text extracts

https://gerrit.wikimedia.org/r/835594

Change 835594 merged by jenkins-bot:

[mediawiki/extensions/TextExtracts@wmf/1.40.0-wmf.2] Remove figures from text extracts

https://gerrit.wikimedia.org/r/835594

Mentioned in SAL (#wikimedia-operations) [2022-09-27T20:58:01Z] <samtar@deploy1002> Started scap: Backport for [[gerrit:835594|Remove figures from text extracts (T318727)]]

Mentioned in SAL (#wikimedia-operations) [2022-09-27T20:58:26Z] <samtar@deploy1002> samtar and ssastry: Backport for [[gerrit:835594|Remove figures from text extracts (T318727)]] synced to the testservers: mwdebug1001.eqiad.wmnet, mwdebug2001.codfw.wmnet, mwdebug1002.eqiad.wmnet, mwdebug2002.codfw.wmnet

Change 835593 merged by jenkins-bot:

[mediawiki/extensions/TextExtracts@wmf/1.40.0-wmf.3] Remove figures from text extracts

https://gerrit.wikimedia.org/r/835593

Mentioned in SAL (#wikimedia-operations) [2022-09-27T21:06:00Z] <samtar@deploy1002> Finished scap: Backport for [[gerrit:835594|Remove figures from text extracts (T318727)]] (duration: 06m 58s)

Mentioned in SAL (#wikimedia-operations) [2022-09-27T21:06:35Z] <samtar@deploy1002> Started scap: Backport for [[gerrit:835593|Remove figures from text extracts (T318727)]]

Mentioned in SAL (#wikimedia-operations) [2022-09-27T21:06:38Z] <samtar@deploy1002> samtar and ssastry: Backport for [[gerrit:835593|Remove figures from text extracts (T318727)]] synced to the testservers: mwdebug2002.codfw.wmnet, mwdebug1002.eqiad.wmnet, mwdebug1001.eqiad.wmnet, mwdebug2001.codfw.wmnet

Mentioned in SAL (#wikimedia-operations) [2022-09-27T21:10:35Z] <samtar@deploy1002> Finished scap: Backport for [[gerrit:835593|Remove figures from text extracts (T318727)]] (duration: 04m 53s)

Hi guys, thanks to you all to, I am very grateful you fixed this so fast. However, the problem still persists on some pages, please check this one:

Strangely, unlike the "Banán" page, the issue with "Motorová nafta" is influenced by the explaintext argument, when you omit it, the images' titles are gone:
https://cs.wikipedia.org/w/api.php?action=query&format=json&prop=extracts&titles=Motorov%C3%A1%20nafta&redirects=1&utf8=1&exintro=1

EDIT: OK, this could be me, I wrote in the task description that I can provide a list of affected pages, but I never did so. So, at least a couple of them for now (those still not fixed by the first solution):

Oh, OK, great news, sorry for reopening the issue then. 😇