Процес парсингу — це автоматичне вилучення великого масиву даних із веб-ресурсів, яке виконується за допомогою спеціальних скриптів. Якщо коротко, то парсер ходить за посиланнями вказаного сайту і сканує код кожної сторінки, збираючи інформацію про неї в Excel-файл або ще кудись.
п. Не варто парсити персональні дані (навіть із відкритого доступу), контент, який порушує закони РФ або захищений законом про авторське право.
Щоб спарсити дані з веб-сайту, спробуйте підходи саме в такому порядку:
- Знайдіть офіційне API,
- Знайдіть XHR запити в консолі розробника вашого браузера,
- Знайдіть сирі JSON у html сторінці,
- Відрендеруйте код сторінки через автоматизацію браузера,
- Якщо нічого не підійшло – пишіть парсери HTML коду.
Sep 22, 2021