Back to Question Center
0

Semest HTML веб-сайттарынан талап етілетін деректерді қалай шығарып алуды түсіндіреді

1 answers:

Желісінде ұсынылған ақпараттың көп мөлшері «құрылымдық емес» ол дұрыс ұйымдастырылмаған. HTML веб-сайттарында оларда ұйымдастырылған құжаттар бар болғандықтан әртүрлі болады және құжаттарда ұсынылған мәтін негізгі HTML кодынан құрылымдалған.

HTML веб-сайттарынан деректерді алудың үш негізгі әдісі бар:

  • Веб-беттегі мәтінді компьютерге сақтау;
  • Деректерді алу кодын жазу;
  • Арнайы экстракция құралдарын қолдану;

1. Веб-тораптан кодсыз кодты қалай шығаруға болады

Төменде сипатталған қадамдарды қолданып, веб-бетті мазмұнды:

Тек мәтін

Қажетті мәтіні бар веб-бетін ашқаннан кейін, тінтуірдің оң жағын басып, «Бетті қалай сақтау» немесе «Басқаша сақтау» опциясын таңдаңыз. Файлдың атауын «Файл атауы» өрісінде және «Басқаша сақтау түрі» ашылмалы мәзірінен енгізіңіз, «Веб-бет, HTML ғана - lamberts tattoos. «Сақтау түймешігін басыңыз және бірнеше секунд күтіңіз.

Бұл беттегі барлық мәтін HTML файлы ретінде шығарылады және сақталады. Бастапқы бет пішімдеу параметрлері өзгеріссіз қалады және мәтін өңдегіштеріндегі мәтінді Блокнот ретінде өңдей аласыз.

Толық веб-бетті шығару

«Файл» мәзірінде «Басқаша сақтау» немесе «Бетті сақтау» опциясын таңдаңыз. Содан кейін «Веб-бет, Толықтыру» түймешігін «Түрі ретінде сақтау» ашылмалы мәзірінен таңдаңыз. «Сақтау» түймесін басқаннан кейін мәтіннен және суреттерден парақ алынып, қалаған жеріңізге сақталады. Мәтіндер қалтада сақталған кезде HTML файлы орналастырылады.

2. Веб-тораптан кодты пайдалану арқылы HTML шығарып алу

Арнайы құралдарды пайдалану арқылы тікелей HTML файлдармен жұмыс істей аласыз. Сондай-ақ, барлық HTML тегтерін алып тастау және XPath немесе тұрақты өрнекті пайдалану арқылы HTML файлдарында қамтылған мәтінді сақтау үшін код жасай аласыз. Бұл тапсырма үшін ең танымал бағдарламалау тілдерінің кейбірі: Python, Java, JS, Go, PHP және NodeJs.

3. Веб-деректерді алу құралдарын пайдалану

Веб-тораптан HTML-файлдарды бір код жолдамай немесе көшіру және қою әдісінен азаптауға тыйым салғыңыз келсе, web scraping. Шындығында, веб-сайттан қажетті ақпаратты жинап, оны құрылымдық форматқа айналдыра алатын көптеген пайдалы құралдар бар. Жай ғана бірнеше скриптің құрал-саймандарын сынап көріңіз, сонда сіздің тазалау қажеттіліктеріңізге ең қолайлы.

December 22, 2017