Semalt - Veb səhifələri necə silmək olar?

Gözəl şorba, XML və HTML sənədlərindən bir analiz ağacı yaradaraq veb səhifələrini qırmaq üçün geniş istifadə olunan Python kitabxanasıdır. Veb kazıma, veb saytlardan və səhifələrdən məlumat çıxarmaq üsulu, məlumatların təhlili və idarəetmə sahələrində geniş istifadə olunur. Əksər hallarda Python proqramlaşdırma dili məlumat elmində əsas şərtdir.

Python 3, məlumatların idarə edilməsi layihəsinə müraciət edə biləcəyiniz qırıntılı alətlər və modullara malikdir. Hal-hazırda Beautiful Soup 4 olaraq işləyən bu modul həm Python 3, həm də Python 2.7 ilə uyğun gəlir. Gözəl şorba 4 modulu, qapalı olmayan etiket şorbası üçün analiz ağacı yaratma gücünə malikdir. Bu dərslikdə səhifəni qırmağı və qırılmış məlumatları CSV sənədinə yazmağı öyrənəcəksiniz.

Başlamaq

Başlamaq üçün, kompüterinizdə bir server və ya yerli əsaslı Python kodlaşdırma mühitini qurun. Həm də maşınınıza Gözəl Şorba və İstəklər modulunu quraşdırmalısınız. Hər iki modulla işləmək biliyi də zəruri şərtdir. HTML etiketi və quruluşu ilə tanışlıq da əlavə bir üstünlükdür.

Məlumatlarınızı başa düşmək

Bu çərçivədə, Milli Şəkil Qalereyasındakı real məlumatlardan Gözəl Şorba 4. istifadə etməyinizi başa düşmək üçün istifadə ediləcəkdir. Milli İncəsənət Qalereyası təqribən 13000 sənətkarın etdiyi 120.000 ədəddən ibarətdir. İncəsənət ABŞ-ın Washington ştatında yerləşir.

Gözəl Şorba ilə veb məlumatların çıxarılması o qədər də çətin deyil. Məsələn, Z hərfinə diqqət yetirsəniz, siyahının ilk adını qeyd edin və qeyd edin. Bu vəziyyətdə, ilk adı Zabaglia, Niccola. Ardıcıllıq üçün səhifələrin sayını və həmin səhifədəki son sənətkarın adını göstərin.

İstəkləri və Gözəl Şorba kitabxanasını necə idxal etmək olar

Kitabxanaları idxal etmək üçün Python 3 proqramlaşdırma mühitinizi aktivləşdirin. Proqramlaşdırma mühitinizlə eyni qovluqda olduğundan əmin olun. Başlamaq üçün aşağıdakı əmri işə salın. my_env / bin / aktivləşdirin.

Yeni bir fayl yaradın və Gözəl Şorba və İstək kitabxanalarını idxal etməyə başlayın. İstək kitabxanası sizə Python proqramlarında HTTP-ni oxunaqlı formatlarda istifadə etməyə imkan verəcəkdir. Gözəl bir şorba, əksinə, səhifələrin tez cızılması üçün işləyir. Gözəl şorba idxal etmək üçün bs4 istifadə edin.

Veb səhifəni necə toplamaq və təhlil etmək

İstifadələrdən istifadə edərək ilk səhifənizin URL-i toplanır. Dəyişən səhifəyə ilk səhifənin URL-si təyin ediləcəkdir. İstəklərdən bir BeautifulSoup obyekti yaradın və Python-un analizatorundan obyekti analiz edin.

Bu dərslikdə məqsəd bağlantıları və sənətkarların adlarını toplamaqdır. Məsələn, sənətçilərin tarixlərini və millətlərini toplaya bilərsiniz. Windows istifadəçiləri üçün sənətçinin adını sağ vurun. Bu vəziyyətdə, Zabaglia, Niccola istifadə edin. Mac OS istifadəçiləri üçün "CTRL" vurun və adını vurun. Veb tərtibatçılarının alətlərinə daxil olmaq üçün ekrandakı pop-upları açan "Elementi yoxlayın" menyusunu vurun. Gözəl bir şorba tez bir ağac düzəltmək üçün sənətçinin adlarını çap edin.

Alt əlaqələri silmək

Veb səhifənizdəki alt bağlantıları silmək üçün elementi sağ tıklayarak DOM-u yoxlayın. Bağlantıların HTML masası altında olduğunu müəyyənləşdirəcəksiniz. Gözəl şorba istifadə edərək, parça ağacından etiketləri çıxarmaq üçün "parçalanma metodu" istifadə edin.

Bir etiketdən məzmunu necə çıxarmaq olar

Bütün link etiketini çap etməyiniz lazım deyil, materialı etiketdən çıxarmaq üçün Gözəl Şorba istifadə edin. Gözəl şorba 4 istifadə edərək sənətçilərlə əlaqəli URL-ləri də əldə edə bilərsiniz.

Xırdalanmış məlumatları bir CSV sənədinə çəkmək

CSV faylı, strukturlaşdırılmış məlumatları düz bir mətndə, əsasən məlumat cədvəlləri üçün istifadə olunan bir formatda saxlamağa imkan verəcəkdir. Python-da düz mətn sənədləri ilə işləmək barədə bilik tövsiyə olunur.

Veb məlumatların çıxarılması səhifələrin qırılması və məlumat əldə etmək üçün istifadə olunur. Sizdən məlumat çıxaran veb saytlara diqqət yetirin. Bəzi dinamik saytlar saytlarında veb məlumatların çıxarılmasını məhdudlaşdırır. Səhifəni Gözəl Şorba və Python 3 ilə silmək çox sadədir.