Back to Question Center
0

Semalt - Web səhifələrini necə təmizləmək olar?

1 answers:
Gözəl şorbalar bir parse ağacını yaradan veb-səhifələri qazanmaq üçün geniş istifadə edilən bir Python kitabxanasıdır

XML və HTML sənədlərindən. Web kazıma, web sitelerinden ve sayfalardan veri çıxarmanın bir metodu, veri analizi ve yönetim alanlarında geniş istifadə olunur. Çox hallarda Python proqramlaşdırma dili informasiya elmində ön şərtdir.

Python 3'ün kazıma araçları ve veri yönetim projenize başvurabileceğiniz modüller. Hazırda gözəl çorba 4 olaraq işləyən bu modul Python 3 və Python 2 ilə uyğun gəlir - app building companies. 7. Gözəl şorba 4 modulu qeyri-qapalı etiket çorbası üçün ayrıştırma ağacını yaratmağa qadirdir. Bu təlimatda, səhifəni necə qazanmaq və alınmış məlumatları CSV faylına yazmağı öyrənəcəksiniz.

Başlarken

Başlamaq üçün PC-də bir server və ya lokal bazlı Python kodlama mühiti qurun. Ayrıca, gözəl çorba və İstekler modülünü makinenize yüklemeniz lazımdır. Həm modullarla işləmək bilikləri də zəruri bir şərtdir. HTML etiketleme və quruluş ilə tanışlıq da əlavə üstünlükdür.

Məlumatlarınızı anlamaq

Bu çərçivədə, Milli Çöl Sənət Qalereyasından alınan real məlumat, Gözəl Şorbadan necə istifadə edəcəyinizi anlamaq üçün istifadə ediləcək. Milli Sənət Qalereyası, təxminən 13.000 rəssam tərəfindən edilən 120 min ədəddən ibarətdir. İncəsənət Vaşinqtonda yerləşir. C, Amerika Birləşmiş Ştatları.

Gözəl çorba ilə Web data çıxarılması o qədər çətin deyil. Məsələn, Z məktubuna diqqət yetirsəniz, siyahıdakı adını qeyd edin və qeyd edin. Bu halda ilk adı Zabaglia, Niccola. Tutarlılıq üçün, səhifənin sayını və o səhifənin son sənətçinin adını qeyd edin.

Sorğu və gözəl şorbalar kitabxanası necə alınır

Kitabxanaları idxal etmək üçün, Python 3 proqramlaşdırma mühitini aktivləşdirin. Proqramlaşdırma mühiti ilə eyni kataloqda olduğunuzdan əmin olmaq üçün yoxlayın. Başlamaq üçün aşağıdakı əmri çalıştırın. my_env / bin / aktivləşdir.

Yeni bir fayl yaradın və gözəl çorba və istəkləri kitabxanaları idxal etməyə başlayın. İstekler kitabxanası, Python proqramlarınızdaki HTTP'yi okunabilir biçimlerde kullanmanıza imkan verir. Digər tərəfdən gözəl çorba pages sürətlə qazanmaq üçün çalışır. Gözəl şorbanı idxal etmək üçün bs4-dən istifadə edin.

Veb səhifəni necə toplamaq və təhlil etmək

İstifadəni istifadə edərək, ilk səhifənizin URL. İlk səhifənin URL'si dəyişən səhifəyə veriləcək. Bir BeautifulSoup obyektini İstəklərdən yaradın və obyekti Pythonun ayrıştırıcısından ayırın.

Bu təlimatda məqsəd bağlantılar və sənətçilərin adlarını toplamaqdır. Məsələn sənətçilərin tarixlərini və millətlərini toplaya bilərsiniz. Windows istifadəçiləri üçün, sənətçinin adına sağ basın. Bu vəziyyətdə Zabaglia, Niccola'dan istifadə edin. Mac OS istifadəçiləri üçün "CTRL" düyməsini vurun və adı basın. Ekrandaki pop-up'ların web geliştiricilerin araçlarına erişebilmesini sağlayan "Öğeyi İncele" menüsünü basın. Gözəl şorba bir ağacı tez birləşdirmək üçün sənətçinin adlarını yazdırın.

Alt keçidlərin çıxarılması

Web səhifəmizin altındakı linkləri çıxarmaq üçün DOM-un elementi. Bağlantıların bir HTML masası altında olduğunu təyin edəcəyik. Gözəl şorba istifadə edərək, ayrıştırma ağacından etiketləri aradan qaldırmaq üçün "parçalamaq üsulunu" istifadə edin.

İçindəki məzmundan necə çəkmək olar

Bütün etiket etiketini yazdırmaq lazım deyil, bir etiketdən material çıxarmaq üçün Gözəl çorba istifadə edin. Gözəl şorba 4 istifadə edərək sənətçilərlə əlaqəli URL'leri də əldə edə bilərsiniz.

CSV faylına yazılmış məlumatları çəkmək

CSV faylı, strukturlaşdırılmış məlumatları düz formada saxlamağa imkan verir, daha çox məlumat verilənlər formasında. Python-daki düz mətn faylları ilə bağlı məlumatlar tövsiyə olunur.

Veb-məlumatların çıxarılması səhifələr çıxarmaq və məlumat əldə etmək üçün istifadə olunur. Siz çıxarılan məlumatlar olduğunuz veb saytlara diqqət yetirin. Bəzi dinamik saytlar öz saytlarında veb-məlumatların çıxarılmasını məhdudlaşdırırlar. Gözəl çorba ilə səhifə sürüşdürmək və Python 3 sadədir.

December 22, 2017