Articles of nokogiri

Wie man zwei templates anwendet und das Ergebnis nach Größe und verwendeter Vorlage mit xslt gruppiert

Ich versuche, ein XML zu parsing und ein HTML zu produzieren, das für das printingen benutzt werden könnte. Die Inhalte der Elemente im XML werden wie Karten dargestellt und haben Informationen sowohl für die Vorderseite als auch für die Rückseite. Acht Karten würden auf eine Seite passen. Um das Leben in der HTML / CSS-Welt […]

Installation von Nokogiri 1.4.3 gem

Installation von Nokogiri 1.4.3 gem. Nokogiri 1.6.6.2 installiert ohne Probleme. Verwenden der neuesten RVM unter Ubuntu. pm@sniegas:~$ gem install nokogiri -v '1.4.3' Fetching: nokogiri-1.4.3.gem (100%) Building native extensions. This could take a while… ERROR: Error installing nokogiri: ERROR: Failed to build gem native extension. /home/pm/.rvm/rubies/ruby-2.2.1/bin/ruby -r ./siteconf20150519-7580-2yzgsg.rb extconf.rb *** extconf.rb failed *** Could not create […]

Verwenden Sie Ruby Mechanize "links_with", um Text zu erfassen, aber zusätzlichen Inhalt zu erhalten

Wenn ich eine Gruppe von Links benutze, die die links_with Methode von Mechanize verwenden, links_with ich nur den Text, der den Link zeigt, aber ich links_with eine Reihe zusätzlicher character: links = @some_page.links_with(text: /V\s.*(BENCH|EARCX)|(BENCH|EARCX).*V/) links.each do |link| link.text end Die Links werden in meinem Browser als " 23409BENCH092834 " und " 20193BENCH092339 " 20193BENCH092339 was […]

Nokogiri, wie man jede Reihe einer Tabelle mit zwei classn durchläuft

Ich versuche, eine HTML-Tabelle mit Nokogiri zu parsing. Die Tabelle ist gut markiert und hat keine strukturellen Probleme, außer dass die Tabellenüberschrift als tatsächliche Zeile eingebettet ist, anstatt <thead> . Das Problem, das ich habe, ist, dass ich jede Zeile, aber die erste Zeile möchte, da ich mich nicht für den Header interessiere, sondern für […]

HTML-Dokument parsing

Ich versuche, den folgenden HTML-Code mit Ruby und Nokogiri zu parsing: <div class="vevent"> <table width="750"><tr> <td width="25"> </td> <td valign="top" width="200"> <font size="2" face="sans-serif"> <font color="black"><b>June 30, 2015</b></font> <br> <span class="dtstart"><span class="value-title" title="2015-06-30"></span></span><br><span class="summary"><font color="#92161" size="3"><b>Band Concert</b></font></span> <br><font color="#333333">Event</font><br> <br> <br> <br clear="left">Have a question? email us.<br> <br></font> </td> <td valign="top" width="10"></td> <td valign="top"> <br […]

Rails kann aufgrund libxml2 nicht korrekt installiert werden

Ich versuche, Rails auf meinem Mac (Yosemite) zu installieren. Ich habe mehrere SO-Fragen durchgespielt, libxml2 mit Homebrew und mit RVM neu installiert und Ruby usw. aktualisiert und nichts hat bisher funktioniert. Meine libxml2 Version ist 2.9.2. ERROR: Error installing rails: ERROR: Failed to build gem native extension. Building nokogiri using system libraries. libxml2 version 2.6.21 […]

Wie kratze ich, wenn mehrere "p" -Tags vorhanden sind?

Ich versuche, eine Website mit mehreren <p> Tags zu scrappen, die immer mit den Worten "Located in: …" beginnen. Keines der anderen <p> Tags beginnt mit diesen Wörtern. Wie bekomme ich meinen Scraper, um nur diese bestimmten Tags zu extrahieren? Das ist scraper.rb: require 'open-uri' require 'nokogiri' require 'csv' # Store URL to be scraped […]

Auswählen einer bestimmten Tabellenzelle mit CSS

Ich habe die Rangliste von atpworldtour.com gekratzt und versuche auf die Spielernamen zuzugreifen. Ein Beispiel für eine Zeile in der Tabelle sieht folgendermaßen aus: <tr> <td class="rank-cell">1</td> <td class="move-cell"> <div class="move-none"></div> <div class="move-text"> </div> </td> <td class="country-cell"> <div class="country-inner"> <div class="country-item"> <img src="/~/media/images/flags/srb.png" alt="SRB" onerror="this.remove()"> </div> </div> </td> <td class="player-cell"> <a href="/en/players/novak-djokovic/d643/overview" data-ga-label="Novak Djokovic">Novak Djokovic</a> […]

XML-Import in PostgreSQL mit Nokogiri

Ich möchte eine XML-file von einer URL mit Nokogiri importieren und in meiner PostgreSQL-database speichern. In meinem schema.rb habe ich die folgende Tabelle: create_table "centres", force: :cascade do |t| t.string "name" t.string "c_type" t.text "description" t.float "lat" t.float "long" t.datetime "created_at", null: false t.datetime "updated_at", null: false end Im Folgenden finden Sie ein Beispiel aus […]

Nokogiri :: XML :: Reader überspringt Namespaces

Ich habe mehrere XMLs (wie folgt), wo ein optionales Tag erscheint. Dieses Tag befindet sich in einem Namespace mynamespace xml = %{<?xml version="1.0" encoding="UTF-8" ?> <rss version="2.0" xmlns:mynamespace="http://example.com/ns/1.0"> <channel> <item> <title>bar</title> <mynamespace:custom_tag>some text</mynamespace:custom_tag> </item> <item> <title>foo</title> </item> </channel> </rss>} Nokogiri::XML::Reader(xml).each do |node| next if node.name!='item' || node.node_type != Nokogiri::XML::Reader::TYPE_ELEMENT node = Nokogiri::XML.parse(node.outer_xml) puts "-> node" […]