Wikinotícias:Redação/Bot Publicador de Notícias (20/12/2011)

Origem: Wikinotícias, a fonte de notícias livre.
Saltar para a navegação Saltar para a pesquisa

Solicito ciração do Bot Publicador de Notícias, só que em sites com Creative Crommons (CC) nos seguintes sites: Agência Brasil (http://agenciabrasil.ebc.com.br/) e Voz da América em Português (ou Voice of America Portuguese, http://www.voanews.com/portuguese/news/). Essa publicação de sites é feita na versão sérvia (com mais de 70 mil notícias), só que em sites diferentes. Eu preciso de ajuda de vocês para isso e poupa trabalho manual que nós fazemos. Sérgio Vieira 21h22min de 20 de Dezembro de 2011 (UTC)

Parece-me que o bot está inactivo à uns meses. Há questões que têm de ser tidas em conta, nomeadamente se o site permite que haja um bot a ir lá buscar os artigos, pois isso representa um esforço acrescido para os servidores. Em todo o caso, já a algum tempo que ando a pensar nisso, só preciso de encontrar espaço na agenda para conseguir montar um script que retire o texto, e de preferência que já o tenha apresente wikificado e categorizado. Alchimista 23h07min de 20 de Dezembro de 2011 (UTC)
Corrigindo uma coisa: sobre a versão das publicações da Wikinotícias em sérvio (sr.wikinews.org) é feita no site BETA (em sérvio Бета, uns dos mais publicados), PRObjave, entre outros, ambos visto aqui, todos eles com CC. Voltando ao assunto, Alchimista escreveu e tenho dúvidas e respostas: Parece-me que o bot está inactivo à uns meses. Qual bot?; Há questões que têm de ser tidas em conta, nomeadamente se o site permite que haja um bot a ir lá buscar os artigos, pois isso representa um esforço acrescido para os servidores. Talvez seja seguinte: cada vez o site publica, no caso os dois sites que citei acima, Agência Brasil e Voz da América, o bot publica na Wikinotícias (se tiver programa de captura da página original para cópia); Em todo o caso, já a algum tempo que ando a pensar nisso, só preciso de encontrar espaço na agenda para conseguir montar um script que retire o texto, e de preferência que já o tenha apresente wikificado e categorizado. Para que haja isso, o bot que detectar nome da cidade e do país, assunto (economia ou política) ele automaticamente posta as categorias. Caso a(s) categoria(s) forem colocadas erradas, nós mesmos corrigimos para que o bot não erre no futuro. Sérgio Vieira 02h07min de 21 de Dezembro de 2011 (UTC)
Sergio, não percebeste. É preciso criar um script para o bot. O bot não tem inteligência, não basta criar uma conta e dizer: Agora vá la sozinho fazer as noticias. Ele só faz o que o programa diz para ele fazer. É desse programa (aka script) que o Alch está a falar.
E sobre os servidores, um bot desses sobrecarga os servidores dos sites em questão, pelo que alguns sites usam medidas de protecção contra bots. É disso que o Alch fala quando diz "tem que ver se o site permite que haja um bot a ir lá buscar os artigos". Béria Lima msg 14h05min de 21 de Dezembro de 2011 (UTC)
En primer lloc, seria una bona cosa que tinguéssim un bot per publicar algunes notícies, des d'una font lliure de informació. En segon lloc, tenim bona sort que poguéssim utilitzar aquestes fonts en llengua portuguesa. Altres project no tenen la mateixa sort. Per exemple, en francès, tenim VOA i RIAN (RIA Novosti, l'agència russa de notícies) encarra que els termes de reutilització no siguin clares. En tercer lloc, L'ús sistemàtiqua del bot per totes les notícies risca d'amagar les originals, les que fem avui a partir de les fonts. De més, hi haurà molts riscos que s'hauran de viquificar-les. Penso, que l'importació en massa, podria perjudicar nostre projecte i no és que volem. Finalment, estic en favor d'un bot que importa un nombre limitat de notícies segons les modalitats que haurem de definir. — Trad. auto (beurk) : Em primeiro lugar, seria uma coisa boa nós tivemos um robô para postar alguma notícia de uma fonte de informação livre. Em segundo lugar, temos boa sorte poderíamos usar essas fontes no idioma Português. Outros projetos não têm o mesmo sort. Por exemplo, em francês, e VOA ter Riana (RIA Novosti, a agência de notícias russa) encarra os termos de reutilização não são claras. Em terceiro lugar, o uso sistemático do robô para todo o risco de esconder a notícia original, que agora a partir das fontes. Além disso, haverá muitos riscos que devem ser viquificar-los. Eu acho que a importação também pode prejudicar o nosso projeto e não é o que queremos. Finalmente, eu sou a favor de um bot para importar um número limitado de notícias da maneira que definimos.-- Bertrand GRONDIN  → (escrever) 15h36min de 21 de Dezembro de 2011 (UTC)
Uma dúvida: algumas notícias da Agência Brasil são republicações de outras agências de notícias (como a BBC Brasil). Elas também estão cobertas pela mesma licença? Eu sempre achei que a licença valesse apenas para o conteúdo próprio, e que a gente precisasse confirmar isso para só trazer para cá as notícias produzidas pela Agência Brasil. CasteloBrancomsg 21h00min de 21 de Dezembro de 2011 (UTC)
No rodapé tem: "Todo o conteúdo deste site está publicado sob a Licença Creative Commons Atribuição 3.0 Brasil.". O que a Agencia faz são pequenas alterações nos textos da bbc, pelo menos pelos que vi, nota-se que são baseados nos da bbc, mas com alterações ligeiras, ou pequenas adições de informações que não constavam no artigo da bbc. Alchimista 22h25min de 21 de Dezembro de 2011 (UTC)
Exemplo de código em Python.

Béria, eu sei disso e já tive aulas de informática desse assunto há anos, estou bem enferrujado e ultrapassado (aulas no final dos Anos 90 e talvez não sejam aplicáveis para hoje em dia). Sei que bot não tem inteligência para simplesmente alguém (ser humano, é claro) mandar a fazer o que lhe pede sozinho desordenadamente. Têm que ter ferramentas na famosa Python (veja a foto do lado), do script e a linguagem de script. Sobre a possibilidade do bot possa sobrecarregar os servidores dos sites em questão, eu não sei se eles usam proteção contra bots, como escrevesse. Talvez aqui pode ser ajudado. Sérgio Vieira 05h09min de 23 de Dezembro de 2011 (UTC)

E aí, vão querer criar bot pra fazer isto ou vão abandonar? Sérgio Vieira 23h11min de 25 de Dezembro de 2011 (UTC)

Gente, estou com um script quase pronto para Agência Brasil. Já capturo link, título, data, autor e texto. Faltam categorias e alguma wikificação. Mas queria saber como seria o processo de publicação dessas notícias. Vamos editar as notícias durante uma semana após a gravação aqui ou vamos publicá-las ({{Publicado}}) igualzinho como estão lá na Abr? E se houver várias notícias sobre um mesmo tema, vamos fundir as páginas manualmente? Vamos passar uma a uma conferindo se está tudo ok e colocando o {{Publicado}} ou já as gravamos com a publicação, uma vez que passaram por processo editorial lá no site de origem? Queria ajuda para pensar o modo mais racional para resolvermos essas questões. São cerca de 80 notícias por dia. CasteloBrancomsg 22h40min de 31 de agosto de 2012 (UTC)
Eu não entendo muito disso... mas concordo com o robô.Érico Wouters msg 00h49min de 1 de setembro de 2012 (UTC)