it-swarm-es.com

¿Cómo puedo filtrar gunk de Microsoft Word de contenido pegado?

Tengo algunos usuarios que publican en un blog grupal y pueden cortar y pegar, pero sus pastas incluyen cosas como:

<!– /* Font Definitions */ @font-face {font-family:”Cambria Math”; panose-1:2 4 5 3 5 4 6 3 2 4; mso-font-charset:1; mso-generic-font-family:roman; mso-font-format:other; mso-font-pitch:variable; mso-font-signature:0 0 0 0 0 0;} @font-face {font-family:Calibri; panose-1:2 15 5 2 2 2 4 3 2 4; mso-font-charset:0; mso-generic-font-family:swiss; mso-font-pitch:variable; mso-font-signature:-520092929 1073786111 9 0 415 0;} @font-face {font-family:”Trebuchet MS”; panose-1:2 11 6 3 2 2 2 2 2 4; mso-font-charset:0; mso-generic-font-family:swiss; mso-font-pitch:variable; mso-font-signature:647 0 0 0 159 0;} /* Style Definitions */ p.MsoNormal, li.MsoNormal, div.MsoNormal {mso-style-unhide:no; mso-style-qformat:yes; mso-style-parent:”"; margin-top:0in; margin-right:0in; margin-bottom:10.0pt; margin-left:0in; line-height:115%; mso-pagination:Widow-Orphan; font-size:12.0pt; font-family:”Trebuchet MS”,”sans-serif”; mso-fareast-font-family:Calibri; mso-fareast-theme-font:minor-latin; mso-bidi-font-family:”Times New Roman”; mso-bidi-theme-font:minor-bidi; color:black;} p {mso-style-noshow:yes; mso-style-priority:99; mso-margin-top-alt:auto; margin-right:0in; mso-margin-bottom-alt:auto; margin-left:0in; mso-pagination:Widow-Orphan; font-size:12.0pt; font-family:”Times New Roman”,”serif”; mso-fareast-font-family:”Times New Roman”;} .MsoChpDefault {mso-style-type:export-only; mso-default-props:yes; font-size:12.0pt; mso-ansi-font-size:12.0pt; mso-bidi-font-size:12.0pt; mso-ascii-font-family:”Trebuchet MS”; mso-fareast-font-family:Calibri; mso-fareast-theme-font:minor-latin; mso-hansi-font-family:”Trebuchet MS”; mso-bidi-font-family:”Times New Roman”; mso-bidi-theme-font:minor-bidi; color:black;} .MsoPapDefault {mso-style-type:export-only; margin-bottom:10.0pt; line-height:115%;} @page WordSection1 {size:8.5in 11.0in; margin:1.0in 1.0in 1.0in 1.0in; mso-header-margin:.5in; mso-footer-margin:.5in; mso-paper-source:0;} div.WordSection1 {page:WordSection1;} –>

/* Style Definitions */
table.MsoNormalTable
{mso-style-name:”Table Normal”;
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-style-priority:99;
mso-style-qformat:yes;
mso-style-parent:”";
mso-padding-alt:0in 5.4pt 0in 5.4pt;
mso-para-margin-top:0in;
mso-para-margin-right:0in;
mso-para-margin-bottom:10.0pt;
mso-para-margin-left:0in;
line-height:115%;
mso-pagination:Widow-Orphan;
font-size:11.0pt;
font-family:”Calibri”,”sans-serif”;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:”Times New Roman”;
mso-fareast-theme-font:minor-fareast;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:”Times New Roman”;
mso-bidi-theme-font:minor-bidi;}

¿Qué puedo hacer para filtrar código como este automáticamente?

3
artlung

Hay un botón en el editor de texto visual integrado en WordPress que eliminará el formato de Microsoft Word. Está etiquetado como "Pegar desde la palabra" alt text

8
Chris_O

Yo sugeriría usar el complemento Ozh TinyMCE Advanced . Te permite agregar una opción 'Pegar desde Word' que se encarga de todo eso por ti.

Sin embargo, si no estás interesado en eso, tienes algunas opciones más. Me gusta esto:

function get_rid_of_mso_junk( $content ){
  return preg_replace( '@(mso|panose)[^:]{1,25}:[^;]+;(\s+)?(\n+)[email protected]', '', $content );
}

add_filter( 'content_save_pre', 'get_rid_of_mso_junk' );

Simplemente siga agregando declaraciones no deseadas al primer conjunto de captura en esa expresión regular para agregar líneas que deben eliminarse. Por ejemplo: (mso|panose|other-junk|annoyance).

5
John P Bloch

Para cualquiera que busque una solución a este problema, hice algo como esto:

function delete_between($beginning, $end, $string) {
    $beginningPos = strpos($string, $beginning);
    $endPos = strpos($string, $end);
    if (!$beginningPos || !$endPos) {
    return $string;
    }

    $textToDelete = substr($string, $beginningPos, ($endPos + strlen($end)) - $beginningPos);

    return str_replace($textToDelete, '', $string);
}

function clean_content( $content ){
    if( is_home() || is_single()){
        $content = delete_between('<!--[if gte mso', ';}', $content);   
        return $content;
    }else{
    return $content;
}

add_filter( 'the_content', 'clean_content' );
add_filter( 'the_excerpt', 'clean_content' );

Puede reemplazar las cadenas en la función delete_between con lo que quiera. Eso parecía funcionar para mí sin embargo.

2
codeprokanner

He trabajado con clientes que enfrentan este problema mucho. El truco, que he encontrado, es copiar y pegar en la vista HTML y luego volver al editor visual para modificar el formato si es necesario.

Esto también es necesario si se copia y pega desde otro sitio web. A veces, accidentalmente extrae las definiciones de clase y el estilo en línea de la fuente externa y eso puede romper la pantalla si no tiene esas mismas clases o estilos configurados o admitidos por su sitio.

Otra opción sería exponer a sus usuarios a Windows Live Writer . Es un producto de Microsoft que es completamente gratuito, se reproduce bien con copiar y pegar desde Word y puede interactuar con WordPress: usted escribe su publicación, edita su publicación, usa el corrector ortográfico incorporado, formatea la publicación para mostrarla exactamente cómo desea, luego haga clic en "Publicar" para enviar su publicación a WordPress a través de XMLRPC. Es un sistema bastante sólido que lo hace increíblemente fácil de enseñar a un blogger por primera vez cómo bloguear ... particularmente porque la interfaz de usuario es muy similar a Word para empezar.

2
EAMann